機器學習理論 (Machine learning theory)

機器學習是從觀測到的資料當中，尋找資料的規律與樣式，經由訓練模型之後，使用模型來預測未知類別的資料。機器學習的理論基礎為統計學，統計學是根據樣本數目無窮大時的漸近性質，來推論資料的特性。然而現實世界當中，資料往往難以取得，因此為了取得資料的樣式，統計學習理論在近年來有突飛猛進的發展。

From learning to machine learning

學習 (learning):從觀察事物的累積經驗中獲得技能(skill)。
- - 技能(skill)為改善某種效能測度(performance measure)能力。

機器學習(machine learning)>：從計算資料的累積經驗中獲得技能。
- e.g. 從股票的報酬率資料中，經由機器學習，改善投資報酬率。

ML也可視為一種學習複雜系統的方法：
- 有些資料是沒有辦法經由簡單的數學方式來學習，如照片中汽車、人臉或是其它物體的辦識。
- 當人們必須使用自動化的方式解決問題時，也可使用ML (e.g.火星探險的自動導航)。
- 當人們無法簡單的定義出解答時，也可使用ML(e.g.語音/視覺辦識)
- 當人們必須快速決策時，也可使用ML(e.g. high-frequency trading)。
- 大規模使用者導向的問題(e.g. consumer-targeted marketing)。
使用機器學習應滿足以下的條件：
- 資料當中必須存在pattern才能改善效能(資料不可為random walk)
- 無法簡單的定義問題並求出答案
機器學習根據模型輸出的類別，可分為classification與regression 兩類問題。問題描述如下:
- 給定資料集合 $(\mathbf{x_i}, \mathbf{y_i}),\ \mathbf{x_i} \in \mathbb{R}^M, \ \mathbf{y_i} \in \mathbb{D},\ i=1,2,\cdots, N$ .
- 分類器(函數)(classfifier(function)): $f:\mathbb{R} \rightarrow \mathbb{D}$ .
- 當 $\mathbb{D} = \{ \pm 1\}$ ，為binary classification問題。
- 當 $\mathbb{D} = \mathbb{N}$ ，為multiclass classification問題。
- 當 $\mathbb{D} = \mathbb{R}$ ，為regression問題。
- 當 $\mathbb{D} = \mathbb{R}^M, M > 1$ ，為multivariate regression問題。
機器學習依學習方法可分為supervised learning, unsupervised learning, semisupervised learning與reinforcement learning四類。
- supervised Learning的方法是給定已知類別的資料訓練出分類器，而後可使用此分類器對未知類別的資料，進行分類(預測)的工作。
- Unsupervised learning是透過電腦尋找未知類別資料的樣式，並將有相似樣式的資料分類在一起。雖然可決定物件的分類，卻不知道該項分類所代表的意義。
- Semisupervised learning(SSL) 是同時給定已知類別資料與未知類別資料的訓練集中學習模型，是介於supervised learning與unsupervised learning之間的一種機器學習方式。。在真實生活中，標記資料不但耗費時間、人工、甚至金錢；相對的，未經過標記的資料量多而且隨手可得。因此在機器學習的領域上，如何利用未標記資料是一個重要的課題如果只使用少量的類別樣本,那麼所訓練出的學習系統很難具有良好的泛化能力。另一方面，如果只使用無類別樣本,，浪費了類別樣本中所提供的有用資訊。
- Reinforcement learning在學習時，就是訓練對象與環境互動的過程中，不藉助監督者提供完整的指令下，可以自行發掘在各種狀態下該採取什麼行動才能獲得最大報酬。

機器學習

機器學習理論 (Machine learning theory)

From learning to machine learning

results matching ""

No results matching ""