機器學習理論 (Machine learning theory)
- 機器學習是從觀測到的資料當中,尋找資料的規律與樣式,經由訓練模型之後,使用模型來預測未知類別的資料。機器學習的理論基礎為統計學,統計學是根據樣本數目無窮大時的漸近性質,來推論資料的特性。然而現實世界當中,資料往往難以取得,因此為了取得資料的樣式,統計學習理論在近年來有突飛猛進的發展。
From learning to machine learning
- 學習 (learning):從觀察事物的累積經驗中獲得技能(skill)。
- 技能(skill)為改善某種效能測度(performance measure)能力。
- 機器學習(machine learning)>:從計算資料的累積經驗中獲得技能。
- e.g. 從股票的報酬率資料中,經由機器學習,改善投資報酬率。
ML也可視為一種學習複雜系統的方法:
- 有些資料是沒有辦法經由簡單的數學方式來學習,如照片中汽車、人臉或是其它物體的辦識。
- 當人們必須使用自動化的方式解決問題時,也可使用ML (e.g.火星探險的自動導航)。
- 當人們無法簡單的定義出解答時,也可使用ML(e.g.語音/視覺辦識)
- 當人們必須快速決策時,也可使用ML(e.g. high-frequency trading)。
- 大規模使用者導向的問題(e.g. consumer-targeted marketing)。
使用機器學習應滿足以下的條件:
- 資料當中必須存在pattern才能改善效能(資料不可為random walk)
- 無法簡單的定義問題並求出答案
機器學習根據模型輸出的類別,可分為classification與regression 兩類問題。問題描述如下:
- 給定資料集合 .
分類器(函數)(classfifier(function)): .
當,為binary classification問題。
- 當,為multiclass classification問題。
- 當,為regression問題。
- 當,為multivariate regression問題。
機器學習依學習方法可分為supervised learning, unsupervised learning, semisupervised learning與reinforcement learning四類。
- supervised Learning的方法是給定已知類別的資料訓練出分類器,而後可使用此分類器對未知類別的資料,進行分類(預測)的工作。
- Unsupervised learning是透過電腦尋找未知類別資料的樣式,並將有相似樣式的資料分類在一起。雖然可決定物件的分類,卻不知道該項分類所代表的意義。
- Semisupervised learning(SSL) 是同時給定已知類別資料與未知類別資料的訓練集中學習模型,是介於supervised learning與unsupervised learning之間的一種機器學習方式。。在真實生活中,標記資料不但耗費時間、人工、甚至金錢;相對的,未經過標記的資料量多而且隨手可得。因此在機器學習的領域上,如何利用未標記資料是一個重要的課題如果只使用少量的類別樣本,那麼所訓練出的學習系統很難具有良好的泛化能力。 另一方面,如果只使用無類別樣本,,浪費了類別樣本中所提供的有用資訊。
- Reinforcement learning在學習時,就是訓練對象與環境互動的過程中,不藉助監督者提供完整的指令下,可以自行發掘在各種狀態下該採取什麼行動才能獲得最大報酬。