第二節 傳統機器學習技術
一、 監督式學習(Supervised Learning):
機器學習(Machine Learning)可視為弱人工智慧的代表,亦為人工智慧領 域的發展途徑,以學習方式來看,機器學習分為監督式學習(即在訓練過程中
一、 監督式學習(Supervised Learning):
即為蒐集適當的資料,資料需要包含大量原始數據以及標準答案,將資料 分為訓練資料(Training Set)及測試資料(Testing Set),在傳統的機器學習中 最常用交叉驗證(Cross Validation)將訓練資料再細分為不同的驗證資料集
(Validation Set)以訓練模型,使用訓練資料調整並進行學習,透過特定的分 類演算法選取資料的屬性,建構出適當的數學模型,再使用選擇之數學模型利
Provost and Fawcett (2013)提到了三種監督式機器學習的演算法,分別包 含羅吉斯迴歸(Logistic Regression)、決策樹演算法(Decision Tree,以樹狀結 構建立決策模型)、支持向量機(Support Vector Machine, SVM),另外,分類
‧
(一) 羅吉斯迴歸(Logistic Regression)模型
主要探討應變數與解釋變數之間的關係,其最常用的方法即為迴歸模 (二) 決策樹(Decision Tree)模型
決策樹屬於大數據資料探勘(Data Mining)之監督式機器學習的技術 之一,用來處理分類問題的樹狀結構,將樣本資料分為訓練資料與測試資 料,以進行樹狀模型的建構,而構成決策樹的元素包含中間節點(non-leaf nodes)、分支(branches)以及葉節點(leaf nodes),利用不同的演算法 計算節點的分類條件,而最後葉節點即代表分類結果。決策樹分為三種,
一為分類樹,其預測結果可能為離散類型;二為迴歸樹分析,其預測結果 可為連續型的實數;最後為 Breiman, Friedman, Olshen, and Stone (1984)
提出的 CART (Classification and Regression Tree),結合了以上兩種模 型。
‧
決策樹的運作方式,先將所有的訓練資料(Training Data)計算屬性的 資料獲利量(Information Gain),以挑選出資料獲利量最大的屬性作為樹 的節點,其中根節點(Root)即為所有屬性中具有資料獲利量最大的屬 性,並反覆進行分割以建構出樹狀結構,直到所有屬性皆已成為節點,則 葉節點選擇樣本數較多的類別或是不再有測試資料(Testing Data)時,則 會停止分割,其中本文將運用 Gini index 的 Splitting Rule 進行分割, 假設資料集 到最適合大小的決策樹,並以錯誤率(error rate)以及錯誤成本
(error cost)來做為修剪的準則,找到樹狀結構中具有最低錯誤率 與錯誤成本的決策樹。
3. 挑選最佳的決策樹
所有樹狀結構建構完成,則利用測試樣本進行交叉驗證,以測試 樣本計算出所有可能決策樹的錯誤率,最後選取最小的錯誤率的決策 樹。
(三) 支持向量機(Support Vector Machine, SVM)
支持向量機(SVM)是由 Cortes and Vapnik (1995)於 1995 年所提出 的一種資料探勘(Data Mining)之監督式學習的分類演算法,處理屬性分 類(Classification)的問題,由輸入的訓練資料中,透過支持向量機模型 將解釋變數與應變數之對應關係自原始低維度向量空間提升至高維度之向
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
量空間,使不同類別資料分類可達到最佳化,其分類邊界與最接近的訓練 資料點之間的距離即稱為間隔(Margin),此模型的目標為尋找一個具有 最大間隔的區分超平面(Hyperplane),作為分類的邊界以區隔不同類型 的資料,而支持向量(Support Vector)即為與分類邊界最接近的資料點,
其分類邊界由支持向量決定,與其他資料點無關。
在探討二分類問題,使用線性支持向量機進行分析,資料表示為 {𝑥𝑖, 𝑦𝑖},i = 1, … , n,𝑥𝑖𝜖𝑅𝑑𝑖𝑚,𝑦𝑖𝜖{−1,1},(𝑥𝑖表示輸入資料;𝑦𝑖表示類 別目標值;n 為樣本數;dim 為輸入維度,亦即解釋變數個數),則線性 支持向量機(SVM)之決策函數即為
𝑓(𝑥) = 𝑥′𝛽 + 𝑏 其中,
1. x=(𝑥1, 𝑥2, … , 𝑥𝑗, … , 𝑥𝑑𝑖𝑚)為樣本觀察值,其中 dim 為解釋變數個 數
2. 線性支持向量機超平面邊界的寬定義為𝑑++ 𝑑−,亦即不同類別的 訓練資料分為距離超平面之最短距離,向量β為將觀察值轉換至高 為度空間之係數,其分類資料最佳化間隔距離長度為𝑑++ 𝑑−= 2/‖𝛽‖
圖表 2- 2 支持向量機模型 3. b 為誤差項。
當輸入測試資料時,若f(x) > 0,則會將此資料歸類於+1,反之 則將資料歸類於−1。此模型最大目標即為最大化間隔距離長度,即