監督式學習(Supervised Learning)

第二章文獻回顧

第一節監督式學習(Supervised Learning)

監督式學習為機器學習領域中常見的一種方法，當一份資料同時含有特徵

（自變數）與目標（應變數）時便可採用。演算過程如圖 1 所示，首先將資料的一部分作為訓練集（training set），另一部分作為測試集（test set），訓練集必須同時包含自變數與應變數（輸入與輸出值），並由該集合中學習出一個模型

（learning model）如圖 2，接著將測試集（不包含應變數）丟入模型中，產生應變數的預測值（prediction），最後將預測值與真實結果（測試集的應變數）比較，

藉以得到該模型的預測準確率（accurate rate）。

圖 1 監督式學習方法演算過程

圖 2 h(x)為訓練集經由機器學習後產生的模型（learning model）

常見的監督式學習方法有支援向量機（SVM）、線性判別分析（LDA）、二次判別分析（QDA）與羅吉斯迴歸（logistic regression）等。

建立模型的過程中常常會有過度配適（overfitting）如圖 3 與不足擬合（under fitting）的情況，原因在於選擇模型本身的複雜度過高或過低。複雜度過高的時候，模型幾乎完全記住訓練集的所有資訊，造成低偏差但高變異的情況，這會使得新資料套入時產生嚴重的預測錯誤（prediction error），同樣的情況，複雜度過低的時候，模型幾乎沒有判斷的能力，全部結果皆指向同一個標籤，造成低變異但高偏差的結果，對新資料而言同樣會產生嚴重的預測錯誤。為了避免上述情況，

選擇適當的模型或者使用交叉驗證（cross validation）可降低過度配適或不足擬合發生的可能性。

圖 3 過度配適的模型

一、支持向量機 (SVM)

Support Vector Machines(Boser, Guyon, & Vapnik, 1992)（以下簡稱 SVM）為監督式學習的一種方法，其核心概念為，在資料特徵散佈的 n 維度空間中，找出一個 n-1 維度的超平面（hyperplane），使其將不同群體的資料完全隔開，同時滿足兩個不同群體資料點之間的距離為最大，該平面亦稱為最大間隔超平面。

圖 4 找出一個超平面使得與兩類別之間的距離差距最大

然而並非所有資料都為線性可分，因此 SVM 在演算過程中引入核心函數 (Kernel)，目的為將原始資料的特徵映射到較高維度的空間，使其新特徵為線性可分。

在一般的情況下，SVM 可以有效地分析高維度空間的數據，即使資料中變數的個數大於樣本的個數，SVM 同樣具有很好的分類效果。但如果資料本身有太多噪聲或者有遺失值（Missing Value）時，則容易因為敏感使得分類效果不佳。

常見的核心函數有線性(linear)、多項式(polynomial)、徑向(radial)和神經網路 (sigmoid)等四種。

二、線性判別分析 (LDA )

Linear Discriminant Analysis（以下簡稱 LDA）源自於 Fisher, (1936)判別分析演算法，其核心概念為透過投影的方式降低維度，將資料點坐標從高維度空間投影至低維度空間，使其問題簡化的過程。

投影的方法為找出一個適當的投影軸，使得投影後符合以下兩點：

1. 組內變異最小 2. 組間距離最大

藉以獲得較佳的判別效果。

圖 5 找出一個投影軸滿足組間差異最大組內差異最小

若將資料投影至一維空間，即為一直線。如分隔的效果不夠理想，可再增加一個維度，即為一平面，依此類推。但使用 LDA 演算法的前提為資料必須滿足常態分配且具同質性（每個母體變異數相同）。

LDA 的缺點為，當樣本分類信息取決於方差而非均值時，則降維的效果不好，且可能因為過度配適導致分類結果不佳。

三、二次曲線判別分析（QDA）

Quadratic Discriminant Analysis（以下簡稱 QDA）同樣來自 Fisher 判別分析演算法，QDA 與 LDA 最大不同在於 QDA 沒有必須滿足同質性的前提，採用二次曲線或曲面作為分隔的依據，而非採用直線或平面。實務上，資料特徵的分布往往比較複雜，不容易用線性的方法作為切割，因此非線性的 QDA 應用較為廣泛。

四、羅吉斯迴歸（Logistic Regression）

其餘令為 0，變成（1,0,0）、（0,1,0,）與（0,0,1）三個類別。

對於每一個類別 i 訓練一個羅吉斯迴歸模型的分類器，並且預測 y = i 時的機率；對於一個新的資料點分別對每一個類進行預測，取機率最大的那個類別作為分類結果。

在文檔中機器學習分類方法 DCG 與其他方法比較(以紅酒為例) (頁 10-17)

第二章 文獻回顧

第一節 監督式學習(Supervised Learning)

第二章文獻回顧

第一節監督式學習(Supervised Learning)