• 沒有找到結果。

監督式學習(Supervised Learning)

第二章 文獻回顧

第一節 監督式學習(Supervised Learning)

監督式學習為機器學習領域中常見的一種方法,當一份資料同時含有特徵

(自變數)與目標(應變數)時便可採用。演算過程如圖 1 所示,首先將資料的 一部分作為訓練集(training set),另一部分作為測試集(test set),訓練集必須 同時包含自變數與應變數(輸入與輸出值),並由該集合中學習出 一個模型

(learning model)如圖 2,接著將測試集(不包含應變數)丟入模型中,產生應 變數的預測值(prediction),最後將預測值與真實結果(測試集的應變數)比較,

藉以得到該模型的預測準確率(accurate rate)。

圖 1 監督式學習方法演算過程

11

圖 2 h(x)為訓練集經由機器學習後產生的模型(learning model)

常見的監督式學習方法有支援向量機(SVM)、線性判別分析(LDA)、二 次判別分析(QDA)與羅吉斯迴歸(logistic regression)等。

建立模型的過程中常常會有過度配適(overfitting)如圖 3 與不足擬合(under fitting)的情況,原因在於選擇模型本身的複雜度過高或過低。複雜度過高的時 候,模型幾乎完全記住訓練集的所有資訊,造成低偏差但高變異的情況,這會使 得新資料套入時產生嚴重的預測錯誤(prediction error),同樣的情況,複雜度過 低的時候,模型幾乎沒有判斷的能力,全部結果皆指向同一個標籤,造成低變異 但高偏差的結果,對新資料而言同樣會產生嚴重的預測錯誤。為了避免上述情況,

選擇適當的模型或者使用交叉驗證(cross validation)可降低過度配適或不足擬 合發生的可能性。

12

圖 3 過度配適的模型

一、支持向量機 (SVM)

Support Vector Machines(Boser, Guyon, & Vapnik, 1992)(以下簡稱 SVM)為 監督式學習的一種方法,其核心概念為,在資料特徵散佈的 n 維度空間中,找出 一個 n-1 維度的超平面(hyperplane),使其將不同群體的資料完全隔開,同時滿 足兩個不同群體資料點之間的距離為最大,該平面亦稱為最大間隔超平面。

圖 4 找出一個超平面使得與兩類別之間的距離差距最大

然而並非所有資料都為線性可分,因此 SVM 在演算過程中引入核心函數 (Kernel),目的為將原始資料的特徵映射到較高維度的空間,使其新特徵為線性 可分。

在一般的情況下,SVM 可以有效地分析高維度空間的數據,即使資料中變 數的個數大於樣本的個數,SVM 同樣具有很好的分類效果。但如果資料本身有 太多噪聲或者有遺失值(Missing Value)時,則容易因為敏感使得分類效果不佳。

常見的核心函數有線性(linear)、多項式(polynomial)、徑向(radial)和神經網路 (sigmoid)等四種。

14

二、線性判別分析 (LDA )

Linear Discriminant Analysis(以下簡稱 LDA)源自於 Fisher, (1936)判別分析 演算法,其核心概念為透過投影的方式降低維度,將資料點坐標從高維度空間投 影至低維度空間,使其問題簡化的過程。

投影的方法為找出一個適當的投影軸,使得投影後符合以下兩點:

1. 組內變異最小 2. 組間距離最大

藉以獲得較佳的判別效果。

圖 5 找出一個投影軸滿足組間差異最大組內差異最小

若將資料投影至一維空間,即為一直線。如分隔的效果不夠理想,可再增加 一個維度,即為一平面,依此類推。但使用 LDA 演算法的前提為資料必須滿足 常態分配且具同質性(每個母體變異數相同)。

LDA 的缺點為,當樣本分類信息取決於方差而非均值時,則降維的效果不 好,且可能因為過度配適導致分類結果不佳。

三、二次曲線判別分析(QDA)

Quadratic Discriminant Analysis(以下簡稱 QDA)同樣來自 Fisher 判別分析 演算法,QDA 與 LDA 最大不同在於 QDA 沒有必須滿足同質性的前提,採用二 次曲線或曲面作為分隔的依據,而非採用直線或平面。實務上,資料特徵的分布 往往比較複雜,不容易用線性的方法作為切割,因此非線性的 QDA 應用較為廣 泛。

四、羅吉斯迴歸(Logistic Regression)

其餘令為 0,變成(1,0,0)、(0,1,0,)與(0,0,1)三個類別。

對於每一個類別 i 訓練一個羅吉斯迴歸模型的分類器,並且預測 y = i 時的 機率;對於一個新的資料點分別對每一個類進行預測,取機率最大的那個類別作 為分類結果。

相關文件