y = 1.88214 + 0.644356 Sepal.Width + 0.705915 Petal.Length - 0.554361 Petal.Width + 0.0860344 noise1 - 0.0811889 noise2 Coefficients
Term Coef SE Coef T P-value Constant 1.88214 0.257180 7.3184 0.000 Sepal.Width 0.64436 0.066916 9.6294 0.000 Petal.Length 0.70591 0.057098 12.3631 0.000 Petal.Width -0.55436 0.128218 -4.3236 0.000 noise1 0.08603 0.089905 0.9569 0.340 noise2 -0.08119 0.090820 -0.8940 0.373 Summary of Model
S = 0.314907 R-Sq = 86.02% R-Sq(adj) = 85.54%
PRESS = 15.5676 R-Sq(pred) = 84.76%
拒絕無顯著(貢獻)性之自變數 迴歸係數
圖MC04-8 線性迴歸模型範例
最近鄰居模型(k-Nearest Neighbor, kNN)的原理是儲存輸出(應)變數已知的資料點的自 變數向量,預測時再將自變數向量已知但輸出變數未知資料點歸到與其最近的資料點所屬
160
類神經網路(Artificial Neural Network, ANN)也是常用的預測模型,一般欲表示輸入與 輸出之非線性關係,模型必須包含輸入層、隱藏層(可以有一至數層)及輸出層。輸入層之神 經元數量由特徵向量包含之自變數數量決定,而輸出層之神經元數目則由輸出變數數量決 定。決策函數之複雜程度係由隱藏層神經元之數量多寡決定,越多的隱藏層神經元越能表 示複雜的輸出入關係。此種模型預測的方法是將特徵向量代入網路中,然後由輸出層所有 神經元的反應,來決定預測值。圖MC04-10 為單一隱藏層之類神經網路分類器架構圖,其 中x為輸入向量,z為輸入向量中間為隱藏層,與輸入輸出層之連接的權重分別為
w
kj以及
w
ji。 與其他模型不同,類神經網路可允許多重輸出。
圖MC04-10 類神經網路分類器架構圖
持向量機器(Support Vector Machine, SVM)也是目前常用的分類器。其主要是將向量資 料轉至更高維度的特徵空間(如圖 MC04-11 所示),然後在此特徵空間以一超平面(Hyper-plane)將不同類別之資料分開。當支持向量模型用於迴歸工作時,我們稱之為支持向量迴歸 模型(Support Vector Regression, SVR)。與最近鄰居模型不同處在於,其僅須紀錄一部分的 訓練資料集,因此可以部分減少預測時蒐尋所有資料點的時間。
圖MC04-11 支援向量機器模型
161
決策樹(Decision Tree)是一個樹狀結構的決策支持工具。生成方法是不斷的以單一特徵 對資料進行分群,以產生樹狀結構。在樹狀結構最底端的葉節點(Leaf Node),代表某一資 料子集有共同特性,我們稱之為群集(Cluster)。在對未知資料進行預測時,必須先利用未知 資料特徵,找出其所歸屬群集。當決策樹用於分類工作時,以未知資料所在群集的資料子 集的應變數進行多數決來決定輸出為何。當用於迴歸工作時,則對未知資料所在群集的資 料子集的應變數進行算術平均來決定輸出為何,如圖MC04-12 所示。
圖MC04-12 迴歸樹模型
在特徵選擇(feature selection)方面,常見的主要分三大類,第一類是單純的特徵篩選 (Filtering)方法,在篩選完特徵後,再進行分類(或迴歸)的訓練,整個流程即告結束,屬於 此類的主要有Correlation、Fisher score、Mutual information[3]、mRMR[4]、mRR[5]等。第 二分類方法稱為包裝法(Wrapper),分類(或迴歸)與特徵選擇程序是交替進行的,並以準確 率或是其他可量化方法決定特徵選擇好壞。此種方法一般須進行較多次的疊代,且選出的 特徵子集會受到分類(或迴歸)方法與參數影響。屬於此類的主要有循序(Sequential or Stepwise)向前/向後(Backward / Forward)特徵選擇 [6],前者由所有特徵為起點,一次移除 一個或多個特徵,然後進行訓練與測試,如此反覆疊代,直到收斂為止。和 Sequential backward 相反,Sequential forward 則是由一個或數個特徵開始,一次加入一個特徵,並在 每一階段找出最佳的特徵組合,直到收斂為止。以圖 MC04-13 為例,假設總共有 4 個特 徵,在第一階段先每一特徵各別訓練測試,找出最佳的特徵,在此假設第二個特徵最佳。
接下來,嘗試把尚未加入的特徵分別與第二個特徵進行合併,且各別訓練測試,假設最佳 的特徵組合為第二、四個最佳,如此反覆,直到達收斂條件(在此為無法再改進)為止,這 時,以第一、二、四個當成最佳的特徵組合。根據文獻記載,循序方法的準確度會較前單 純篩選特徵之方法高,而Backward 方法似乎又稍佳於 Forward 方法。
162
第三類是把特徵選擇合併至訓練程序中,稱為Embedding 方法,例如 C4.5[7]、CART (Classification and Regression Trees)、或是 ID3[8]等,此種方法在訓練程序中,演算即利用 類似 Mutual information 的值,自動挑選最佳特徵,錯誤! 找不到參照來源。04-13 為 kyphosis(駝背)資料庫[9]以 CART 進行處理範例。資料庫中總共有 81 筆資料,資料類別為 present/absent,資料特徵為 Age、Number 與 Start,分類是要由已有之三樣特徵預測出 present/absent。在此範例中,每一產生的分支(Branch)均須經過一次的特徵選擇,例如 Start8.5 及 Age<55。與前述的篩選方法不同,CART 在往下推導過程中,資料量會逐漸減 少,而非用所有資料進行篩選。例如在第一步時,CART 決定用 Start8.5 進行資料分割時,
163 分兩類(positive / negative)的問題中,令 TP (true positive)為分類器預測為 positive 且實際上 類別也為 positive 的樣本數,TN (true negative)為分類器預測為 negative 且實際上類別為 negative 的樣本數,FP (true positive)為分類器預測為 positive 然實際上類別為 negative 的樣 本數,FN (true negative)為分類器預測為 negative 但實際類別為 positive 的樣本數。Precision、
Recall、F-measure 與 MCC(Matthews correlation coefficient)定義分別如下。
)
上述的Recall 又稱為 Sensitivity、True positive rate。此外,Specificity 也稱為 True negative rate。另外,FP 又稱為 Type I error,FN 又稱為 Type II error。也有學者採用 AUC (area under ROC curve)[[12]]作為效能指標,所謂 ROC(Receiver Operator Curve)曲線,就是調整分類器 的閥值,以獲得不同的False positive rate (x 軸值)與 True positive rate (y 軸值),並繪製成連 續曲線。AUC 即 ROC 曲線下方之面積。通常如果分類器效果越佳,則 AUC 值會越接近 1。把不同的分類器 ROC 曲線畫在同一張圖上時,可看出整體正確率好壞。如果 ROC 曲 線間有交會,也可了解在何種狀況下哪一分類器的效能較佳,方便使用者進行模型選擇 (model selection)。
164