• 沒有找到結果。

探討兩兩分類之分錯率結果

第五章 實証分析

第二節 探討兩兩分類之分錯率結果

時,Elastic Net 所得之分錯率比其他特徵選取方法高很多。此外利用 Group LASSO 所選 取的前兩百名特徵變數不論其組合數為何所得之分錯率皆比其他特徵選取方法來得低。

圖 5.1 各特徵選取方法下判別正常與良性腫瘤之分錯率趨勢圖

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

29

圖 5.2 為判別正常和癌症早期的分錯率趨勢圖,發現 SVM 之「分錯率排序」方法 在組合數超過 84 個以後其分錯率的表現與其他相較之下最不理想。 而 LARS 和 Stagewise 在組合數 1 至 15 個時,其分錯率完全相同。而 Group LASSO 在組合數 21 至 120 個時之分錯率比其他者更優。

圖 5.2 各特徵選取方法下判別正常與癌症早期之分錯率趨勢圖

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

30

圖 5.3 為判別正常和癌症晚期的分錯率趨勢圖,發現在組合數大約介於 1 至 60 個之 間時,不論何種特徵選取方法其分錯率有很明顯的波動,其中利用 LARS 和 Stagewise 之特徵選取方法在組合數由 10 增加為 11 個時的分錯率差異極大。另外,藉由 KW 檢定 的「統計量排序」方法在組合數介於 39 至 70 個間的分錯率表現最不理想。

圖 5.3 各特徵選取方法下判別正常與癌症晚期之分錯率趨勢圖

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

31

圖 5.4 為判別良性腫瘤和癌症早期的分錯率趨勢圖,可發現當組合數為 1 個時,

Elastic Net 之分錯率將近百分之五十,但組合數增為 2 個時其分錯率馬上降為百分之十 三,此外 LARS、 Stagewise 和 LASSO 在組合數為 1 至 12 個間其分錯率快速下降,而 LASSO 在組合數為 33 至 60 個之間和組合數超過 108 個時其分錯率較其他方法高。

圖 5.4 各特徵選取方法下判別良性腫瘤與癌症早期之分錯率趨勢圖

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

32

圖 5.5 為判別良性腫瘤和癌症晚期的分錯率趨勢圖,當組合數為 1 個時,LARS、

Stagewise、LASSO 以及 Elastic Net 的分錯率最高,不過當組合數到達 13 個時其分錯率 已與其他方法相近,然而上述方法在組合數大約到達 140 個以後,其分錯率有明顯上升 的跡象。

圖 5.5 各特徵選取方法下判別良性腫瘤與癌症晚期之分錯率趨勢圖

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

33

圖 5.6 判別癌症早期和癌症晚期的分錯率趨勢圖。普遍來看,五種「迴歸模型選取 變數排序之方法」對於此分類的分錯率結果似乎都較「統計量排序」以及「分錯率排序」

還要理想,而且可以很顯然的可以發現當組合數到達 13 個以後,Group LASSO 的分錯 率的表現明顯的比其他特徵選取方法來得好。

圖 5.6 各特徵選取方法下判別癌症早期與癌症晚期之分錯率趨勢圖

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

34

再來我們探討各特徵變數選取方式在六種兩兩分類上的結果。由於黃仁澤(2005)在 其文章中提及利用 p 值排序的特徵選取方法,於是在本研究的附錄一中也附上在兩兩分 類中利用 p 值排序的分錯率結果。而本研究的目的最終是要探討利用各迴歸模型選取變 數的方法是否能比其他排序變數的方法在分錯率的表現上還要好。

表 5.3 中所呈現的是九種特徵選取方法在六個兩兩分類之最小分錯率以及組合數,

其中我們最小分錯率的計算單位是百分比,而括號內的數值是為分錯率的標準差。那麼 我們由表中可知 Group LASSO 特徵變數選取方法在分類「NO vs. BPH」、「NO vs.

CAB」、「BPH vs. CCD」以及「CAB vs. CCD」時效果最好,分別可得到最小的分錯率 為 1.82%、1.10%、1.65%和 9.09%,而其組合數分別為 14、76、53 和 47 個特徵變數。

而 Elastic Net 是在「NO vs. CCD」以及「BPH vs. CAB」的分類中表現最佳,分別可得 最小的分錯率為 1.45%以及 1.68%,而組合數分別為 30 和 37 個特徵變數。

若對於各兩兩分類的判別結果僅比較五種迴歸模型選取變數的方法時,LASSO 的 表現在各兩兩分類中之分錯率幾乎都不盡理想。而 Group LASSO 在「NO vs. BPH」、「NO vs. CAB」、「BPH vs. CCD」以及「CAB vs. CCD」這四種兩兩分類之判別結果表現最好,

而 Elastic Net 則在「NO vs. CCD」以及「BPH vs. CAB」中之分錯率表現最佳,那 Elastic Net 之所以能夠在上述兩個分類中勝過 Group LASSO 我認為是因為由圖 5.3 和圖 5.4 中 我們可以發現此兩個圖形中之紅線(表示 Group LASSO)和藍線(表示 Elastic Net)的分錯 率趨勢一路糾纏,有時紅線勝過藍線,有時藍線勝過紅線。不像其他分類,會在到達某 一組合數後,表示 Group LASSO 的紅線就會開始明顯的維持在藍線下方。不過我們也 可發現這兩種方法最大的共同點就是因為具備群集選擇的功能,故將其運用至變數間具 有高度相關的資料中時其變數選取的結果可能較能夠讓人信任。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

35

表 5.3

各特徵選取方法於兩兩分類上之最小分錯率與組合數

方法

NO vs. BPH NO vs. CAB NO vs. CCD 最小分錯率 組合數 最小分錯率 組合數 最小分錯率 組合數

SVM 2.68(0.59) 11 2.78(1.66) 15 3.79(1.87) 155

KW 檢定 2.65(0.73) 17 3.75(1.28) 167 2.92(1.95) 183

t 檢定 2.29(0.91) 36 2.91(1.93) 42 3.24(1.80) 49

ANOVA 2.36(0.89) 38 2.99(1.91) 41 3.24(1.82) 49

LARS 2.71(1.98) 18 1.99(4.71) 10 2.35(2.44) 54

Stagewise 2.78(1.98) 22 2.16(4.71) 10 2.68(2.46) 57

LASSO 3.19(0.68) 15 2.71(2.85) 24 2.95(1.97) 176

Group LASSO 1.82(0.72) 14 1.10(2.19) 76 2.26(1.67) 34

Elastic Net 2.51(1.67) 29 1.95(2.94) 111 1.45(1.95) 30

方法

BPH vs. CAB BPH vs. CCD CAB vs. CCD 最小分錯率 組合數 最小分錯率 組合數 最小分錯率 組合數

SVM 3.02(0.97) 17 1.87(2.38) 64 15.43(1.76) 31

KW 檢定 1.85(1.17) 199 2.22(2.08) 121 15.98(1.58) 138

t 檢定 2.55(1.06) 186 2.19(2.27) 148 14.88(1.98) 20

ANOVA 2.64(0.96) 137 2.20(2.29) 153 14.88(1.98) 20

LARS 2.11(3.90) 106 2.37(5.60) 29 14.57(1.7) 7

Stagewise 2.62(4.30) 25 2.99(5.60) 27 14.88(1.67) 9

LASSO 3.06(3.80) 27 2.88(5.60) 71 14.17(1.48) 61

Group LASSO 2.24(0.95) 38 1.65(2.09) 53 9.09(2.76) 98

Elastic Net 1.68(3.46) 37 2.37(4.53) 30 11.34(1.62) 47 註:最小分錯率單位為%、括號內為經由一百組測試資料所得之分錯率標準差。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

36

另外,由於我們之前在第四章第三節中提過 Stagewise 和 LASSO 可以利用修改 LARS 來得其迴歸係數值。所以我們便藉由對於實際資料的分析來驗証它們各自的優缺 點。

首先表 5.4 是呈現對於一組訓練資料,各迴歸模型的配適過程所需要花費的時間長 度。很明顯的可以發現 LARS 的計算時間最快、Stagewise 的時間最長。雖然 LARS 和 Stagewise 的共同點是一旦在某步驟將某一變數選入模型後就不可能在之後的步驟中又 將此變數從模型中去除,但它們不同的地方就在於 Stagewise 每一步驟中之迴歸係數的 變動伏度都極小,以致於此方法的計算時間要更久。

表 5.4

對於一組訓練資料 LARS、Stagewise 以及 LASSO 配適迴歸模型過程之時間 分類 LARS Stagewise LASSO NOvs.BPH 0.30 3.97 0.83 NOvs.CAB 0.31 4.28 0.82 NOvs.CCD 0.30 3.51 0.92 BPHvs.CAB 0.96 7.42 1.18 BPHvs.CCD 0.38 4.50 1.14 CABvs.CCD 0.28 3.96 0.84 註:單位時間為秒。

而表 5.5 是呈現在各兩兩分類下 LARS、Stagewise 以及 LASSO 對於每組訓練資料 配適迴歸模型之過程中所須要的平均步驟數。可發現 LASSO 的步驟數目會介於 LARS 和 Stagewise 間,而且 LARS 的平均步驟數在高維度資料中會與訓練資料的樣本數相同,

此外 Stagewise 的步驟數比其他兩者還要多,所以這也是為什麼此法在計算時間上較花 時間的另一項原因。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

37

表 5.5

LARS、Stagewise、LASSO 於各兩兩分類中之每組訓練資料配適迴歸模型過程的平均步驟數

分類 LARS Stagewise LASSO NOvs.BPH 212 1689 555.25 NOvs.CAB 222 1769 574.92 NOvs.CCD 220 1753 587.12 BPHvs.CAB 214 1705 603.97 BPHvs.CCD 212 1689 611.09 CABvs.CCD 222 1769 631.3

表 5.6 是我們利用 NO vs. BPH 分類來分別配適 LARS、Stagewise 以及 LASSO 之第 一組訓練資料的迴歸模型,而表中為部份變數在配適迴歸模型過程中之迴歸估計係數的 變化情形,其中每一行是為特徵變數,而每一列是表第幾步驟,因此每個細格為某個特 徵變數在第幾步驟的迴歸係數估計值。由 LARS 和 Stagewise 中X 和2 X 之估計值的變7 化相比可明顯發現 Stagewise 的迴歸係數估計值在每個步驟下有可能不會變動或是只有 變動一點點值,然而 LASSO 是有可能將某變數先在某步驟加入模型,然後再刪除,如 X ,就是先被 LASSO 選入然後到第 272 個步驟時又將其剔除,直到第 291 個步驟又將6

其選入模型中。

表 5.6

各變數在 LARS、Stagewise 以及 LASSO 中迴歸係數的變化 LARS

步驟數 X 1 X 2 X 5 X 6 X 7 X 8 X 9

33 0 0 0 0 0 0 0

34 0 -5.43E-05 0 0 0 0 0 35 0 -0.00015 0 0 0 0 0 36 0 -0.00018 0 0 0 0 0 37 0 -0.00028 0 0 0 0 0 38 0 -0.00032 0 0 0 0 0

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

38

39 0 -0.00035 0 0 0 0 0 40 0 -0.00095 0 0 0 0 0 41 0 -0.00128 0 0 0 0 0 42 0 -0.00148 0 0 0 0 0 43 0 -0.0022 0 0 -0.00512 0 0 44 0 -0.00222 0 0 -0.00523 0 0 45 0 -0.00224 0 0 -0.00537 0 0 46 0 -0.00236 0 0 -0.00597 0 0 47 0 -0.00249 0 0 -0.00676 0 0 48 0 -0.00278 0 0 -0.00772 0 0 49 0 -0.00279 0 0 -0.00774 0 0 50 0 -0.0029 0 0 -0.00809 0 0

Stagewise

步驟數 X 1 X 2 X 5 X 6 X 7 X 8 X 9

70 0 0 0 0 0 0 0

71 0 -0.00059 0 0 0 0 0 72 0 -0.00059 0 0 0 0 0 73 0 -0.00091 0 0 0 0 0 74 0 -0.00091 0 0 0 0 0 75 0 -0.00092 0 0 0 0 0 76 0 -0.0011 0 0 0 0 0 77 0 -0.00162 0 0 -0.00226 0 0 78 0 -0.00184 0 0 -0.00337 0 0 79 0 -0.00192 0 0 -0.00383 0 0 80 0 -0.002 0 0 -0.00422 0 0 81 0 -0.00203 0 0 -0.0044 0 0 82 0 -0.00203 0 0 -0.0044 0 0 83 0 -0.00215 0 0 -0.00491 0 0 84 0 -0.0022 0 0 -0.00505 0 0 85 0 -0.00232 0 0 -0.00562 0 0 86 0 -0.00236 0 0 -0.00576 0 5.90E-05

LASSO

步驟數 X 1 X 2 X 5 X 6 X 7 X 8 X 9 270 0 -0.00153 -0.04349 -0.00029 -0.01804 0 0.005 271 0 -0.00149 -0.04374 -0.00015 -0.01795 0 0.005193 272 0 -0.00145 -0.04399 0 -0.01786 0 0.005397

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

39

273 0 -0.00145 -0.04405 0 -0.01784 0 0.005438 274 0 -0.00145 -0.04406 0 -0.01784 0 0.005444 275 0 -0.00142 -0.04422 0 -0.01777 0 0.005618 276 0 -0.00141 -0.04432 0 -0.01773 0 0.005687 277 0 -0.00141 -0.04433 0 -0.01773 0 0.005695 278 0 -0.00133 -0.04486 0 -0.0174 0 0.006262 279 0 -0.00132 -0.04489 0 -0.01738 0 0.006291 280 0 -0.00132 -0.04491 0 -0.01735 1.53E-05 0.006346 281 0 -0.00132 -0.04494 0 -0.01729 3.99E-05 0.00643 282 0 -0.00132 -0.04504 0 -0.01711 0.000127 0.006736 283 0 -0.00131 -0.04509 0 -0.017 0.000182 0.006908 284 0 -0.0013 -0.0452 0 -0.0168 0.000288 0.007245 285 0 -0.0013 -0.04524 0 -0.01666 0.000356 0.007378 286 0 -0.00129 -0.04527 0 -0.01655 0.00041 0.00749 287 0 -0.00129 -0.04528 0 -0.01653 0.00042 0.007511 288 0 -0.00129 -0.04527 0 -0.01646 0.000456 0.007583 289 0 -0.0013 -0.04524 0 -0.01636 0.000498 0.007649 290 0 -0.00131 -0.04521 0 -0.01625 0.000545 0.007729 291 0 -0.00143 -0.04511 -0.00069 -0.01557 0.000809 0.008165

另外,我們也藉由觀察單一變數迴歸係數估計值的變化,以便更了解 LARS、

Stagewise 以及 LASSO 的迴歸係數變化趨勢。因此圖 5.7 中為呈現在 NO vs. BPH 分類中 第一組訓練資料裡X 之迴歸係數估計值的變化。可以發現當 LARS 之係數有向零變化6 的趨勢時,Stagewsie 會將其值儘可能的維持在負號的部分,並使其單調的發展;而 LASSO 也得將其值維持在負號的部分,因為必須符合凸函數最佳化的限制,且與 Stagewise 的穩定度相較下其值的變化會上下起伏不定,不過最終都不可能變為正號。而 且,LASSO 和 Stagewise 兩種選取模型的方法在一開始時,其迴歸係數的變化可能極為 相似,但經過越多步驟之後 Stagewise 的迴歸係數的變化會較 LASSO 平滑許多,也因為 LASSO 的迴歸係數的變化會呈現大幅度的波動而使得 LASSO 較 Stagewise 易產生過度 配適的現象而使得其方法的預測結果較差。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

40

圖 5.7 LARS、Stagewise以及LASSO在NO vs. BPH中之X 的迴歸係數估計值之變化 6

由於六個兩兩分類中,Group LASSO 在「NO vs. BPH」、「NO vs. CAB」、「BPH vs.

CCD」以及「CAB vs. CCD」中的分錯率表現最優,雖然在「NO vs. CCD」以及「BPH vs. CAB」中 Elastic Net 的分錯率較好,不過 Group LASSO 的分錯率也不至於太差,於 是我們就將 Group LASSO 特徵選取方法之結果與 Adam 等人(2002)挑選的 AUC>=0.62 的那 124 個特徵變數放入決策樹中來建立分類模型所得之分錯率來進行比較。由表 5.7 中可以發現不論為哪一種兩兩分類 Group LASSO 的方法所得的分錯率都較理想,尤其 在分類「BPH vs. CABCCD」時,分錯率更低到 0.87%。而 AUC 決策樹的方法雖在「NO vs. BPH」的分錯率表現最佳但其分錯率最低仍然還有 4%,在「CAB vs. CCD」分類中

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

41

之分錯率更高達 17%,我們認為其原因是因不論對於哪種兩兩分類的判別都是用共同的 9 個特徵變數來分類而使得分錯率都較高,但 Group LASSO 則會根據不同的分類而導致 模型的選取也會改變,因此其結果皆比 AUC 決策樹來得好。

表 5.7

各兩兩分類中 Elastic Net 以及 AUC 決策樹的分錯率結果

方法

NO vs. BPH BPH vs. CAB CAB vs. CCD 最小分錯率 組合數 最小分錯率 組合數 最小分錯率 組合數

Group LASSO 1.82 14 2.24 38 9.09 98

AUC 決策樹 4 9 14 9 17 9

方法

NO vs. CABCCD BPH vs. CABCCD NOBPH vs. CABCCD 最小分錯率 組合數 最小分錯率 組合數 最小分錯率 組合數

Group LASSO 2.08 23 0.87 51 2.18 44

AUC 決策樹 11 9 13 9 10 9

註:最小分錯率單位為%。

另外,我們也將 Group LASSO 的結果與陳詩佳(2007)提出先用判定係數萃取特徵變 數後,再利用 Meta-Learning 的概念將 SVM 串聯起來的方法來判別其分類結果相比,表 5.8 即為兩種方法之分錯率結果,可以發現 Group LASSO 在「NO vs. CCD」、「BPH vs.

另外,我們也將 Group LASSO 的結果與陳詩佳(2007)提出先用判定係數萃取特徵變 數後,再利用 Meta-Learning 的概念將 SVM 串聯起來的方法來判別其分類結果相比,表 5.8 即為兩種方法之分錯率結果,可以發現 Group LASSO 在「NO vs. CCD」、「BPH vs.

相關文件