• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

45

第六章 分析結果討論與建議

本研究是利用經過事前處理的攝護腺癌之蛋白質質譜資料來作分析,而此種資料通 常是受測者的資料少於特徵變數個數的情形,故為一個高維度資料。所以若能設法從這 類資料中來篩選到少數重要的特徵變數個數且不失去其判斷正確性的話,即為一個良好 的特徵變數選取方法。因此本研究嘗試比較九種選取特徵變數的方法在六個兩兩分類和 四分類上的分錯率表現,而九種選取特徵變數方法分別為 SVM 的「分錯率排序」、還有 以 t 檢定、ANOVA F 檢定以及 KW 檢定的「統計量排序」、迴歸方法 LARS、Stagewise、

LASSO、Group LASSO 以及 Elastic Net 的「選入迴歸模型之順序排序」,然後分別對各 方法的前兩百名特徵變數依序入代入 SVM 中得出各種變數組合數下的分錯率,藉此產 生各方法的分錯率趨勢圖以及各方法之最小分錯率即其對應之組合數。

由分析結果我們發現不論於哪一種分類,在運算速度的時間上 LARS 皆比 Stagewise 和 LASSO 還要快速,原因是因 LARS 一旦在某步驟將某個變數選入活動集合後就不會 再將此變數從活動集合中移除,但 LASSO 即有可能會先將某變數選入,然後又移除它 一段期間後又再次選入的情形發生,因此 LASSO 這樣的選取模型過程一定會比 LARS 更花時間。此外,LASSO 不論是在兩兩分類還是四分類中之判別結果的表現都是五種 迴歸方法中最不盡理想的。我們認為可能是因資料中遇有兩變數相關程度很高的情況發 生時 LASSO 就會”任意”將其中一個變數選入模型中,因此並不能確保先被選入模型的 這個變數是兩個變數中與應變數較有關係而影響其預測準確度。而 Zou 和 Hastie(2003) 年提出的 Elastic Net,除了包含 LASSO 的限制式外又加入迴歸係數平方絕對值加總的 第二條限制式,因而使此法具有群集選取(grouped selection)的能力來選取變數。因此這 種方法在高維度資料時更能看出其預測的結果確實較 LARS、Stagewise 和 LASSO 理想。

另外,Yuan 和 Lin(2007)也察覺到 LASSO 在高維度資料中變數選取的問題因而發展出 Group LASSO。最後由本研究的分析中發現,同樣具有群集選取能力的兩種迴歸方 法—Elastic Net 和 Group LASSO,在六種兩兩分類中,Group LASSO 於「正常和良性腫 瘤」、「正常和癌症早期」」、「良性腫瘤和癌症晚期」以及「癌症早期和晚期」分類

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

46

的分錯率較 Elastic Net 好,而 Elastic Net 則是在「正常和癌症晚期」以及「良性腫瘤和 癌症早期」優於 Group LASSO,於是我們再去觀察此兩種方法在這兩個兩兩分類的分錯 率趨勢圖(圖 5.3 和圖 5.4),可發現兩種方法的趨勢很常有交錯的現象不像其餘四個兩兩 分類的趨勢圖(圖 5.1、圖 5.2、圖 5.5 和圖 5.6)兩種方法的走向很明顯的分開。而最後我 們會認為 Group LASSO 還是較佳的原因就是考慮對於六種兩兩分類的平均表現以及其 方法穩定性的緣故。因此之後我們又將 Group LASSO 的結果與 Adam 等人(2002)以及陳 詩佳(2007)的方法比較,而 Group LASSO 也確實能夠得到較小的分錯率。

而對於四分類的判別結果 Group LASSO 比起其他八種方法也得到最小的分錯率 (10.59%),其次是 SVM(11.86%),不過不難注意到 SVM 的所須變數組合數大約只需 59 個,而 Group LASSO 則需 99 個,但其實觀察其分錯率趨勢圖(圖 5.7)的話,Group LASSO 在組合數約為 51 個時其分錯率(11.63%)就優於 SVM 了,因此在我們追求極小分錯率的 目標下,我們仍認為 Group LASSO 的結果很不錯。

然而本研究仍然有許多可以改進的地方,例如設定 Elastic Net 的參數時(亦

即”min.lambda”和”relax.lambda”)可能較為馬虎,而使得結果未必是最好的也不一定,故 未來或許可以再找尋其他更有效率的演算法來計算 Elastic Net 之迴歸係數的路徑。此 外,未來或許可以考慮將具有群集選取能力的迴歸模型或是能夠解決高維度資料變數間 不獨立的迴歸模型選取方法一併作探討。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

47

參考文獻

一.中文部分

陳詩佳 (2007),「使用 Meta-Learning 在蛋白質質譜資料特徵選取之探討」,國立政治 大學統計系研究所碩士論文。

黃仁澤 (2005),「對於高維度資料進行特徵選取-應用於分類蛋白質質譜儀資料」,國 立政治大學統計系研究所碩士論文。

蒲永孝和黃昌淵,「認識男人的殺手-前列腺癌」,正中書局,1997 年。

潘荔錞、蔡志彥和簡志青,「蛋白質體學在臨床醫學之應用」,化工資訊與商情月刊第 3 期,2003 年 9 月號。

賴基銘,「癌症篩檢未來的展望:SELDI 血清蛋白指紋圖譜的應用」,國家衛生研究院電 子報,第 52 期,2004 年 6 月 25 日。

簡邦平,「攝護腺健康新知」,原水文化,2006 年。

二.英文部分

Adam, B. L., Qu, Y., Davis, J. W., Ward, M. D., Clements, M. A., Cazares, L. H., Semmes, O.

J.,Schellhammer, P. F., Yasui, Y., Feng, Z. and Wright, G. L. Jr. (2002), “Serum Protein Fingerprinting Coupled with a Pattern-matching Algorithm Distinguishes Prostate Cancer from Benign Prostate Hyperplasia and Healthy Men”, Cancer Research 62(13) 3609-3614.

Degroeve, S., Baets, B. D.,Peer, Y. V. and Rouze, P. (2002), ”Feature Subset Selection for Splice Site Prediction”, Bioinformatics 18(2) 75-83.

Efron, B., Hastie, T., Johnstone, I. and Tibshirani R. (2003), “Least Angle Regression”, Annals of Statistics 32(2) 407-499.

Efron, B., Tibshirani, R., Storey, J. D. and Tusher, V. (2001), ”Empirical Bayes Analysis of a Microarray Experiment”, Journal of the American Statistical Association 96(456)

1151-1160.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

48

Fox, R. J. and Dimmic, M. W. (2006), ”A Two-Sample Bayesian t-test for Microarray Data”, BMC Bioinformatics 7:126.

Friedman, J., Hastie, T. and Tibshirani, R. (2010), “A Note on the Group LASSO and a Sparse Group LASSO”.

Guyon, I., Westion, J. and Barnhill, S. (2002), “Gene Selection for Cancer Classification Using Support Vector Machines”, Barnhill Bioinformatics 46 389-422.

Hastie, T., Tibshirani, R. and Friedman, J. (2009), ” The Elements of Statistical Learning.

Springer”.

Hastie, T., Taylor, J., Tibshirani, R. and Walther, G. (2007), “Forward Stagewise Regression and the Monotone Lasso”, Electronic Journal of Statistics 1(1) 1-29.

Issaq, H. L., Veenstra, T. D., Conrads, T. P. and Felschow, D. (2002), “The SELDI-TOF MS Approach to Proteomics: Protein Profiling and Biomarker Identification”, Biochemical and Biophysical Research Communications 587-592.

Jiang, H., Deng, Y., Chen, H. S., Tao, L., Sha, Q., Chen, J., Tsai, C. J. and Zhang, S.

(2004), ”Joint Analysis of Two Microarray Gene-Expression Data Sets to Select Lung Adenocarcinoma Marker Genes”, BMC Bioinformatics 5:81.

Leng, C., Lin, Y. and Wahba, G. (2006), “A Note on the Lasso and Related Procedures in Model Selection”, Statistica Sinica 16 1273-1284.

Ma, S. and Huang, J. (2005), ”Regularized ROC Method for Disease Classification and Biomarker Selection with Microarray Data”, Bioinformatics 21(24) 4356-4362.

Meier, L., Geer, S. V. D. and Buhlmann, P. (2008), “The Group LASSO for Logistic Regression”, Journal of the Royal Statistical Society 70(1) 53-71.

Park, M. Y. and Hastie, T. (2006), “L1 Regularization Path Algorithm for Generalized Linear Models”, Journal of the Royal Statistical Society 659-677.

Somorjai, R. L., Dolenko, B. and Baumgartner, R. (2003), ”Class Prediction and Discovery Using Gene Microarray and Proteomics Mass Spectroscopy Data: curses, caveats,

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

49

cautions”, Bioinformatics 19(12) 1484-1491.

Tibshirani, R. (1996), “Regression Shrinkage and Selection via the Lasso”, Journal of the Royal Statistical Society 58(1) 267-288.

West, M. (2003), “Bayesian Factor Regression Models in the Large p, Small n Paradigm”, Bayesian Statistics.

Weston, J., Elisseeff, A. and Scholkopf, B. (2003), ”Use of the Zero-Norm with Linear Models and Kernel Methods”, BIOwulf Technologies 3 1439-1461.

Yuan, M. and Lin, Y. (2006), “Model Selection and Estimation in Regression with Grouped Variables”, Journal of the Royal Statistical Society 68 49-67.

Zou, H. and Hastie, T. (2004), “Regularization and Variable Selection via the Elastic Net”, Journal of the Roual Statistical Society 67 301-320.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

50

附錄一

方法

NO vs. BPH NO vs. CAB NO vs. CCD 最小分錯率 組合數 最小分錯率 組合數 最小分錯率 組合數 KW 檢定 2.67(0.77) 10 3.40(1.33) 86 3.09(2.03) 196

t 檢定 2.32(0.91) 35 2.90(1.77) 122 2.91(1.73) 46 ANOVA 2.32(0.86) 35 2.91(1.77) 122 2.92(1.72) 47

方法

BPH vs. CAB BPH vs. CCD CAB vs. CCD 最小分錯率 組合數 最小分錯率 組合數 最小分錯率 組合數 KW 檢定 1.63(1.2) 192 1.97(2.03) 126 15.27(1.64) 40

t 檢定 2.20(1.12) 188 2.14(2.17) 133 15.48(2.01) 25 ANOVA 2.53(1.03) 136 2.12(2.17) 131 15.48(2.06) 25

相關文件