文獻回顧 - 分類蛋白質質譜資料變數選取的探討

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章文獻回顧

黃仁澤(2005)提出一篇名為「對於高維度資料進行特徵選取-應用於分類蛋白質質譜儀資料」的論文。作者同時採用原始質譜資料以及事前處理的質譜資料，不過以原始資料為主、事前處理資料為輔來作實証分析。其目的為藉由原始質譜資料來進行特徵選取，除了找出有利於判別兩兩分類以及四分類的特徵選取方法外，亦可得知對於判別分類病況時所組成的特徵變數個數。詳細作法即先將資料分為一百組的訓練集和測試集，

然後以最小分錯率特徵選取法和最小p值特徵選取法將所有特徵變數依其對應到的p值由小到大排序，再以遞增選取的方式選取前200個特徵變數，並依序代入支持向量機 (Support vector machine，SVM)中建模，藉此找出分錯率最好的特徵變數組合數。此外，

因作者發現特徵變數間存在共線性的問題，故又進而發展三種特徵萃取的方法，分別為 k-mean分群萃取法、最大相關係數萃取法以及判定係數萃取法。其分析的結果顯示對於分類原始資料時，利用判定係數萃取法搭配最小p值特徵選取法可得最佳的分類結果。

而在本研究中，我們將會與該作者所使用之最小分錯率特徵選取方法和最小p值特徵選取方法加上遞增選取方式的分類結果來進行比較。

另外，陳詩佳(2007)也提出將後設學習(Meta-Learning)應用至蛋白質質譜資料的特徵選取方法。其目的為利用後設學習結合分類器搭配逐步選取特徵變數的方法，希望找出能夠利用較少的特徵變數來將資料分類並達到較高正確率的特徵選取方式。其中，後設學習就是把每個分類器融合成一個多元分類器，文章中作者運用到三種分類器，分別為線性判別分析(Linear Discriminant Analysis，LDA)、第K位最接近鄰居(K-th Nearest Neighbor，KNN)以及SVM，並將其結合為一個多元分類器，而作者結合的方法又可分為多數表決法(Majority Vote)、權重投票法(Weighted Vote)以及串聯法(Cascading)。那麼此篇作者先將資料分為一百組的訓練集以及測試集，然後作者利用投票法來分類樣本。

其中多數表決法是計算某一個特徵變數在LDA、KNN和SVM下的平均分類正確率，權重投票法來預測每個樣本最後會被預測到的類別。之後，作者又考慮兩種串聯法來結合多種分類器，其中所謂的串聯法就是利用反覆地將分類器結合的過程，串接所有分類器

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

的預測結果，而每次都會用到前一次之預測結果，然後不斷的更新。一種是多個分類器的串聯方法，而另一種是單一分類器的串聯方法，此處作者是用支持向量機SVM來作單一分類器的串聯。而作者將多個分類器串聯的分類結果、串聯SVM的分類結果與只有用 SVM的分類結果比較時，發現就算增加特徵變數也無法提升正確率，故作者就利用 Elastic Net加上SVM單一分類器的串聯方法以及判定係數萃取法加上SVM串聯來試圖改善此現象，最後與只用SVM的分類結果比較時，可得出Elastic Net加上SVM單一分類器的串聯方法可稍微改善上述情形，但正確率卻有些許的降低，而判定係數萃取方法確實能夠達到僅用較少的變數來提升正確率。那麼在本研究中，我們將會採用作者所提供的判定係數萃取法搭配SVM串聯法之分類結果來進行比較分析。

而在外國文獻中，Adam 等人(2002)提出藉由計算每個特徵變數在ROC曲線下的面積，並找出合乎其所設門檻值的變數以便加入決策樹中產生分類結果。作者欲利用多種蛋白質來找出更好的生物標誌改善以往攝護腺特異性抗原(PSA)診斷敏感度高、特異性低的缺點, 於是利用到事前處理的攝護腺癌蛋白質質譜資料，且將資料分為正常人、良性腫瘤、癌症早期和癌症晚期，然後將癌症早期和晚期合併為癌症病患，接著將正常人、

良性腫瘤和癌症病患的所有樣本資料設為訓練集，藉由盲眼測試(blinded test)將15位正常人、15位良性腫瘤和30位癌症病患的資料設為測試集。而其分析方法就是將事前處理的攝護腺癌蛋白質質譜資料中的779個特徵變數先計算其ROC曲線以下的面積(Area under ROC Curve，AUC)，其中ROC曲線的產生方式就是在一個縱軸為敏感度、橫軸為 1-特異度的二維平面中，利用診斷工具或診斷方式不斷變動的情形下，所畫出的的一種凹向橫軸的曲線。因此，一旦產生ROC曲線後即可算出AUC，於是作者將AUC



0.62的那124個特徵變數放入決策樹中來建立分類模型。而兩兩分類之分析結果如圖3.1，一共找出了9個重要的特徵個數，分別是4475、5074、5382、7024、7820、8141、9149、9507 和9656這9個特徵變數，然後共產生10個節點，並利用這10個節點來判別受測者是否為正常人(Normal)、良性腫瘤(BPH)和癌症病患(Prostate Cancer，PCA)。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖3.1 兩兩分類之決策樹

資料來源：“Serum Protein Fingerprinting Coupled with a Pattern-matching Algorithm Distinguishes Prostate Cancer from Benign Prostate Hyperplasia and Healthy Men” by Adam, B. L., Qu, Y., Davis, J. W., Ward, M. D., Clements, M. A., Cazares, L. H., Semmes, O.

J.,Schellhammer, P. F., Yasui, Y., Feng, Z. and Wright, G. L. Jr., 2002, Cancer Research, 62(13), 3611.

最後表3.1列出AUC搭配決策樹之兩兩分類的判別結果，其中包含敏感度和特異度以及分錯率數值。

表3.1

AUC搭配決策樹之兩兩分類的敏感度、特異度以及分錯率

兩兩分類敏感度特異度分錯率

正常人vs.良性腫瘤 93% 100% 3.3%

良性腫瘤vs.癌症早期 93% 80% 13.3%

癌症早期vs.癌症晚期 80% 87% 16.6%

正常人vs.癌症 83% 100% 11%

良性腫瘤vs.癌症 83% 93% 13.3%

正常與良性腫瘤vs.癌症 83% 97% 10%

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中分類蛋白質質譜資料變數選取的探討 - 政大學術集成 (頁 14-17)

文獻回顧

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章 文獻回顧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y



‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

立政治大學

第三章文獻回顧

立政治大學

立政治大學

立政治大學