分析流程

第四章分析方法

第一節分析流程

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第四章分析方法

第一節分析流程

在事前處理的攝護腺癌蛋白質質譜資料中，我們有四種類別，分別為正常、良性腫瘤、癌症早期以及癌症晚期病人之資料。若想比較兩兩類別或四種類別在各種特徵選取方法下之分類效果，其過程大致可分為三個部份。首先，先將資料分為訓練資料和測試資料，再來排序特徵變數，最後將排名前兩百名的特徵變數依序放入 SVM 中建模，並得出最低的分錯率結果以及其所對應的特徵變數組合數。詳述如下：

第一部份：將欲分析的資料分為一百組的訓練資料和測試資料

如圖 4.1 所示，假使我們想比較正常人和良性腫瘤病人在各特徵選取方法下之分類效果為何，則我們必須先在正常人和良性腫瘤的資料中分別抽百之分六十六點七的樣本資料作為訓練資料以及百分之三十三點三的樣本作為測試資料。此外每次選取樣本(某受測者)時須同時選入(某人)兩次重複的觀測值：

NO BPH

圖 4.1 訓練資和測試資料之抽樣方法

重複上述的程序一百次，即可產生一百組的訓練資料以及一百組的測試資料。

訓練資料

測試資料 66.7%

33.3% 33.3%

66.7%

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二部份：排序特徵變數

在排序這個部份，我們對於每組訓練資料中的特徵變數利用其「統計量排序」和被

「選入迴歸模型之順序排序」及其個別的「分錯率排序」。其中「統計量排序」我們是利用 t 檢定、ANOVA F 檢定以及 Kruskal-Wallis 檢定來得之變數的統計量。而「選入迴歸模型之順序排序」我們所採用的迴歸估計式分別有 Least Angel Regression、Forward Stagewise regression、LASSO、Group LASSO 以及 Elastic Net，藉此來得到各變數被選入模型的順序。在「分錯率排序」的部份我們是採用支持向量機 SVM 來得出各變數之分錯率。而以上講到的這些方法的理論部份將在此章的第二、三、四、五、六節呈現給大家。

我們先概述如何利用「統計量排序」，如表 4.1 所示，我們以 t 檢定為例來說明，對於每組訓練資料中的每一個特徵變數進行 t 檢定時，由於每個特徵變數在一百組訓練資料中皆可得到一個 t 統計量的值，最後將此一百個統計值取平均可得t ，表示第 i 個特_i 徵變數之平均統計值，並利用它來排序每個特徵變數。而平均統計值最小的特徵變數排第一個，而平均統計值最大的特徵變數排最後一個。故 ANOVA F 檢定和 Kruskal-Wallis 檢定也依此作法。

表 4.1

對於每個特徵變數產生的統計量之值取平均過程

特徵變數

訓練資料組別平均統計值

t i

1 2  100

X 1

t

1,1

t

₁_,₂ 

t

₁_,₁₀₀ t ₁ X 2

t

2,1

t

₂_,₂ 

t

₂_,₁₀₀ t ₂

     

X779

t

779,1

t

₇₇₉_,₂ 

t

779,100

t

₇₇₉

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

再來我們說明「選入迴歸模型之順序排序」的方法。如表 4.2 所示，對於每組訓練資料中的每個特徵變數配適 Least Angel Regression、Forward Stagewise Regression、

LASSO、Group LASSO 以及 Elastic Net 模型時，即可得到一個被選入迴歸模型的「等級」(Rank)，這裡的等級意思即若某個特徵變數的等級為 1，就表示其特徵變數是第一個被選入迴歸模型的；若某個特徵變數的等級為 779，則表示其特徵變數是最後一個被選入迴歸模型的。因為每個特徵變數在一百組訓練資料中皆可得到一個等級，再將這一百個等級取平均即

R

_i，最後利用它來排序每個特徵變數。平均等級最小的特徵變數排第一個、平均等級最大的特徵變數排最後一個。

表 4.2

對於每個特徵變數產生的等級取平均之過程

特徵變數

訓練資料組別平均等級

R i

1 2  100

X 1

R

1,1

R

₁_,₂ 

R

₁_,₁₀₀ R ₁ X 2

R

2,1

R

₂_,₂ 

R

₂_,₁₀₀ R ₂

     

X779

R

779,1

R

₇₇₉_,₂ 

R

779,100

R

₇₇₉

而「分錯率排序」就是利用支持向量機 SVM 來得出每個特徵變數的分錯率，並利用分錯率由低至高來排序這些特徵變數。如表 4.3，將每組訓練資料中的每個特徵變數分別代入支持向量機中配適模型，然後再計算所建構出來的模型在測試資料下的分錯率。因每個特徵變數在一百組的訓練資料下皆可產生一個分錯率，最後即利用每個特徵變數的平均分錯率(

S V M

_i)來作為排序這些特徵變數的依據。

‧

在文檔中分類蛋白質質譜資料變數選取的探討 - 政大學術集成 (頁 17-21)

第四章 分析方法

第一節 分析流程

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第四章 分析方法

第一節 分析流程

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

t

t

t

t

t

t

t

t

t

t

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

R

R

R

R

R

R

R

R

R

R

R

S V M

‧

‧

第四章分析方法

第一節分析流程

立政治大學

第四章分析方法

第一節分析流程

立政治大學

立政治大學