• 沒有找到結果。

白血病 (Leukemia) 研究應用

第五章 實際資料應用

第二節 白血病 (Leukemia) 研究應用

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

29

個篩選個數n′(1), n′(2), … , n′(50)與 50 個預測正確率CR(1), CR(2), … , CR(50)。 6. 統計各方法平均每次篩選個數:

Avg. n

= Mean(

n′(1), n′(2), … , n′(50)

),並做比較

(表 5-3)。

7. 統計各方法所有篩選次數至少一半 (25 次) 的基因,並做比較 (表 5-4)。

8. 計算各方法之 50 個預測正確率的平均:

Avg. CR

= Mean(

CR(1), CR(2), … , CR(50)

)

,並以此作為比較各方法優劣的主要 準則 (表 5-5)。

[註]:由於使用上的限制,此資料忽略 LAD-LASSO 這個方法。

結果與討論

根據表 5-3,Elastic Net 平均每次篩選 83.68 個基因,是所有方法中最多的,

而 EBLASSO 只篩選 2.08 個則是最少的。

表 5-3 白血病資料:各方法平均基因篩選個數

方法 Avg. 𝐧 LASSO 19.28 Elastic Net 83.68 EBLASSO 2.08 EBENet 8.68

Y07604_at M19507_at X95735_at M23197_at X17042_at M13690_s_at M31994_at M84526_at

44 43 40 34 29 28 25 25

Elastic Net (46 個)

M19507_at M23197_at M27891_at M84526_at X95735_at Y07604_at M63138_at U46499_at

50 50 50 50 50 50 47 46

U82759_at X17042_at M92287_at M96326_rna1_at X59417_at M13690_s_at X85116_rna1_s_at M84371_rna1_s_at

46 46 45 45 45 45 45 44

M16038_at M22960_at D49950_at U50136_rna1_at J05243_at M31994_at M34344_at L09209_s_at

42 42 41 41 39 39 39 39

M11147_at Z29067_at HG1612-HT1612_at M62762_at M55150_at Z24727_at M31303_rna1_at Y08612_at

38 37 36 36 35 35 34 34

X51521_at HG2562-HT2658_s_at M26708_s_at M31211_s_at M11722_at U05259_rna1_at U59632_s_at M28170_at

33 33 33 33 30 30 29 29

M20902_at D42043_at M65214_s_at X63097_at S50223_at X16546_at

28 27 27 26 25 25

至少一半的有 46 個。Elastic Net 篩選的基因中,M19507_at、M23197_at、

M27891_at、M84526_at、X95735_at 和 Y07604_at 這 6 個基因的篩選次數達 50 次,亦即平均每次選到的 84 個基因中,這 6 個是每次都能選到的,其餘的基因 白血病類型的重要變數。LASSO 的預測正確率為 93.7%,僅次於 Elastic Net。

為了驗證各方法篩選的基因 (表 5-4) 是否為好的變數選擇,接下來將選取 幾種基因選擇,並透過主成分分析 (Principal Component Analysis, PCA) 來繪製

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

32

雙標圖 (Biplot),觀察樣本的分佈狀況及各基因的影響情形。進行 PCA 前需先 將原始資料數值標準化。由於 EBLASSO 和 EBENet 分別只選出 0 個和 1 個基因,

無法進行 PCA,故忽略這兩種方法的結果。

表 5-6 基因選擇一:LASSO (篩選次數至少 25 次)

Y07604_at M19507_at X95735_at M23197_at X17042_at M13690_s_at M31994_at M84526_at

44 43 40 34 29 28 25 25

利用基因選擇一 (表 5-6) 的 8 個基因所繪製的雙標圖如圖 5-1 所示,橫軸與 縱軸分別為第一主成分 (PC1) 與第二主成分 (PC2),其中 PC1 能解釋 47.6%的 變異,PC2 能解釋 14.7%的變異,共 62.3% (表 5-7)。從圖中可以發現 ALL 群聚 的情形相當明顯,AML 則較為分散。另外,兩種類型的分佈能夠以PC1

=

0作為 分界線,此線以左的樣本為 ALL,以右為 AML,代表只需透過 PC1 便能區別兩 種類型的白血病。

觀察樣本的分佈與各基因的指向,可以發現 ALL 皆分佈在這 8 個基因相反 指向的位置,代表這些基因對 ALL 有反向的影響。一個樣本中的這 8 個基因表 現量值 (標準化後) 整體來看若愈小,愈有可能歸類在 ALL。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

33

圖 5-1 白血病資料:雙標圖 (I)

表 5-7 白血病資料:各主成分資訊 (I)

PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 Standard deviation 1.952 1.083 0.980 0.830 0.651 0.637 0.583 0.443 Proportion of Variance 0.476 0.147 0.120 0.086 0.053 0.051 0.042 0.025 Cumulative Proportion 0.476 0.623 0.743 0.829 0.882 0.933 0.975 1.000

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

34

表 5-8 基因選擇二:Elastic Net (篩選次數至少 25 次)

M19507_at M23197_at M27891_at M84526_at X95735_at Y07604_at M63138_at U46499_at

50 50 50 50 50 50 47 46

U82759_at X17042_at M92287_at M96326_rna1_at X59417_at M13690_s_at X85116_rna1_s_at M84371_rna1_s_at

46 46 45 45 45 45 45 44

M16038_at M22960_at D49950_at U50136_rna1_at J05243_at M31994_at M34344_at L09209_s_at

42 42 41 41 39 39 39 39

M11147_at Z29067_at HG1612-HT1612_at M62762_at M55150_at Z24727_at M31303_rna1_at Y08612_at

38 37 36 36 35 35 34 34

X51521_at HG2562-HT2658_s_at M26708_s_at M31211_s_at M11722_at U05259_rna1_at U59632_s_at M28170_at

33 33 33 33 30 30 29 29

M20902_at D42043_at M65214_s_at X63097_at S50223_at X16546_at

28 27 27 26 25 25

利用基因選擇二 (表 5-8) 的 46 個基因所繪製的雙標圖如圖 5-2 所示,其中 PC1 能解釋 39.7%的變異,PC2 能解釋 8.8%的變異,共 48.5% (表 5-9),解釋力 稍差。由於基因個數過多,主成分個數也多 (46 個,表 5-7 只擷取前 16 個),因 此造成 2 維的雙標圖解釋力較低。然而,從圖中可以發現 ALL 和 AML 的群聚 情形都相當明顯,且同樣只需透過 PC1 便能區別兩種類型的白血病。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

35

圖 5-2 白血病資料:雙標圖 (II)

表 5-9 白血病資料:各主成分資訊 (II)

PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 Standard deviation 4.271 2.012 1.767 1.527 1.324 1.256 1.248 1.159 Proportion of Variance 0.397 0.088 0.068 0.051 0.038 0.034 0.034 0.029 Cumulative Proportion 0.397 0.485 0.552 0.603 0.641 0.676 0.709 0.739 PC9 PC10 PC11 PC12 PC13 PC14 PC15 PC16 Standard deviation 1.074 1.004 0.944 0.911 0.896 0.883 0.785 0.747 Proportion of Variance 0.025 0.022 0.019 0.018 0.017 0.017 0.013 0.012 Cumulative Proportion 0.764 0.786 0.805 0.823 0.841 0.857 0.871 0.883

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

36

表 5-10 基因選擇三:Elastic Net (篩選次數 50 次)

M19507_at M23197_at M27891_at M84526_at X95735_at Y07604_at

50 50 50 50 50 50

由於 Elastic Net 篩選次數至少 25 次的基因個數過多,這次只選取其篩選次 數達 50 次的基因,作為基因選擇三 (表 5-10)。利用這 6 個基因所繪製的雙標圖 如圖 5-3 所示,其中 PC1 能解釋 60.2%的變異,PC2 能解釋 18.4%的變異,共 78.6%

(表 5-11)。雖然 AML 的分佈較為分散,但同樣只需透過 PC1 便能區別兩種類型 的白血病。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

37

圖 5-3 白血病資料:雙標圖 (III)

表 5-11 白血病資料:各主成分資訊 (III)

PC1 PC2 PC3 PC4 PC5 PC6 Standard deviation 1.900 1.052 0.698 0.641 0.494 0.375 Proportion of Variance 0.602 0.184 0.081 0.069 0.041 0.023 Cumulative Proportion 0.602 0.786 0.867 0.936 0.977 1.000

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

38

接下來,為了再次驗證這三種基因選擇是否為好的變數選擇,將它們直接當 作解釋變數建立模型 (不需再篩選變數)。仿照資料背景中所述的操作流程,重 複進行模型建立與類型預測,並計算平均預測正確率 (表 5-12)。

表 5-12 白血病資料:各基因選擇個數與模型平均預測正確率

基因選擇 個數 Avg. CR

基因選擇一:LASSO (至少 25 次) 8 個 96.9%

基因選擇二:Elastic Net (至少 25 次) 46 個 79.0%

基因選擇三:Elastic Net (50 次) 6 個 93.8%

雖然 Elastic Net 建立的模型有 96.8%的平均預測正確率 (表 5-5),但將其篩 選次數至少一半的 46 個基因 (基因選擇二) 作為解釋變數重新建立模型,卻只 有 79.0%的正確率 (表 5-12),是所有基因選擇中最低的。已知當資料中存在幾個 高度相關且顯著的解釋變數時,Elastic Net 傾向於篩選一整群。這 46 個基因當 中,可能有部分存在高度相關,若將它們同時作為解釋變數,模型會產生共線性 問題,導致預測值變異大,因此造成估計失準。顯然地,將這 46 個基因同時作 為解釋變數並非好的做法。使用 LASSO 篩選次數至少一半的 8 個基因 (基因選 擇一) 作為解釋變數重新建模,有 96.9%的平均預測正確率,是所有基因選擇中 最高的。縱觀來看,基因選擇一的 8 個基因是最好的變數選擇,亦即全部的 7129 個基因裡,只要選取這 8 個,便能夠完善解釋白血病類型。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

39

相關文件