模擬研究 - 隨機森林分類方法於基因組顯著性檢定上之應用

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章、模擬研究

本章將針對我們所提出的基因組顯著性檢定，透過模擬資料來驗證其有效性。

目前我們只進行自足型顯著檢定的模擬研究。在本研究中，我們的方法將跟七種其他不同的基因組分析方法做比較，包含 Kong 等人(2006)提出的主成份分析 (PCA)方法、Dinu 等人(2007)提出的 SAM-GS 方法、Mansmann 和 Meister (2005) 提出的共變數分析(ANCOVA)方法、Goeman 等人(2004) 提出的 Global 方法、

Subramanian 等人 (2005)提出的 GSEA 方法、Efron 和 Tibshirani (2007)提出的 MaxMean 方法，以及 Tsai 和 Chen(2009)所提出的 MANOVA 方法，其中當表型為二分類時，MANOVA 方法就為方法。

本章的模擬參考 Liu 等人(2007)的設計，考慮基因組中有 100 個基因 ( )，分類表型變數為二元(binary)型態，每一類組中的受詴者個數皆為 10 個( )。接著，令變數代表第 i 個分類表型組中第 j 個受詴者的 m 個基因表現量資料，其中；。考慮為服從多元常態分配 (multivariate normal distribution)的隨機變數，即 )，各組的母體平均數為一 100∗1 的向量，定義為。則第一組的母體平均數部分，為獨立和來自均勻分配[0,10]的隨機變數。當產生後，則第二組的平均數則根據下列定義而獲得:

其中考慮五種可能的 r 值:0、0.3、0.6、0.9、1.2。也就是第一至第二十名的基因，

其在第二組的平均數較第一組高出 2r 水準，而第二十一至第四十的基因，其在第二組的平均數則較第一組低 2r 水準。而其他的六十個基因，則是在兩組間無差異表現。接著介紹變異數矩陣的設定。我們考慮兩組基因表現量有相同的變異

‧

種方法(包括：PCA、SAM-GS 方法、ANCOVA、Global 方法、GSEA 方法、MaxMean 方法和 MANOVA 方法)的數據結果由 Tsai 和 Chen(2009)的文獻所提供。在後續

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

的結果中我們的隨機森林分類檢定方法將被簡稱為 Random Forests 法。

首先我們討論的情況。此時表示基因組在兩類組之間無差異表現，則計算每個檢定方法在模擬次數中，有多少比例的 P-value 會小於顯著水準 0.05，

可獲得型一誤差率(type I error rate)。我們預期型一誤差率應不超過 5%。表 3.1 為八種基因組分析方法的型一誤差率，其中 Random Forests、和 ANCOVA 方法，在不同的相關係數情況下，其型一誤差率皆接近或小於 5%。PCA 方法在相關係數為 0、0.5 和 0.9 時，型一誤差率超出預期的 5%；

SAM-GS 方法在相關係數為 0.9，型一誤差率超出預期的 5%；GSEA 方法在相關係數為 0、0.3 和 0.5，型一誤差率超出預期的 5%。Global 方法相較於其他方法較為保守，最後 MaxMean 方法在所有相關係數之下，型一誤差率皆超出預期的 5%，表現最差。整體說來，我們的方法最為保守，在各種情形下，皆能有效控制其型一誤差率在顯著水準內。

表 3.1、八種基因組分析方法的型一誤差率

方法 ρ=0 ρ=0.3 ρ=0.5 ρ=0.9

0.050 0.039 0.038 0.050 PCA 0.053 0.042 0.052 0.062 SAM-GS 0.046 0.042 0.038 0.055 ANCOVA 0.042 0.038 0.034 0.052 Global 0.001 0.009 0.016 0.034 GSEA 0.059 0.058 0.052 0.048 MaxMean 0.093 0.094 0.107 0.098 Random Forests 0.040 0.034 0.027 0.036

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

(i)、(ii)、(iii)和(iv))，樹的數量到 5000 棵時，皆未達到收斂。當差異表現量為 0 時，即使提高樹的數量到 50000 棵，結果也未達到收斂，分類誤差率為 0.6 到 0.7 之間。當差異表現量為 0.8、和 1.0(圖 3.2 之(v)和(vi))，在 5000 棵以內即可得到收斂結果。由這些圖，我們發現當基因表現差異量小的時候，由於基因組的差異低，很難建立一有效的分類器，導致誤差不穩定。隨著基因表現量差異越來越大，

則所需的決策樹棵數遞減，很容易便達到收斂。在下一章的實證分析中，我們將再針對分類誤差的收斂問題進行探討。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

(i) (ii)

(iii) (iv)

圖 3.1、八種基因組分析方法的檢定力

(i)、 (ii)、 .3 (iii)、 (iv)、

‧

0 10000 20000 30000 40000 50000

0.00.20.40.60.81.0

tree

value

0 1000 2000 3000 4000 5000

0.00.20.40.60.81.0

tree

value

0 1000 2000 3000 4000 5000

0.00.20.40.60.81.0

tree

value

0 1000 2000 3000 4000 5000

0.00.20.40.60.81.0

tree

value

0 1000 2000 3000 4000 5000

0.00.20.40.60.81.0

tree

value

0 1000 2000 3000 4000 5000

0.00.20.40.60.81.0

tree

value

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中隨機森林分類方法於基因組顯著性檢定上之應用 - 政大學術集成 (頁 19-26)

模擬研究

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章、 模擬研究

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

立政治大學

第三章、模擬研究

立政治大學

立政治大學

立政治大學

立政治大學