國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
第三章、 模擬研究
本章將針對我們所提出的基因組顯著性檢定,透過模擬資料來驗證其有效性。
目前我們只進行自足型顯著檢定的模擬研究。在本研究中,我們的方法將跟七種 其他不同的基因組分析方法做比較,包含 Kong 等人(2006)提出的主成份分析 (PCA)方法、Dinu 等人(2007)提出的 SAM-GS 方法、Mansmann 和 Meister (2005) 提出的共變數分析(ANCOVA)方法、Goeman 等人(2004) 提出的 Global 方法、
Subramanian 等人 (2005)提出的 GSEA 方法、Efron 和 Tibshirani (2007)提出的 MaxMean 方法,以及 Tsai 和 Chen(2009)所提出的 MANOVA 方法,其中當表型 為二分類時,MANOVA 方法就為 方法。
本章的模擬參考 Liu 等人(2007)的設計,考慮基因組中有 100 個基因 ( ),分類表型變數為二元(binary)型態,每一類組中的受詴者個數皆為 10 個( )。接著,令變數 代表第 i 個分類表型組中第 j 個受詴者的 m 個基因表現量資料,其中 ; 。考慮 為服從多元常態分配 (multivariate normal distribution)的隨機變數,即 ),各組的母體平 均數為一 100∗1 的向量,定義為 。則第一組的母體平 均數部分, 為獨立和來自均勻分配[0,10]的隨機變數。當 產生後,則第二組 的平均數則根據下列定義而獲得:
其中考慮五種可能的 r 值:0、0.3、0.6、0.9、1.2。也就是第一至第二十名的基因,
其在第二組的平均數較第一組高出 2r 水準,而第二十一至第四十的基因,其在 第二組的平均數則較第一組低 2r 水準。而其他的六十個基因,則是在兩組間無 差異表現。接著介紹變異數矩陣的設定。我們考慮兩組基因表現量有相同的變異
‧
種方法(包括:PCA、SAM-GS 方法、ANCOVA、Global 方法、GSEA 方法、MaxMean 方法和 MANOVA 方法)的數據結果由 Tsai 和 Chen(2009)的文獻所提供。在後續
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
的結果中我們的隨機森林分類檢定方法將被簡稱為 Random Forests 法。
首先我們討論 的情況。此時表示基因組在兩類組之間無差異表現,則 計算每個檢定方法在模擬次數中,有多少比例的 P-value 會小於顯著水準 0.05,
可獲得型一誤差率(type I error rate)。我們預期型一誤差率應不超過 5%。表 3.1 為八種基因組分析方法的型一誤差率,其中 Random Forests、 和 ANCOVA 方 法 , 在 不 同 的 相 關 係 數 情 況 下 , 其 型 一 誤 差 率 皆 接 近 或 小 於 5%。PCA 方法在相關係數為 0、0.5 和 0.9 時,型一誤差率超出預期的 5%;
SAM-GS 方法在相關係數為 0.9,型一誤差率超出預期的 5%;GSEA 方法在相關 係數為 0、0.3 和 0.5,型一誤差率超出預期的 5%。Global 方法相較於其他方法 較為保守,最後 MaxMean 方法在所有相關係數之下,型一誤差率皆超出預期的 5%,表現最差。整體說來,我們的方法最為保守,在各種情形下,皆能有效控 制其型一誤差率在顯著水準內。
表 3.1、八種基因組分析方法的型一誤差率
方法 ρ=0 ρ=0.3 ρ=0.5 ρ=0.9
0.050 0.039 0.038 0.050 PCA 0.053 0.042 0.052 0.062 SAM-GS 0.046 0.042 0.038 0.055 ANCOVA 0.042 0.038 0.034 0.052 Global 0.001 0.009 0.016 0.034 GSEA 0.059 0.058 0.052 0.048 MaxMean 0.093 0.094 0.107 0.098 Random Forests 0.040 0.034 0.027 0.036
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
(i)、(ii)、(iii)和(iv)),樹的數量到 5000 棵時,皆未達到收斂。當差異表現量為 0 時,即使提高樹的數量到 50000 棵,結果也未達到收斂,分類誤差率為 0.6 到 0.7 之間。當差異表現量為 0.8、和 1.0(圖 3.2 之(v)和(vi)),在 5000 棵以內即可得到 收斂結果。由這些圖,我們發現當基因表現差異量小的時候,由於基因組的差異 低,很難建立一有效的分類器,導致誤差不穩定。隨著基因表現量差異越來越大,
則所需的決策樹棵數遞減,很容易便達到收斂。在下一章的實證分析中,我們將 再針對分類誤差的收斂問題進行探討。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
(i) (ii)
(iii) (iv)
圖 3.1、八種基因組分析方法的檢定力
(i)、 (ii)、 .3 (iii)、 (iv)、
‧
0 10000 20000 30000 40000 50000
0.00.20.40.60.81.0
tree
value
0 1000 2000 3000 4000 5000
0.00.20.40.60.81.0
tree
value
0 1000 2000 3000 4000 5000
0.00.20.40.60.81.0
tree
value
0 1000 2000 3000 4000 5000
0.00.20.40.60.81.0
tree
value
0 1000 2000 3000 4000 5000
0.00.20.40.60.81.0
tree
value
0 1000 2000 3000 4000 5000
0.00.20.40.60.81.0
tree
value