• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第三章、 模擬研究

本章將針對我們所提出的基因組顯著性檢定,透過模擬資料來驗證其有效性。

目前我們只進行自足型顯著檢定的模擬研究。在本研究中,我們的方法將跟七種 其他不同的基因組分析方法做比較,包含 Kong 等人(2006)提出的主成份分析 (PCA)方法、Dinu 等人(2007)提出的 SAM-GS 方法、Mansmann 和 Meister (2005) 提出的共變數分析(ANCOVA)方法、Goeman 等人(2004) 提出的 Global 方法、

Subramanian 等人 (2005)提出的 GSEA 方法、Efron 和 Tibshirani (2007)提出的 MaxMean 方法,以及 Tsai 和 Chen(2009)所提出的 MANOVA 方法,其中當表型 為二分類時,MANOVA 方法就為 方法。

本章的模擬參考 Liu 等人(2007)的設計,考慮基因組中有 100 個基因 ( ),分類表型變數為二元(binary)型態,每一類組中的受詴者個數皆為 10 個( )。接著,令變數 代表第 i 個分類表型組中第 j 個受詴者的 m 個基因表現量資料,其中 ; 。考慮 為服從多元常態分配 (multivariate normal distribution)的隨機變數,即 ),各組的母體平 均數為一 100∗1 的向量,定義為 。則第一組的母體平 均數部分, 為獨立和來自均勻分配[0,10]的隨機變數。當 產生後,則第二組 的平均數則根據下列定義而獲得:

其中考慮五種可能的 r 值:0、0.3、0.6、0.9、1.2。也就是第一至第二十名的基因,

其在第二組的平均數較第一組高出 2r 水準,而第二十一至第四十的基因,其在 第二組的平均數則較第一組低 2r 水準。而其他的六十個基因,則是在兩組間無 差異表現。接著介紹變異數矩陣的設定。我們考慮兩組基因表現量有相同的變異

種方法(包括:PCA、SAM-GS 方法、ANCOVA、Global 方法、GSEA 方法、MaxMean 方法和 MANOVA 方法)的數據結果由 Tsai 和 Chen(2009)的文獻所提供。在後續

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

的結果中我們的隨機森林分類檢定方法將被簡稱為 Random Forests 法。

首先我們討論 的情況。此時表示基因組在兩類組之間無差異表現,則 計算每個檢定方法在模擬次數中,有多少比例的 P-value 會小於顯著水準 0.05,

可獲得型一誤差率(type I error rate)。我們預期型一誤差率應不超過 5%。表 3.1 為八種基因組分析方法的型一誤差率,其中 Random Forests、 和 ANCOVA 方 法 , 在 不 同 的 相 關 係 數 情 況 下 , 其 型 一 誤 差 率 皆 接 近 或 小 於 5%。PCA 方法在相關係數為 0、0.5 和 0.9 時,型一誤差率超出預期的 5%;

SAM-GS 方法在相關係數為 0.9,型一誤差率超出預期的 5%;GSEA 方法在相關 係數為 0、0.3 和 0.5,型一誤差率超出預期的 5%。Global 方法相較於其他方法 較為保守,最後 MaxMean 方法在所有相關係數之下,型一誤差率皆超出預期的 5%,表現最差。整體說來,我們的方法最為保守,在各種情形下,皆能有效控 制其型一誤差率在顯著水準內。

表 3.1、八種基因組分析方法的型一誤差率

方法 ρ=0 ρ=0.3 ρ=0.5 ρ=0.9

0.050 0.039 0.038 0.050 PCA 0.053 0.042 0.052 0.062 SAM-GS 0.046 0.042 0.038 0.055 ANCOVA 0.042 0.038 0.034 0.052 Global 0.001 0.009 0.016 0.034 GSEA 0.059 0.058 0.052 0.048 MaxMean 0.093 0.094 0.107 0.098 Random Forests 0.040 0.034 0.027 0.036

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(i)、(ii)、(iii)和(iv)),樹的數量到 5000 棵時,皆未達到收斂。當差異表現量為 0 時,即使提高樹的數量到 50000 棵,結果也未達到收斂,分類誤差率為 0.6 到 0.7 之間。當差異表現量為 0.8、和 1.0(圖 3.2 之(v)和(vi)),在 5000 棵以內即可得到 收斂結果。由這些圖,我們發現當基因表現差異量小的時候,由於基因組的差異 低,很難建立一有效的分類器,導致誤差不穩定。隨著基因表現量差異越來越大,

則所需的決策樹棵數遞減,很容易便達到收斂。在下一章的實證分析中,我們將 再針對分類誤差的收斂問題進行探討。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(i) (ii)

(iii) (iv)

圖 3.1、八種基因組分析方法的檢定力

(i)、 (ii)、 .3 (iii)、 (iv)、

0 10000 20000 30000 40000 50000

0.00.20.40.60.81.0

tree

value

0 1000 2000 3000 4000 5000

0.00.20.40.60.81.0

tree

value

0 1000 2000 3000 4000 5000

0.00.20.40.60.81.0

tree

value

0 1000 2000 3000 4000 5000

0.00.20.40.60.81.0

tree

value

0 1000 2000 3000 4000 5000

0.00.20.40.60.81.0

tree

value

0 1000 2000 3000 4000 5000

0.00.20.40.60.81.0

tree

value

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

相關文件