• 沒有找到結果。

第三章 模擬研究與探討

第二節 模擬結果

(pseudo likelihood)對參數進行最大概似估計法。而檢定方法方面,PoissonSeq 法採用 Score Test 為檢定統計量以避免複雜的參數估計問題,edgeR 方法中的 的定義為 Benjamini 和 Hochberg(1995) 所提出:

,此為蒙地卡羅模擬(Monte Carlo simulation)的精神,

並以此繪製 FDR 曲線。當一檢定方法擁有較高的 FDR 曲線時,則代表其有較多的 錯誤顯著結論,故表現較差。另一方面,在每一次分析中,BH 校正法與 q 值皆 提供該組資料之 FDR 水準之估計,我們取這 100 次模擬結果的平均,計算出估

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

計 FDR 的平均數,藉由比較此平均 FDR 圖形與前述之真實水準估計,我們可得 知這些校正方法結論的適當性。若估計 FDR 曲線高於真實 FDR 估計曲線時,則 找到的顯著基因個數低於真實顯著個數,則代表其檢定結果較保守。反之,若估 計 FDR 曲線低於真實 FDR 估計曲線時,會找到偏多的顯著基因個數,則其檢定 結果過度樂觀,有較多的錯誤顯著結論。

圖二至圖四為樣本數為五個的相關圖型,而圖五至圖七則為樣本數為十的圖 型。其中圖二、圖五為每個基因無過度離散(p=0)現象,圖三、圖六為每個基因 有 p=50%的機會發生過度離散,而圖四、圖七則是每個基因皆發生過度離散情 境。各情境中皆包括四個圖,(a)-(d)。其中圖(a)為三種檢定方法由 100 次模擬估 計真實 FDR 的曲線圖。圖(b)、圖(c)與圖(d)為三個方法的真實 FDR 估計曲線和 其 100 次模擬結果的估計 FDR 曲線。其中 PMLE 法的估計 FDR 曲線採用 BH 校 正 p-values 及 q-value 方法,edgeR 法則採 BH 校正 p-values,而 PoissonSeq 採用 其自有的校正方法。

由圖二(a)可發現 PoissonSeq 方法和 edgeR 方法兩者錯誤發現率幾乎相同。

PMLE 法之 FDR 曲線則較其他兩法來得高,故我們的方法表現較差。圖二(b)可 發現我們提出的 PMLE 法採用 qvalue 方法和 BH 方法在 FDR 估計上都有高估的 現象,此高估會造成研究者將獲得較保守的檢定結果。其中 BH 方法比 qvalue 方法來得更保守,故在各組樣本數五個,所有基因不存在過度離散狀況下,我們 建議 PMLE 法應利用 qvalue 校正法。圖二(c)發現 edgeR 方法所估計的 FDR 嚴重 高估其真實 FDR。圖二(d)可發現 PoissonSeq 之估計 FDR 估計結果和真實 FDR 相差不大,在估計 FDR 上,PoissonSeq 為三種中表現最好的方法。

在圖三中各組樣本數五個,每個基因有 50%機會發生過度離散現象。圖三(a) 發現三種方法錯誤發現率表現與圖二(a)不同,此時三條 FDR 曲線交錯。

PoissonSeq 在前半段由於容易偵測錯誤導致有很高的錯誤發現率,另外 edgeR 法 在尾段上有部分圖形超過 0.8,此代表該檢定的檢定力可能低於型一誤差率。圖 三(b)可發現當 PMLE 檢定利用 qvalue 和 BH 校正 p-value 對 FDR 的估計結果多

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

數都有低估的現象,低估的結果會造成研究者對檢定結果較樂觀,且 qvalue 方 法比 BH 方法來的更樂觀,故當基因有中度的過度離散時,建議使用較保守的 BH 校正方法在 PMLE 檢定上。圖三(c)可發現 BH 方法估計 FDR 結果為嚴重高 估。圖三(d)中 PoissonSeq 之估計 FDR 估計結果和真實 FDR 相近。

在圖四中,各組樣本數為五個,而所有基因皆存在過度離散現象。圖四(a) 三種方法錯誤發現率表現與圖二(a)大致相同,同樣的 PoissonSeq 在前端部分較 容易有錯誤偵測。圖四(b)中 PMLE 法兩種校正法低估 FDR,且低估程度更甚半 數基因存在過度離散的狀況,見圖三(b)。圖四(c)BH 方法估計 FDR 結果亦為高 估。圖四(d),同樣地 PoissonSeq 之估計 FDR 估計結果和真實 FDR 比較相近。

圖五、圖六與圖七圖形趨勢大致上與圖二、圖三與圖四相似,其中唯一有差 異的地方可以從圖五、圖六與圖七中的(b)圖發現 PMLE 法的估計 FDR 曲線較靠 近真實 FDR 估計曲線,所以當樣本數增加,可以使 PMLE 法在估計 FDR 上更加 準確。

總結以上結果,我們發現 PMLE 法的錯誤發現率較另外兩個方法差。當無 過度離散時,則 PMLE 法採用 q-value 校正將提供較不保守的結論。當過度離散 發生時,則兩種校正方法都提供過度樂觀的結論。而 edgeR 法採用的 BH 校正法 則普遍的提供過度保守的結論。PoissonSeq 的結論之錯誤率則最靠近其真實水 準。值得一提的是,當過度離散發生時,拒絕個數少的時候,PoissonSeq 結論的 FDR 值偏高。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(a) (b)

(c) (d)

圖二:各組樣本數五個,所有基因不存在過度離散現象。(a):三種方法真實 FDR 曲線圖。(b):PMLE 真實 FDR 和由 BH 方法及 q-value 方法所估計之 FDR。(c):edgeR 真實 FDR 以及由 BH 方法所估計之 FDR。(d):PoissonSeq 真實 FDR 以及其估計 FDR。

圖 二

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(a) (b)

(c) (d)

圖三:各組樣本數五個,有一半存在過度離散現象。(a):三種方法真實 FDR 曲線圖。(b):PMLE 真實 FDR 和由 BH 方法及 q-value 方法所估計之 FDR。(c):edgeR 真實 FDR 以及由 BH 方法所估計之 FDR。

(d):PoissonSeq 真實 FDR 以及其估計 FDR。

圖 三

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(a) (b)

(c) (d)

圖四:各組樣本數五個,所有基因存在過度離散現象。(a):三種方法真實 FDR 曲線圖。(b):PMLE 真實 FDR 和由 BH 方法及 q-value 方法所估計之 FDR。(c):edgeR 真實 FDR 以及由 BH 方法所估計之 FDR。(d):PoissonSeq 真實 FDR 以及其估計 FDR。

圖 四

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(b) (a)

(c) (d)

圖五:各組樣本數十個,所有基因不存在過度離散現象。(a):三種方法真實 FDR 曲線圖。(b):PMLE 真實 FDR 和由 BH 方法及 q-value 方法所估計之 FDR。(c):edgeR 真實 FDR 以及由 BH 方法所估計之 FDR。(d):PoissonSeq 真實 FDR 以及其估計 FDR。

圖 五

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(a) (b)

(c) (d)

圖六:各組樣本數十個,一半基因存在過度離散現象。(a):三種方法真實 FDR 曲線圖。(b):PMLE 真 實 FDR 和由 BH 方法及 q-value 方法所估計之 FDR。(c):edgeR 真實 FDR 以及由 BH 方法所估計之 FDR。

(d):PoissonSeq 真實 FDR 以及其估計 FDR。

圖 六

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(a) (b)

(c) (d)

圖七:各組樣本數十個,所有基因存在過度離散現象。(a):三種方法真實 FDR 曲線圖。(b):PMLE 真 實 FDR 和由 BH 方法及 q-value 方法所估計之 FDR。(c):edgeR 真實 FDR 以及由 BH 方法所估計之 FDR。

(d):PoissonSeq 真實 FDR 以及其估計 FDR。

圖 七

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

相關文件