• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第五章 結論

在此研究中,針對兩組具有不同的外顯狀態受詴者,為了偵測兩組間具有差 異表現的基因,我們提出 PMLE 統計檢定方法。此處的基因資料產生自 Rna-Seq 實驗,其屬於計數型的資料,而且實務上該資料大多會有過度離散的問題,所以 我們假設資料來自負二項分配,並考慮以最大概似估計方法來估計參數。由於在 機率質量函數的數值計算上遇到困難,所以我們利用 Stirling’s formula 得到 近似機率質量函數。另一方面由於負二項分配中的過度離散參數在參數估計上也 相當困難,我們採用擬概似方程式來替代並估計參數,得到最大擬概似估計量,

並根據其大樣本漸進常態的性質找出檢定差異表現基因之 Wald 檢定統計量,稱 為 PMLE 方法。最後並在錯誤發現率準則下對 p-值進行校正,我們採用兩個常用 的校正方法為 BH 方法和 q-value 方法來控制錯誤發現率。

在第三章的模擬研究中,考慮固定顯著基因個數下,我們發現一般而言 PMLE 法的錯誤發現率傾向高於其他兩個方法。而考慮固定 FDR 水準,當基因不存在過 度離散時,PMLE 採用兩種校正方法皆提供較保守的結論。當基因存在過度離散 時,則兩種校正方法都提供過度樂觀的結論。但增加樣本數有助於改善 PMLE 法 的結論。而從第四章實證資料分析中我們發現在 Marioni (2008)資料上 PMLE 方 法所偵測出的顯著差異表現基因個數和其他兩方法相近,三方法所偵測出基因重 疊性高,故三方法在此組資料上分析表現差距不大。然而在’t Hoen (2008)資料 分析上,我們發現三方法共同偵測出的顯著基因相對少,且 PMLE 方法所找出的 顯著基因個數比其他兩方法來得多。

上述提到我們提出的 PMLE 統計檢定法是根據大樣本漸進常態的性質來計算 p-value,但由於 RNA-Seq 實驗費用考量,樣本數都相當少,其大樣本漸進性質 的適用性存疑,且我們從第四章實證資料分析中發現 PMLE 方法比其他兩法偵測 出的顯著基因數還多,傾向提供過度樂觀的結論,這也許是因為大樣本分配的不 適當,造成型一誤差率膨脹所造成的結果。未來可以尋求小樣本適用的無母數方

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

法,例如:重抽方法,以改善 p-value 的估算。另外本文提出的 PMLE 方法適用 於比較兩組具有不同外顯狀態樣本,未來我們可以運用變異數分析的方法運用在 至三組以上樣本的比較。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

參考文獻

[1] Auer, P. L. and Doerge, R. W. (2011) A Two-stage Poisson Model for Testing RNA-Seq Data, Statistical Applications in Genetics and Molecular Biology, 10, 1–26.

[2] Benjamini, Y. and Hochberg, Y. (1995) Controlling the False Discovery Rate: a Practical and Powerful Approach to Multiple Testing, J. Roy. Statist. Soc. Ser. B, 57, 289-300.

[3] Hall, J.M., Lee, M.K., Newman, B., Morrow, J.E., Anderson, L.A., Huey, B., King, M.C.(1990) Linkage of Early-Onset Familial Breast Cancer to Chromosome 17q21.

Science, 250, 1684–1689.

[4] Li, J., Witten, D. M., Johnstone, I. M. and Tibshirani, R. (2012) Normalization, Testing, and False Discovery Rate Estimation for RNA-sequencing Data, Biostatistics, 13,523-538.

[5] Marioni, J. C., Mason, C.E., Mane, S. M., Stephens, M. and Gilad, Y. (2008) Rna-seq:

an Assessment of Technical Reproducibility and Comparison with Gene Expression Arrays,Genome Res., 18, 1509-1517.

[6] Nakashima, E. (1997) Some Methods for Estimation in a Negative-Binomial Model, Ann.

Inst. Statist. Math., 49, 101-105.

[7] Pao, W., Miller, V., Zakowski, M., Doherty, J., Politi, K., Sarkaria, I., Singh, B., Heelan, R., Rusch, V., Fulton, L., Mardis, E., Kupfer, D., Wilson, R., Kris, M. and Varmus, H.

(2004) EGF Receptor Gene mutations are Common in Lung Cancers from Never Smokers and are associated with Sensitivity of Tumors to Gefitinib and Erlotinib, Proceedings of the National Academy of Sciences of the United States of America, 101, 13306–13311.

[8] Robinson, M. D., McCarthy, D. J. and Smyth, G. K. (2010) edgeR: a Bioconductor Package for Differential Expression Analysis of Digital Gene Expression Data, Bioinformatics, 26,139-140.

[9] Robinson, M. D. and Smyth, G. K. (2007) Moderated Statistical Tests for Assessing Differences in Tag Abundance, Bioinformatics, 23, 2881-2887.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

[10] Robinson, M. D. and Smyth, G. K. (2008) Small-sample Estimation of Negative Binomial Dispersion, with Applications to SAGE Data, Biostatistics, 9, 321-332.

[11] Storey, J. D. (2003) The Positive False Discovery Rate: a Bayesian Interpretation and the q-value, Annals of Statistics, 31, 2013-2035.

[12] ’t Hoen, P. A. C., Ariyurek, Y., Thygesen, H. H., Vreugdenhil, E., Vossen, R. H., De Menezes, R. X., Boer, J. M., Van Ommen, G. J. and Den Dunnen, J. T. (2008) Deep Sequencing-Based Expression Analysis Shows Major Advances in Robustness,

Resolution and Inter-lab Portability over Five Microarray Platforms. Nucleic Acids Research, 36, e141.

[13] Wang, Z., Gerstein, M. and Snyder, M. (2009) RNA-Seq: a Revolutionary Tool for Transcriptomics,Nat. Rev. Genet., 10, 57-63.

相關文件