緒論 - 隨機森林分類方法於基因組顯著性檢定上之應用

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第一章、緒論

已知基因提供人類重要線索來了解生物的遺傳、發育、生長等各種生理現象及生化反應。要瞭解基因、應用基因，重要的是去探討各基因的功能和研究基因彼此之間的交互作用。在二十世紀末，人類發展出基因功能分析技術，巨量的基因資料可被迅速的獲得，後續之基因組分析便被喻為最具潛力的研究主題之一。

而特定生化代謝反應和生物調節功能往往並非由單一基因或少數基因可以解釋及調控，而是與包含數個基因所組成的集合相關。

生物實驗中一重要目的為發現與驗證受詴者某外顯表型特徵(pheno-type)與基因表現量之相關性，研究人員透過統計假設檢定之運用來驗證基因之顯著性。

目前文獻上所提出的統計方法多屬於單基因分析法，此類方法著重在偵測個別基因之顯著性，統計人員提供所有統計顯著的基因名單。由於研究人員發現某些基因彼此之間密切相關，或者依據其生物功能可將基因作適當分組，故應尋求基因組的顯著性而非專注在單一個別基因上(Rajagopalan 和 Agarwal，2005)。此為所謂的基因組分析(Gene Set Analysis)，基因組分析在近年來已逐漸受到重視。

現今用來定義基因組的資料庫包括 Gene Ontology(Harris 等人，2004)和 KEGG PATHWAY (Kanehisa 等人，2006)等。Gene Ontology(簡稱 GO)是由 Gene Ontology Consortium 組織所建立的公共資料庫，主要目的為在生物醫學領域上，

彙整與規範代表性基因。GO 資料庫主要包括三個分支: 生物過程(biological process)、分子功能(molecular function)和細胞組件(cellular component)。另一方面 KEGG (Kyoto Encyclopedia of Genes and Genome)是由 16 組主要數據庫所組成的資料庫，大致可分為系統訊息(如: KEGG PATHWAY、KEGG BRITE、KEGG MODULE 等)、基因組訊息(如:KEGG ORTHOLOGY、KEGG GENOME、KEGG GENES 等 ) 、化學訊息 ( 如 :KEGG COMPOUND 、 KEGG GLYCAN 、 KEGG REACTION)。其中我們關注的 KEGG PATHWAY 資料庫大致可以分為五個分支

‧

種類:代謝( metabolism)、遺傳訊息過程(genetic information processing )、環境訊息過程(environmental information processing)、細胞過程(cellular processes)、人類疾病(human diseases)和醫藥開發(drug development)。

本文的目的為透過統計檢定來驗證特定基因組之顯著性。針對基因組分析，

已知有兩種類型的顯著性檢定，分別為自足型(self-contained)顯著性檢定和競爭型(competitive)顯著性檢定，自足型檢定的虛無假設為此基因組中的基因皆無差異表現，當欲透過重抽法來重建其虛無分配時，多採對受詴者(subject)重新排列 (受詴者抽樣 Subject Sampling)的方式；而競爭型檢定的虛無假設為此基因組中的基因較其他基因無突出差異表現，其虛無分配之重建則是利用對基因重新排列所完成(基因抽樣 Gene Sampling)。Goeman 和 Bühlmann(2007)詳細討論與比較兩種顯著性檢定的檢定假設和相關的虛無分配，Nam and Kim (2008)則針對多個基因組分析方法，包括 GSEA、global test、GSA、SAM-GS 等，比較他們的虛無假設和相關重抽取樣方法。

傳統上統計檢定方法的程序包括首先決定適當的檢定統計量，再決定拒絕域方向與臨界點。故文獻上的基因組顯著性檢定的差異即在於提出不同檢定統計量的運用。如學者 Subramanian 等人(2005)和 Mootha 等人(2003)提出的基因富集分析(Gene Set Enrichment Analysis)考慮了整個基因組在分類表型，定義富集分數 (Enrichment Score)來了解此基因組是否與表型有相關，該 GSEA 方法被運用在癌症資料(白血病和肺癌)上，以找出顯著基因組。學者 Tian 等人(2005)和 Chen 等人(2007)考慮雙樣本 T 統計量的方法、學者 Dinu 等人(2007)提出以 SAM 統計量 (Tusher 等人，2001)為基礎的 SAM–GS 檢定、學者 Tsai 和 Chen(2009)提出 MANOVA 方法等來分析基因組顯著性。我們的方法詴著運用分類方法在驗證特定基因組的顯著性上。針對多元型態之分類表型的基因組顯著性檢定問題，我們提出以該基因組所建立之分類器(classifier)的測詴組分類誤差(test error rate)為檢定統計量(test statistic)，並以排列顯著值(permute p-value)來獲得統計結論。已知目前尚未有學者連結統計方法和分類方法來驗證特定基因組之顯著性。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在基因組資料之分類問題上，Sotiriou 等人(2003)曾應用分層群集(hierarchical clustering) 將在乳癌的分類上。 Wright 等人 (2003) 文章將貝氏預測 (Bayesian predictors)方法應用在 diffuse large B cell lymphoma(DLBCL)樣本，以了解兩種表型分類為 B cell-like (GCB)和 activated B cell-like (ABC)是否有差異，他們的結論為貝氏預測為準確的方法；Furey 等人(2000)提出的支持向量機(support vector machines)方法來分析一組包含卵巢癌組織，正常卵巢組織和其他正常組織的樣本，分析結果發現組織樣本有錯誤的標籤表型。經修正這個錯誤和移除離群值後，

則獲得良好的分類結果；Pang 等人(2006)提出以隨機森林分類法(Random Forests) 做基因組分析，他們建立各基因組的分類森林，並計算其分類誤差率，最終根據分類誤差率來決定基因組之重要性，來幫助生物學家更加了解生物系統。Pang 等人(2006)提出隨機森林分類方法比起其他機器學習分類方法(例如: Naive Bayes 等)誤判率相對較低，且在模擬研究上隨機森林在某些情況比支持向量機 (SVM)表現較好。根據 Pang 等人(2006)的建議，本篇論文考慮的分類器為 Breiman(2001)提出的隨機森林分類方法。Pang 等人(2006)雖利用隨機森林分類法在基因組分析上，但是他們未能引入統計假設檢定概念，故無法得到統計顯著性結論。在此研究中我們引入假設檢定概念在隨機森林分類方法上，來驗證特定基因組之顯著性。

本論文架構如下:第二章先定義基因組資料以及兩種顯著性檢定問題，並將仔細介紹隨機森林分類方法的步驟流程，最後將完整陳述我們所提出的檢定方法

。第三章為模擬研究，我們將透過電腦模擬實驗來驗證我們提出的方法，並且也將探討隨機森林分類方法的收斂問題。第四章則將呈現多組實際基因資料的分析結果，所獲得的統計結論也將作深入討論。另外仍將討論特定基因組的收斂性問題。第五章為本文的結論，其中包括未來研究方向與建議。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中隨機森林分類方法於基因組顯著性檢定上之應用 - 政大學術集成 (頁 8-11)

緒論

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第一章、 緒論

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

立政治大學

第一章、緒論

立政治大學

立政治大學