國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
1
第一章、 緒 論
由美國政府支持的人類基因體計畫於 2003 年 4 月宣告完成,此計畫將人類 去氧核醣核酸(DNA)的三十億個鹼基對進行定序,約含有四萬個基因,此後科學 家得以更直接的方式掌握所有的基因資訊,進而促使生物學界對基因研究的蓬勃 發展。在人類基因體計畫完成後,生物學家以微處理技術發展基因晶片(gene chip),
將基因的 mRNA 量標記在基因晶片上,再透過影像分析軟體將基因表現數值化。
基因晶片可以同時針對生物體內數以萬計的基因進行表現量分析,不論是細胞生 命週期、藥物研發中對於藥物作用位置的篩選,還是臨床疾病診斷或預測等研究,
都是基因晶片可以應用的範疇。現今研究人員能有效率的取得龐大的基因表現量 資料,但隨之而來的是分析巨量資料的挑戰。
過去的基因研究多為偵測個別基因之顯著性之單基因分析法 (Individual Gene Analysis),但此研究方法存有許多缺點。由於疾病及生理現象多是由許多 基因共同調控的結果,對單獨基因進行研究將無法捕捉基因間互相作用的複雜結 構關係,因此生物學家考慮依據生物途徑或生物功能,將具有共同作用的基因定 義成基因組。分子特徵資料庫(Molecular Signatures Database,MSigDB)於 2005 年 3 月由數個研究單位所合作建立,為目前最廣為使用的基因資料庫。目前的版 本中包含七個主系列—C1-C7,以及數個子系列。例如 C1 主系列為位置基因組 (positional gene sets)主要可應用於人類染色體與細胞遺傳學研究。C2 主系列為歸 納基因組(curated gene sets) ,是經由彙整包括 BioCarta、KEGG、GenMAPP 等 基因資料庫,以及醫學期刊的結果所獲得之基因集合。主要用來研究生物途徑、
化學以及遺傳擾動等。
生物研究中的重要目的之一是探索基因組表現量與外顯特徵(phenotype)之 間的相關性,當以基因組為單位研究基因組與外顯特徵的相關性稱為基因組分析 (gene set analysis,GSA)。此類分析更能反映真實的生物學情況,且能較合理的 解釋生物現象,近年來已逐漸取代單基因分析法。文獻上研究人員已發展出許多
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
2
基因組分析方法,以篩選出造成差異表徵的重要基因組。這些方法之差別多在於 使用不同的檢定統計量,例如:Subramanian 等學者(2005)提出基因組富集分析 (Gene Set Enrichment Analysis),是以 Kolmogorov–Smirnov 統計量為基礎定義所 謂的富集分數(enrichment score),用來測定基因組與二元型態外顯特徵的相關性。
Dinu 等學者(2007)將 Tusher 等學者(2001)的單基因分析法 SAM (Significance Analysis of Microarray)改良成得以運用於基因組分析的 SAM-GS 方法;Ye 和 Eskin(2007)以變異數分析為基礎發展一種新的基因組分析方法。Pang 等學者 (2006)以及 Hsueh 等學者(2013)提出以隨機森林分類法(Random Forests)做基因組 分析,他們建立各個基因組的分類森林,並計算各分類誤差率,最後根據分類誤 差率決定基因組之重要性。
基因組分析能廣泛運用於生物醫學領域,以研究各種複雜疾病與基因組之間 的關係。Gao 等學者(2014)利用基因富集分析證實高表現量的 CCNA2 蛋白與 ER+
乳腺癌有顯著關係,且 CCNA2 能用來監測乳腺癌藥物的治療效果;Biernacka 等 學者(2013)鑑定酒精依賴與特定生物途徑的關聯性;另一方面,Yan(2008)以性別 為外顯特徵分析淋巴母細胞資料,識別兩性之間細胞遺傳差異;Ye 和 Eskin(2007) 則運用基因組分析方法於阿茲海默症資料,以精神狀態測驗診斷將患者分為初期、
中度及重度,檢測阿茲海默症與基因組間的調控原理。
前述的研究中,較多的基因組分析方法是針對離散型態的外顯特徵變數,例 如性別、罹癌與否或症狀程度。在臨床醫學上,很多疾病的外顯特徵測量則屬於 連續型變數,例如:腫瘤大小、生物標記(biomarker)的表現量等。若將連續型外顯 特徵進行類別分組離散化,將損失重要資訊。本研究將針對連續型外顯特徵變數 的基因組分析進行探討。已知 Dinu 等學者(2013)針對該問題提出線性組合檢定 法(Linear Combination Test)。他們考慮基因組的線性組合集合,以該集合中與特 徵變數之最高相關係數為檢定統計量,並以無母數排列重抽法 (permutation resampling)計算其排列顯著值。在他們的方法中,由於僅考慮基因的線性組合,
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
3
故將無法偵測其他重要資訊。Wang 等學者(2014)研究中發現,此線性組合法在 小樣本之非線性資料下檢定能力非常差。
Cook 與 Weisberg(1991)提出切片平均變異數估計法(Sliced Average Variance Estimator,簡稱SAVE),目的為估計預測變數X 對反應變數Y 的中央子空間的基 底向量,並利用此基底向量得以將資料進行維度縮減。Cook、Weisberg 與 Shao(2007)提出利用 SAVE 為基礎所發展的邊際維度檢定法(Marginal Dimension Test)來決定原始資料被縮減的程度,即縮減子空間的維度。若縮減子空間的維度 為零,即代表反應變數Y 與預測變數X兩者獨立。徐碩亨、薛慧敏(2013)利用此
方法於檢定基因組表現量 X 與二元型態的外顯變數 Y 之間的相關性,並應用於
基因組分析問題上。該論文考慮以排列重抽法建構邊際維度檢定統計量的虛無分 配,藉此計算排列顯著值並下檢定結論。在論文中並以電腦模擬來估計該邊際維 度檢定法之型一誤差率(type I error rate)與檢定力(power)。但徐碩亨、薛慧敏(2013) 在論文中並未將該方法運用在實際資料中,故無法了解該方法之實用性。
本文將延伸徐碩亨、薛慧敏(2013)之邊際維度檢定法,將其發展為適用連續 型外顯特徵的基因組分析方法。此時在切片平均變異數估計法中,必須依據外顯 特徵變數 Y 值將資料切割成數個切片,再根據邊際維度檢定統計量判斷Y 與 X 的相關程度,其中邊際維度檢定統計量主要測量組間 X,也就是 X 條件分佈之 二階動差的變異。已知在迴歸分析中,最普遍的模型分配假設為常態-常態模型,
但我們將推導出在此模型下,Y 的資訊只存在 X 條件分佈的一階動差中。為了更
有效利用以Y 為分組依據所增加的訊息,我們將改良原有的邊際維度檢定統計量,
另提出一新的檢定統計量。我們將透過電腦模擬以及實例分析來評估所提出的邊
際維度檢定法,同時我們也將列入 Dinu 等學者(2013)所發展的線性組合檢定法 (Linear Combination Test)的結果以作為比較。
本論文架構如下:第二章我們將簡介切片平均變異數估計法以及邊際維度檢 定法。另外也將列出在常態-常態分配模型下的一些理論結果,並介紹改良型邊
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
4
際維度檢定法。第三章則進行模擬分析以驗證第二章中所提出的方法的有效性,
另外也將與線性組合法做比較。第四章則將呈現運用於一組實際基因資料下的分 析結果。本文的總結,包括未來研究方向與建議則將列於第五章。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
5