緒論 - 運用充分資料縮減法於基因組分析

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第一章、緒論

由美國政府支持的人類基因體計畫於 2003 年 4 月宣告完成，此計畫將人類去氧核醣核酸(DNA)的三十億個鹼基對進行定序，約含有四萬個基因，此後科學家得以更直接的方式掌握所有的基因資訊，進而促使生物學界對基因研究的蓬勃發展。在人類基因體計畫完成後，生物學家以微處理技術發展基因晶片(gene chip)，

將基因的 mRNA 量標記在基因晶片上，再透過影像分析軟體將基因表現數值化。

基因晶片可以同時針對生物體內數以萬計的基因進行表現量分析，不論是細胞生命週期、藥物研發中對於藥物作用位置的篩選，還是臨床疾病診斷或預測等研究，

都是基因晶片可以應用的範疇。現今研究人員能有效率的取得龐大的基因表現量資料，但隨之而來的是分析巨量資料的挑戰。

過去的基因研究多為偵測個別基因之顯著性之單基因分析法 (Individual Gene Analysis)，但此研究方法存有許多缺點。由於疾病及生理現象多是由許多基因共同調控的結果，對單獨基因進行研究將無法捕捉基因間互相作用的複雜結構關係，因此生物學家考慮依據生物途徑或生物功能，將具有共同作用的基因定義成基因組。分子特徵資料庫(Molecular Signatures Database，MSigDB)於 2005 年 3 月由數個研究單位所合作建立，為目前最廣為使用的基因資料庫。目前的版本中包含七個主系列—C1-C7，以及數個子系列。例如 C1 主系列為位置基因組 (positional gene sets)主要可應用於人類染色體與細胞遺傳學研究。C2 主系列為歸納基因組(curated gene sets) ，是經由彙整包括 BioCarta、KEGG、GenMAPP 等基因資料庫，以及醫學期刊的結果所獲得之基因集合。主要用來研究生物途徑、

化學以及遺傳擾動等。

生物研究中的重要目的之一是探索基因組表現量與外顯特徵(phenotype)之間的相關性，當以基因組為單位研究基因組與外顯特徵的相關性稱為基因組分析 (gene set analysis，GSA)。此類分析更能反映真實的生物學情況，且能較合理的解釋生物現象，近年來已逐漸取代單基因分析法。文獻上研究人員已發展出許多

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

基因組分析方法，以篩選出造成差異表徵的重要基因組。這些方法之差別多在於使用不同的檢定統計量，例如:Subramanian 等學者(2005)提出基因組富集分析 (Gene Set Enrichment Analysis)，是以 Kolmogorov–Smirnov 統計量為基礎定義所謂的富集分數(enrichment score)，用來測定基因組與二元型態外顯特徵的相關性。

Dinu 等學者(2007)將 Tusher 等學者(2001)的單基因分析法 SAM (Significance Analysis of Microarray)改良成得以運用於基因組分析的 SAM-GS 方法；Ye 和 Eskin(2007)以變異數分析為基礎發展一種新的基因組分析方法。Pang 等學者 (2006)以及 Hsueh 等學者(2013)提出以隨機森林分類法(Random Forests)做基因組分析，他們建立各個基因組的分類森林，並計算各分類誤差率，最後根據分類誤差率決定基因組之重要性。

基因組分析能廣泛運用於生物醫學領域，以研究各種複雜疾病與基因組之間的關係。Gao 等學者(2014)利用基因富集分析證實高表現量的 CCNA2 蛋白與 ER+

乳腺癌有顯著關係，且 CCNA2 能用來監測乳腺癌藥物的治療效果;Biernacka 等學者(2013)鑑定酒精依賴與特定生物途徑的關聯性；另一方面，Yan(2008)以性別為外顯特徵分析淋巴母細胞資料，識別兩性之間細胞遺傳差異;Ye 和 Eskin(2007) 則運用基因組分析方法於阿茲海默症資料，以精神狀態測驗診斷將患者分為初期、

中度及重度，檢測阿茲海默症與基因組間的調控原理。

前述的研究中，較多的基因組分析方法是針對離散型態的外顯特徵變數，例如性別、罹癌與否或症狀程度。在臨床醫學上，很多疾病的外顯特徵測量則屬於連續型變數，例如:腫瘤大小、生物標記(biomarker)的表現量等。若將連續型外顯特徵進行類別分組離散化，將損失重要資訊。本研究將針對連續型外顯特徵變數的基因組分析進行探討。已知 Dinu 等學者(2013)針對該問題提出線性組合檢定法(Linear Combination Test)。他們考慮基因組的線性組合集合，以該集合中與特徵變數之最高相關係數為檢定統計量，並以無母數排列重抽法 (permutation resampling)計算其排列顯著值。在他們的方法中，由於僅考慮基因的線性組合，

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

故將無法偵測其他重要資訊。Wang 等學者(2014)研究中發現，此線性組合法在小樣本之非線性資料下檢定能力非常差。

Cook 與 Weisberg(1991)提出切片平均變異數估計法(Sliced Average Variance Estimator，簡稱SAVE)，目的為估計預測變數X 對反應變數Y 的中央子空間的基底向量，並利用此基底向量得以將資料進行維度縮減。Cook、Weisberg 與 Shao(2007)提出利用 SAVE 為基礎所發展的邊際維度檢定法(Marginal Dimension Test)來決定原始資料被縮減的程度，即縮減子空間的維度。若縮減子空間的維度為零，即代表反應變數Y 與預測變數X兩者獨立。徐碩亨、薛慧敏(2013)利用此

方法於檢定基因組表現量 X 與二元型態的外顯變數 Y 之間的相關性，並應用於

基因組分析問題上。該論文考慮以排列重抽法建構邊際維度檢定統計量的虛無分配，藉此計算排列顯著值並下檢定結論。在論文中並以電腦模擬來估計該邊際維度檢定法之型一誤差率(type I error rate)與檢定力(power)。但徐碩亨、薛慧敏(2013) 在論文中並未將該方法運用在實際資料中，故無法了解該方法之實用性。

本文將延伸徐碩亨、薛慧敏(2013)之邊際維度檢定法，將其發展為適用連續型外顯特徵的基因組分析方法。此時在切片平均變異數估計法中，必須依據外顯特徵變數 Y 值將資料切割成數個切片，再根據邊際維度檢定統計量判斷Y 與 X 的相關程度，其中邊際維度檢定統計量主要測量組間 X，也就是 X 條件分佈之 二階動差的變異。已知在迴歸分析中，最普遍的模型分配假設為常態-常態模型，

但我們將推導出在此模型下，Y 的資訊只存在 X 條件分佈的一階動差中。為了更

有效利用以Y 為分組依據所增加的訊息，我們將改良原有的邊際維度檢定統計量，

另提出一新的檢定統計量。我們將透過電腦模擬以及實例分析來評估所提出的邊

際維度檢定法，同時我們也將列入 Dinu 等學者(2013)所發展的線性組合檢定法 (Linear Combination Test)的結果以作為比較。

本論文架構如下:第二章我們將簡介切片平均變異數估計法以及邊際維度檢定法。另外也將列出在常態-常態分配模型下的一些理論結果，並介紹改良型邊

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

際維度檢定法。第三章則進行模擬分析以驗證第二章中所提出的方法的有效性，

另外也將與線性組合法做比較。第四章則將呈現運用於一組實際基因資料下的分析結果。本文的總結，包括未來研究方向與建議則將列於第五章。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中運用充分資料縮減法於基因組分析 - 政大學術集成 (頁 4-8)

緒論

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第一章、 緒 論

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

立政治大學

第一章、緒論

立政治大學

立政治大學

立政治大學

立政治大學