基因演算法應用於骨質疏鬆症之不同染色體基因多型性群之關聯性分析
楊正宏
a何長軒
a温政浩
b張學偉
b莊麗月
c a高雄應用科技大學 電子工程系
b高雄醫學大學 生物醫學暨環境生物學系
c義守大學 化學工程系
aInstitute of Electronic Engineering, National Kaohsiung University of Applied Sciences
b
Faculty of Biomedical Science and Environmental Biology, Kaohsiung Medical University
c
Chemical Engineering, I-Shou University
摘要對於研究骨質疏鬆症這種多基因遺傳因子疾病和單核 苷酸基因多型性(Single nucleotide polymorphisms, SNPs) 與 遺 傳 變 異 之 間 的 關 係 , 連 鎖 不 平 衡 (Linkage Disequilibrium, LD)為一重要的依據。然而根據 LD 的 分析,只能夠探討同一染色體上多個特定 SNP 與遺傳 表型的相關性。但影響骨質密度的基因,並不限於分 布在同一染色體上。因此只用 LD 分析骨質疏鬆症反應 路徑的相關基因之單核苷酸多型性,並不能完全正確 地代表基因多型性與骨質疏鬆症的相關性。為了改善 這個問題,我們利用基因演算法,從不同染色體中特 定多個 SNP 與基因型的表現頻率中,找出特定 SNP 與 其表現型之間高度相關性的類似 haplotype 組合。有別 於 LD 的微觀,利用整體基因庫內宏觀的角度,此跨越 染色體分析分散於基因庫內的多個 SNP 集合,對於研 究遺傳表型與多個 SNP 的相互作用提供另一種新的方 法。 關鍵字:單一核苷酸多型性、骨質疏鬆症、連鎖不平 衡、基因演算法 1. 前言 近年來,人類基因圖譜的解碼,讓醫學界對於疾病的 預測、預防以及治療有了全新的視野,科學家們希望 能夠從眾多的基因中找出和疾病相關的基因來幫助診 斷、預防甚至治療這類的疾病,其中基因多型性的研 究近年來相當熱門,其研究重點除了與遺傳表現型 (Phenotype)的相關性研究之外,也包括人種與族群不 同的研究。在遺傳表現型方面,單一SNP 與遺傳變異 的相關性研究,目前已累積相當的研究數量,對於現 代SNP 與基因多型性研究幫助相當大。藉由之前累積 的大量資料與候選 SNP(Candidate SNP),對於現代的 多發性因子疾病,如骨質疏鬆症(Osteoporosis)方面的 研究提供了許多候選SNP 資料。骨質疏鬆症為一種多 發性因子的疾病,主要的影響因素除了環境因素,包 括老化、停經、和BMI 值的影響外,還有遺傳方面的 影響。而現今探討骨質疏鬆症的相關SNP 研究,主要 著墨於骨質代謝的相關基因,如TNF-α 為影響骨質再 吸收作用的主要因子之ㄧ[5][6]。另一方面,一些基因 如vitamin D receptor (VDR), estrogen receptor (ESR), parathyroid hormone (PTH), glucocorticoid receptor, calcitonin receptor (CTR) (10-12), insulin-like growth factor-1, collagen 1-α-1 (COL1A1), interleukin-6, transforming growth factor-beta1 (TGF-β1) 和 APOE (14,15)。對於評估 SNP 在遺傳學的作用,連鎖不平衡 (Linkage disequilibrium, LD)為現今最常使用於分析多 個SNP 的出現,可以代表特定遺傳表現型的工具,如 PLOD、TNFRSF11B [7][8]。另一方面,造成多發性因 子的疾病其相關基因並不常位於同一染色體內,如上 述提到造成骨質疏鬆症的相關基因,TNF-α (tumor necrosis factor-α)與 Osteocalcin 分別位於 chromosome 6 和chromosome 1 [6] [9]。鑒於 LD 只能分析同一染色 體上的多個SNP 的相關性,可能導致分析骨質疏鬆症 相關基因(但位於不同的染色體上)而有所缺憾,因此需 要一套系統可以分析多個不同染色體上各個SNP 對於 骨質疏鬆症的影響與相關性研究。針對上述要求,我 們從文獻中找出與骨質疏鬆症相關的 SNP,利用已知 的實驗結果將其 genotype 排列組合,藉此找出幾種 SNP 的組合可以代表骨質疏鬆症發生的高危險群;但 由於在多個SNP 的組合之下,每個 SNP 各自又有三種 M00651
不同的 genotype,在這樣複雜的組合之下所產生的可 能組合數相當的大,要從這麼多的可能組合下找出高 低骨密度表現頻率的差異最高的組合要耗費不少時 間,因此我們利用一種容易應用於各種最佳化問題演 算法-基因演算法從不同染色體上特定的 SNP 及其 genotype 中找出高度相關性的類似 haplotype 組合(因 為haplotype 適用於同一染色體,本方法非侷限於同一 染色體,所以稱為類似haplotype)。經過測試,基因演 算法確實能在短時間內找到最具代表性的組合,而不 必將所有的可能組合都一一計算比較。 2. 基因演算法
基因演算法(Genetic Algorithm, GA)又稱遺傳算法,是 藉由模擬生物自然演化的過程來獲得最佳解[2][3]。在 基因演算法中將許多染色體(Chromosome)集合成一個 族群,在經過每一次迭代過程中透過選擇(Selection)、 交配(Crossover)、突變(Mutation)等機制,保留適應值 (Fitness Value)較高的染色體以獲得更好的解。本研究 藉由基因演算法能從廣大的解空間中迅速獲得最佳解 的特性,評估來自各種不同染色體的SNP 及其相對應 的genotype 在不同組合之下組成的類似 haplotype 組合 對骨質疏鬆症發生比例的影響可能性。 在基因演算法中由於族群裡每一個染色體皆視為一組 解,故我們依照所選取SNP 及其相對應的 genotype 來 設計染色體。染色體中的每一個基因(Gene)皆代表著每 一次所選取的 SNP 即其相對應 genotype 的情形,如 , 其 中 表 示 所 選 取 的 SNP , 表 示 當 中 被 選 取 的 genotype 其 中 ,再依照所要選取的SNP 數量來 產生染色體。 n i G Si, i), 1, 2, ..., ( = Si i G Si SNP of number n= SNP 編碼的部分由於不可重複選取,所以在編碼上以 不重複為原則,而genotype 選取的部分由於是依附在 各自的SNP 之下所以沒有重複的限制。染色體整體的 長度也會隨著選取SNP 的數量不同而有所變動。 在目標函數設計部份,本研究將資料中所有的樣本根 據骨密度(Bone mineral density, BMD) T score 的高低分 為高骨密度和低骨密度兩群,將每個染色體分別代入 高骨密度群和低骨密度群中計算出滿足該染色體所代 表解的樣本數,透過此方式將自高骨密度群和低骨密 度群所得到的樣本數代入適應值函數(Fitness function) 中計算其適應值(Fitness value),其計算公式如下: % 100 * _ _ _ _ _ _ BMD L ALL BMD H ALL BMD L BMD H + − H_BMD :高骨密度中符合選取條件的樣本數。 L_BMD :低骨密度中符合選取條件的樣本數。 ALL_H_BMD :高骨密度總樣本數。 ALL_L_BMD :低骨密度總樣本數。 族群初始化的部份利用隨機的方式來產生初始族群 (Initial Population)。初始族群中每個染色體針對兩個不 同的部分其基因隨機產生的範圍也有所不同,本研究 資料中共有11 個來自不同染色體的 SNP,而每個 SNP 皆 有 三 種 不 同 的 genotype , 故 產 生 的 範 圍