• 沒有找到結果。

基因演算法應用於骨質疏鬆症之不同染色體基因多型性群之關聯性分析

N/A
N/A
Protected

Academic year: 2021

Share "基因演算法應用於骨質疏鬆症之不同染色體基因多型性群之關聯性分析"

Copied!
2
0
0

加載中.... (立即查看全文)

全文

(1)

基因演算法應用於骨質疏鬆症之不同染色體基因多型性群之關聯性分析

楊正宏

a

何長軒

a

温政浩

b

張學偉

b

莊麗月

c a

高雄應用科技大學 電子工程系

b

高雄醫學大學 生物醫學暨環境生物學系

c

義守大學 化學工程系

a

Institute of Electronic Engineering, National Kaohsiung University of Applied Sciences

b

Faculty of Biomedical Science and Environmental Biology, Kaohsiung Medical University

c

Chemical Engineering, I-Shou University

摘要

對於研究骨質疏鬆症這種多基因遺傳因子疾病和單核 苷酸基因多型性(Single nucleotide polymorphisms, SNPs) 與 遺 傳 變 異 之 間 的 關 係 , 連 鎖 不 平 衡 (Linkage Disequilibrium, LD)為一重要的依據。然而根據 LD 的 分析,只能夠探討同一染色體上多個特定 SNP 與遺傳 表型的相關性。但影響骨質密度的基因,並不限於分 布在同一染色體上。因此只用 LD 分析骨質疏鬆症反應 路徑的相關基因之單核苷酸多型性,並不能完全正確 地代表基因多型性與骨質疏鬆症的相關性。為了改善 這個問題,我們利用基因演算法,從不同染色體中特 定多個 SNP 與基因型的表現頻率中,找出特定 SNP 與 其表現型之間高度相關性的類似 haplotype 組合。有別 於 LD 的微觀,利用整體基因庫內宏觀的角度,此跨越 染色體分析分散於基因庫內的多個 SNP 集合,對於研 究遺傳表型與多個 SNP 的相互作用提供另一種新的方 法。 關鍵字:單一核苷酸多型性、骨質疏鬆症、連鎖不平 衡、基因演算法 1. 前言 近年來,人類基因圖譜的解碼,讓醫學界對於疾病的 預測、預防以及治療有了全新的視野,科學家們希望 能夠從眾多的基因中找出和疾病相關的基因來幫助診 斷、預防甚至治療這類的疾病,其中基因多型性的研 究近年來相當熱門,其研究重點除了與遺傳表現型 (Phenotype)的相關性研究之外,也包括人種與族群不 同的研究。在遺傳表現型方面,單一SNP 與遺傳變異 的相關性研究,目前已累積相當的研究數量,對於現 代SNP 與基因多型性研究幫助相當大。藉由之前累積 的大量資料與候選 SNP(Candidate SNP),對於現代的 多發性因子疾病,如骨質疏鬆症(Osteoporosis)方面的 研究提供了許多候選SNP 資料。骨質疏鬆症為一種多 發性因子的疾病,主要的影響因素除了環境因素,包 括老化、停經、和BMI 值的影響外,還有遺傳方面的 影響。而現今探討骨質疏鬆症的相關SNP 研究,主要 著墨於骨質代謝的相關基因,如TNF-α 為影響骨質再 吸收作用的主要因子之ㄧ[5][6]。另一方面,一些基因 如vitamin D receptor (VDR), estrogen receptor (ESR), parathyroid hormone (PTH), glucocorticoid receptor, calcitonin receptor (CTR) (10-12), insulin-like growth factor-1, collagen 1-α-1 (COL1A1), interleukin-6, transforming growth factor-beta1 (TGF-β1) 和 APOE (14,15)。對於評估 SNP 在遺傳學的作用,連鎖不平衡 (Linkage disequilibrium, LD)為現今最常使用於分析多 個SNP 的出現,可以代表特定遺傳表現型的工具,如 PLOD、TNFRSF11B [7][8]。另一方面,造成多發性因 子的疾病其相關基因並不常位於同一染色體內,如上 述提到造成骨質疏鬆症的相關基因,TNF-α (tumor necrosis factor-α)與 Osteocalcin 分別位於 chromosome 6 和chromosome 1 [6] [9]。鑒於 LD 只能分析同一染色 體上的多個SNP 的相關性,可能導致分析骨質疏鬆症 相關基因(但位於不同的染色體上)而有所缺憾,因此需 要一套系統可以分析多個不同染色體上各個SNP 對於 骨質疏鬆症的影響與相關性研究。針對上述要求,我 們從文獻中找出與骨質疏鬆症相關的 SNP,利用已知 的實驗結果將其 genotype 排列組合,藉此找出幾種 SNP 的組合可以代表骨質疏鬆症發生的高危險群;但 由於在多個SNP 的組合之下,每個 SNP 各自又有三種 M00651

(2)

不同的 genotype,在這樣複雜的組合之下所產生的可 能組合數相當的大,要從這麼多的可能組合下找出高 低骨密度表現頻率的差異最高的組合要耗費不少時 間,因此我們利用一種容易應用於各種最佳化問題演 算法-基因演算法從不同染色體上特定的 SNP 及其 genotype 中找出高度相關性的類似 haplotype 組合(因 為haplotype 適用於同一染色體,本方法非侷限於同一 染色體,所以稱為類似haplotype)。經過測試,基因演 算法確實能在短時間內找到最具代表性的組合,而不 必將所有的可能組合都一一計算比較。 2. 基因演算法

基因演算法(Genetic Algorithm, GA)又稱遺傳算法,是 藉由模擬生物自然演化的過程來獲得最佳解[2][3]。在 基因演算法中將許多染色體(Chromosome)集合成一個 族群,在經過每一次迭代過程中透過選擇(Selection)、 交配(Crossover)、突變(Mutation)等機制,保留適應值 (Fitness Value)較高的染色體以獲得更好的解。本研究 藉由基因演算法能從廣大的解空間中迅速獲得最佳解 的特性,評估來自各種不同染色體的SNP 及其相對應 的genotype 在不同組合之下組成的類似 haplotype 組合 對骨質疏鬆症發生比例的影響可能性。 在基因演算法中由於族群裡每一個染色體皆視為一組 解,故我們依照所選取SNP 及其相對應的 genotype 來 設計染色體。染色體中的每一個基因(Gene)皆代表著每 一次所選取的 SNP 即其相對應 genotype 的情形,如 , 其 中 表 示 所 選 取 的 SNP , 表 示 當 中 被 選 取 的 genotype 其 中 ,再依照所要選取的SNP 數量來 產生染色體。 n i G Si, i), 1, 2, ..., ( = Si i G Si SNP of number n= SNP 編碼的部分由於不可重複選取,所以在編碼上以 不重複為原則,而genotype 選取的部分由於是依附在 各自的SNP 之下所以沒有重複的限制。染色體整體的 長度也會隨著選取SNP 的數量不同而有所變動。 在目標函數設計部份,本研究將資料中所有的樣本根 據骨密度(Bone mineral density, BMD) T score 的高低分 為高骨密度和低骨密度兩群,將每個染色體分別代入 高骨密度群和低骨密度群中計算出滿足該染色體所代 表解的樣本數,透過此方式將自高骨密度群和低骨密 度群所得到的樣本數代入適應值函數(Fitness function) 中計算其適應值(Fitness value),其計算公式如下: % 100 * _ _ _ _ _ _ BMD L ALL BMD H ALL BMD L BMD H + − H_BMD :高骨密度中符合選取條件的樣本數。 L_BMD :低骨密度中符合選取條件的樣本數。 ALL_H_BMD :高骨密度總樣本數。 ALL_L_BMD :低骨密度總樣本數。 族群初始化的部份利用隨機的方式來產生初始族群 (Initial Population)。初始族群中每個染色體針對兩個不 同的部分其基因隨機產生的範圍也有所不同,本研究 資料中共有11 個來自不同染色體的 SNP,而每個 SNP 皆 有 三 種 不 同 的 genotype , 故 產 生 的 範 圍

[

1, ..., 11

]

= i SGi=

[

1, ..., 3

]

, i=1, ..., n。 在 染 色 體 選 擇 的 部 份 , 本 研 究 是 採 用 明 確 取 樣 (Deterministic sampling)的方法,即在不考慮選取機率 高低的情況之下直接從族群中挑選出足夠的最佳染色 體。此方法最大的好處就是可以避免某個適應值特別 高 的 染 色 體 佔 滿 整 個 交 配 池 , 造 成 提 早 收 斂 (Convergence)陷入局部最佳化的困境。 交配和突變的部份則是分別採用雙點交配(Two-point Crossover )的方式和隨機選取一個基因來突變。然而在 經過交配和突變過後產生的子代 的部 分必須避免重複的情況發生,一旦發生上述情形便以 隨機的方式將重複的SNP 突變來解決。 n S S S1, 2, ..., 本研究中所使用參數設定族群大小為 500、交配率為 0.7、突變率為 1.0、世代數則設為 50。 3. 結果與討論 本研究實作基因演算法所使用骨質疏鬆症相關的 SNP 資料方面,總共有11 個已証實的 SNP 與其相關實驗資 料,即基因定性(Qualification)的結果。將此 11 個 SNP 分別表示為 SNP-1~SNP-11 如 Table 1。表中 Chr 和 Genotype 分別表示該 SNP 所在的染色體及其三種不同 的 基 因 型 , 也 包 含 了 SNP1~11 進 行 PCR-RFLP (polymerase chain reaction-restriction length polymorphism)基因定性所需的引子(primer)與限制酶 的資訊,也提供聚合酶鏈鎖反應(PCR)的 annealing 溫

參考文獻

相關文件

預算科目部分,總預算、特別預算及政事型特種基金填至業務(工作)計畫;業權型基金填至損益表(收支餘絀表)3級科目(xx成本或xx費用);財團法人填至收

「思有合一」外,還可以用“arche”(始基)的觀念來理解萬物存在之基

 學校選用「對學校的態度」量表,以了解學生對 學校的觀感及學生朋輩之間的關係,探討學生的 發展及成長需要。學校再於 下學年

確認改善對象:根據傷病調查結果,將個案區分為確診疾病、有 危害、疑似有危害、無危害等四個等級如表

Keywords: pattern classification, FRBCS, fuzzy GBML, fuzzy model, genetic algorithm... 第一章

目的:讓學生多了解自己的能力 和升學就業取向,因應學生 不同的性格及興趣等作出.

4.2 Copy the selected individuals, then apply genetic operators (crossover and mutation) to them to produce new individuals.. 4.3 Select other individuals at random and

本論文之目的,便是以 The Up-to-date Patterns Mining 演算法為基礎以及導 入 WDPA 演算法的平行分散技術,藉由 WDPA