研究背景 - 使用智慧型三目標基因演算法選取標籤單核苷酸多型性

人類基因體計畫(Human Genome Project)在 2000 年完成，基因體分析的相關研究剛開始發展的時候，是以如何儲存 DNA、RNA 及蛋白質序列等各式各樣的生物資料庫為當時生物資訊學的發展重點；其後，研究焦點即移轉至如何由資料庫中尋找出有用的資訊並藉由分析及解釋核苷酸序列、蛋白質序列等資訊，以找出序列中影響疾病發生的不正常變異所在。近年來許多學者致力於探究基因體與序列中SNP(Single Nucleotide Polymorphism；SNP)對人類疾病的發生與特徵性向的表現之影響 [1, 2]。相關文獻中顯示 SNP 是影響疾病與特徵發生的主因，因此本研究將針對SNP 作探討，為方便闡述本論文及研究主題，以下我們將先針對一些相關的分子生物等專有名詞加以介紹。

1.1.1 DNA、變異(Variation)、突變(Mutation)

去氧核醣核酸(Deoxyribo Nucleic Acid；DNA)是一種呈現雙股螺旋結構的遺傳因子，存在於各種生物細胞的染色體上，其主要功能在於影響生物體基因發生變異(genetic variation)所致，譬如 DNA 的構造或排列方式發生改變等。倘若這些變異使生物性狀改變，則稱之為突變(mutation)。一般而言，突

1.1.2 單核苷酸多型性(SNP)、單型(Haplotype)

在正常細胞上，染色體(chromosome)以成對(一條來自於父親，另一條來自於母親)的方式存在，因此稱為雙套染色體。染色體由DNA序列構成，不同個體的DNA序列各有不同。在DNA序列上單一核苷酸鹼基對(base pair)發生的變異(亦即鹼基上A、T、C、G的改變)，是一種常見的遺傳變異，稱之為 SNP(Single Nucleotide Polymorphism；SNP)，而此鹼基對於染色體上之對應位置稱為基因座(gene locus)。SNP的發生率頻繁，至少佔總DNA序列的0.1%，

(1) Non-coding SNP：意指在非基因編碼區域之 SNP。

(2) Coding SNP：意指位於基因編碼區域內之 SNP。但在這區域內之突變，

並不一定會影響胺基酸型態。所以根據對胺基酸合成的影響程度可再進一步區分為以下兩種型態。

(a) 同義 SNP (Synonymous SNP)：此種 SNP 上不同之核苷酸，並不會改變胺基酸型態。例：CUU 和 CUC，第三個位置雖然有 SNP，但其合成出的胺基酸依然是Leucine。

(b) 非同義 SNP (Non-synonymous SNP)：此種 SNP 上不同之核苷酸，會造成胺基酸的改變，進而可能造成蛋白質結構或是功能之改變。例：CUU

和CUG，所造成的胺基酸就會不同。若進一步根據胺基酸改變的幅度

區分，通常稱單純只造成胺基酸改變之突變型態為錯義(missense)。若會造成 stop codon，使得整條序列無法繼續轉譯成蛋白質之突變，則稱為無義突變(nonsense mutation)。

單套染色體上相鄰的 SNP 鹼基所組成之序列稱之為基因組單型 (Haplotype)，以將圖 1 (a)為例，其雙套染色體可拆成兩條單套染色體，假若擷取四個不同個體其在chromosome 1a 中的 locus 1 到 locus 10，我們可得到圖1 (b)中的四條 DNA 序列。從圖 1 中可觀察出 locus 2、4、9 在不同個體上之鹼基各有不同，因此該DNA 序列具有 3 個 SNP，而這些 SNP 可形成一組

Haplotype 序列。舉例來說，圖 1 在右方所顯示的四個 Haplotype 序列分別為 {AAA}、{TAC}、{ACA}及{AAA}。

(a)、雙套染色體。

(b)、單套染色體

圖 1 SNP、Haplotype 與 Tag SNPs 之說明

1.1.3 連鎖不平衡(Linkage disequilibrium) 大因此在進行Genotyping 的過程中必然會花費大量的金錢和時間；因此，我們從所有和疾病相關聯的 SNP 中挑選出部份的 SNP 子集合，並且將這個子

(2)Haplotype 相異性最大化。(3)Haplotype 多樣性最小化 [8]。本論文將由國際單型圖譜計畫(The International HapMap Project) [9] 所取得的資料集進行測試，並且以重建 Haplotype 的正確率來證明利用智慧型三目標演算法確實能夠達到挑選出較好的Tag SNPs。

在文檔中使用智慧型三目標基因演算法選取標籤單核苷酸多型性 (頁 12-15)