• 沒有找到結果。

人類基因體計畫(Human Genome Project)在 2000 年完成,基因體分析的 相關研究剛開始發展的時候,是以如何儲存 DNA、RNA 及蛋白質序列等各 式各樣的生物資料庫為當時生物資訊學的發展重點;其後,研究焦點即移轉 至如何由資料庫中尋找出有用的資訊並藉由分析及解釋核苷酸序列、蛋白質 序列等資訊,以找出序列中影響疾病發生的不正常變異所在。近年來許多學 者致力於探究基因體與序列中SNP(Single Nucleotide Polymorphism;SNP)對 人類疾病的發生與特徵性向的表現之影響 [1, 2]。相關文獻中顯示 SNP 是影 響疾病與特徵發生的主因,因此本研究將針對SNP 作探討,為方便闡述本論 文及研究主題,以下我們將先針對一些相關的分子生物等專有名詞加以介 紹。

1.1.1 DNA、變異(Variation)、突變(Mutation)

去氧核醣核酸(Deoxyribo Nucleic Acid;DNA)是一種呈現雙股螺旋結構 的遺傳因子,存在於各種生物細胞的染色體上,其主要功能在於影響生物體 基因發生變異(genetic variation)所致,譬如 DNA 的構造或排列方式發生改變 等。倘若這些變異使生物性狀改變,則稱之為突變(mutation)。一般而言,突

1.1.2 單核苷酸多型性(SNP)、單型(Haplotype)

在正常細胞上,染色體(chromosome)以成對(一條來自於父親,另一條來 自於母親)的方式存在,因此稱為雙套染色體。染色體由DNA序列構成,不同 個體的DNA序列各有不同。在DNA序列上單一核苷酸鹼基對(base pair)發生 的變異(亦即鹼基上A、T、C、G的改變),是一種常見的遺傳變異,稱之為 SNP(Single Nucleotide Polymorphism;SNP),而此鹼基對於染色體上之對應 位置稱為基因座(gene locus)。SNP的發生率頻繁,至少佔總DNA序列的0.1%,

(1) Non-coding SNP:意指在非基因編碼區域之 SNP。

(2) Coding SNP:意指位於基因編碼區域內之 SNP。但在這區域內之突變,

並不一定會影響胺基酸型態。所以根據對胺基酸合成的影響程度可再進一 步區分為以下兩種型態。

(a) 同義 SNP (Synonymous SNP):此種 SNP 上不同之核苷酸,並不會改 變胺基酸型態。例:CUU 和 CUC,第三個位置雖然有 SNP,但其合 成出的胺基酸依然是Leucine。

(b) 非同義 SNP (Non-synonymous SNP):此種 SNP 上不同之核苷酸,會造 成胺基酸的改變,進而可能造成蛋白質結構或是功能之改變。例:CUU

和CUG,所造成的胺基酸就會不同。若進一步根據胺基酸改變的幅度

區分,通常稱單純只造成胺基酸改變之突變型態為錯義(missense)。若 會造成 stop codon,使得整條序列無法繼續轉譯成蛋白質之突變,則 稱為無義突變(nonsense mutation)。

單 套 染 色 體 上 相 鄰 的 SNP 鹼 基 所 組 成 之 序 列 稱 之 為 基 因 組 單 型 (Haplotype),以將圖 1 (a)為例,其雙套染色體可拆成兩條單套染色體,假若 擷取四個不同個體其在chromosome 1a 中的 locus 1 到 locus 10,我們可得到 圖1 (b)中的四條 DNA 序列。從圖 1 中可觀察出 locus 2、4、9 在不同個體上 之鹼基各有不同,因此該DNA 序列具有 3 個 SNP,而這些 SNP 可形成一組

Haplotype 序列。舉例來說,圖 1 在右方所顯示的四個 Haplotype 序列分別為 {AAA}、{TAC}、{ACA}及{AAA}。

(a)、雙套染色體。

(b)、單套染色體

圖 1 SNP、Haplotype 與 Tag SNPs 之說明

1.1.3 連鎖不平衡(Linkage disequilibrium) 大因此在進行Genotyping 的過程中必然會花費大量的金錢和時間;因此,我 們從所有和疾病相關聯的 SNP 中挑選出部份的 SNP 子集合,並且將這個子

(2)Haplotype 相異性最大化。(3)Haplotype 多樣性最小化 [8]。本論文將由國 際單型圖譜計畫(The International HapMap Project) [9] 所取得的資料集進行 測試,並且以重建 Haplotype 的正確率來證明利用智慧型三目標演算法確實 能夠達到挑選出較好的Tag SNPs。

相關文件