中華大學碩士論文

(1)

中華大學

碩士論文

演化樹工具之分析與改進

Analysis and Improvement on Construction Tools of Evaluation Trees

系所別：資訊工程學系碩士班學號姓名：M9002014 張仁豪指導教授：吳哲賢博士

中華民國九十二年七月

(2)

(3)

(4)

(5)

中文摘要 i

演化樹工具之分析與改進

研究生：張仁豪指導教授：吳哲賢博士中華大學資訊工程研究所

摘要

建構演化樹是分析物種間演化過程，最基本及重要的工具。演化樹的評估參數，分為距離與特徵兩種;演化樹的建構方式，分為有根與無根兩類。本篇論文針對無根距離演化樹，做為研究之對象。

現今的演化樹建構工具相當豐富且方便利用，但是不同演算法得到的演化樹也不盡相同。本篇論文首先選出四個大家常用的演化樹工具，利用 RF 評比方式，

計算出演化樹彼此間的距離，選出一棵和其他演化樹平均距離最短者，當成最佳建議演化樹。

接著設計出一個快速且有效率的演算法，建構新的一棵演化樹。先利用 MAST 的觀念，求出兩顆樹之最大共同子樹，再把剩餘結點接回 MAST 樹。然後將上述四個演化樹建構工具所得到的演化樹，合併成新的一棵演化樹。最後利用 RF 評比方式，証明此一新的演化樹，和其他四棵演化樹平均距離差距不大，表示具有極高的參考價值。

(6)

英文摘要 i

Analysis and Development on

Construction Tools of Evaluation Trees

Student：Jen Hao Chang Advisor：Dr. Jer-Shyan Wu

Institute of Computer Science and Information Engineering

Chung Hua University

ABSTRACT

Construction of evaluation tree is the most basic and important tool to analyze the evaluated process among objects. In this paper, our research topic put on the unrooted distance evaluation trees.

We design two algorithms in the thesis. First we select four popular evaluation tree tools, use RF method to measure their distances among evaluation trees, and suggest one tree is the most average shortest distance among others.

And then, we design one algorithm to construct one new evaluation tree. Using MAST concept, and appending other nodes into MAST, finally we obtain one new evaluation tree. Measuring this tree via RF method, we find that it is as good as other popular evaluation trees.

(7)

誌謝 ii

誌謝

本論文之能順利完成要感謝的人，實在很多。首先要感謝中華大學資工系我的指導老師吳哲賢教授，從研一論文題目的尋找，到研二論文題目的確定，研究的過程到最後的定稿，皆蒙吳教授的細心指導，才使得本論文能完成。

然後是中華大學資工系的老師，在修課上給予的指導與教誨，還要感謝的是我的家人，由於你們的全力支持，使我能夠專心的在課業上作努力，今天才得以完成碩士學位，僅能以此論文的完成來感謝你們為我所做的一切。

對於曾經幫助我的師長、學長、學弟妹等等再此一併致上謝意，

因為有你們的協助，才能順利克服各種困難，使得本論文能完成。

(8)

目錄 iii

目錄

摘要………...….. i

ABSTRACT………...………. ii

致謝………...………. iii

目錄………..….………. iv

第一章簡介….………..….………. 1

1-1 物種與演化………...………. 1

1-2 演化樹與其種類………..….. 7

第二章建立演化樹方法與常用軟體…....…………..……. 12

2-1 如何建立演化樹……….………. 12

2-2 無權重群組算數平均法……….…..……… 13

2-3 吝嗇演算法………..……… 16

2-4 兼容演算法………..…… 18

2-5 最大可能演算法………..… 20

第三章選擇最佳演化樹之演算法….………..…… 27

3-1 選擇演算法與系統介紹………..……… 27

(9)

目錄 iv

3-3 RF_distance 實驗結果………..……...… 36

第四章建立新演化樹之演算法…………...…..………… 48

4-1 MAST 與 Refinement 的觀念……….. 48

4-2 Full_MAST 演算法.………...….. 51

4-3 程式執行結果說明………..…… 59

第五章結論………...…… 64

5-1 研究成果……….. 64

5-2 未來研究方向………..………… 65

參考文獻………...……… 66

(10)

圖示列表 v

圖示列表

圖 1.1 各種物種血球間的演化關係.………8

圖 1.2 無根距離演化樹……….…...………9

圖 1.3 特徵演化樹的表示表格……….…...…………..10

圖 1.4 特徵演化樹圖形…………..………...….………10

圖 2.1 作 UPGMA 步驟一……….………..……….14

圖 2.2 作 UPGMA 步驟一………….………...………14

圖 2.3 建立 Parismony 演化樹……….16

表 2.4 轉換次數表……….………19

圖 2.5 最大可能演化樹圖形表示……….………20

圖 2.6 k 個序列最大可能演算法.………21

圖 2.7 Jukes&Cantor 提出的機率模式…….………22

圖 2.8 化簡 Jukes&Cantor 提出的機率模式…….…...…………22

圖 2.9 再化簡 Jukes&Cantor 提出的機率模式……....…………23

圖 2.10 Kimura 提出的機率模式……….24

圖 2.11 化簡 Kimura 提出的機率模式………...……….24

(11)

圖示列表 vi

圖 2.12 最大可能演算法示意圖，針對 2 個序列作……….…25

圖 3.1 系統流程圖….………...…29

圖 3.2 RF_distance 演算法過程………...…30

圖 3.3 RF 中好的邊………...………...…31

圖 3.4 RF 中壞的邊………...………...…31

圖 3.5 RF 中好的邊(外部)…..……...…...………...32

圖 3.6 RF 中好與壞的邊…………...………...32

圖 3.7 RF 演算法說明圖形之一…...………...34

圖 3.8 RF 演算法說明圖形之二…...………...…34

圖 3.9 倆倆間 RF_distance 表格…...………35

圖 3.10 人的肌凝蛋白基 8 組序列執行結果…...………....43

圖 3.11 人類粒線體 7 組序列執行結果…...…………...……….…44

圖 3.12 人類脊凝酯 6 組序列執行結果…...…...……….…45

圖 3.13 愛滋病病毒 8 組序列執行結果…...………...…….…46

圖 4.1 MAST 說明圖形………..………...…………...…49

圖 4.2 Refinement 說明圖形………..………...…………...…50

圖 4.3 2 個演化樹與其 MAST 的圖形………..…………...…52

圖 4.4 評估點 H 在 Tree1 中與 MAST_tree 中點最近距離……...53

圖 4.5 評估點 H 在 Tree2 中與 MAST_tree 中點最近距離……...53

(12)

圖示列表 vii

圖 4.6 加入 H 點在 MAST_tree 中………..………...…54

圖 4.7 評估點 I 在 Tree1 中與 New Tree 中的點最近的距離…...55

圖 4.8 評估點 I 在 Tree2 中與 New Tree 中的點最近的距離……..55

圖 4.9 加入點 I 在 New Tree 中………..…………...…56

圖 4.10 評估點 J 在 Tree1 中與 New Tree 中的點最近的距離……56

圖 4.11 評估點 J 在 Tree2 中與 New Tree 中的點最近的距離...…57

圖 4.12 作完 Full_MAST 後所得的結果………...…57

圖 4.13 程式執行結果………...…60

圖 4.14 Dnacomp 得到的演化樹………...…60

圖 4.15 Dnapars 得到的演化樹………...…61

圖 4.16 Dnaml 得到的演化樹………...61

圖 4.17 Dnamlk 得到的演化樹………....…62

圖 4.18 Full_MAST 得到的演化樹………...…62

(13)

簡介 1

第一章

簡介

1.1 物種與演化

生物演化的原動力來自兩個步驟，一是個體變異，二是環境的選擇。個體變異的因素來自親代的遺傳，遺傳造成族群中的個體性狀不同，適應能力也不同，變異產生的性狀表現型對既存生物體究竟是有利或有害，通常又與環境的變動與否有關；有時原來是有害的或中性的基因，在環境發生變化後，卻可能成為適應新環境的有利基因。

產生遺傳變異的因素來自基因的突變，有性生殖時基因的重組、染色體的互換也會造成了遺傳性狀的變異。因此，後代的變異增大，隨之也使其對變動後環境的適應能力增強。

生物學家已經鑑別出 200 多萬種生物，但是還有更多的生物正等著我們去

(14)

簡介 2

發現。如此多樣的不同物種正是演化的結果。隨著歲月的流逝，演化過程使得某些物種消失，但也產生了許新的物種。物種是自然界中的一個生物群。在野生條件下，一物種的成員只能與同物種的其他成員交配繁殖，而且其子代具有生殖繁衍下一代的能力，分類時每一物種有一個名。

何謂種呢？凡能自然進行交配，並繁衍後代者稱為同種。異種的生物，彼此間通常不交配，即使有些能行交配，其後代往往是不孕，例：馬和驢交配所產生騾，並無生殖能力。種的特點：

(1)物種可簡稱為“種＂，乃是生物分類系統上的基本單位。

(2)物種通常是指一群在構造及生理上相同的生物。

(3)在異種生物間已建立了生殖隔離的屏障。

達爾文認為生命是一致性的，且所有生物與生活於遙遠過去的某些未知原形生物之後代相關聯。這個假設生物的後代，由於在數百萬年的時間中，分隔到形形色色的棲地，他們聚集了不同的修飾或適應，以適合他們特殊的生活方式。在達爾文的觀點中，生命的歷史如同一棵樹，主幹上有複雜的分枝及新枝，

分枝的末端皆指向下個物種。在每一個演化樹的分叉點所代表的是整體往後分叉的袓先。關係相近的物種，例如獅子及老虎，共有許多特徵，是因為他們在生命樹上最短分枝出的共同袓先所繁生而來。大部份演化樹的分枝，甚至一些主要的，其最後到達一條死路，約有 99%曾經生存的物種皆滅絕。

(15)

簡介 3

微演化是指生物體中小幅度的演化性變化，簡單的說微演化是潛在的演化過程。它在物種代代相傳之際，作出一些小變化。大幅演化是指產生新物種的重大演化性變化，但是大幅演化的發生非常緩慢。它涉及足以發展出新物種的重大變化。

化石可說是一種記錄演化的史書。但其中卻缺了許多頁，也就是少掉了許多連接兩群生物之間的物種。有時候一些重要的化石出土，便能證明一群新的生物如何由一個已有的種發展而成。這些化石為我們補充了演化過程上「漏失的環節」。始祖鳥(Archaeopteryx)就是一個例子，它是連接爬蟲類和鳥類的一種恐龍的化石。

自從達爾文學說[5]被廣泛接受以來，生物學家就想知道演化進行的有多快。有些人相信演化是以穩定的速率演化，隨著時間的推移，新的物種逐漸出現。此學說主張演化是緩慢而平穩進行的所以稱為漸進論。

部份化石記錄似乎顯示，物種是突然改變而不是逐漸變化的。有些生物學家相信，這才是演化的正常方式。這種想法稱為斷續性平衡論，因為各物種經歷一段穩定時期後，被一突然的演化性變化打斷，這個學說認為演化是可以突然發生的。

哈溫定律要求所有族群中的個體，其在存活率上及產生可存活有生殖力的後代的能力要相等。這種狀況可能從來都沒有遇見過。族群由不同的個體所組

(16)

簡介 4

成，平均而言，某些品種留下較其他品種較多的後代，這種差異性生殖功率即是天擇。

在所有能改變某因形成微演化的因素中，唯有天擇是適應性的。天擇累積和保持了它想要的基因型於族群中。如果環境改變了，天擇選擇能夠適應此新環境的基因型。但是適應的範圍仍侷限在族群的基因變異範圍內。

達爾文對物種的起源很少著墨，集中注意在個別物種如何經由天擇適應於其生存的當地的環境。演化生物學家恩斯特．梅爾(ErnstMayr)基於五種觀察，

將達爾文的天擇分成三個推論:

（一）所有物種都具有一種潛能，若是讓生物完全自由生殖。而且成功繁衍下一代，族群數量能呈指數增加。

（二）大部份族群除季節性變動，數量都是較穩定的。

（三）自然資源是有限的。

（四）族群內個體的特徵變異性很大，沒有兩個個體是完全一樣的。

（五）大部份的變異是可遺傳的。

推論 1:產生較環境能夠支持為多的個體數，會造成族群間個體的生存競爭，僅有少數個體在每一世代能存活。

推論 2:在生存競爭中的存活者並非隨機的，而是和存活者的基因組成有部份關係，這基因能使他們更適應環境的特徵者，似乎能較適應較差者留下較多的後

(17)

簡介 5

代。

推論 3:這種個體生存及生殖能力的差異會造成族群的漸次改變，較佳的特徵會一代代的累積。

天擇既是這種在生殖上差異的成功率，同時是生物適應其生存環境的產物。甚至某些特徵較其他特徵佔據的優勢非常微小，在天擇作用的差異傳遞量下，較佳的變異仍會在許多世代後逐漸累積。也就是說，天擇發生在任何族群的環境和差異生殖的交互作用之下。雖然達爾文不瞭解個體變異的遺傳基礎，

我們現在已知變異起源於突變的意外機制及基因重組。但是天擇並非一個機會現象，環境因子影響那個遺傳特徵能加強生殖成功。

生存競爭確定是由產生過量的新個體而來，達爾文早已在 1798 年馬爾薩斯的人口鉅著中瞭解到生存競爭。馬爾薩斯注意到大部份人類的傷亡疾病;無家可歸、戰爭等都是因為人口的成長速率快於糧食及其他資源的成長。雖然人類不是一個最好的例子，過度繁殖似乎是所有生物都有的現象。許多生下的蛋、

新生幼體、散播的種子，都僅極小部份能完成其發育而留下自已的後代。其餘的不是被吃、凍死、餓死、病死、末交配或其他原因未能產生後代。每一個世代，環境因子檢視可遺傳的變異，挑出它喜歡的，差異生殖導致較受喜愛的特徵在下一代不成比例的增加。

但是選汰真能造成族群的顯著改變嗎 ? 達爾文在人擇 (artificial

(18)

簡介 6

selection)中找到證據。人擇是人類繁殖馴養的動物及植物。人類使其他的物種在數代後產生改變，藉著留存具需要特性的個體作為種源。這些培養作為食物的動植物，和其野外袓先外表上的相似性已很低。選汰的力量在我們飼養的寵物身上，可看到其力量的強大，這些生物通常觀賞性大於實用性。如果人擇在短時間內就能做到如此巨量的改變，達爾文合理的認為，天擇使物種在數百或數千代的改變，也是相當可觀的變異。他猜測天擇在長久的時間，作用在不同的方向，造成現今的歧異度。達爾文所見為，生命是由許多小變異漸次累積起來的，萊爾在地質學上的漸變論也被達爾文應用在演化觀內。達爾文天擇說的兩個特色:多樣的生物來自於親代繁衍子代產生變異；修飾的機制是天擇在長時間的作用下所造成。

(19)

簡介 7

1.2 演化樹與其種類

現代物種是由古老的物種遺傳而來自然天擇是演化的機制在達爾文的觀念中，生命的歷史類似一棵演化樹[14-15][17]。繁衍出來的後代就像從共同的樹幹(第一個生物)產生的許多分支，直至今天已經有數百萬計的物種在樹的末端。對演化樹上由同一分叉點擴展伸出的所有演化小枝來說，他們都是有共同的祖先。因此，演化樹便是我們很常用來表示演化關係的圖：

(20)

簡介 8

圖 1.1 各個物種血球間的演化關係。

一般而言演化樹種類可以分為距離與特徵 2 種：距離演化樹(distance)：

在距離演化樹中的距離代表著物種之間的親近疏遠關係，並不能代表物種之間母代和子代的關係，而距離數值的大小即代表物種間的相對位置，數值越大，

代表彼此在演化上的關係越疏遠；數值越小，代表彼此在演化上的關係越親近，

故物種與物種間的距離不會為負，且不同的物種與物種間距離不會為 0。

距離矩陣(Distance Matrix)就是物種間距離所形成的矩陣，在 Distance Matrix 中，基本的輸入是一 N*N 的矩陣，其中每一元素皆為非負數的實數，而矩陣中的元素 M^ij則定義為物種 i 與物種 j 間的距離，再此可以發現到一些特性：

(21)

簡介 9

1.d^ij>0 for i≠j 在不同物種之間，彼此距離必大於 0。

2.d^ij=0 for i=j 意即物種本身對於自身而言距離為 0。

距離演化樹[12]是一個沒有根的演化樹，各個端點間的距離僅代表著彼此的相對位置，也就是物種關係距離量化的值，也代表物種之間的相近疏遠關係，

並無法顯示物種之間母代和子代的關係。

圖 1.2 無根距離演化樹。共有(A B C D E) 5 個點的演化樹。

特徵(character)是此生物的外表結構和其他生物明顯不同的地方，像趾頭的數目、鳥嘴的形狀、有無翅榜、用幾隻腳走路等。何謂 character state matrix:一個擁有 n 列(物種)和 m 行(特徵)的矩陣 M，M^ij表示物種 i 相對於特徵 j 的狀態。在此我們所探討的矩陣只含有兩種值:0-表示沒有此特徵；1-表示擁有此特徵。

(22)

簡介 10

原則上擁有相同特徵的物種在遺傳學上是較為相近的，不過也有例外，像蝙蝠和鳥一樣擁有翅膀，但是卻不屬於鳥類，這種現象叫做「平行演化」。我們假設這種現象不會發生，以減少不必要的麻煩。

圖 1.3 特徵演化樹的表示表格。1 代表有此特徵，0 則代表沒有。

A、B、C、D、E 為物種名稱，C1~C6 為特徵名稱。由此表可看出,物種 C 擁有 C4、C5、C6 三種特徵，而 E 只有 C4 一種特徵。至於此表格所代表的演化樹圖形，請見下一段說明。

特徵演化樹建立[1]，依照 character state matrix 可描繪出物種與物種間的關係，這就是特徵演化樹。以上頁的表格為例，所畫出的演化樹

圖 1.4 特徵演化樹圖形。藉由特徵表格建出的特徵演化樹。

(23)

簡介 11

我們可以看出物種 C 有 C6 這個特徵，而且它還繼承了 C4 和 C5 這兩個特徵，而 E 只有 C4 一種特徵。在這個圖形中 E 是 C 和 A 的祖先。A 經由演化，產生了 C5 這個特徵，而後又衍生出特徵 C6，而成為物種 C。演化樹還可以作其他應用，像是可以建立出病毒的演化關係，藉由病毒的演化樹可以更加瞭解病毒間的相互關係及演化史，如前一陣子的 SARS 病毒，一旦基因定序完畢，便可以拿它來跟其他已知的現有病毒比較，建立相關的演化樹，有助於生物學家做疫苗的研發。其他方面也可以用於電腦病毒的追溯、統計學的分析等等。

(24)

建立演化樹方法與常用軟體 12

第二章

建立演化樹方法與常用軟體

2.1 如何建立演化樹

我們在談演化樹建立[2][22]之前，必須先對基因有基本的瞭解，我們先簡單的介紹一下基因：基因是決定生物遺傳的基本單位，位於細胞核內的染色體中，決定了生物的性狀，每個基因控制著人體上一種特徵，且基因之間會交互影響。最新研究資料顯示，人體內大約有 3 至 4 萬個基因，而每個基因大約可含帶幾千至幾萬個鹼基對。

腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)、鳥嘌呤(G)四個鹼基的排列，稱為基因遺傳密碼。A、G、C、T 之於生物；就好比「0」與「1」之於電腦，在生物的世界裡，小至病毒、細菌、螞蟻、昆蟲；大至人類、大象；都是以 A、T、

C、G 這四個字母的密碼形成，將遺傳訊息儲存於 DNA 分子裡。我們在建立演化樹時，很多時候都是用 AGCT 的序列當成輸入的資料。

(25)

2.2 無權重群組算數平均法

建立演化樹的方法有許多種類[7-8,10-11,16]，以下我們會介紹常用的幾種方法：無權重群組算數平均法：UPGMA(unweighted pair group method using arithmetic averages)、吝嗇法：Parsimony、兼容法：Compatibility、最大可能法：

Maximum likelihood 。

無權重群組算數平均法：UPGMA(unweighted pair group method using

arithmetic averages) 首先先對每一個輸入的序列 i 編號，給定一個 cluster(群組) Ci 算出每個 cluster 兩兩間的距離算出，將 2 個距離最近的群組圈訂為另一群組;新的距離為原先的 1/2 ；如此做下去；將全部的群組圈訂完即為所求。

我們來看距離的公式與定義：

1. 為與兩個群組間的距離。

2. 與表示在群組 i j 中序列的個數。

3. ：聯集 2 個群組與。 4. ：表示其他的群組。

dij C_i C_j

Ci Cj

Ck C_i C_j

Cl

(26)

C C C C

C

C^k⁼ ⁱ^∪ ^j^⇒ ^k ⁼ ⁱ ⁺ ^j

C C

C d C d d

C d d C

j i

j jl i il kl qin

pin

pq j

i ij

C

Ci j

+

= +

⇒

= ¹

∑

圖 2.1 作 UPGMA 步驟一。

(27)

圖 2.2 作 UPGMA 步驟二。

先將 1 與 2 群組圈選成一組(因為他們的距離最小)，所得到的距離 t1=t2=1/2 d12。依此類推接下去做 4 、5 ；再作 3 ;最後便可以得到演化樹。

由此方式建立的演化樹，我們稱為無權重群組算數平均法 UPGMA。

(28)

2.3 吝嗇演算法

接下來介紹吝嗇(Parismony)的演算法[3]：將輸入的序列兩兩一組、然後建出所有可能的樹的圖形；接著計算總和最小的值我們視為最相近，及選定那一棵為我們要的演化樹。以下用圖形說明，假設現有 4 組序列:AAG AAA GGA AGA

圖 2.3 建立 Parismony 演化樹。先畫出所有可能的演化樹圖型。

然後開始看每一顆樹的內部節點，拿它與左右的子節點比較，相同字元為 0 分、不同則為 1 分。(亦即越相近分數越低，所以我們希望最後的總分越少越

(29)

好)。以上圖的第一個樹型為例：

有 AAA AAA AGA 3 個內部節點，對 3 個點分別來看他們的分數:

AAA AAA AGA AGA AAA AAA AGA AAA GGA AGA AAA AGA 1 分 0 分 1 分 0 分 0 分 1 分

左下角節點中間節點右下角節點總分 1+1+1=3

同理我們經由計算可以得到後面 2 棵樹的分數皆為 4 分。因此我們會選擇分數最小的，也就是第一棵當作我們的演化樹。

(30)

2.4 兼容演算法

接著我們介紹兼容演算法(Compatibility)[3][9]：首先要先求出我們序列中的最大兼容部位(maximum compatibility sites)然後由多重序列比對 MSA

(multiple sequence alignment)中找到有幾組最大兼容部位，在對那幾組用吝嗇演算法建構出演化樹。我們下面用一個例子說明如何找出最大兼容部位：

我們的 input 如下 5 species, 13 sites (5 個物種 13 個部位)

Name Sequences --- ---

Alpha AACGUGGCCA AAU Beta AAGGUCGCCA AAC Gamma CAUUUCGUCA CAA Delta GGUAUUUCGG CCU Epsilon GGGAUCUCGG CCC

接著我們來看「轉換狀態數」：(針對每一行來看)

(31)

第一行：A A C G G： A->A 無轉換 A->C 有轉換 C->G 有轉換 C->G 有轉換所以得到轉換次數 2。

第二行：A A A G G : A->A 無轉換 A->A 無轉換 A->G 有轉換 G->G 無轉換

所以得到轉換次數 1。

第二行：C G U U G : C->G 有轉換 G->U 無轉換 U->U 有轉換 U->有轉換 G->U 與 U->G 視為一種；所以得到轉換次數為 2。同理我們可以求得每一行的轉換次數做成下表：

行數 1 2 3 4 5 6 7 8 9 10 11 12 13 轉換

次數

2 1 3 2 0 2 1 1 1 1 1 1 3

表格 2.4 轉換次數表。針對每一行記錄下轉換的次數。

我們定義兼容部位要小於狀態數減一。以此例而言；共有 A C G U 4 種狀態，4-1＝3 因此我們可以找出符合兼容部位的地方一共有 11 個部位。所以此例的兼容部位(compatibility site)即為 11。再由所有多重序列比對中有可能的兼容部位中利用吝嗇演算法建出所有可能的演化樹。

(32)

2.5 最大可能演算法

接下來介紹最大機會與可能(Maximum likelihood)的演算法[6]，此方法是以機率的觀點來建立演化樹，我們首先先介紹符號的表示：

) ,

| (x y t

p ：y 為祖先、x 為子孫;路徑 t 即為 x->y 的機率。

) ,

| ,...,

(x¹ x⁵ T t

p _• =^p(x¹|x⁴,t₁) ^p⁽x²^|x⁴^,t²⁾ ^p⁽x³^|x⁵^,t³⁾ ^p⁽x⁴^|x⁵^,t⁴⁾ ^p⁽x⁵⁾

圖 2.5 最大可能演化樹圖形表示。t¹^到t⁴^{為各個狀態的路徑。}

(33)

然後依照下列 3 個步驟作：

一.先建立出所有可能的演化樹的拓撲圖

二.針對每一個樹的圖形對它算出每一個路徑的機率，然後最後再加總起來。

三.最後選出機率值最大的，我們視為最有可能發生的演化樹。

若現在有 K 個序列，我們可以用矩陣表示法：

圖 2.6 k 個序列最大可能演算法表示矩陣。

可以推出下面的公式：S(t)S(s)=S(t+s)；最後的機率值也可以寫成：

) ,

| ( )

,

| ( ) ,

|

( a b t p b c s p a c s t

p

b

+

∑ =

然後我們針對氨基酸(A G C T)序列；先來看看 Jukes & Cantor 在 1969 年所建立的模式：

(34)

圖 2.7 Jukes & Cantor 提出的機率模式。

α 即為每一個狀態到另一個狀態的速率；每一列的總和為零。假設給定一個短的時間 S(ε )，又 S(ε )≅(I +Rε)。

圖 2.8 化簡 Jukes & Cantor 提出的機率模式。

將1−3αε→ r^t^{；可以表示成：}^αε ^→S^t

(35)

圖 2.9 再化簡 Jukes & Cantor 提出的機率模式。

經由推導可以得到：S ′(t)=S(t)R 因此可以得到下面的式子：

s r r^• =−3α +3α

r s s^• =−α +α

(

^t

)

t e

r ⁼ ₄¹ ¹ ⁺ ³ ⁻ ⁴^α

( ^t)

t e

s ⁼ ₄¹ ¹⁻ ⁻⁴^α

當 t=∞ r^t⁼s^t⁼₄¹^亦即^qA⁼ ^qC ⁼ ^qG ⁼ ^qT ⁼ ₄¹

但是實際上的情形並非剛好都是 1/4 那麼理想。我們知道在生物上：轉換

(transition) A<->G ， C<->T；與顛換(transversion) A<->T G<->T A<->C C<->G 機率通常不同。轉換通常會比顛換來的有可能。因此我們再介紹 Kimura 在 1980 年提出來的另一種模式：

(36)

圖 2.10 Kimura 提出的機率模式。

我們可以推導出下面的式子：

圖 2.11 化簡 Kimura 提出的機率模式。

( _e )

s ^t ⁼ ₄¹ ¹ ⁻ ⁻⁴^β^t

( )

( _e _e )

u ^t ⁼ ₄¹ ¹ ⁺ ⁻⁴^β^t ⁻ 2 ⁻² ^α⁺^β ^t u

s

r ^t ⁼ ¹ ⁻ ² ^t ⁻ ^t

我們用一個簡單的例子說明 maximum 的運算過程，我們採用的是第一個 model：

(37)

( ^t )

t e

r ⁼ ₄¹ ¹ ⁺ ³ ⁻⁴^α _s_t (¹ ^e ⁴^α^t )

4

1 ₋

−

=

假設現在有 2 個序列如下： CCGGCCGCGCG CGGGCCGGCCG

圖 2.12 最大可能演算法示意圖。針對 2 個序列作。

我們可以得到簡單的樹型圖。由先前的公式，我們可以推得：

(_C _C _T _t _t ) _q _r _r _q _s _s _q _s _s _q _s _s (_r _r _s _s ) p 1 2 c t1 t2 G t1 t2 A t1 t2 T t1 t2 t1 t2 3 t1 t2

4 , 1

,

|

, = + + + = +

(38)

(

_G _G _T _t _t

)

p , | , 1, 2 = p

(

_C ,_C |_T ,_t1,_t2

)

同理：

(_C _G _T _t _t )

p , | , 1, 2 = p

(

_G ,_C |_T ,_t1,_t2

)

= (_r_t₁_s_t₂ _s_t₁_r_t₂ ²_s_t₁_s_t₂)

4

1 + +

再利用先前推導的 2 個式子：

( ^t )

t e

r ⁼ ₄¹ ¹ ⁺ ³ ⁻⁴^α _s_t (¹ ^e ⁴^α^t )

4

1 ₋

−

=

我們可以得到：

(

_C _C _T _t _t

)

p , | , 1, 2 =

(

¹ ³ _e ⁴ (^t¹ ^t ²)

)

16

1 − +

+ ^α

(_C _G _T _t _t )

p , | , 1, 2 =

(

¹ _e ⁴

(

^t¹ ^t²

) )

16

1 − − ^α +

假設 _p (_C ^,_C ^|_T ^,_t₁^,_t₂)^{有 n}¹^個 _p (_C ^,_G ^|_T ^,_t₁^,_t₂)^{有 n}²^{個；則可}

以推導出最後的公式為：

(x ^, x ^|T ^,t ^,t ) ¹_n _n

( 1 3

e ⁴

⁽

^t¹ ^t²

⁾ )

ⁿ

( 1

e ⁴

⁽

^t¹ ^t²

⁾ )

ⁿ

16

2 1

2

2 1

1 2

1 = − + − +

Ρ +

+

α

−

α

(39)

選擇最佳演化樹之演算法 27

第三章

選擇最佳演化樹之演算法

3.1 選擇演算法與系統介紹

現在的演化樹軟體已經發展成熟，有很多各式各樣的方法去猜測我們所謂的演化樹，在我們的實驗中，是針對 DNA 的序列當成輸入的資料，我們選用了 Phylip 中 4 個對 DNA 序列作演化樹軟體。分別是：Dnapars 、 Dnacomp 、

Dnaml 、 Dnamlk 。PHYLIP 是一套免費的建立演化樹的軟體套件，在網路上開放程式提供需要者下載，以下是它的網址：

http://evolution.genetics.washington.edu/phylip.html

Dnapars: 使用的即是我們第二章介紹的 Parismony(吝嗇法)。

Dnacomp：使用的即是我們第二章介紹的 compatible(兼用法)。

Dnaml: 使用的即是我們第二章介紹的 Maximum likelihood(最大可能法)。

此法是採用轉換與顛換速率不同的模式。

Dnamlk：使用的也是 Maximum likelihood(最大可能法)。

(40)

此法則是採用 molecular clock(分子時鐘)的假設。

molecular clock(分子時鐘):對於 DNA 的序列而言；如果在它的功能還存有時我們認為它的突變速率為一個固定的常數時間。

首先我們先利用 PHYLIP 裡的 4 個軟體對相同的每組 DNA 序列作演化樹，由於每個軟體的演算法不相同，所以我們會得到不盡相同的演化樹，我們希望透過計算 RF_distance 的值，可以建議使用者選擇哪一個軟體。

接著利用 MAST(maximum agreement subtree)，及我們提出來的

FULL_MAST 方法我們可以得到一個重新排列過的樹，再將此樹當成新的一個輸入；再去計算一次 RF_distance 的平均值，倘若比原先小，則我們認為是較可以接受的演化樹。接下來的章節裡，我們會詳細介紹上述提到的演算法：

RF_distance、Mast、FULL_Mast。下面是我們的演算法與流程圖：

(41)

圖 3.1 系統流程圖。

(42)

3.2 RF_distance

為什麼我們需要作樹比較的動作[18-20,23]，因為假設我們給定一些一樣的物種，它會因為資料的不同、演化速率模式不同、建構樹的演算法不同；而產生不同的演化樹。作樹的比較相當於對多棵演化樹作資料勘查的動作，可以從中獲得一些我們關心的資訊。RF_distance[18-19]即為其中的一種比較方法。

我們用下面的圖形說明 RF_distance(Robinson-Foulds distance) 的演算法。

圖 3.2 RF_distance 演算法過程。

(43)

圖 3.3 RF 中好的邊。good edge(好的邊)會分割出 2 個一樣的群組。

樹一：(X1 X2 X3)與(X4 X5) 樹二：(X2 X3 X1)與(X4 X5)是為一樣的群組。

圖 3.4 RF 中壞的邊。同理我們可以定義 bad edge(壞的邊)

樹一：(X1 X2)與(X3 X4 X5) 樹二：(X2 X3)與(X1 X4 X5) 是為不同的群組。

(44)

圖 3.5 RF 中好的邊(外部)。我們定義外部的邊都是為 good edge(好的邊)，

因為它們都會擁有一樣的群組。

圖 3.6 RF 中好與壞的邊。

亦即所有內部邊中共包含幾個 bad edge(壞的邊)；以上述為例它的

RF_distance 即為 1/2。(因為有一個不好的邊，二個內部的邊)接著我們來看對

(45)

RF_distance 公式的一般正規化的寫法：

) 3 ( 2

) ( )

( 2 ) ( )

( )

,

%( ¹ ² ¹ ²

2

1 −

∩

−

= ℑ + ℑ ℑ ℑ

ℑ

ℑ ^split ^split _N ^split ^spilt

RF

ℑ¹^{為 tree1}ℑ²^{為 tree2}

split tree(分裂樹)[13]就是拿掉內部邊所得到的 2 個 cluster(群組);因此 split(分裂)的個數可以看成是樹的內部結點個數。而公式分子的最右半部交集的地方指的是 split tree1 與 split tree2 的群組是一樣的。亦即相同的群組個數有幾個。N 則是樹的葉子個數。

將上述的值都帶入公式中我們可以發現得到的值會介於 0 與 1 之間，且我們知道當值越小時，意指 2 棵樹是越相近的。因為當 2 棵樹 split(分裂)的交集越多時，表示結構上越相近則公式中的分子會越小;分母是固定的，因此得到的

RF 值會越小。若是算出來的值為 1 的話，表示 2 個樹是很不一樣的;因為表示分子 split(分裂)交集的地方為零，而 split tree1 + split tree2 會剛好等於 2(N-3);

所以會得到 1。我們用下面的例子說明一下 RF_distance 的詳細運算：

Tree1：

(46)

圖 3.7 RF 演算法說明圖形之一。

Tree2：

圖 3.8 RF 演算法說明圖形之二。

Tree1 的 3 個 split 的集合分別為：(AB CDEF) (CD ABEF) (EF ABCD) Tree2 的 3 個 split 的集合分別為：(AB CDEF) (CE ABDF) (DF ABCE) 我們可以得到共同的交集只有一組，因此我們可以求得我們的 RF 值，帶入公

式為： 2( 3)

) ( )

( 2 ) ( )

( )

,

%( ¹ ² ¹ ²

2

1 −

∩

−

= ℑ + ℑ ℑ ℑ

ℑ

ℑ ^split ^split _N ^split ^spilt

RF

(47)

N：6 ^split(

ℑ

₁)⁼ ^split⁽

ℑ

²⁾ =3 ^split(

ℑ

₁)^{∩ spilt}(

ℑ

₂)⁼¹

RF%= 3

2 ) 3 6 ( 2

1 2 3

3 =

−

×

−

+ =0.6666

假設現在有 4 個樹 tree1 tree2 tree3 tree4 對它們兩兩間 RF_distance

得到的關係圖如下：

Tree1 Tree2 Tree3 Tree4 Tree1 0.5 0.4 0.3

Tree2 0.5 0.4 0.7 Tree3 0.4 0.4 0.6 Tree4 0.3 0.7 0.6

圖 3.9 兩兩間 RF_distance 表格。

我們可以發現將每一個列加起來會得到：Tree1:1.2 Tree2:1.6 Tree3:1.4

Tree4:1.6。因此就判定選擇 Tree1(由第一個 Tools)所得到的樹為較好的，因為總分最低;表示它跟其他三個 tools 的相似性最高。下一小節我們可以看一下實際的一些例子。

(48)

3.3 RF_distance 實驗結果

我們看看以下的實驗結果：

人的肌凝蛋白(8 組序列)：

第一組：

LOCUS： BC017455 727 bp mRNA linear PRI 14-NOV-2001 DEFINITION： Homo sapiens, myosin, light polypeptide 6, alkali, smooth muscle

and non-muscle clone MGC:2281 IMAGE:3538373 mRNA complete cds.

第二組：

LOCUS： HUMMYLCC 674 bp mRNA linear PRI 27-APR-1993 DEFINITION： Human smooth muscle myosin alkali light chain (MLC 1sm)

mRNA, complete cds.

第三組：

LOCUS： HUMMLC3NM 706 bp mRNA linear PRI 07-JAN-1995 DEFINITION： Human myosin light chain 3 non-muscle (MLC3nm) mRNA, complete cds.

(49)

第四組：

LOCUS： MYL6 704 bp mRNA linear PRI 06-APR-2003 DEFINITION：Homo sapiens myosin, light polypeptide 6, alkali, smooth muscle

and non-muscle (MYL6), transcript variant 1, mRNA.

第五組：

LOCUS： MYL6 651 bp mRNA linear PRI 06-APR-2003

DEFINITION： Homo sapiens myosin, light polypeptide 6, alkali, smooth muscle

第六組：

DEFINITION： Homo sapiens myosin, light polypeptide 6, alkali, smooth muscle

第七組：

DEFINITION：Homo sapiens myosin, light polypeptide 6, alkali, smooth muscle

第八組：

LOCUS： HSU02629 697 bp mRNA linear PRI 11-AUG-1994

(50)

DEFINITION： Human smooth muscle myosin alkali light chain mRNA, complete

cds.

人類粒線體(7 組序列)：

第一組：

LOCUS： BC007404 2746 bp mRNA linear PRI 12-JUL-2001 DEFINITION： Homo sapiens, Similar to mitogen-activated protein kinase 7, clone

MGC:2148 IMAGE:3009873, mRNA, complete cds.

第二組：

LOCUS： BC009963 2892 bp mRNA linear PRI 12-JUL-2001 DEFINITION： Homo sapiens, mitogen-activated protein kinase 7, clone

第三組：

LOCUS： BC030134 2819 bp mRNA linear PRI 20-MAY-2002 DEFINITION： Homo sapiens, mitogen-activated protein kinase 7, clone

第四組：

LOCUS： MAPK7 2813 bp mRNA linear PRI 06-APR-2003 DEFINITION： Homo sapiens mitogen-activated protein kinase 7 (MAPK7),

(51)

transcript variant 4, mRNA.

第五組：

第六組：

第七組：

人類脊凝酯(6 組序列)：

第一組：

LOCUS： AF106685 1983 bp mRNA linear PRI 08-JUL-1999 DEFINITION： Homo sapiens myelin gene expression factor 2 mRNA, complete cds.

(52)

第二組：

LOCUS： AF483504 1593 bp mRNA linear ROD 19-MAR-2002 DEFINITION：Mus musculus strain ILS myelin gene expression factor mRNA,

complete cds.

第三組：

LOCUS： AK002075 2015 bp mRNA linear PRI 01-AUG-2002 DEFINITION：Homo sapiens cDNA FLJ11213 fis, clone PLACE1007969, weakly

similar to HETEROGENEOUS NUCLEAR RIBONUCLEOPROTEIN M.

第四組：

LOCUS： AK023133 2545 bp mRNA linear PRI 01-AUG-2002 DEFINITION：Homo sapiens cDNA FLJ13071 fis, clone NT2RP3001792,

moderately similar to HETEROGENEOUS NUCLEAR RIBONUCLEOPROTEIN M.

第五組：

LOCUS： BC014533 1775 bp mRNA linear PRI 26-SEP-2001 DEFINITION： Homo sapiens, Similar to myelin gene expression factor 2, clone MGC:13389 IMAGE:4133844, mRNA, complete cds.

第六組：

(53)

LOCUS： MEF-2 1983 bp mRNA linear PRI 10-DEC-2001 DEFINITION：Homo sapiens myelin gene expression factor 2 (MEF-2), mRNA.

愛滋病病毒(8 組序列)：

第一組：

LOCUS： AY146255 639 bp DNA linear VRL 25-NOV-2002

DEFINITION：HIV-1 isolate 172gMa84 from Malawi gag protein (gag) gene, partial

cds.

第二組：

LOCUS：AY146279 639 bp DNA linear VRL 25-NOV-2002 DEFINITION： HIV-1 isolate 67gMa88 from Malawi gag protein (gag) gene, partial

cds.

第三組：

LOCUS：AY146300 639 bp DNA linear VRL 25-NOV-2002 DEFINITION：HIV-1 isolate 123gMa88 from Malawi gag protein (gag) gene, partial

cds.

第四組：

LOCUS： AY146356 638 bp DNA linear VRL 25-NOV-2002 DEFINITION：HIV-1 isolate 51gMa89 from Malawi gag protein (gag) gene, partial

(54)

cds.

第五組：

LOCUS： AY146357 612 bp DNA linear VRL 25-NOV-2002 DEFINITION： HIV-1 isolate 52gMa89 from Malawi gag protein (gag) gene, partial

cds.

第六組：

cds.

第七組：

cds.

第八組：

LOCUS： AF448219 679 bp DNA linear VRL 13-DEC-2001 DEFINITION：HIV-1 isolate BG34.1 from Bangladesh gag protein (gag) gene, partial cds.

(55)

人的肌凝蛋白 Homo sapiens (human)，一共有 8 組序列：

圖 3.10 人的肌凝蛋白 8 組序列執行結果。結果建議選擇第一套 tools Dnacomp。

(56)

人類粒線體(Homo sapiens mitogen)，一共選了 7 組序列：

圖 3.11 人類粒線體 7 組序列執行結果。建議選擇第一與第二；因為分數一樣。

(57)

人類脊凝酯(Homo sapiens myelin gene expression)，6 組序列：

圖 3.12 人類脊凝酯 6 組序列執行結果。建議選擇 4 套中任一套；因為跑出來的演化樹都一樣。

(58)

愛滋病病毒 Human immunodeficiency virus 1 (HIV-1)，8 組序列：

圖 3.13 愛滋病病毒 8 組序列執行結果，建議選擇第 3 套 Dnaml。

由以上的例子我們可以知道；可能會有分數相同的例子，就是我們建議選

(59)

擇的軟體可能不是每次都會唯一。

(60)

建立新演化樹之演算法 48

第四章

建立新演化樹之演算法

4.1 Mast 與 Refinement 的觀念

前面的章節我們是利用 RF 距離去評估我們所要選擇的演化樹，接下來我們想要利用一些簡單的方法，保留 4 個軟體所得到的資訊，進而得到一個新的結果，提供一個新的想法建立演化樹[21]，我們首先先介紹 MAST 與 Refinement 的觀念：MAST(Maximum Agreement Subtree)最大一致性的子樹[4]：將 2 棵樹分別取 subtree(子樹)可以盡量保留至多個點，使得 2 顆樹相同，我們則稱為此 2 顆樹的 MAST，我們用下面的圖形簡單的說明：

(61)

圖 4.1 MAST 說明圖形。

上面的例子雙方各保留了 X1,X2,X4,X5 左邊的結果跟右邊一樣，因此我們得到最後的樹為這 2 顆樹的 MAST tree。Number of MAST 即為 4;就是可以保留最多的葉子節點個數。給定 2 個 n 葉點個數的二元樹，我們可以找到 MAST 在 nlogn 的時間複雜度，演算法及證明在這裡不詳細介紹。(2000 年 Cole 等人有證明，過程很複雜。)

現在我們來看一下提煉(Refinement)的觀念:將 2 棵樹的所有葉點都留住;

但是對邊作收縮的動作，收縮到結構一樣即為所謂的最大相同提煉樹，以下我們用簡單的圖形說明：

(62)

圖 4.2 Refinement 說明圖形。

T1 即為 T2 與 T3 的最大共同 refinement tree，這裡要把握一個原則，即是盡量不要對邊收縮太多次而得到相同結構樹;因為樹的邊越多對演化的意義越多，所以我們要盡量把邊保留住。在介紹完 MAST 與 refinement 後，我們便可以發現它們都有各自的優缺點；MAST 會喪失點的個數，refinement 則會流失邊的個數，我們便期望找到方法可以保留全部的點跟大多數的邊，而得到新的演化樹；便發展出下面一節的演算法。

(63)

4.2 Full_Mast 演算法

所謂 Full_MAST 就是要保有所有原先演化樹的點，但是我們先前事先對我們輸入的資料作 MAST 拿掉了一些點，因此我們採用的方法就是再把點加回到原先我們所做出來的 MAST 樹。我們現在來看一下我們的演算法：

1.先求出作 MAST 所刪掉的點有哪些

2.for(i=1; i<=n; i++) // n 是被刪掉的點{ 把點一個一個的加回到原先的

MAST 樹上 }

3.把要加入的點分別在 tree1 與 tree2 對 Mast 點作追溯，找出欲加入的點最靠近 MAST 點中的哪一點

4.把該點加到 MAST 樹中

5.加入後的點放入 MAST 的點集合中 6.把全部被刪掉的點加回到 MAST 樹中

7.利用 RF_distance 算出我們新得到演化樹的平均距離 8.求出平均距離的排名

(64)

假定現在有 2 棵 10 個點的演化樹，做完 MAST 後保留住 7 個點，現在我們需要把剩餘的點一個一個的加回去，我們用下面的圖形，一步一步的說明我們演算法的過程。

圖 4.3 2 個演化樹與其 MAST 樹的圖形。樹 1 與樹 2 經過 MAST 計算後得到一個新的 MAST_tree。

我們先對得到的 MAST_tree 作搜尋，發現我們拿掉了 H I J 三個點，根據我們的演算法，一個一個的把點加回到原先的 MAST_tree 中；我們按照流水號先加 H ，然後 I ，最後是 J 。

(65)

圖 4.4 評估點 H 在 Tree1 中與 MAST_tree 中的點最近的距離。

我們要找到點 H 在 Tree1 中離 MAST_tree 中所謂的最近的距離，由點出發經過一個邊，我們便定義為一個距離，如上圖所示。所以我們可以發現 H 與 G 的距離為 2，而 H 到其他點的距離都超過 2，現在再來看 H 在 Tree2 中的最短距離是多少。

(66)

圖 4.5 評估點 H 在 Tree2 中與 MAST_tree 中的點最近的距離。

經過 Tree1 與 Tree2 的評估之後，我們發現 H 與 MAST_tree 中最近的距離為 2(採用 Tree1 的最近距離)。所以我們可以把 H 點加入到 G 點距離為 2 的地方，如下圖所示：

圖 4.6 加入點 H 在 MAST_tree 中。找到 G 點，將 H 插入到與其距離為 2 的地方。

此時我們的 New Tree 中點的集合以經由原先的(ABCDEFG)，多增加了一個點 H 新的點集合為(ABCDEFGH)；現在可以加入第 2 個點 I，一樣按照我們的演算法，先對 Tree1 與 Tree2 作距離的評估，找出最近的距離後，再把點 I 插入到與其距離最近的點上，下面有圖形說明：

(67)

圖 4.7 評估點 I 在 Tree1 中與 New Tree 中的點最近的距離。

圖 4.8 評估點 I 在 Tree2 中與 New Tree 中的點最近的距離。

經過 Tree1 與 Tree2 的評估後我們決定將點 I 加入到 New Tree 中的點 H 距離為 2 的地方。此時 New Tree 的點集合再由原先的(ABCDEFGHI)增加一個點，變為(ABCDEFGHIJ)。

(68)

圖 4.9 加入點 I 在 New Tree 中。找到 H 點，將 I 插入到與其距離為 2 的地方。

最後對點 J 作一樣的動作，我們來看一下加入點 J 的動作過程：

圖 4.10 評估點 J 在 Tree1 中與 New Tree 中的點最近的距離。

(69)

圖 4.11 評估點 J 在 Tree2 中與 New Tree 中的點最近的距離。

我們可以發現最近的距離不論由 Tree1 或 Tree2 所得到的值皆為 2，因此我們可以得到 2 個新的樹為最後的結果，在運算的過程中其實都會有機會遇到這種可能，我們只要任選其中一種當成結果即可，這裡為了說明所以我們把 2 種可能的最後結果都列出來：

圖 4.12 作完 Full_MAST 後所得的結果。

(70)

New Tree1 是由原先的 Tree1 判定點 J 與 I 距離最近；New Tree2 則是由原先的 Tree2 認為 J 與 G 為最近。最後產生的 New tree1 或 New tree2 便是我們演算法最終所得到的演化樹，然後我們在利用 RF_diatance 演算法去評估我們新建的演化樹是否有其參考的價值。

(71)

4.3 程式執行結果說明

我們用人類血紅素 8 組基因序列當例子，先用 PHYLIP 分別執行

Dnacomp、Dnapars、Dnaml、Dnamlk 得到了 4 組的演化樹序列格式；把這 4 組序列當成我們的輸入資料，我們便可以執行我們的程式；下面是我們執行結果：

(72)

圖 4.13 程式執行結果。

下面是我們 input 的演化樹，以及最後得到的演化樹圖形：

圖 4.14 Dnacomp 得到的演化樹。

(73)

圖 4.15 Dnapars 得到的演化樹。

圖 4.16 Dnaml 得到的演化樹。

中 華 大 學 碩 士 論 文

中 華 大 學

碩 士 論 文

演化樹工具之分析與改進

系 所 別：資訊工程學系碩士班 學 號 姓名：M9002014 張仁豪 指 導 教 授 ： 吳 哲 賢 博 士

中 華 民 國 九 十 二 年 七 月

演化樹工具之分析與改進

然後是中華大學資工系的老師，在修課上給予的指導與教誨，還 要感謝的是我的家人，由於你們的全力支持，使我能夠專心的在課業 上作努力，今天才得以完成碩士學位，僅能以此論文的完成來感謝你 們為我所做的一切。

對於曾經幫助我的師長、學長、學弟妹等等再此一併致上謝意，

因為有你們的協助，才能順利克服各種困難，使得本論文能完成。

摘 要………...….. i

ABSTRACT………...………. ii

致 謝………...………. iii

目 錄………..….………. iv

第一章 簡介….………..….………. 1

1-1 物種與演化………...………. 1

1-2 演化樹與其種類………..….. 7

第二章 建立演化樹方法與常用軟體…....…………..……. 12

2-1 如何建立演化樹……….………. 12

2-2 無權重群組算數平均法……….…..……… 13

2-3 吝嗇演算法………..……… 16

2-4 兼容演算法………..…… 18

2-5 最大可能演算法………..… 20

第三章 選擇最佳演化樹之演算法….………..…… 27

3-1 選擇演算法與系統介紹………..……… 27

3-3 RF_distance 實驗結果………..……...… 36

第四章 建立新演化樹之演算法…………...…..………… 48

4-1 MAST 與 Refinement 的觀念……….. 48

4-2 Full_MAST 演算法.………...….. 51

4-3 程式執行結果說明………..…… 59

第五章 結論………...…… 64

5-1 研究成果……….. 64

5-2 未來研究方向………..………… 65

參 考 文 獻………...……… 66

圖 1.1 各種物種血球間的演化關係.………8

圖 1.2 無根距離演化樹……….…...………9

圖 1.3 特徵演化樹的表示表格……….…...…………..10

圖 1.4 特徵演化樹圖形…………..………...….………10

圖 2.1 作 UPGMA 步驟一……….………..……….14

圖 2.2 作 UPGMA 步驟一………….………...………14

圖 2.3 建立 Parismony 演化樹……….16

表 2.4 轉換次數表……….………19

圖 2.5 最大可能演化樹圖形表示……….………20

圖 2.6 k 個序列最大可能演算法.………21

圖 2.7 Jukes&Cantor 提出的機率模式…….………22

圖 2.8 化簡 Jukes&Cantor 提出的機率模式…….…...…………22

圖 2.9 再化簡 Jukes&Cantor 提出的機率模式……....…………23

圖 2.10 Kimura 提出的機率模式……….24

圖 2.11 化簡 Kimura 提出的機率模式………...……….24

圖 2.12 最大可能演算法示意圖，針對 2 個序列作……….…25

圖 3.1 系統流程圖….………...…29

圖 3.2 RF_distance 演算法過程………...…30

圖 3.3 RF 中好的邊………...………...…31

圖 3.4 RF 中壞的邊………...………...…31

圖 3.5 RF 中好的邊(外部)…..……...…...………...32

圖 3.6 RF 中好與壞的邊…………...………...32

圖 3.7 RF 演算法說明圖形之一…...………...34

圖 3.8 RF 演算法說明圖形之二…...………...…34

圖 3.9 倆倆間 RF_distance 表格…...………35

圖 3.10 人的肌凝蛋白基 8 組序列執行結果…...………....43

圖 3.11 人類粒線體 7 組序列執行結果…...…………...……….…44

圖 3.12 人類脊凝酯 6 組序列執行結果…...…...……….…45

圖 3.13 愛滋病病毒 8 組序列執行結果…...………...…….…46

圖 4.1 MAST 說明圖形………..………...…………...…49

圖 4.2 Refinement 說明圖形………..………...…………...…50

圖 4.3 2 個演化樹與其 MAST 的圖形………..…………...…52

圖 4.4 評估點 H 在 Tree1 中與 MAST_tree 中點最近距離……...53

圖 4.5 評估點 H 在 Tree2 中與 MAST_tree 中點最近距離……...53

圖 4.6 加入 H 點在 MAST_tree 中………..………...…54

圖 4.7 評估點 I 在 Tree1 中與 New Tree 中的點最近的距離…...55

圖 4.8 評估點 I 在 Tree2 中與 New Tree 中的點最近的距離……..55

圖 4.9 加入點 I 在 New Tree 中………..…………...…56

圖 4.10 評估點 J 在 Tree1 中與 New Tree 中的點最近的距離……56

圖 4.11 評估點 J 在 Tree2 中與 New Tree 中的點最近的距離...…57

圖 4.12 作完 Full_MAST 後所得的結果………...…57

圖 4.13 程式執行結果………...…60

圖 4.14 Dnacomp 得到的演化樹………...…60

圖 4.15 Dnapars 得到的演化樹………...…61

圖 4.16 Dnaml 得到的演化樹………...61

圖 4.17 Dnamlk 得到的演化樹………....…62

中華大學碩士論文

中華大學

碩士論文

系所別：資訊工程學系碩士班學號姓名：M9002014 張仁豪指導教授：吳哲賢博士

中華民國九十二年七月

然後是中華大學資工系的老師，在修課上給予的指導與教誨，還要感謝的是我的家人，由於你們的全力支持，使我能夠專心的在課業上作努力，今天才得以完成碩士學位，僅能以此論文的完成來感謝你們為我所做的一切。

摘要………...….. i

致謝………...………. iii

目錄………..….………. iv

第一章簡介….………..….………. 1

第二章建立演化樹方法與常用軟體…....…………..……. 12

第三章選擇最佳演化樹之演算法….………..…… 27

第四章建立新演化樹之演算法…………...…..………… 48

第五章結論………...…… 64

參考文獻………...……… 66

= ¹

2.5 最大可能演算法

⁽

⁾ )

⁽

⁾ )