• 沒有找到結果。

Weighted Breakpoint Distance

為了討論基因體重組的問題,我們用一個整數(integer)來表示兩個物 種之間的一個直向同源基因,並利用正負符號(即+或-)來表示其轉錄 方向(如+號代表了方向為 5’→3’,-號代表了方向為 3’←5’)。在這篇 研究中,我們只著重在發生在於同股基因對的斷點,換句話說我們以發 生於同股鄰近基因對的斷點為代表來討論物種之間的演化關係。

假設 L={C1,C2,…..,Cn}為兩個基因體 A 跟 B 之間的直向同源基因,我

的遠距離斷點。SaSb分別表示為 A 與 B 基因體上重組速率慢的直系同 源鄰近基因對。LaLb分別表示為 A 與 B 基因體上重組速率快的直系同 源鄰近基因對。Dis(A,B)表示為基因體 A 跟基因體 B 之間的加權斷點距 離,而WsWl則代表了使用者認為在演化距離慢以及演化距離快的鄰近 基因對所形成得斷點時所給予的加權比重。

3.2 Algorithm

Figure 3.1 為我們演算法的流程圖,這個演算法是藉由加權斷點距離 來建構出原核生物的基因體演化樹。

第一步為使用者輸入多個物種的編號 (accession number),我們的工具 會根據編號從 NCBI (National Centre for Biotechnology Information) 上 抓取完整的基因體序列。第二步使用者可以選擇是否要排除分析為推定 的(putative)、 假設的(hypothetical)或是未知的(unknown)的基因以及水 平基因轉移 (horizontal gene transfer)的基因。這些被註解為推定與假設 的基因資訊是由 NCBI 對完整基因體序列中每個蛋白質編碼序列(coding sequence,簡稱 CDS)的分析所得來的。然而這些基因尚未用生物實驗的

方法證實其真正的基因功能,因此若是要嚴謹的分析物種,使用者可以 直向同源基因。我們所使用的方法為 Bidirectional Best Hit (BBH)。BBH 定義為當基因 a 跟 b 各別為兩個基因體 A 跟 B 的基因時,利用基因 a 去

之後每個基因體中的鄰近基因對,我們會根據使用者所定義的距離來 判斷該鄰近基因對是重組速率慢的鄰近基因對,或是重組速度快的鄰近 基因對。

接下來對於任何兩個基因體,我們會將兩基因體彼此之間的斷點根據 斷點發生於演化速度慢或是發生於演化速度快的鄰近基因對而分類近 距離斷點或是遠距離斷點並算出兩個基因體之間的加權斷點距離。最後 我們會根據 UPGMA、NJ 以及 FM 三種建構演化樹的方法以及每個基因體 之間的加權斷點距離所建出的矩陣來建構出根據使用者所輸入的原核 生物基因體資料的基因體演化樹

Figure 3.1: 演算法的流程圖.

Whether or not to discard ORFs annotated as horizontally transferred genes?

Whether or not to discard ORFs annotated as

“hypothetical” or “putative” genes?

Input a set of accession numbers of species genomes

Download these complete genomes form NCBI

Extract the ORFs of each genomes

Discard ORFs annotated as horizontally transferred genes.

Discard the hypothetical or putative genes.

Define the short- and the long- adjacent gene pairs.

Calculate weighted breakpoint distance between any pair of genomes.

Output the constructed genome tree based on the matrix of pairwise weighted breakpoint distances.

Yes

Yes No

No

Apply BBH approach or INPARANOID program to each genome pair for identifying the families of orthologous genes.

Chapter 4

Implementation

根據在上個章節所描述的演算法,我們架設了一個網路伺服器工具名為 wBPtree (short for Genome Tree Based on Weight BreakPoint Distance)

(http://bioalgorithm.life.nctu.edu.tw/wBPtree/)。wBPtree 所使用的核心程式 是利用程式語言 C 以及 Perl 所寫成,而網頁介面則是藉由 PHP 所架設 而成。此網路工具可以提供使用者在線分析物種之間的關係(Figure 4.1)。

Figure 4.1: wBPtree 的網頁介面。

相關文件