Material and Methods - 應用參考序列檢測水平基因轉移現象的方法 : 以Stigmatella aurantiaca為例

2.1 主要實驗構想

我們的主要實驗構想是利用三條序列─分別為 Stigmatella aurantiaca (或者

其他輸入的 query 序列)上的基因序列 (假設為物種 A)，和我們的 Genome

database 中與該序列為同源關係的另外兩條序列 (假設為物種 B、C)，來進行比

較。此三條序列可以做出類似[Figure.1]上圖的演化樹形式，假設此樹為此三物種

的 Species tree 或一般認知的基因建立的 common tree (如 16SrRNA)。在正常的演

化情況下，此三物種內的任何同源基因樹應該都會維持這樣的排列法，也就是 A

至 B 的演化距離與 A 至 C 的演化距離應該會呈現一固定的值[Figure1.up]。但有水

平基因轉移現象發生在 A 與 B、或 C 之間的時候，該 A 的基因和 B、C 內的同源

基因所建立的演化樹將與原本的發生不一致的現象，因此其距離的比值便會和原

本的不同[Figure1.below]。

另外，利用前述的 A、B、C 三條序列兩個距離的關係，我們可以建立出一

個散布圖上的點[Figure2.up]。假設要研究 A 物種的水平基因轉移現象，那就可以

利用 B 為 Y 軸，A 至 B 的距離為 Y 座標，以及 C 為 X 軸，A 至 C 的距離為 X 座標，

則此圖上代表 A 的基因的點，其座標便是 (A-C,A-B)。綜合了許多 A、B、C 物種

內同源基因的點之後，便可以建立一個以 B、C 為 X-Y 軸，A 之基因為點的多點

散布圖[Figure2.below]。此圖內的點如之前所假設，大部分 X/Y 的比值應為定值，

也就是呈線性關係。但假設有些點(基因)發生了水平基因轉移現象的話，由於其

比值與原本不同，在圖上便會產生 outlier 的現象。根據這樣的假設，只要能夠

建立所有 Genome 對 Genome 的比較組(即 all-against-all 比較)，抓出其同源基因

中的 outlier 點，我們便能大量檢測水平基因轉移現象。

本方法利用 PhP 程式語言為基礎，應用了 BLAST 的資料，R 語言計算 Mahalanobis

距離，CLUSTALW 和 MEGA 進行 alignment 與演化樹的建立，詳細的流程圖為

[Figure.3]。

2.2 tBLASTn

大部分尋找水平基因轉移方法應用的是 BLASTp。但 BLASTp 精準卻很容易受

到蛋白資料缺失的影響，且水平基因轉移現象亦不一定是以基因為單位跳躍，因

此在動機為廣泛大量搜尋的情況下，我們便選擇以 Genome 為 nucleotide database

的 BLASTn，如此便可利用完整的基因體做搜尋。在 Query 的部分，由於演化時

間較長時核酸序列的改變容易飽和，便無法觀察到相應的改變，因此我們依然使

用蛋白序列為 Query，應用的 BLAST 便是 tBLASTn。

本實驗 tBLASTn database 所取用之基因體序列皆來自 NCBI FTP，「Genomes」資料

夾下的「Fungi」及「Bacteria」 (實際上包含了 Eubacteria 及 Archaea)下的.fna(FASTA

Nucleic Acid file)檔案，BLAST 之 query 為「Bacteria」資料夾下 Stigmatella aurantiaca

的.faa(FASTA Amino Acid file)檔案，其內含所有 Stigmatella aurantiaca 已確認之蛋

白序列。利用 BLAST+做為 BLAST 工具[21]，其原始碼可以在 NCBI FTP 下載[22]；

e-value cutoff 為 10^-5、輸出型式為 .csv。

根據 The NCBI Handbook 的介紹，BLAST 之 score 可以代表 alignment 程度的好壞，

換句話說可以代表兩序列間的同源性，而經過標準化後的 bit-score 更可以用來比

較不同 alignments 間的關係，即使它們應用不同的 scoring matrix 亦可[23]。因此，

我們將 tBLASTn 結果之 bit-score 輸出之後用來當做後續研究之參數。

2.3 all-against-all 比對

利用 PhP 程式語言，將 BLAST 後得到的所有結果依照不同的 Genome 進行分

類，並建立兩兩 all-against-all 之索引。想法是每個 Genome 皆和另一個 Genome

進行一次比對，找出共同 Stigmatella aurantiaca 蛋白質之 hit 當做一個資料點，

並佐以該點在各自 Genome 上的 bit-score 當做該點的坐標，如此便可得到以兩

Genomes 為 X-Y 軸、對應之 Stigmatella aurantiaca 蛋白質為資料點的散布圖

[Figure.4]。

但用此方法偵測水平基因轉移時會受到 Paralogous 的影響，增加分析的難度

與時間。基於水平基因轉移之序列相似度應該會大於 Paralogous，因此同一個蛋

白在特定 Genome 上的 hit 只取最高 bit-score 分數的結果，進行過濾後接著下面

的分析。

2.4 比較序列

得到兩 Genome 比對之散布圖之後 (後稱此兩 Genome 為一「比較組」)，此

圖便有比較序列之意義，在上面的蛋白資料點在兩 Genome 上都有同源的基因。

假設完全沒有水平基因轉移現象，影響此兩 Genome 上資料點之 bit-score 值的因

素只有 Paralogous(最高 bit-score 分數的)和 Orthologuous。雖然各物種間演化速

率不同，但這些同源基因在物種內的演化速率應是一致的，因此資料點應該會呈

現一線性的圖形[Figure.5 ]。

以演化上的角度來說，水平基因轉移是非垂直的現象，有水平基因轉移的基

因與其基因來源的序列距離會小於無水平基因轉移的同源基因，假設完全沒有水

平基因轉移現象發生，兩同源序列到該基因的距離應是一致的，可參考

[Figure.11.up]。

因此有水平基引轉移現象發生的資料點，與其有水平基因轉移關係的

Genome 和另一正常同源關係的 Genome 所形成之資料點便會產生群組中偏移；

有水平基因轉移關係的 Genome 上的 bit-score 值應會比理論上來的大，在圖上便

會呈現 Outlier 的形式。如此，只要能偵測每個比較圖中的 Outlier 點，便能找出

可能是水平基因轉移現象的候選基因[Figure.5]。

2.5 Outlier 檢測

Outlier 檢測主要有兩種分類，一為單變量方法(univariate methods)，與現今

較多研究利用的多變量方法(multivariate methods)。多變量分析方法中依據取得

資訊的不同又可分為統計法(Statistical)，基於距離(Distance)與分群(Clustering)的

數值採礦(Data-Mining)法[24]。先前的研究指出統計法在處理大量而複雜的數值

資料上優於數值採礦法[25]，雖然會受到覆蓋(Masking)與圍困(Swamping)效應的

影響，但我們並不執行任何 outlier 的去除，因此受到的影響不大。[26]

統計法中最常被利用的距離標準是 Mahalanobis 法[27]。假設有n組數據，影響

的維度為p，整組的 mean vector 為𝑥̅ⁿ，其 covariance matrix 為：

則每個點與其 mean vector 之經過標準化後的 Mahalanobis 距離為：

2.6 排序與 Alignment

得到 Mahalanobis 距離後我們自動進行排序，挑出距離比較大的點做為水平

基因轉移候選並進行分析。我們可以指定要瀏覽的組數，程式會自動將此範圍內

相同的水平基因轉移候選(來自不同比較組)視為一個群組 (此後稱為「候選基因

群組」)，並且取得該該水平基因轉移候選蛋白質的 nucleotide coding sequence、

及兩 Genome 上 BLAST hit 的 nucleotide 序列，也就是說，當此候選基因群組內只

有一組比較組時，裡面的序列便是該 Stigmatella aurantiaca 水平基因轉移候選與

比較組兩 Genome 序列各一，當群組內有兩組比較組時，裡面的序列便是一條

Stigmatella aurantiaca 與四條Genome 序列，但程式會自動刪除重複的序列資料

(比較組的其中一個 Genome 可能和另一個比較組的 Genome 重複，基於同一個

蛋白在特定 Genome 上的 hit 只取一組，這兩個由同一蛋白對到同一 Genome 的

序列會是完全相同的)。

之後，自動利用 CLUSTALW[28]，將 nucleotide 序列轉成胺基酸後進行 Multiple

Alignment，並輸出 nucleotide 形式的 Alignment 結果。

2.7 結果驗證

我們應用 MEGA 做為分析工具[29]，此軟體協助我們針對每個水平基因轉移

候選建立演化樹，演化樹的種類為 Neighbor-Join、Amino acid distance、Scoring

Matrix 為 PAM。假設有水平基因轉移現像的話，此樹已經可以看出分類上的不一

致性，但仍須對照樣版演化樹才能真正確定。

用來對照的樣版演化樹，可以利用 Housekeeping gene 建成，微生物中最常被利

用的是小核醣體 RNA(16S rRNA)，由於它廣泛存在於所有細菌中，且功能沒有

隨著時間轉變，1500bp 的大小也足以涵蓋必要的資訊[17]。但有研究指出在物種

太相近或是分化的時間點不長的話，小核醣體 RNA 沒有辦法有效的分類出這些

物種[30]。因此，我們利用近似於 MLST(Multilocus sequence typing)微生物分類

法的概念[31]，將好幾條序列串接在一起來建立樣版演化樹。方法是隨機在比較

組內挑選十條正常非 Outlier 的 Stigmatella aurantiaca 基因，且這些基因必須對候

選基因群組內的每個 Genome 都有 hit，因此可以抓出代表每條 Genome 的序列。

將這些 Stigmatella aurantiaca 基因各自與其候選基因群組內的 Genome 序列進行

Multiple Alignment 後再串接起來(為了避免不同基因間互相干擾)，便完成樣版演

化樹。但假如沒有十條共同的基因可以選擇的話，仍然要使用小核醣體 RNA 來

建立演化樹。

最後比較這兩者之間演化樹分類上的不同，觀察是否有類似水平基因轉移的插入

現象。

在文檔中應用參考序列檢測水平基因轉移現象的方法 : 以Stigmatella aurantiaca為例 (頁 14-21)