• 沒有找到結果。

本方法雖然可以廣泛尋找水平基因轉移現象,但在開發階段 all-against-all

比較的分析時間,tBLASTn 的時間和最後處理跑 CLUSTALW 與 MEGA 的時間過久,

勢必需要找出能夠更快分析的方法。另外,最後的實驗輸出仍然需要人工去確認

是否有水平基因轉移現象。

本方法候選基因從哪裡來,甚至是之後到哪裡去的問題。建立了眾多可能有

水平基因轉移現象的演化樹之後便可以採取前述 SPR 方法以建立 phlogenetic

network,如此或許可以完整的呈現一個基因的旅程。因此,本方法可以視作是

建立 phlogenetic network 得前置工作,可以大量得到有效的 data 以供後續研究。

另外,雖然此法可以篩選出水平基因轉移候選,但水平基因轉移現象的確認仍需

結合其他方法,比如 GC content 與 Codon usage 等方法。

另外當比較組中的 Genome 序列太相近時,一點點序列差異便會使

Mahalanobis 距離變得相當大,本次實驗中最大的距離高達 923,但此兩組 genome

為同種不同品系、其序列差異僅只有 1 個 nucleotide,這樣的差異極有可能只是

普通演化現象造成的多樣性,並不是此方法所要討論的重點,因此我們限制了序

列間的相似度必須<70%。但,這樣的限制雖然讓前幾名的輸出能呈現物種的差

異性,仍不能排除有漏掉可能基因轉移現象的可能性。

21

本次研究觀察到 Stigmatella aurantiaca 的水平基因轉移率有 3733 個,並不

算特別突出,因此無法直接證明其基因體大小的異常現象是否和水平基因轉移現

象有關,且我們的方法內仍有需要完全確認的地方,比如 BLAST 的準確性、e-value

條件的設定是否真的可以完整的找到所有的同源基因,又或者 Mahalanobis 的計

算方法,是否能夠完整的找出所有的 outlier,又或者有些 Genome 的構造會使此

方法產生誤差,如真菌類的 Intron 等。

最後,為了真正確認 Genome 大小與水平基因轉移的關聯性,我們仍然需要

用此方法來檢視比較一般的菌種,如 E.coli,來做為對照以說明此假說是否成立。

22

Figure 1 :利用演化距離不一致確認水平基因轉移現象

給定 Genome A、B、C,如果物種演化樹為上圖,A、B、C 的共有同源

基因之演化樹形式應該呈如此排列,因此 A-B/A-C 應為定值。

在有水平基因轉移現象發生的時候,由於該特殊的基因是經由轉移現象獲得

其距離必定與一般演化得到的基因不同,A-B/A-C 的比值因此而產生差異。

這樣的差異便可以化為座標差異應用在後面的散布圖觀念中。

23

Figure 2 :利用三條列間的距離建立比較組散布圖

利用 B 為 Y 軸,A-B 的距離為 Y 座標,C 為 X 軸,A-C 的距離為 X 座標

24

Figure 3 :方法流程圖

本實驗由 tBLASTn 開始 (深藍色區塊),將欲知物種的全蛋白序列為 query 對

細菌、古生菌、真菌的全基因體進行 BLAST。得到特定蛋白的結果後紀錄其

Bit-score。接著開始進行程式比對部分(橘色區塊),首先排列兩兩 Genome 做

all-against-all 比對,假設一蛋白在這兩個 Genome 上都有 Hit 的話就可以有一個

資料點,掃描所有共同蛋白後得到一散布點圖,利用 Mahalanobis 距離找出群組

中 outlier 的點。最後的是排序與分析部分(淺藍色區塊),將 Mahalanobis 距離大

的點挑出利用 CLUSTAL W alignment 後,以 MEGA 建立演化樹,輸出最後的結果。

25

Figure 4 :all-against-all 比對與比較組

由上半部分 BLAST 的結果開始,假設 query 之蛋白為 α,其與 genome A、B、

C 皆有 hit。紀錄這些 hit 的 bit-score 後,進入到下半部分進行 genome 間

all-against-all 比對,會比較 AB、BC、AC(圖上未顯示),這兩兩 genome 便被稱為

「比較組」,並可以畫出一個以兩 genome 為軸,bit-score 為刻度之散布圖。共

同對應到的蛋白 α 便以在各自 Genome 上的 bit-score 為 X-Y 坐標,在圖上形成一

資料點。

Genome C

26

Figure 5 : 比較序列與 outlier

當我們得到比較組,畫出散布圖,標出所有在其上有 hit 的蛋白點之後,便

可以得到一個有眾多點的群組,一般情況下 Genome B、C,到共同同源的蛋白點

的距離應該是成比例的線性形態(上左),只是距離較遠的線性可能會有偏向(上

右),如此群中 outlier 的點便可能是水平基因轉移現象造成的,下圖為一實際的

例子,在 NC_005957.1 與 NC_011658.1 genome 比較組中出現的 outlier 蛋白。

B

C

C

D

27

Figure 6:STAUR_2131 之演化樹

此樹的分類將屬於 Bacteria 的 Stigmatella aurantiaca 基因分類入 Fungi 內,

顯示出此基因是由 fungi 轉移過來的。

紅色與藍色邊框是本實驗有包含的 dataset,紅色為 Bacteria,藍色為 Fungi。

原圖來自何宜佩發表之碩士論文[32]。

FA|A. oryzae|BAE66289.1|unnamed protein product FA|A. flavus|XP 002384622.1|conserved hypothetical protein FA|A. oryzae|XP 001827422.2|glucuronan lyase A

FA|A. flavus|XP 002378726.1|conserved hypothetical protein FA|A. oryzae|XP 001823345.1|glucuronan lyase A

FA|T. stipitatus|XP 002484423.1|integral membrane protein FA|P. marneffei|XP 002149242.1|conserved hypothetical protein B|S. aurantiaca|ZP 01465287.1|hypothetical protein STIAU 2222

B|S. aurantiaca|YP 003951762.1|hypothetical protein STAUR 2131 FA|A. clavatus|XP 001274384.1|conserved hypothetical protein FA|N. fischeri|XP 001259598.1|hypothetical protein NFIA 076310 FA|A. fumigatus|XP 753554.1|conserved hypothetical protein FA|A. fumigatus|EDP51830.1|conserved hypothetical protein

FA|S. macrospora|CBI55925.1|unnamed protein product FA|N. crassa|XP 959843.1|hypothetical protein NCU05852 FA|A. nidulans|XP 657616.1|hypothetical protein AN0012.2

FA|N. haematococca|XP 003041896.1|hypothetical protein NECHADRAFT 52969 FA|M. anisopliae|EFY98252.1|glucuronan lyase A

FA|H. jecorina|BAG80639.1|glucuronan lyase A

FA|C. globosum|XP 001226268.1|hypothetical protein CHGG 08341 FA|M. oryzae|XP 363838.1|hypothetical protein MGG 01764 100

28

Blastn c2627104-2626334 (STAUR-2131 coding region)

NC_007198.1 (the only one hit)

2798658 2799151

tBLASTn YP_003951762.1 (SRAUR-2131 Protein)

NC_007198.1 2798586 2799350

tBLASTn XP_753554.1 (Aspergillus fumigatus Af293)

NC_007198.1 2798523 2799350

tBLASTn YP_003951762.1 (SRAUR-2131 Protein)

NW_001884672.1 1345381 1344695

tBLASTn XP_001827422.2

(Aspergillus oryzae RIB40)

NW_001884672.1 1345381 1344695

tBLASTn YP_003951762.1 (SRAUR-2131 Protein)

NT_107015.1 42199 42885

tBLASTn XP_657616.1 (Aspergillus nidulans FGSC A4)

NT_107015.1 42130 42885

tBLASTn YP_003951762.1 (SRAUR-2131 Protein)

NW_001092400.1 14676 13987

tBLASTn XP_959843.1 (Neurospora crassa OR74A)

NW_001092400.1 14745 13987

Table 1 :tBLASTn 效力驗證

利用 Figure.4 之蛋白為 Query 進行 BLASTn 與 tBLASTnQuery 欄對應 Figure.4 中的蛋 白,Hit target 欄為 BLAST 後 hit 到的 Genome,標示紅色為 Figure.4 中有的蛋白,在本實 驗中也有被找到。可以看出圖中的蛋白全部都能夠利用 tBLASTn 的方法找出。

29

Figure 7:NC_014844.1 對 NC_014148.1 比較組散布圖

箭頭處為 outlier 點

M.distance 比較組

A Species B Species

16.8986814 NT_107015.1 A.nidulans NC_017850.1 M.oryzae 15.6519429 NC_016582.1 S.bingchenggensis NC_007198.1 A.fumigatus 13.9237548 NC_015957.1 S.violaceusniger NC_007198.1 A.fumigatus 11.8339654 NS_000201.1 P.chrysogenum NT_107015.1 A.nidulans 11.2209951 NS_000201.1 P.chrysogenum NC_007198.1 A.fumigatus 10.6673748 NC_015957.1 S.violaceusniger NW_001884672.1 A.oryzae

Table 2:STAUR_2131 之比較組

比較組之 A、B 各為 Genome,Species 欄為該 Genome 之種名,M.distance

為該點之 Mahalanobis 距離,橘色區塊為 Bacteria,其餘皆為 Fungi。

NC_014148.1 NC_014844.1

YP_003956356

YP_003951646

30

31

Figure 8:STAUR_2131 比較組之散布圖

STAUR_2131 六組比較組中的三張散布圖,箭頭處為 outlier STAUR_2131 點的

位置,皆是肉眼可見的 outlier。

0 0.5 1 1.5 2 2.5 3

0 0.5 1 1.5 2 2.5 3 3.5

NC_015957.1<>NW_001884672.1

NC_015957.1 NW_001884672.1

STARU_2131

32

Figure 9:YP_003951762.1(STAUR_2131)演化樹

藍色 bar 為真菌群類,紅色 bar 為細菌群類。

利用 Neighbor-Join、PAM matrix 為 distance,bootstrap 100 建的樹,可以看到

YP_003951762 被分類在真菌群內,顯示其與真菌群有水平基因轉移現象。

Figure 10:YP_003951762.1(STAUR_2131)樣版演化樹

藍色 bar 為真菌群類,紅色 bar 為細菌群類。建樹條件如上。

兩群分類被完全隔開,且 Stigmatella aurantiaca 確實被分類於細菌群中。

33

Figure 11:YP_003950678 與 YP_003954354 之演化樹

其演化樹與樣版演化樹皆同,建樹方法為 Neighbor-Join、PAM matrix distance、

bootstrap 100。

34

Figure 12:YP_003955618 與 YP_003953284 演化樹

其演化樹與樣版演化樹皆同,建樹方法為 Neighbor-Join、PAM matrix distance、

bootstrap 100。

35

Reference

1. Jurkevitch, E., Predatory Behaviors in Bacteria—Diversity and Transitions.

Microbe, 2007. 2(2): p. 67-73.

2. Trevors, J.T., Genome size in bacteria. Antonie van Leeuwenhoek, 1996. 69(4):

p. 293-303.

3. Stuart Huntley, et al., Comparative Genomic Analysis of Fruiting Body Formation in Myxococcales. Mol Biol Evol, 2011. 28 (2): p. 1083-1097.

4. Andam, C.P. and J.P. Gogarten, Biased gene transfer in microbial evolution.

Nat Rev Micro, 2011. 9(7): p. 543-555.

5. N. B. Shoemaker, H.V., K. Hayes, and A. A. Salyers, Evidence for Extensive Resistance Gene Transfer amongBacteroides spp. and among Bacteroides and Other Genera in the Human Colon Appl. Environ. Microbiol. , 2001. Vol. 67 no.

2 p. 561-568

6. William, D.T.A.-R.Y.M., Modular networks and cumulative impact of lateral transfer in prokaryote genome evolution. PNAS, 2008. vol. 105 no. 29: p.

10039-10044.

7. Sorek, R., Genome-wide experimental determination of barriers to horizontal gene transfer, 2007.

8. Brown, J.R., Ancient horizontal gene transfer. Nat Rev Genet, 2003. 4(2): p.

121-132.

9. Dubey, G.P. and S. Ben-Yehuda, Intercellular Nanotubes Mediate Bacterial Communication. Cell, 2011. 144(4): p. 590-600.

10. Beatty, A.S.L.a.J.T., Genetic analysis of a bacterial genetic exchange element:

The gene transfer agent of Rhodobacter capsulatus. PNAS USA, 2000. 97(2): p.

859-864.

11. Zhao, Y., et al., Gene transfer agent (GTA) genes reveal diverse and dynamic Roseobacter and Rhodobacter populations in the Chesapeake Bay. ISME J, 2008. 3(3): p. 364-373.

12. McDaniel, L.D., et al., High Frequency of Horizontal Gene Transfer in the Oceans. Science, 2010. 330(6000): p. 50.

13. Richards, T.A., et al., Gene transfer into the fungi. Fungal Biology Reviews, 2011. 25(2): p. 98-110.

14. David Alvarez-Ponce, E.B., Phylogenomic networks provide insights into the chimerical origin of eukaryotes, in SMBE2012; 2012: Dublin, Ireland.

15. Martin, T.D.a.W., Getting a better picture of microbial evolution en route to a network of genomes. Phil. Trans. R. Soc. B, 2009. vol. 364 no. 1527: p.

36 2187-2196

16. McInerney, D.A.-P.a.J.O., The Human Genome Retains Relics of Its Prokaryotic Ancestry: Human Genes of Archaebacterial and Eubacterial Origin Exhibit Remarkable Differences Genome Biol Evol, 2011. 3 p. 782-790. .

17. Abbott, J.M.J.a.S.L., 16S rRNA Gene Sequencing for Bacterial Identification in the Diagnostic Laboratory: Pluses, Perils, and Pitfalls. J Clin Microbiol., 2007.

45(9): p. 2761–2764.

18. John W. Whitaker, G.A.M.a.D.R.W., Prediction of horizontal gene transfers in eukaryotes: approaches and challenges. Biochemical Society Transactions, 2009. 37: p. 792–795.

19. Kariin, S. and C. Burge, Dinucleotide relative abundance extremes: a genomic signature. Trends in Genetics, 1995. 11(7): p. 283-290.

20. Nakhleh, L., Evolutionary Phylogenetic Networks: Models and Issues, in The Problem Solving Handbook for Computational Biology and Bioinformatics, L.

Heath, Ramakrishnan, N, Editor 2010, Springer. p. 125-158.

21. Christiam Camacho, G.C., Vahram Avagyan, Ning Ma, Jason Papadopoulos, Kevin Bealer and Thomas L Madden BLAST+: architecture and applications.

BMC Bioinformatics, 2009. 10:421.

22. BLAST+. Available from:

ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ . .

23. Madden, T., Chapter 16 The BLAST Sequence Analysis Tool, O.J. McEntyre J, Editor 2002, National Center for Biotechnology Information (US): The NCBI Handbook [Internet].

24. Rodriguez, E.A.a.C., A Meta analysis study of outlier detection methods in classification. 2004.

25. Williams, G., et al. A comparative study of RNN for outlier detection in data mining. in Data Mining, 2002. ICDM 2003. Proceedings. 2002 IEEE

International Conference on. 2002.

26. Rodriguez, E.A.a.C., On detection of outliers and their effect in supervised classification. 2006.

27. Ben-Gal, I., Outlier Detection, in Data Mining and Knowledge Discovery Handbook: A Complete Guide for Practitioners and Researchers2005, Kluwer Academic Publishers.

28. J D Thompson, D.G.H., and T J Gibson, CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting,

position-specific gap penalties and weight matrix choice. Nucleic Acids Res, 1994. 22(22): p. 4673-4680.

29. Tamura K, D.J., Nei M, Kumar S. , MEGA4: Molecular Evolutionary Genetics

37

Analysis (MEGA) Software Version 4.0. Mol Biol Evol, 2007. 24(8): p.

1596-1599.

30. George E. Fox, J.D.W.a.P.J.J., How Close Is Close: 16S rRNA Sequence Identity May Not Be Sufficient To Guarantee Species Identity. IJSEM, 1992. 42(1): p.

166-170

31. BG, S., Multilocus sequence typing:molecular typing of bacterial pathogens in an era of rapid DNA sequencing and the Internet. Current Opinion in

Biotechnology, 1999. 3.

32. Ho, Y.-P., The horizontal gene transfer events and alterations of genomic GC content in the genus Aspergillus, in Institute of molecular medicine and bioengineering2011, National Chiao Tung University.

相關文件