• 沒有找到結果。

食油假單胞菌基因體組序

在文檔中 中 華 大 學 (頁 44-48)

第五章 食油假單胞菌基因體定序、組序與註解

5.2 食油假單胞菌基因體組序

序列長度 4377895

讀序長度 301

%GC 64

圖 32 R 端讀序 FastQC 的定序品質報告

CPU 與 RAM 計算資源也大小也不同。組序的專有名詞為:Fragment library:一個 短序列 (約 270bp) 與重疊的序列;也稱為 std library、Long insert library:一個 4-8kb 的基因序列中只有 100 bp 在序列的端點; 也稱為 CLIP,mate pair library、

Raw Read(原始讀序):定序公司出來的結果 (Sequencer output) ;疊連序列(Contig,

contiguous sequence):重疊基因的 DNA 序列; 鷹架序列(Scaffold):一個或由未知 序列連接在一起更多的重疊區;Contig 和 Scaffold 的差異是 Scaffold 中間序列會出 現以 NNN 代表不知道的序列字母,Raw Read 拼接成 Contig 拼接成 Scaffold。

現在全新基因體組序的組序方法有重疊-佈局-共識(overlap-layout-consensus)方 法以及 de Bruijn 圖(de Bruijn graph)法兩大類。以前大多數都是用重疊-佈局-共識 (overlap-layout-consensus)方法,是因為第一代定序所產生的原始讀序比較少(一次 384 條,一個基因體定序約數萬條),其組序演算法複雜度為 O(N2),所以可以一條 一條的序列比對拼接。現在次世代定序為 high-throughput 讀序,短數量多(數百萬

~數億條),用重疊-佈局-共識(overlap-layout-consensus)方法會造成演算法效能問題。

而用 de Bruijn 圖的方式可解決次世代定序組序的問題。de Bruijn 圖的方法是不管 序列長度為多少,把它切成固定為 K 的長度。因為在不同長度下資料結構會不好 處理,所以把序列切成固定長度 K。重疊(K-1)的兩個為節點間建立連結。通常 K 數值為奇數通常為 31、63、127,K 值越大組序的速度會越快,因為運算為 4k電腦 所需要的記憶體也要夠大、組序錯的機率也越低。現在目前主要的 de novo 程式有 ALLPATHS:美國(Broad Institute)、Velve:英國(Sanger Center)、SOAPdenovo:中國(華 大基因)。de Bruijn 圖法舉例說明如下:假設有三條 DNA 片段待組序,AATGG、

ATGGAA、ATGGAC,K=4。組序步驟下:

步驟:1.將每個 原始讀序切成長度為 K(K-mer)固定大小。步驟:2.重疊(K-1) 的 K-mer 的節點之間建立連結,步驟:3.DBG 中的路徑(phth)即為 contig ,如圖 33 所示。

圖 33 de Bruijn 圖基因體組序範例

全新基因體組序的品質以 N50 衡量,計算方式為挑選最長的序列 K 條加起的 長度總和超過預測菌種基因體大小的一半時的最小 K 值為 N50 之值。用的序列越 少表示品質越好。另一個常用的組序品質 N90 的定義類似,表示 K 條的 Contig 序 列完成 9 成組序這表示基因體結果很完整。

5.2.2 食油假單胞菌基因體組序結果

我們使用 SOAPdenovo2 [19]進行食油假單胞菌基因體組序。在如前所述 FastQC 報告顯示在 250bp 以後序列品質不好所以設定最大讀序長度為 250 bp,品質不好的序 列不要用在組序中,影響組序結果。組序結果為含 N 的序列長度為 4,833,878 bp,把 N 扣除長度為 4,817,485 bp。鷹架序列有 1760 個序列、其長度之中位數為 127、最長 序列為 152,939 bp,如表 11 所示。鷹架序列的長度統計 G+C%為 62.27%,如表 12 所示。組序的品質 N50 為 29,表示前 29 條可超過預計基因體序列長度的一半;N90 為 121 條,表示組序結果可超過預計基因體序列長度的 9 成,如表 13 所示。

表 11 食油假單胞菌全新基因體組序(使用 SOAPdenovo2)結果

基因體大小(含 N) 4833878

基因體大小(不含 N) 4817485

鷹架序列個數 1760

平均大小 2746

中位數大小 127

最長鷹架序列大小 152939

最短鷹架序列大小 100

單一序列個數 1632

平均包含序列數 9

表 12 食油假單胞菌全新基因體組序的鷹架序列(Scaffolds)長度分析組序統計

鷹架序列長度>100 1750 99.43%

鷹架序列長度>500 255 14.49%

鷹架序列長度>1K 212 12.05%

鷹架序列長度>10K 109 6.19%

鷹架序列長度>100K 7 0.40%

鷹架序列長度>1M 0 0.00%

GC_Content 62.27% (G+C)/(A+C+G+T)

表 13 食油假單胞菌全新基因體組序的 N10~N90 組序品質統計

組序品質項目 序列長度((bp) 累積序列個數

N10 122211 4

N20 95440 8

N30 79557 14

N40 61416 20

N50 49552 29

N60 34663 41

N70 24819 57

N80 16394 80

N90 6851 121

在文檔中 中 華 大 學 (頁 44-48)

相關文件