• 沒有找到結果。

中 華 大 學

N/A
N/A
Protected

Academic year: 2022

Share "中 華 大 學"

Copied!
55
0
0

加載中.... (立即查看全文)

全文

(1)

中 華 大 學 碩 士 論 文

食油假單胞菌全基因體定序分析

Genome Sequencing of Pseudomonas oleovorans CH-1

系 所 別:生物資訊學系碩士班 學號姓名:M09920003 袁嘉蓉 指導教授 :劉志俊博士

中 華 民 國 103 年 8 月

(2)
(3)
(4)

摘 要

聚羥基脂肪酸酯(Polyhydroxyalkanoates,PHA)是微生物用來儲存碳源與能源的 合成物。PHA 有不同的單體結構可以聚合成多種不同的聚合物,由於石油價格上 漲和環保觀念的提升,PHA 作為生物可分解的塑膠,其無毒性已受到學術界與業 界的高度重視。

PHA 的合成菌株已有少數之全基因體序列已經完成解碼。而食油假單胞 (Pseudomonas oleovorans)是能夠產生中長鏈 PHA 的重要 PHA 合成菌株,至目前為 止卻沒有全基因體序列完成定序,由於食油假單胞菌可以從脂類代謝,具有特殊的 實用價值,所以本論文以食油假單胞菌全基因體定序為主題,探討其菌種培養、

DNA 萃取、次世代基因體定序、基因體組序與註解等各主要步驟的作法。希望透 過對食油假單胞菌基因體序列的解析,能夠對食油假單胞菌屬的 PHA 合成機制探 索有所助益。

關鍵字: 聚羥基脂肪酸酯(Polyhydroxyalkanoates,PHA)、假單胞菌屬(Pseudomonas)、

食油假單胞菌(Pseudomonas oleovorans)

(5)

ABSTRACT

Polyhydroxyalkanoates (Polyhydroxyalkanoates, PHA) are bio-polymrs synthesizes by microbes for carbon and energy storage. There are structurally different PHA monomers that can be polymerized into uarious products. The rising prices of petvoleum and aduances in environmental conseruation, PHA as a biodegradable plastic with its advantage of non-toxic and bio-renewab-able features has attracted high attention in academia and industry.

There are a few whole-genome sequences of PHA strains auailable with completely decoding. Pseudomonas oleovorans is an important strain capable of generating MCL-PHA, but so far no full genome sequence is auailable. Pseudomonas oleovorans can metabolize the lipid into PHA, making it of special practical value. Therefore, the subject of this to obtain thesis is the whole genome sequences of P.oleovorans by adyusting bacteria culture and DNA extraction, conducting next-generation genome sequencing,and assembling annotating the genome. By decoding genome sequences of P.oleovorans,these results will be helpful to further investigate the synthe-tic mechanism of PHA in this genus.

Keywords: Polyhydroxyalkanoates,PHA, Pseudomonas, Pseudomonas oleovorans

(6)

致謝辭

終於完成了論文,要感謝非常多的人,首先,要感謝的是我的指導教授 劉志俊 老師,他讓我了解到,做實驗只要不要放棄,任何事情只要堅持下去,就一定能夠達 成,也謝謝實驗室張慧玫老師在實驗時提點我,也讓我持續不斷向前的動力,此外,

在做事情的處理方式,我也從老師身上學習到很多,學到對任何事都要盡全力,並且 要對自己的事情負責,這樣才能夠讓自己不斷的成長,因此,我非常感謝老師,在此 衷心的感激。

接著感謝實驗室內的學弟妹和學姊們,在我剛進實驗室的時候,給予我最大的幫 助,並且讓我能夠快速適應研究生的生活,還有在遇到實驗困難時,給我鼓勵,讓我 在實驗室的時間感到很充實,非常感謝你們,在我忙著實驗的同時,幫我分擔其它工 作,讓我能夠專心實驗,我也非常感謝他們的幫忙。

最後,感謝我的家人,提供我如此良好的學習環境,一直不斷的提醒和督處,讓 我能夠完成學業。

學生 袁嘉蓉

(7)

目錄

第一章 緒論 ... 1

第二章 相關研究 ... 3

2.1 PHA 合成菌基因體定序現況 ... 3

2.2 Pseudomonas 屬的 PHA 合成菌株 ... 4

2.3 Pseudomonas 屬細菌基因體定序現況 ... 6

第三章 食油假單胞菌的培養與基因體 DNA 製備 ... 9

3.1.1 食油假單胞菌菌株 ... 10

3.1.2 食油假單胞菌活化培養 ... 10

3.2 食油假單胞菌基因體 DNA 的製備 ... 13

3.2.1 Pseudomonas oleovorans CH-1 的基因體 DNA 萃取流程 ... 13

3.2.2 食油假單胞菌基因體 DNA 品質驗證 ... 17

第四章 食油假單胞菌基因體資料庫的建置 ... 23

第五章 食油假單胞菌基因體定序、組序與註解 ... 27

5.1 食油假單胞菌基因體定序 ... 27

5.1.1 次世代基因體定序技術 ... 27

5.1.2 基因體定序結果 ... 31

5.2 食油假單胞菌基因體組序 ... 34

5.2.1 基因體組序方法 ... 34

5.2.2 食油假單胞菌基因體組序結果 ... 36

5.3 食油假單胞菌基因體註解 ... 38

5.3.1 原核生物基因體註解流程 ... 38

5.3.2 食油假單胞菌基因體註解結果 ... 39

第六章 結論與討論 ... 43

(8)

表目錄

表 1 Pseudomonas aeruginosa PAO1 全基因定序結果統計[8] ... 7

表 2 Pseudomonas fluorescens SBW25、Pf0-1、Pf-5 全基因體[15] ... 7

表 3 本論文所使用 PCR 的引子序列 ... 17

表 4 食油假單胞菌 16S rRNA 基因 F 端定序結果 ... 18

表 5 食油假單胞菌 16S rRNA 基因 R 端定序結果 ... 18

表 6 食油假單胞菌 rpoB 基因 F 端定序結果 ... 20

表 7 食油假單胞菌 rpoB 基因 R 端定序結果 ... 21

表 8 第一代和次世代定序儀器比較表[18] ... 28

表 11 食油假單胞菌全新基因體組序(使用 SOAPdenovo2)結果 ... 37

表 12 食油假單胞菌全新基因體組序的鷹架序列(Scaffolds)長度分析組序統計 ... 37

表 13 食油假單胞菌全新基因體組序的 N10~N90 組序品質統計 ... 37

表 14 基因預測結果(使用 Prodigal)全部 5647 個次表顯示部分基因... 39

表 15 tRNA 預測結果(使用 tRNAscan-SE) ... 41

(9)

圖目錄

圖 1 Pseudomonas 屬的基因體演化樹分析圖[12] ... 4

圖 2 Pseudomonas putida CSV86 的全基因體圖[12] ... 5

圖 3 富養產鹼菌 H16 的合成跟降解的合成模型圖[2] ... 6

圖 4 Pseudomonas syringae pv. tomato DC3000 全基因體圖[16] ... 8

圖 5 食油假單胞菌基因體定序分析流程圖 ... 9

圖 6 活化食油假單胞菌之營養肉湯配置過程 ... 10

圖 7 食油假單胞菌活化培養基調配過程 ... 11

圖 8 Pseudomonas oleovorans CH-1 的基因體 DNA 萃取流程 (genomic DNA) ... 13

圖 9 食油假單胞菌基因體 DNA 跑膠圖 ... 14

圖 10 Qubic DNA 濃度量測步驟(I):混和螢光藥劑量廁所萃取之 P. oleovorans CH-1 之 DNA 濃度 ... 15

圖 11 Qubic DNA 濃度量測步驟(II):混合好藥劑分別加標準 DNA1、2 試劑 ... 16

圖 12 Qubic DNA 濃度量測步驟(III):混合好藥劑加入樣本 ... 16

圖 13 Qubic DNA 濃度量測步驟(IV):放入標準 DNA1、2 試劑 ... 16

圖 14 Qubic DNA 濃度量測步驟(V):標準 DNA 濃度校正完 ... 16

圖 15 Qubic DNA 濃度量測步驟(VI):放入混合好的代測 DNA 樣本 ... 17

圖 16 食油假單胞菌 16S rRNA 基因 F 端定序序列 GenBank BLAST 比對結果 .... 18

圖 17 食油假單胞菌 16S rRNA 基因 R 端定序序列 GenBank BLAST 比對結果 .... 19

圖 18 食油假單胞菌 rpoB 基因 F 端定序序列 GenBank BLAST 比對結果 ... 21

圖 19 食油假單胞菌 rpoB 基因 R 端定序序列 GenBank BLAST 比對結果 ... 22

圖 20 下載假單胞菌屬全基因體的資料檔 ... 23

圖 21 本地端建立假單胞菌屬基因體資料庫 ... 24

圖 22 用 perl 語言剖析下載自 NCBI 之基因體資料檔 ... 24

圖 23 匯入下載之基因體報告檔(*.rpt) ... 25

圖 24 匯入下載之基因體註解檔(*.gff) ... 25

圖 25 本地端已匯入之假單胞菌屬基因體資料庫 ... 26

圖 26 本地端顯示已匯入之假單胞菌屬基因體資料庫 ... 26

圖 27 Illumina 定序技術與流程 PCR 產物 (圖片來源: http://www.illumina.com/Documents/products/techspotlights/techspotlight_sequencing. pdf[8]) ... 29

圖 28 Illumina 定序技術與流程讀序(圖片來源:http://www.illumina.com ... 30

/Documents/products/techspotlights/techspotlight_sequencing.pd[8]) ... 30

圖 29 食油假單胞菌基因體第一次 DNA 萃取品質報告:QC 未達到定序要求標準之 品質報告 ... 31

圖 30 食油假單胞菌基因體第二次 DNA 萃取品質報告:QC 達到定序要求標準之品 質報告 ... 32

(10)

圖 31 L 端讀序 FastQC 的定序品質報告 ... 33

圖 32 R 端讀序 FastQC 的定序品質報告 ... 34

圖 33 de Bruijn 圖基因體組序範例 ... 36

圖 34 原核生物基因體註解流程圖 ... 39

(11)

第一章 緒論

聚羥基脂肪酸酯(Polyhydroxyalkanoates,PHA)是微生物用來儲存碳源和能源的合 成物。PHA 有各種不同的單體結構可以聚合成很多種不同的聚合物[1]。全球目前每 年消耗塑料大約為 140 萬噸,石油耗費非常迅速。隨著石油價格上漲和環保觀念的提 昇,由於 PHA 為生物可分解與可再生的塑類,而目前再生能源多半為以澱粉為主的 玉米等糧食來發展而成,以食糧轉為生物塑料可能會造成糧食短缺的危機。而 PHA 為合成之再生能源,無毒且可被生物自然代謝吸收,所以是一個可取代石油之替代塑 料很好的來源。人類長年耗用塑類細菌產生了很多不可降解的廢棄物堆積,塑料的積 累垃圾已經成為環境保護方面的主要問題。現有的塑料不僅需要幾十年才可能被分解,

而且分解過程中會產生許多有毒物質。因為 PHA 有特殊的生物無毒與生物可分解,

其物理化學特性可以廣泛地應用在纖維、生物醫學的材料跟藥物緩釋載體之中。如聚 -3-羥基丁酸酯(PHB)、3-羥基丁酸和 3-羥基戊酸聚合物(PHBV)、3-羥基丁酸和 4-羥基 丁酸聚合物(P3HB4HB)、3-羥基丁酸和 3-羥基己酸聚合物(PHBHHX)以及一些中鏈的 PHA 已被大量運用[1]。

可以產生 PHA 的 PHA 合成菌株已經已有一些細菌的全基因體序列已經被解碼完 成。常見可以合成 PHA 的菌株例如:Cupriavidus necator (Ralstonia eutropha)可合成 SCL-PHA,目前有 2 個菌株有全基因體解碼完成[2] [3];Bacillus megaterium(巨大芽 胞桿菌) 合成 SCL-PHA,目前有 4 個菌株有全基因體解碼完成[4] [5];Burkholderia sp.

USM 合成 SCL-PHA,目前有 7 個菌株有全基因體解碼完成[6];Comamonas testosteroni 合成 MCL-PHA,目前有 2 個菌株有全基因體解碼完成[7];Pseudomonas aeruginosa IFO3924(綠膿假單胞菌) 合成 MCL-PHA,目前有 21 個菌株有全基因體解碼完成[8];

Thermus thermophilus HB8 合成 P(3HV-co-3HHp-co-3HN-co-3HU) ,目前有 5 個菌株 有全基因體解碼完成[9]。但這些 PHA 合成菌多數為短鏈合成菌,而假單胞菌屬的細 菌基因體已完成定序的菌株以重要病原菌綠膿假單胞菌為主,可以合成中長鏈 PHA

(12)

PHA 依照聚合物的單元長度,一般分為為短鏈(short-chain-length PHA,SCL-PHA) 跟中鏈(medium-chain-length PHA,MCL-PHA)兩類。SCL-PHA 是 4 或 5 個碳原子單 體所形成,MCL-PHA 是 6 或 7 以上碳原子單體所形成。短鏈(SCL-PHA)主要合成的 菌株是富養產鹼菌 (R. eutropha),其研究成果最多,所以全基因體序列依完全解碼[2]。

假單胞菌屬(Pseudomonas)是好氧的革蘭氏陰性菌,其中有些菌株會產生螢光色素。

假單胞菌屬細菌大多數菌適合生長的溫度是 30℃,其中最為大家所知的就是綠膿桿 菌(P. aeruginosa)是造成醫院內感染的主要病原菌。而食油假單胞菌是產生 PHA 中長 鏈的重要菌株,直至目前仍沒有全基因體序列。食油假單胞菌有可以從脂類代謝合成 PHA,所以本論文的目的為食油假單胞菌的全基因體序列定序組序與註解,做為未來 進一步了解食油假單胞菌合成 PHA 的反應路徑基礎。

PHA 現在大多應用在於塑膠產品、工業發酵、生物燃料、醫學材料和裝放藥物 的膠囊外殼[10] [11]。短鏈 PHA 為熱塑性塑料是高熔點溫度和高結晶度,中長鏈通常 是低熔點溫度跟低結晶度,具有良好的延展度跟彈性。而中長鏈 PHA 會比短鏈 PHA 有更廣泛的應用,而且因為不同的中長鏈和短鏈的結合還可以有不同的延展性跟熔點 度,故有更廣應用前景。在生物醫藥方面應用很具有潛力。例如:縫合用的線、可以 慢慢釋放藥物的放置藥物的載體,和可以被身體吸收的骨架的材料,可以取代現在的 鋼釘。如果 PHA 可以大量被運用在石化產業與生醫產業,會對一直以石油當原料的 塑膠類極有助益,因為 PHA 可以被分解,就不會造成更多的環境汙染以及難以分解 的塑化垃圾。

(13)

第二章 相關研究

2.1 PHA 合成菌基因體定序現況

富氧產鹼 H16 (R. eutropha H16)是目前合成 PHA 短鏈的代表菌株,目前學名改 為沃特斯氏菌 (Wautersia eutropha H16),和鉤蟲貪銅菌 (Cupriavidus necator H16) 同屬β變形菌[2]。[2]一文之進行是研究富養產鹼 H16 於自營性時所產生的 PHA 情 況,並以電腦來加以分析。分析結果中發現何為富氧產鹼 H16 生產 PHA 的最佳生 長環境,與能大量生產的 PHA 的培養條件。並用電腦預測 PHA 的生產速度。

由蠟狀芽胞桿菌(B. cereus)和巨大芽胞桿菌(B. megaterium)所產生的 PHB 可以 快速被降解,其應用最多的是在微生物上產生 PHA 與 PHA 的衍生物,以了解 PHA 的合成相關基因片段和反應路徑,並用於將 PHA 合成基因轉殖在植物體中。具實 驗利用植物的光合作用能夠做出大量的 PHA,如此一來,就可以利用植物來合成 PHA,是符合環保效益的作法。富氧產鹼菌 H16 是合成 PHA 菌株中最多人研究的,

已被分析的很透徹。富氧產鹼 H16(R. eutropha H16) 有染色體 1、染色體 2,跟質 體 pHG1。染色體 1 的長度為 4,052,032 bp、染色體 2 的長度為 2,912,490 bp,質體 pHG1 的長度為 452,156 bp 總長度為 7,416,678 bp,基因體 G+C 比值染色體 1 為 66.4

%、染色體 2 為 66.7%跟質體 pHG1 為 62.3%[2]。目前能合成短鏈 PHA 的菌株中 Bacillus megaterium(巨大芽胞桿菌)其有 4 個基因體被解碼,Burkholderia sp.有 7

個基因體被解碼,Cupriavidus necator (R. eutropha)有 2 個基因體被解碼,Thermus thermophilus 有 5 個基因體被解碼,合成中長鏈 PHA 的菌株有 Comamonas testosteroni

有 2 個基因體被解碼,P. aeruginosa(綠膿假單胞菌)有 21 個基因體被解碼,P. putida 有 11 個基因體被解碼。雖然已有很多菌株基因體已經被解碼,惟大多是因為該菌 株基因體中有致病基因才被廣為研究,並非因為他們可以產生 PHA 所作之研究。

(14)

2.2 Pseudomonas 屬的 PHA 合成菌株

Pseudomonas putida(戀臭假單胞菌)是現在合成 PHA 中長鏈的菌株中最被廣

泛研究的菌種。該菌在土壤中可分解苯乙烯,P. putide 全基因體總長度為 6,469,780 bp, G+C 比值為 61.85%。假單胞菌屬有很不同種,[12]把不同的假單胞菌菌株的 全基因體中有被解碼的菌株,進行基因體演化分析,產生如圖 1 之演化樹。

圖 1 Pseudomonas 屬的基因體演化樹分析圖[12]

(15)

圖 2 Pseudomonas putida CSV86 的全基因體圖[12]

在[13]一文研究發現 Pseudomonas putida S16(戀臭假單胞菌)可以降解尼古 丁。在高濃度的尼古丁的培養基與甘油的培養基中,比較 P. putida S16 的蛋白質變 化之差異,以及在不同的環境於中 P. putida S16 尼古丁代謝產生變化。

不平衡的生長條件中,PHA 從細菌中被提取作為替代代謝原料。可以產生 PHA 的 Pseudomonas 屬中有許多菌種,例如:P. putida KT2440、P. putida GPo1、 P.

aeruginosa PAO1、P. fluorescens Pf0-1、P. protegens Pf-5、P. syringae pv.phaseolicola

和 P. syringae DC30005。[14]一文提到在這些菌之中發現 phaC1、phaZ、phaC2、

phaF 和 phaI 等 6 個基因序列也都可以在 Pseudomonas sp. UW4 發現。phaC 是產

生 PHA 的重要合成酶,phaZ 負責降解 PHA,該篇論文確認 phaC1 有助於 Pseudomonas sp. UW4 產生 PHA。

富養產鹼菌 H16 的合成跟降解的合成模型圖如圖 3 所示,有 phaA 和 phaB1、

(16)

phaC2、phaC1 等 4 個基因。降解需要 phaZ1 跟 phaZ2、phaY1 [2] 。這些基因組成 的系統模型可以用在其他不同的菌株上面,使 PHA 生產的效益最佳化。

圖 3 富養產鹼菌 H16 的合成跟降解的合成模型圖[2]

2.3 Pseudomonas 屬細菌基因體定序現況

Pseudomonas 屬是一種多樣化而且普遍的環境菌。P. aeruginosa 是一種革蘭陰

性菌,它形成在潮濕的表面,生長在土壤、濕地、沿海海洋環境、以及植物和動物 組織上。且 P. aeruginosa 屬於令免疫受損的感染病原菌,會影響肺部及泌尿道,或 造成燒傷和傷口的血液感染。Pseudomonas 屬的基因體最早完成定序的菌種為 2000 年的首度定序 P. aeruginosa PAO1,其定序參數如表 1 所示[8]。P. aeruginosa PAO1 基 因 體 與 當 時 所 知 道 的 其 他 細 菌 基 因 體 相 比 , 長 度 最 長 基 因 數 最 多 , 而 且 chemotaxis 和調節系統的基因也比其他細菌來的多。P. aeruginosa 是醫院內感染的 重要菌株,目前很多病原菌都對抗生素產生了抗藥性而不易治癒,而且 P. aeruginosa 是具有多重抗藥性的病原菌。知道 P. aeruginosa PAO1 的全基因體可讓我們知道其 功能,還有代謝的途徑,我們可以利用其代謝途徑相關蛋白來做免疫,而不用投入 大量的抗生素來對抗它。透過了解 P. aeruginosa PAO1 相較於其他的菌株是否有多 出來的蛋白質片段,能夠幫助我們找出更有效的免疫方法。

(17)

表 1 Pseudomonas aeruginosa PAO1 全基因定序結果統計[8]

P. fluorescens(螢光假單胞菌)是最常見的細菌之一。它之所以叫做螢光菌,是

因為它在缺鐵的環境下,便會產生一種對三價鐵離子有高親和力的螢光色素。[15]

一文比較 P. fluorescens 的 SBW25、Pf0-1、與 Pf-5 等這三株菌種的不同差異,這三 株的全基因體的大小不同:SBW25 的基因大小為 6,722,539 bp、Pf0-1 的基因大小 為 6,438,405 bp、Pf-5 的基因大小為 7,074,893 bp,而 SBW25、Pf0-1、Pf-5 的 GC

%也不同 Pf-5 的 GC%比較高,如表 2 所示。

表 2 Pseudomonas fluorescens SBW25、Pf0-1、Pf-5 全基因體[15]

P. syringae 是植物的病原菌,它可以感染很多不同的植物,P. syringae pv. tomato DC3000 是最早被解碼的 P. syringae,其基因體組成包括一個染色體跟兩個質體。

染色體大小為 6,397,126 bp ,兩個質體大小分別為 73,661 bp (pDC3000A) 和

(18)

67,473 bp (pDC3000B),如圖 4 所示。[16]一文將 P. syringae pv. tomato DC3000 跟 已經解碼的 P. aeruginosa PAO1 和 P. putida 的全基因做比較,知道這 3 株這 3 株 Pseudomonas 屬的菌株不同之處,找出哪些片段是 Pseudomonas 屬特有之遺傳片 段。

圖 4 Pseudomonas syringae pv. tomato DC3000 全基因體圖[16]

(19)

第三章 食油假單胞菌的培養與基因體 DNA 製

本 論 文進 行 食油 假單胞 菌 基因 體 定序 分析 流 程 如圖 5 所示 。定 序 菌 株 Pseudomonas oleovoranse 購自財團法人食品工業發展研究所生物資源保存及研究

中心生資中心編號:11902、菌種學名:Pseudomonas oleovorans、其他菌種保存中心 代號:ATCC 17440;CIP 66.16T;DSM 50188;IFO 14167;JCM 5968;NCIMB 9946;

NCTC10860;我們將其基因體代號代號稱為 CH-1。首先調製培養基來活化食油假 單胞菌菌種,接著做 16S rRNA 跟 rpoB 的菌種鑑定,來確定其身份。然後萃取菌 株的基因體 DNA,確定純度和濃度符合品質條件後公司定序。定序資料進行基因 體組序,組序完成後接著進行基因預測以及基因體註解,確定 NCBI 所需要的資料 齊後全即可上傳 GenBank。

圖 5 食油假單胞菌基因體定序分析流程圖

食油假單胞菌 活化培養

16S rRNA和 rpoB的菌種檢

萃取基因體 DNA (genomic

DNA)

基因體定序 基因體組序

基因體註解

上傳GenBank

(20)

3.1.1 食油假單胞菌菌株

本文使用之食油假單胞菌為從財團法人食品工業發展研究所生物資源保存及 研究中心買來生資中心編號:11902、菌種學名: Pseudomonas oleovorans ATCC 17440(其他菌種保存中心代號:CIP 66.16T;DSM 50188;IFO 14167;JCM 5968;

NCIMB 9946;NCTC10860)。

3.1.2 食油假單胞菌活化培養

3.1.2.1 配製營養肉湯

(a)配製藥品 (b)放入滅菌釜滅菌 圖 6 活化食油假單胞菌之營養肉湯配置過程 本論文使用之食油假單胞菌營養肉湯配製過程如下:

(1)營養肉湯 8g的粉末加 1L 的水放入血清瓶中,如圖 6 (a)所示。

(2) 放入滅菌釜,高溫高壓滅菌,如圖 6 (b)所示。

購得之食油假單胞菌菌種為冷凍乾燥保存,此菌種須先進行活化培養。活化培 養之營養肉湯的成分為濃縮牛肉汁(Beef extract) 3.0g、蛋白棟(Peptone) 5.0g、加 入 1L 的 ddH2O,如圖 6 (a)所示,放入血清瓶中混合均勻,再分裝到三角錐形瓶中。

接著放入滅菌釜進行滅菌,如圖 6 (b)所示,滅菌釜以高溫(121 ℃)高壓(1.5 大氣壓) 滅 20 分鐘。等到壓力完全降到 0 後,打開滅菌釜,拿出營養肉湯進行活化培養基 調製備用。

(21)

3.1.2.2 配製活化培養基

(a)配置藥品 (b)放入滅菌釜滅菌

(c)倒入培養皿 (d)放置 4℃冰箱保存 圖 7 食油假單胞菌活化培養基調配過程

本論文使用之食油假單胞菌活化培養基配製過程如下:

(1) 23g的活化培養基粉加 1L 的水放入血清瓶中,如圖 7 (a)所示。

(2) 放入滅菌釜,高溫高壓滅菌,如圖 7 (b)所示。

(3) 滅好的培養液在無菌操作台倒入培養皿中放置 1~2 天,如圖 7 (c)所示。

(4)放置 4℃冰箱保存,如圖 7 (d)所示。。

活化培養基的成分為濃縮牛肉汁(Beef extract) 3.0g、蛋白棟(Peptone) 5.0g、

洋菜膠(Agar)15g,配製過程如圖 7 (a)所示。加入 1L 的 ddH2O 放入血清瓶中混合 均勻放入滅菌釜如圖 7 (b)所示,滅菌釜高溫(121 ℃)高壓(1.5 大氣壓)滅 20 分鐘,

等到壓力完全降到 0 打開滅菌釜。滅好的培養液放入無菌操作台中冷卻。等到溫度 降至 50℃倒進培養皿中放置 1~2 天如圖 7(c)所示。培養皿收好放入 4℃冰箱保存如 圖 7 (d)所示。

(22)

3.1.2.3 食油假單胞菌活化培養

用沾有 70%酒精的棉花,擦拭外管,在火焰上加熱外管之尖端。再滴數滴無 菌水於加熱處,使外管破裂,再以硬棒敲破尖端。而後取出隔熱纖維紙和內管,以 滅菌的鑷子取出內管之棉花。接著使用無菌吸管,吸取 0.3~0.5μL 指定培養液,滴 入管內,使乾燥菌體溶解並輕微震盪,直到均勻懸浮。從混合均勻的培養液取 0,1~0.2μL 之菌體懸浮液,滴入指定之平板培養基的某一邊緣,以四區劃線法接種 於平板培養基。剩餘的懸浮液加入 5μL 的活化培養液中,和平板培養基放入 30℃

培養箱培養。

(23)

3.2 食油假單胞菌基因體 DNA 的製備

3.2.1 Pseudomonas oleovorans CH-1 的基因體 DNA 萃取流程

(a).加入酚氯仿(phenol chloroform) (b).混和均勻

(c).離心 (d).分層

(e).酒精沉澱 (f).離心沉澱物

(g).風乾 (h).回溶

(i).跑膠 (j).染膠

圖 8 Pseudomonas oleovorans CH-1 的基因體 DNA 萃取流程 (genomic DNA) 進行食油假單胞菌基因體定序需要高純度的基因體 DNA(genomic DNA),本論文

(24)

使用之基因體 DNA 萃取過程說明如下:

先進行 5μL 的液態養菌。培養 2 天收集細菌,加入適量的裂解液(lysis buffer) 放入 37℃ 水 域 槽 1 小 時 。 裂 解 液 (lysis buffer) 為 10mM Tris-cl+0.1M EDTA+0.5%SDS+20μg/㎎ DNase-free pancreation RNase。再加入蛋白酶 K(Proteinase K)(20 ㎎/ ml) 最終濃度(100μg/ml) 放入 50℃水域槽 3 小時。再加入等量的酚氯仿 (phenol chloroform),如圖 8 (a)所示。均勻混合後用,如圖 8 (b)所示。離心機 13500 rpm 離心 3~5 分鐘,如圖 8 (c)所示。吸取上清液,放入新的空的試管,如圖 8 (d)所示。

此步驟需做到中間無白色夾層。上清液加入 2 倍體積的 95%酒精,和 1/10 體積的 3M 醋酸鈉至 1.5ml 微量試管,如圖 8 (e)所示。沉澱後離心機 13500 rpm 離心 3~5 分鐘,

如圖 8 (f)所示。液體倒掉再將微量試管做風乾,如圖 8 (g)所示。最後加入適量 1X TE buffer 回溶,如圖 8 (h)所示。回溶完全後跑膠,如圖 8 (i)所示。將已跑完的膠放入 0.5μg/ml 溴化乙錠(EtBr, Ethidium Bromide)盒中 5~10 分鐘,如圖 8 (j)所示,在水 盒退染 3 分鐘後,放入暗箱拍照。

圖 9 食油假單胞菌基因體 DNA 跑膠圖

本論文之食油假單胞菌基因體 DNA,萃取完成之 DNA 跑膠圖,如圖 9 所示,

DNA 集中在 10kb 以上,而且膠圖沒有長長的地毯狀就是 DNA 沒有斷裂,在 0.5kb 以下沒有亮袋表示沒有 RNA 的干擾存在。

使用 Qubic 螢光儀量測 DNA 量

染料試劑選擇根據 Qubic 使用手冊建議: DNA 樣本濃度高時(0.01~5 μg/mL)使用 3k

marker DNA

10k

0.5k

(25)

dsDNA BR 試劑; DNA 樣本濃度低時(1~500 ng/mL)使用 dsDNA HS 試劑。調製工 作溶液(Working Solution): 一份染劑(Qubit Reagent)溶於 199 倍的緩衝溶液(Qubit Buffer), 比例 1:200,工作溶液的需求數量依照待測 DNA 樣本個數而定。若需量測 DNA 樣本數為一件, 則染劑為 1+2 = 3 μL, 緩衝溶液為 199 x 3 = 597μL,如圖 10 所示。調製標準 DNA Assay:(a)取 10μL 1 號標準 DNA 加入 190μL 工作溶液加至 1.5 mL 薄壁 Qubit® assay tubes 微量試管,如圖 11 所示。 (b)取 10μL 2 號標準 DNA 加入 190μL 工作溶液加至 1.5 mL 薄壁 Qubit® assay tubes 微量試管,如圖 11 所示。

調製待測樣本 DNA Assay: (a)取 10μL 待測樣本 DNA 加入 190μL 工作溶液加至 0.5 mL 薄壁 Qubit® assay tubes 微量試管,如圖 12 所示。DNA Assay 搖晃 2 ~ 3 秒。

後在室溫靜置 2 分鐘.。再插入 #1 標準 DNA Assay 進入 Qubit® 2.0 Fluorometer 的 樣本室(試管必須乾燥與乾淨)。按 Standards 鍵 Read 讀取 #1 標準 DNA 量,如圖 13 所示。插入 #2 標準 DNA Assay 進入 Qubit® 2.0 Fluorometer 的樣本室,如圖 13 所示。按 Standards 鍵 Read 讀取 #2 標準 DNA 量,建立 DNA 量與螢光值標準曲 線,如圖 14 所示。插入 待測樣本 DNA Assay 進入 Qubit® 2.0 Fluorometer 的樣本 室。按 Sample 鍵 Read 讀取 #1 待測樣本 DNA 量,如圖 15 所示。

本次 DNA 以 Qubic 螢光儀量測 DNA 量測得為 355 ng/mL。

圖 10 Qubic DNA 濃度量測步驟(I):混和螢光藥劑量廁所萃取之 P. oleovorans CH-1 之 DNA 濃度

(26)

190μL

圖 11Qubic DNA 濃度量測步驟(II):混合好藥劑分別加標準 DNA1、2 試劑

190μL

圖 12Qubic DNA 濃度量測步驟(III):混合好藥劑加入樣本

圖 13Qubic DNA 濃度量測步驟(IV):放入標準 DNA1、2 試劑

圖 14Qubic DNA 濃度量測步驟(V):標準 DNA 濃度校正完

(27)

圖 15Qubic DNA 濃度量測步驟(VI):放入混合好的代測 DNA 樣本

3.2.2 食油假單胞菌基因體 DNA 品質驗證

在進行基因體定序之前,我們必須確認所培養之菌株確實為食油假單胞菌,我 們使用 16S rRNA 與 rpoB 兩個基因體來進行菌種檢定,使用之 PCR 引子如表 3 所 示。本論文所使用的引子序列:16S rRNA(F 端 27F,R 端 1492R)、rpoB 基因(F 端 LAPS-F,R 端 LAPS27-R)

表 3 本論文所使用 PCR 的引子序列

3.2.2-1 16S rRNA 的菌種檢定

我們分別進行 colony PCR 和 DNA PCR 實驗。首先加入藥劑 Total 30λ PCR:2λ DNA+1λ 27F 引子+1λ 1492R 引子 +6λ 5X PCRMix+20λ UVddH2O。把混合好藥劑的 微量試管放入 PCR 機 95℃ 5 分鐘(94℃ 30 秒 55℃ 30 秒 72℃ 2 分鐘)*35 72℃ 7 分鐘。

PCR 的產物跑膠來確認 DNA 片段大小。

16S rRNA 的 PCR 產物定序結果至 NCBI 網站比對其身份,表 4 為使用 27F 27F AGAGTTTGATCCTGGCTCAG

1492R GGTTACCTTGTTACGACTT LAPS-F TGGCCGAGAACCAGTTCCGCGT LAPS27-R CGGCTTCGTCCAGCTTGTTGTTCAG

(28)

引子定序結果序列。我們與 GenBank 進行 BLAST 比對,因為食油假單孢菌沒有 完整的序列,所以比對出來結果都是其他假單胞菌屬的 16S rRNA,如圖 16 所示。

而表 5 為使用 1492R 引子定序結果序列,GenBank 進行 BLAST 均為假單胞菌屬 的 16S rRNA 序列,如圖 17 所示。

表 4 食油假單胞菌 16S rRNA 基因 F 端定序結果 27F 5’-> 3’

CCCCATTTTCATAGAAAAAAAGGCTATGGAGCCTAGCCTAGGTATTGGGGGG ATGACGTCCCCTTTTAAGGAACGCTTATACCGCAAACTTCCTACGGGAGAAA GCAAGGGACCTTCGGGCCTTGCGCTATCACATGAGCCTAGGTCGGAATAGCT AGTTGGTGAGGTAATGGCTCACCAAGGCGACGATCCGAAACTGGTCTGAGA GGATGATCAGTCACACTGAAACAGAGACACGGTCAA

圖 16 食油假單胞菌 16S rRNA 基因 F 端定序序列 GenBank BLAST 比對結果 表 5 食油假單胞菌 16S rRNA 基因 R 端定序結果

1492R 5’-> 3’

TAATTTCTTCCCCCCTCTTGGGTAACCGTGAAACCACAGGTGAGAACAAGGT ACAAACTTGAGCAACCCACTCCCATGGTGTGACAGGCGGTGTGTACAAGGC CCGGGAACGTATTCACCGTGTATTTAAAGATTCACGAATACTAGCGATTCCTA

(29)

CAATCACGCAGTCGAGTTGCAGACAGCTATCCGGACTACGATCGGTTTTATG GGATTAGCTCCACCTCGCGGCTTGACAACCCTTTGTACCGACCATTGTAGCA CGTGTGTAGCCCTGGCCGTAAGGGCCATGATGACTTGACGTCATCCCCACCT TCCTCCGGTTTGTCACCGGCAGTCTCCTTAAAGTGCCCACCATTACGTGCTG GGAACTAAAGAAAAGGTTGCGCTCGTTAAGGGACTTAACGCAACATCTCAG GACACAAGCTGACGAAGCCATGCAGCACCTGTATCTGAATTCCCGAAAGCA GCAATCCATATCTGGAAAATTCTAGCATTGAAGAAAGGTAAAGAACTTCGAG TT

圖 17 食油假單胞菌 16S rRNA 基因 R 端定序序列 GenBank BLAST 比對結果

3.2.2-2 食油假單胞菌 rpoB 基因的菌種檢定

我們以 DNA PCR 進行 rpoB 基因放大。加入藥劑 Total 30λ PCR:2λ DNA+1λ LAPS-F 引子+1λ LAPS27-R 引子 +6λ 5X PCRMix+20λ UVddH2O。把混合好藥劑的微 量試管放入 PCR 機 94℃ 90 秒(94℃ 10 秒 50℃ 20 秒 72℃ 50 秒)*40 72℃ 5 分鐘。

PCR 的產物跑膠確認 DNA 片段大小。

rpoB 基因的 PCR 產物定序,表 6 為使用 LAPS-F 引子定序結果序列。我們與 GenBank 進行 BLAST,因為食油假單胞菌沒有完整的序列,所以比對出來結果都是

(30)

假單胞菌屬的 16S rRNA,如圖 18 所示。而表 7 為使用 LAPS27-R 引子定序結果序列,

GenBank 進行 BLAST 均為假單胞菌屬的 rpoB 序列,如圖 19 所示。

表 6 食油假單胞菌 rpoB 基因 F 端定序結果 LAPSF 5’-> 3’

GGGGGGGTAAGCGTGCGGTCAGGACGCCTGTCGATGGCCGAAAGCGAAGGCCTGATGCCGCAAGACCTGATCA ACGCCAAGCCGGTTGCGGCGGCGGTGAAGGAGTTCTTCGGTTCCAGCCAGCTCTCGCAGTTCATGGATCAGAA CAACCCGCTGTCCGAGATCACCCACAAGCGCCGAGTTTCCGCACTCGGCCCAGGTGGTCTGACTCGTGAGCGC GCAGGCTTCGAGGTCCGCGACGTACACCCGACTCACTATGGGCGCGTGTGCCCGATCGAAACGCCGGAAGGTC CGAACATCGGTCTGATCAACTCCCTGGCGGCCTACGCCCGCACCAACCAGTACGGCTTCCTGGAGAGCCCGTA CCGCGTGGTCAAGGAAGGCAAGGTCACCGACGAGATCGTGTTCCTGTCCGCCATCGAAGAAGCCGATCACGTG ATCGCGCAGGCTTCCGCCACCCTTAACGACAAGGGCGAGCTGGTCGATGAGCTGGTAGCCGTGCGTCACCTCA ACGAATTCACCGTCAAGGCACCGGAAGACGTGACCCTGATGGACGTCTCGCCGAAGCAGGTCGTTTCCGTCGC TGCCTCGTTGATTCCGTTCCTCGAGCACGACGACGCTAACCGTGCGCTGATGGGTTCGAACATGCAGCGTCAG GCTGTACCGACCCTGCGCGCCGACAAGCCGCTGGTAGGTACCGGCATGGAGCGCAACGTCGCTCGTGACTCCG GCGTCTGCGTCGTGGCCCGTCGTGGCGGCGTGATCGACTCGGTCGATGCCAGCCGTATCGTGGTTCGCGTCAA TGACAACGAAGTCGAAACCGGCGAAGCTGGTGTCGACATCTACAACCTGACCAAGTACACCCGCTCCAACCAG AACACCTGCATCAACCAGCGTCCGCTGGTGAGCAAGGGGGATCAGGTTTCGCGTGACGACATCATGGCCGACG GCCCGTCCACCGACATGGGTGAACTGGCGCTGGGTCAGACATGCGTGTCGCGTTCATGCCGTGACGGCTTCAC TTCGAGACTCCATCTGCTGTCGAGCGCG

(31)

圖 18 食油假單胞菌 rpoB 基因 F 端定序序列 GenBank BLAST 比對結果 表 7 食油假單胞菌 rpoB 基因 R 端定序結果

LAP27R 5’-> 3’

TCTGTTCGGGATGTCAGAGGAGATTCCTCTGGGCCGAGCTTGGTGTCACGCGCCACGCAGGTCAGTTCCTGGA TGTGGATGGTGGTGAAGCGGTCTTCCTGAACCACGCGCTCGGACAGGCAGATGGAGTCTTCGAAGTTGAAGCC GTTCCACGGCATGAACGCGACACGCATGTTCTGACCCAGCGCCAGTTCACCCATGTCGGTGGACGGGCCGTCG GCCATGATGTCGCCACGCGAAACCTGATCCCCCTTGCTCACCAGCGGACGCTGGTTGATGCAGGTGTTCTGGT TGGAGCGGGTGTACTTGGTCAGGTTGTAGATGTCGACACCAGCTTCGCCGGTTTCGACTTCGTTGTCATTGAC GCGAACCACGATACGGCTGGCATCGACCGAGTCGATCACGCCGCCACGACGGGCCACGACGCAGACGCCGGAG TCACGAGCGACGTTGCGCTCCATGCCGGTACCTACCAGCGGCTTGTCGGCGCGCAGGGTCGGTACAGCCTGAC GCTGCATGTTCGAACCCATCAGCGCACGGTTAGCGTCGTCGTGCTCGAGGAACGGAATCAACGAGGCAGCGAC GGAAACGACCTGCTTCGGCGAGACGTCCATCAGGGTCACGTCTTCCGGTGCCTTGACGGTGAATTCGTTGAGG TGACGCACGGCTACCAGCTCATCGACCAGCTCGCCCTTGTCGTTAAGGGTGGCGGAAGCCTGCGCGATCACGT GATCGGCTTCTTCGATGGCGGACAGGAACACGATCTCGTCGGTGACCTTGCCTTCCTTGACCACGCGGTACGG GCTCTCCAGGAAGCCGTACTGGTTGGTGCGGGCGTAGGCCGCCAGGGAGTTGATCAGACCGATGTTCGGACCT TCCGGCGTTTCGATCGGGCACACGCGCCCATAGTGAGTCGGGTGTACGTCGCGGACCTCGAAGCCTGCGCGCT

(32)

圖 19 食油假單胞菌 rpoB 基因 R 端定序序列 GenBank BLAST 比對結果 使用 16S rRNA 與 rpoB 基因定序比對結果均顯示來源菌種確為假單胞菌,我們 接著進行其基因體定序。

CACGAGTCAGACCACCTGGGCCGAGTGCGGAAACTCGGCGCTTGTGGGTGATCTCGGACAGCGGGTTGTTCTG ATCCATGAACTGCGAGAGCTGGCTGGAC

(33)

第四章 食油假單胞菌基因體資料庫的建置

為便於進行 P. oleovorans CH-1 基因體的註解與比對分析,我們建置了一個假 單胞菌基因體資料庫。我們首先至 NCBI 網站下載假單胞菌屬全部基因體的資料。

先用 FileZilla 連線到 ftp.ncbi.nlm.nih.gov 選擇 Pseudomonas 屬的資料下載,如圖 20 所示。我們把下載的資料依檔案類型整理成*.rpt 基因體報告檔、*.fna 基因體 核酸序列檔、*.gff 基因註解檔、*.faa 蛋白質序列檔。在 localhost 建立資料庫檔案,

如圖 21 所示。資料庫是以 perl 語言撰寫剖析程式,將基因體資料匯入資料庫,如 圖 22 所示。匯入本地端的資料庫程式最後會呈現的有幾筆資料檔完成匯入資料庫,

以及匯入資料庫所花的時間和資料的檔名,如圖 23、24 所示。本地端的資料庫匯 入資料有基因體序列還有基因體存取編號,如圖 25、26 所示。由資料庫就可很清 楚的知道 Pseudomonas 屬在 NCBI 資料庫裡所有的基因體與基因資訊就可以用此資 料庫做基因體比較分析。

圖 20 下載假單胞菌屬全基因體的資料檔

(34)

圖 21 本地端建立假單胞菌屬基因體資料庫

圖 22 用 perl 語言剖析下載自 NCBI 之基因體資料檔

(35)

圖 23 匯入下載之基因體報告檔(*.rpt)

圖 24 匯入下載之基因體註解檔(*.gff)

(36)

圖 25 本地端已匯入之假單胞菌屬基因體資料庫

圖 26 本地端顯示已匯入之假單胞菌屬基因體資料庫

(37)

第五章 食油假單胞菌基因體定序、組序與註解

5.1 食油假單胞菌基因體定序

5.1.1 次世代基因體定序技術

基因體定序技術中最早稱為第一代定序儀,其方法是用螢光標記後用毛細管電 泳技術來讀取序列。可是一次毛細管只能讀取一條 DNA 序列,定序效能不佳。隨 後發展出次世代定序技術,可以同時大量進行多條 DNA 定序。表 8 是第一代定序 跟次世代定序兩種定序技術的比較。第一代定序儀以 ABI 3730 作為代表,使用 Sanger 定序方法,以 PCR 方法大量複製待測 DNA 片段,片段大小約在 1000bp 左 右。2006 年,Illumina 公司併購 Solexa,於 2007 年推出 Illumina Analyzer。Illumina 採用合成式定序法(sequencing-by-sythesis),以橋式 PCR(bridge PCR)技術進行擴增 [17]。Illumina/Solexa 的優點是可以產生極大量的原始讀序;缺點則是讀序長度較 短(早期機型 32~40bp,目前機型 HiSeq 125bp,MiSeq 300bp)。橋式 PCR 方法是先 把 DNA 打斷為 200-500nt 之片段,再於片段之兩端連接上特定的接頭序列(adapter sequences),如圖 27(a)所示,然後把 DNA 片段放入定序晶片上方進行反應。該晶 片表面具有與特定接頭序列互補之序列,如圖 27 (b)所示。接著以橋式 PCR 技術來 放大晶片表面上之 DNA 產物,如圖 27(c)(d)所示,使 DNA 片段在晶片上長出序列 叢集,如圖 28(a)所示。接著洗掉特定方向之 DNA 片段,確保同一叢集不會混和雙 向之序列,如圖 28(b)所示,接著進行 DNA 讀序。DNA 讀序是藉由放入不同的鹼 基作為標記,如圖 28(c)所示,而可以移除的螢光分子的去氧核醣核酸作為反應試 劑,反覆的進行 DNA 合成反應,再用儀器去偵測螢光訊號之強弱圖 28(d)(e)(f)所 示。橋式 PCR 的反應步驟圖如圖 27、28 所示,可快速而且大量的進行 DNA 片段 定序資料,序列的準確度也可以在讀序過程中計算出來。

本論文使用 Illumina MiSeq 次世代定序儀來進行食油假單胞菌基因體定序。

(38)

表 8 第一代和次世代定序儀器比較表[18]

第一代 第二代

代表性定序儀公司 ABI Illumina/Solexa

代表性定序儀 3730xl(96 capillary) Genome Analyzer

最早商品化時間 2002 2006

定序方法 Sanger

(4 color- terminator)

4 color – reversible terminator

增幅方法 PCR Bridge PCR

單一 DNA 片段讀取長度 1,000 bp 36 bp (2x76 bp)

單次反應產生資料(Gbp) 1 Mb/天 1.5 (20.5~25)

單次反應所需時間(長序

列讀取) 2 小時 3 天 (9.5 天)

錯誤率 ~0.001 >1%

(39)

(a) (b)

(c) (d)

圖 27 Illumina 定序技術與流程 PCR 產物 (圖片來源:

http://www.illumina.com/Documents/products/techspotlights/techspotlight_sequencing.pdf[8]) 轉接序列

作為引子的

接序列

橋式 PCR 待測

DNA 片 段

轉接序列

待測 DNA 片段

轉接序列

附著端 自由端

(40)

(a) (b)

(c) (d)

(e) (f)

圖 28 Illumina 定序技術與流程讀序(圖片來源:http://www.illumina.com /Documents/products/techspotlights/techspotlight_sequencing.pd[8])

DNA 片段 叢集

(41)

5.1.2 基因體定序結果

我們將食油假單胞菌之基因體萃取後進行定序。基因體定序品質要求條件為:

DNA 5 μg 以上;DNA 濃度需大於 50 ng/μL、260/280 ratio:1.8-2.0、 260/230 ratio

>1.7,經 0.6% Agarose gel 確認 DNA 沒有降解的現象,且沒有明顯的 RNA 汙染。

Genomic DNA QC 品質必需要符合要求才可接下去進行定序。

定序公司接到我們所寄送之 DNA 樣本後,會再把 DNA 在純化,在確保 DNA 的濃度符合條件,我們所萃取之 DNA 樣本第一次純化完濃度只有 5.6 ng/μL,如圖 29 所示。重新檢測發現 DNA 的量不夠,無法進行之後的實驗。我們重新送 DNA,

樣本重新再檢測一遍,DNA 濃度為 268.2ng/μL,品質符合定序品管條件,如圖 30 所示。

圖 29 食油假單胞菌基因體第一次 DNA 萃取品質報告:QC 未達到定序要求標準之品 質報告

(42)

圖 30 食油假單胞菌基因體第二次 DNA 萃取品質報告:QC 達到定序要求標準之品質 報告

基因體定序原始序列資料一般以 FASTQ 檔儲存。FASTQ 檔案第一行為讀序 代號,第二行為 DNA 序列,第三行為每個鹼基定序的品質。定序品質的紀錄方式 是用 ASCII 編碼的字元,以"!"字母代表資料品質為最差字元,”~”字母代表品質為 最好。已此類推。定序品質的分數(quality scores) 為 Q =-10 ㏒10P。Q 為 10 表示定 序 10 個鹼基序列就會錯一個鹼基;Q 為 20 表示定序 100 個鹼基序列會錯一個鹼基,

已此類推。Q 數字愈小表定序的品質就越差。Q 數值為 4 以上表示定序的品質很好。

定序出來的 FASTQ 檔可用 FastQC 軟體打開檔案來確定定序品質。

食油假單胞菌基因體序列,全長有 4377895bp,跟我們當初根據其它假單胞菌 所預測的序列大小差不多。每一段的序列長度為 301bp、G+C%為 63%。假單胞菌 屬的菌株大多菌株的 G+C%也都大約在 60%,如表 9 所示。定序品質圖中橫軸代 表位置,縱軸為 Q 品質分數。紅色表示中位數,黃色是 25%-75%區間,藍線是平 均數,序列的定序品質落在紅區表示品質不好,此次定序結果顯示序列在 250bp

(43)

以後的序列品質都不太好,不宜用於組序,如圖 31 所示。Illumina 定序儀定序結 果為兩端讀序,所以定序原始檔案結果也會有兩個 FastQC 檔。另一端的定序品質 如表 10 以及圖 32 所示;兩端原始讀序的品質結果差不多,R 端定序序品質略差於 L 端定序品質。

表 9 L 端讀序 FastQC 的定序品質報告

Filename(讀序檔案) psuedomonas_S8_L001_R1_001.fastq.gz

編碼方式 Sanger/Illumina 1.9

序列長度 4377895

讀序長度 301

%GC 63

圖 31 L 端讀序 FastQC 的定序品質報告 表 10 R 端讀序 FastQC 的定序品質報告

Filename(讀序檔案) psuedomonas_S8_L001_R2_001.fastq.gz

編碼方式 Sanger/Illumina 1.9

(44)

序列長度 4377895

讀序長度 301

%GC 64

圖 32 R 端讀序 FastQC 的定序品質報告

5.2 食油假單胞菌基因體組序

5.2.1 基因體組序方法

基因體組序的過程在概念上類似拼圖把打碎的基因體片段再拼回去。基因體組 序的方法有兩種方式:第一種是已經有參考基因體,稱作重定序(resequencing)或 是貼序(Mapping),就是把讀序片段對應到參考的基因體上。這種組序通常是在人 類基因體、大鼠和小鼠、酵母菌這些已有參考的模式物種中,因為這些基因體組序 已經很完整。而此組序方法應用對象主要在研究定序基因體跟標準的基因體之間的 差異,觀察定序基因體的差異度和表現。第二種是沒有可以參考的基因體序列,稱 之為全新基因體組序(de novo assembly)。這兩種方法用的工具都不同,難度和所用

(45)

CPU 與 RAM 計算資源也大小也不同。組序的專有名詞為:Fragment library:一個 短序列 (約 270bp) 與重疊的序列;也稱為 std library、Long insert library:一個 4-8kb 的基因序列中只有 100 bp 在序列的端點; 也稱為 CLIP,mate pair library、

Raw Read(原始讀序):定序公司出來的結果 (Sequencer output) ;疊連序列(Contig,

contiguous sequence):重疊基因的 DNA 序列; 鷹架序列(Scaffold):一個或由未知 序列連接在一起更多的重疊區;Contig 和 Scaffold 的差異是 Scaffold 中間序列會出 現以 NNN 代表不知道的序列字母,Raw Read 拼接成 Contig 拼接成 Scaffold。

現在全新基因體組序的組序方法有重疊-佈局-共識(overlap-layout-consensus)方 法以及 de Bruijn 圖(de Bruijn graph)法兩大類。以前大多數都是用重疊-佈局-共識 (overlap-layout-consensus)方法,是因為第一代定序所產生的原始讀序比較少(一次 384 條,一個基因體定序約數萬條),其組序演算法複雜度為 O(N2),所以可以一條 一條的序列比對拼接。現在次世代定序為 high-throughput 讀序,短數量多(數百萬

~數億條),用重疊-佈局-共識(overlap-layout-consensus)方法會造成演算法效能問題。

而用 de Bruijn 圖的方式可解決次世代定序組序的問題。de Bruijn 圖的方法是不管 序列長度為多少,把它切成固定為 K 的長度。因為在不同長度下資料結構會不好 處理,所以把序列切成固定長度 K。重疊(K-1)的兩個為節點間建立連結。通常 K 數值為奇數通常為 31、63、127,K 值越大組序的速度會越快,因為運算為 4k電腦 所需要的記憶體也要夠大、組序錯的機率也越低。現在目前主要的 de novo 程式有 ALLPATHS:美國(Broad Institute)、Velve:英國(Sanger Center)、SOAPdenovo:中國(華 大基因)。de Bruijn 圖法舉例說明如下:假設有三條 DNA 片段待組序,AATGG、

ATGGAA、ATGGAC,K=4。組序步驟下:

步驟:1.將每個 原始讀序切成長度為 K(K-mer)固定大小。步驟:2.重疊(K-1) 的 K-mer 的節點之間建立連結,步驟:3.DBG 中的路徑(phth)即為 contig ,如圖 33 所示。

(46)

圖 33 de Bruijn 圖基因體組序範例

全新基因體組序的品質以 N50 衡量,計算方式為挑選最長的序列 K 條加起的 長度總和超過預測菌種基因體大小的一半時的最小 K 值為 N50 之值。用的序列越 少表示品質越好。另一個常用的組序品質 N90 的定義類似,表示 K 條的 Contig 序 列完成 9 成組序這表示基因體結果很完整。

5.2.2 食油假單胞菌基因體組序結果

我們使用 SOAPdenovo2 [19]進行食油假單胞菌基因體組序。在如前所述 FastQC 報告顯示在 250bp 以後序列品質不好所以設定最大讀序長度為 250 bp,品質不好的序 列不要用在組序中,影響組序結果。組序結果為含 N 的序列長度為 4,833,878 bp,把 N 扣除長度為 4,817,485 bp。鷹架序列有 1760 個序列、其長度之中位數為 127、最長 序列為 152,939 bp,如表 11 所示。鷹架序列的長度統計 G+C%為 62.27%,如表 12 所示。組序的品質 N50 為 29,表示前 29 條可超過預計基因體序列長度的一半;N90 為 121 條,表示組序結果可超過預計基因體序列長度的 9 成,如表 13 所示。

(47)

表 11 食油假單胞菌全新基因體組序(使用 SOAPdenovo2)結果

基因體大小(含 N) 4833878

基因體大小(不含 N) 4817485

鷹架序列個數 1760

平均大小 2746

中位數大小 127

最長鷹架序列大小 152939

最短鷹架序列大小 100

單一序列個數 1632

平均包含序列數 9

表 12 食油假單胞菌全新基因體組序的鷹架序列(Scaffolds)長度分析組序統計

鷹架序列長度>100 1750 99.43%

鷹架序列長度>500 255 14.49%

鷹架序列長度>1K 212 12.05%

鷹架序列長度>10K 109 6.19%

鷹架序列長度>100K 7 0.40%

鷹架序列長度>1M 0 0.00%

GC_Content 62.27% (G+C)/(A+C+G+T)

表 13 食油假單胞菌全新基因體組序的 N10~N90 組序品質統計

組序品質項目 序列長度((bp) 累積序列個數

N10 122211 4

N20 95440 8

N30 79557 14

N40 61416 20

N50 49552 29

N60 34663 41

N70 24819 57

N80 16394 80

N90 6851 121

(48)

5.3 食油假單胞菌基因體註解

5.3.1 原核生物基因體註解流程

基因體註解是將組序完成後的基因體序列,透過基因體預測程式找到基因體中 所有可能的基因位置,再透過與核酸/蛋白質資料庫進行 BLAST 比對預測每一個可 能基因的功能。基因體組序完成後若不知道基因序列的功能也是無意義的。基因體 預測目前已有很多程式都已經很成熟。預測程式會先找出起始蛋白質跟終止蛋白質,

因為蛋白質序列不一樣,所以預測程式一般都會用 hmm 來偵測起始跟終止的蛋白 質的位置來預測。然而每一個預測程式結果都有差異。

要上傳 NCBI 註解序列必須要做的流程為基因預測、rRNA 預測、跟 tRNA 預 測。做基因預測後還要做基因比對才可以上傳 NCBI,如圖 34 所示。在 NCBI 對全 基因體註解上傳時,其最低品管限度有 4 個條件:第一個條件為 rRNA 的預測:細 菌核醣體組成骨幹為 5S/16S/23S rRNA NCBI 要求至少要有一組 5S/16S/23S rRNA 且長度比須適當;第二個條件為 tRNA 的預測:至少要有一組(20 種)tRNA;第三 個條件為蛋白質編碼(CDS)預測:CDS 總長度/基因體全長約等於 100%;第四個條件 為基因不可以包含其他基因,亦避免大範圍基因重疊不可以產生部分不完整的特徵 描述。基因預測可以用 NCBI 所推薦用的程式為 GeneMark.hmm,把序列*.fna 的檔 案上傳進行預測,預測結果會顯示出它是正反序列還有預測位子跟長度。因為蛋白 質轉譯須透過核醣體,所以 NCBI 在註解時一定會要求標記核醣體 rRNA,核醣體 亞基中有分為小亞基和大亞基,小亞基在核糖體翻譯過程中負責信息的識別,大亞 基是負責合成蛋白質。核醣體基本上由 RNA 為主體和小蛋白質組成,核醣體在真 核生物跟原核生物上有所不同,真核生物是分為 5S、18S 和 28S,而原核生物分為 5S、16S 和 23S。細菌是真核生物,所以註解時 NCBI 會認為沒有 RNA 是無法轉 譯,因此一定會要預測 rRNA。我們用 rRNA 預測程式 rRNA Detection(http://www.cbs.

dtu.dk/services/RNAmmer/)預測 rRNA,我們將*.fna 序列載入 rRNA 預測網站就會

(49)

預測出基因體中有幾個 rRNA 和這是哪種的 rRNA。tRNA 二級結構的形狀,像幸 運草有 DHC 環、 T Ψ C 環、mRNA 反密碼子連接處和胺基酸連接處所構成。我 們將 tRNA 的預測程式為 tRNA Detection(http://lowelab.ucsc.edu/tRNAscan-SE/),是 美國大學所研發,這個程式只能接受 5MB 的檔案,檔案超過只能把檔案裁切成小 於 5MB。這程式會指出 tRNA 的位置還會預測二級結構。我們最後把全部的資料 用 Perl 程式進行整合,產生上傳 NCBI 所需之基因體註解檔。

圖 34 原核生物基因體註解流程圖

5.3.2 食油假單胞菌基因體註解結果

組序完成的資料檔做基因預測結果(使用 Prodigal): 5647 個基因如表 14 所示。

tRNA 預測結果使用 tRNAscan-SE[20],tRNA 的預測幾乎全部的 tRNA 都有被預測到,

如表 15 所示,tRNA 被預測到的有 42 個 tRNA。

表 14 基因預測結果(使用 Prodigal)全部 5647 個次表顯示部分基因

(50)

FEATURES Location/Qualifiers CDS complement(444..557)

/note="ID=1_1;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10b p;gc_cont=0.535;conf=89.19;score=9.18;cscore=5.87;sscore=3.31;rscore=0.80;uscore=1.2 2;tscore=1.94;"

CDS complement(801..1517)

/note="ID=1_2;partial=00;start_type=ATG;rbs_motif=AGGAG;rbs_spacer=5-10bp;gc_co nt=0.628;conf=100.00;score=174.58;cscore=154.08;sscore=20.50;rscore=14.08;uscore=0.

88;tscore=4.36;"

CDS complement(1526..2170)

/note="ID=1_3;partial=00;start_type=ATG;rbs_motif=None;rbs_spacer=None;gc_cont=0.

633;conf=100.00;score=69.11;cscore=62.59;sscore=6.52;rscore=-5.73;uscore=0.88;tscore=

4.36;"

CDS complement(2170..3228)

/note="ID=1_4;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10b p;gc_cont=0.643;conf=99.99;score=243.66;cscore=236.45;sscore=7.21;rscore=1.81;uscore

=1.69;tscore=4.36;"

CDS 3474..4514

/note="ID=1_5;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10b p;gc_cont=0.676;conf=99.99;score=187.77;cscore=180.74;sscore=7.03;rscore=1.81;uscore

=0.85;tscore=4.36;"

CDS 4588..5670

/note="ID=1_6;partial=00;start_type=ATG;rbs_motif=GGAG/GAGG;rbs_spacer=5-10bp;

gc_cont=0.625;conf=99.99;score=213.89;cscore=200.68;sscore=13.20;rscore=9.44;uscore

=-0.60;tscore=4.36;"

CDS 5667..6371

/note="ID=1_7;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10b p;gc_cont=0.631;conf=100.00;score=135.61;cscore=128.14;sscore=7.47;rscore=1.81;uscor e=-0.74;tscore=4.36;"

CDS complement(6468..6875)

/note="ID=1_8;partial=00;start_type=GTG;rbs_motif=GGAG/GAGG;rbs_spacer=5-10bp;

gc_cont=0.635;conf=100.00;score=64.26;cscore=59.44;sscore=4.81;rscore=9.44;uscore=0.

48;tscore=-6.36;"

CDS complement(6878..7474)

/note="ID=1_9;partial=00;start_type=ATG;rbs_motif=GGAG/GAGG;rbs_spacer=5-10bp;

gc_cont=0.660;conf=100.00;score=105.41;cscore=89.98;sscore=15.44;rscore=9.44;uscore

=0.34;tscore=4.36;"

(51)

表 15 tRNA 預測結果(使用 tRNAscan-SE)

來源鷹架序列 開始位置 結束位置 tRNA 名稱 tRNA

長度

正反

scaffold5 6417 6490 scaffold5.tRNA1-ValTAC 737 + scaffold5 6531 6604 scaffold5.tRNA2-PseudoGTC 262 + scaffold5 6694 6768 scaffold5.tRNA3-PseudoGTC 365 + scaffold14 577 643 scaffold14.tRNA1-GlyGCC 264 - scaffold14 92 164 scaffold14.tRNA2-GlyGCC 384 - scaffold15 104512 104585 scaffold15.tRNA1-AsnGTT 785 + scaffold15 84231 84305 scaffold15.tRNA2-ArgTCT 749 - scaffold15 84119 84192 scaffold15.tRNA3-HisGTG 733 - scaffold15 83978 84060 scaffold15.tRNA4-LeuTAG 611 - scaffold22 54177 54250 scaffold22.tRNA1-LysTTT 864 - scaffold22 25605 25678 scaffold22.tRNA2-ValTAC 737 - scaffold22 25523 25597 scaffold22.tRNA3-PseudoCGA 336 - scaffold28 6091 6178 scaffold28.tRNA1-SerGGA 605 - scaffold29 684 772 scaffold29.tRNA1-SerGCT 606 - scaffold29 423 496 scaffold29.tRNA2-PseudoACG 206 - scaffold37 4588 4670 scaffold37.tRNA1-TyrGTA 595 + scaffold37 4697 4768 scaffold37.tRNA2-GlyTCC 788 + scaffold37 4797 4870 scaffold37.tRNA3-ThrGGT 798 + scaffold44 70765 70839 scaffold44.tRNA1-ProCGG 730 + scaffold58 43243 43315 scaffold58.tRNA1-ArgCCT 660 + scaffold83 11086 11159 scaffold83.tRNA1-AsnGTT 785 - scaffold83 11000 11074 scaffold83.tRNA2-ProTGG 721 - scaffold83 10919 10992 scaffold83.tRNA3-LysTTT 864 - scaffold87 954 1028 scaffold87.tRNA1-IleGAT 822 + scaffold87 1053 1126 scaffold87.tRNA2-AlaTGC 749 + scaffold96 9170 9253 scaffold96.tRNA1-LeuGAG 612 - scaffold96 8996 9070 scaffold96.tRNA2-MetCAT 718 - scaffold97 71185 71259 scaffold97.tRNA1-ValGAC 791 + scaffold97 79027 79101 scaffold97.tRNA2-ProGGG 629 + scaffold109 14354 14441 scaffold109.tRNA1-SerCGA 591 + scaffold113 22642 22727 scaffold113.tRNA1-SerTGA 675 + scaffold113 26026 26099 scaffold113.tRNA2-GlyGCC 776 + scaffold113 144124 144195 scaffold113.tRNA3-CysGCA 548 + scaffold113 144320 144404 scaffold113.tRNA4-LeuTAA 672 +

(52)

scaffold125 11557 11639 scaffold125.tRNA1-LeuCAA 592 - C8557 6611 6685 C8557.tRNA1-MetCAT 793 + C8583 5889 5962 C8583.tRNA1-PheGAA 787 + C8637 15327 15400 C8637.tRNA1-TrpCCA 755 - C8709 20527 20600 C8709.tRNA1-ThrCGT 665 + C8749 29331 29402 C8749.tRNA1-GlyCCC 642 + C8819 6264 6337 C8819.tRNA1-ThrTGT 797 + C8821 28637 28711 C8821.tRNA1-MetCAT 818 -

(53)

第六章 結論與討論

在本論文研究中,我們將 P. oleovorans CH-1 的基因體進行定序、組序、與註 解。因為基因體序列之中還有間隙還沒被定序出來,未來可以用 PCR 的方式補足 中間間隙的序列使基因體序列更完整。rRNA 預測到 5S rRNA 跟 16S rRNA 而 23S rRNA 因為正好在間隙上所以沒有預測到。未來希望之後把間隙補齊在重新做預測,

這樣基因體序列的註解也會更加完整,而未來將進行 P. oleovorans 跟其他的 Pseudomonas 屬的菌株序列有何差異,也可以比較 Pseudomonas oleovorans 與其他 會產生 PHA 的菌株的 PHA 合成基因的差異,可以讓我們有更多 PHA 合成菌株的 資訊,能對產生 PHA 的合成機制有更多的瞭解。

(54)

參考文獻

[1]. Suriyamongkol, P., et al., Biotechnological approaches for the production of polyhydroxyalkanoates in microorganisms and plants - a review. Biotechnol Adv, 2007. 25(2): p. 148-75.

[2]. Pohlmann, A., et al., Genome sequence of the bioplastic-producing "Knallgas"

bacterium Ralstonia eutropha H16. Nat Biotechnol, 2006. 24(10): p. 1257-62.

[3]. Poehlein, A., et al., Complete genome sequence of the type strain Cupriavidus necator N-1. J Bacteriol, 2011. 193(18): p. 5017.

[4]. Eppinger, M., et al., Genome sequences of the biotechnologically important Bacillus megaterium strains QM B1551 and DSM319. J Bacteriol, 2011. 193(16): p.

4199-213.

[5]. Liu, L., et al., Complete genome sequence of the industrial strain Bacillus megaterium WSH-002. J Bacteriol, 2011. 193(22): p. 6389-90.

[6]. Ormeno-Orrillo, E., et al., Genome sequences of Burkholderia sp. strains CCGE1002 and H160, isolated from legume nodules in Mexico and Brazil. J Bacteriol, 2012. 194(24): p. 6927.

[7]. Ma, Y.F., et al., The complete genome of Comamonas testosteroni reveals its genetic adaptations to changing environments. Appl Environ Microbiol, 2009.

75(21): p. 6812-9.

[8]. Stover, C.K., et al., Complete genome sequence of Pseudomonas aeruginosa PAO1, an opportunistic pathogen. Nature, 2000. 406(6799): p. 959-64.

[9]. Ohtani, N., M. Tomita, and M. Itaya, The third plasmid pVV8 from Thermus thermophilus HB8: isolation, characterization, and sequence determination.

Extremophiles, 2012. 16(2): p. 237-44.

[10]. 陳國強, 生物高分子材料聚羥基脂肪酸酯開發現狀及產業化前景分析 Current status and industrialization of bioplyester Polyhydroxyalkanoates 2010.

[11]. G-Q Chen and Q Wu, Y.J.a.S.L., PHA/PHB. 2011 Elsevier B.V. All rights reserved.

[12]. Paliwal, V., et al., Pseudomonas putida CSV86: a candidate genome for genetic bioaugmentation. PLoS One, 2014. 9(1): p. e84000.

[13]. Tang, H., et al., Systematic unraveling of the unsolved pathway of nicotine degradation in Pseudomonas. PLoS Genet, 2013. 9(10): p. e1003923.

[14]. Duan, J., et al., The complete genome sequence of the plant growth-promoting bacterium Pseudomonas sp. UW4. PLoS One, 2013. 8(3): p. e58640.

[15]. Silby, M.W., et al., Genomic and genetic analyses of diversity and plant interactions of Pseudomonas fluorescens. Genome Biol, 2009. 10(5): p. R51.

[16]. Buell, C.R., et al., The complete genome sequence of the Arabidopsis and tomato pathogen Pseudomonas syringae pv. tomato DC3000. Proc Natl Acad Sci U S A,

(55)

2003. 100(18): p. 10181-6.

[17]. Illumina and

(http://www.illumina.com/Documents/products/techspotlights/techspotlight_sequen cing.pdf), Illumina Sequencing Technology. 2010.

[18]. 李思元 and 莊以光, DNA 定序技術之演進與發展. J Biomed Lab Sci 2010 Vol 22 No 2.

[19]. Luo, R., et al., SOAPdenovo2: an empirically improved memory-efficient short-read de novo assembler(SOAPdenovo2). Gigascience, 2012. 1(1): p. 18.

[20]. Schattner, P., A.N. Brooks, and T.M.h.l.u.e.t.-S. Lowe, The tRNAscan-SE, snoscan and snoGPS web servers for the detection of tRNAs and snoRNAs(tRNAscan-SE,).

Nucleic Acids Res, 2005. 33(Web Server issue): p. W686-9.

參考文獻

相關文件

[r]

Tendo em vista um maior rigor das futuras projecções, em “Projecções da População de Macau 2016-2036” aplicam-se as hipóteses de projecção da população activa total e da

另外我們還可以觀察到,在 1930 年以後的一段時間,人口

並藉由適當工具與資訊,去描述、模擬、解釋與 預測各種現象,發揮數學思維方式的特長,做出

危機事件 後果 可預測性 持續性 震撼程度 估計危機 影響程度 一對小四及小. 二的兄妹,居 於學校同邨的

將基本學力測驗的各科量尺分數加總的分數即為該考生在該次基測的總 分。國民中學學生基本學力測驗自民國九十年至九十五年止基測的總分為 300 分,國文科滿分為 60

股市預測在人工智慧領域是一個重要的議題。我們的研究使用混合式的 AI 以預測 S&P 500 芭拉價值指標和 S&P 500 芭拉成長股之間的價值溢價;S&P 600 小

無線感測網路是個人區域網路中的一種應用,其中最常採用 Zigbee 無線通訊協 定做為主要架構。而 Zigbee 以 IEEE802.15.4 標準規範做為運用基礎,在下一小節將 會針對 IEEE