• 沒有找到結果。

四、轉錄體分析與基因分類註解

在文檔中 雜糧作物試驗研究年報, 101年 (頁 116-122)

以CLC Genomics workbench 套裝軟體 之“trim 模組”去除訊號不良之序列,並使 用”de novo 組裝模組”將種子與葉片之 reads 混合組裝 (由於無法獲得蕎麥詳細的基因組 資 訊 故 以 此 作 為 本 次 參 考 基 因 訊 息);以 b l a s t x 與 N C B I n r 資 料 庫 比 對 , 以 FastAnnotator (Chen et al., 2012)進行基因註 解(annotation) (圖 2)。再將此註解好之 contigs 當作參考基因組,分別將種子與葉片 之 reads 進行 RNA-Seq 定序,並以 RPKM

圖 1. 蕎麥種子與葉片轉錄體材料的製備流程。

Fig. 1. Preparation of seeds and leaves transcriptome of buckwheat.

圖 2. 轉錄體分析與基因分類註解流程。

Fig.2 Flow chart of gene ontology classification and annotation.

(Reads Per Kilo-base per Million reads)來表示 參考基因之表現量(Wagner et al., 2012),將種 子與葉片表達量有差異之contigs 比較分析。

結果與討論

本研究中送定序之種子(BS)與葉片(BL) 樣本分別讀取143 M 及 247 M 條序列,共 組裝97,200 及 74,544 條 contigs,平均覆蓋 率(coverage)分別約為 1474 及 3340 倍,contig 序列平均長度分別為 565 及 607 bp,全部拼 接完成之序列分別為54M 及 45M bp (表 1)。

參考 Logacheva 氏等(2011) 進行之蕎麥花 朵轉錄體分析,共讀取 266,782 條序列,獲 得25,435 條 contig,平均長度為 698 bp,覆 蓋率為8.2。

本研究所使用之種子及葉片轉錄體樣品 同為蕎麥臺中5 號,完成種子及葉片轉錄體 分析之後,進一步混合拼接以比較種子和葉 片 表 現 基 因 之 異 同 , 如 此 可 以 得 知 哪 些 contigs 分別屬於種子或葉片,或是屬於兩者 共有,不屬於葉片或種子則可視為錯誤拼接 (圖 3C) 可排除之。其次,混合拼接可將不完 整的同源序列組裝為更完整之contigs。

所有讀取之序列進行混合拼接,共可獲 得106,190 條 contig,其中屬於種子和葉片者 分別為69,043 及 56,345 條 (圖 3),單獨存於 種子或葉片者分別為 22,587 及 9,889 條;混 合拼接後衍生27,258 條(圖 3C 區) contig 其 RPKM 值為 0,這些組裝後無法算出 RPKM 值的 contig,表示其為由兩者共同 assembly

蕎麥葉片及種子轉錄體分析 111

表 1. 原始資料及重疊群 (contig) 之特徵 Table 1. Characteristics of raw data and contigs

Buckwheat seeds Buckwheat leaf BS-BL mixed assembly Number of reads 143,803,530 247,195,816 390,999,346

N75 370 397 445

N50 696 810 840

N25 1,457 1,651 1,716 Minimum Length 135 68 106 Maximum Length 17,000 14,726 23,106 Average Length 565 607 640 Number of Contigs 97,200 74,544 106,190 Total bps 54,889,512 45,283,362 67,945,620

A (BS) Area: 69043, B (BL) Area: 56345, C Area: 27258, AB Area: 46456, AC Area: 0, BC Area: 0, ABC Area: 0, Total: 106190

圖 3. 蕎麥葉片與種子個別拼接與混合拼接後所獲得 contig 之片段分類。

Fig. 3. Contigs segmentation after mixed assembly.

出的 contig,不屬於種子或葉片,在此認定 為錯誤之拼接,佔總contigs 數量的 25.6%,

由 原 始 資 料 也 可 以 看 出 這 些 共 同 組 裝 的 contig 其長度平均也短,為 260 ± 53 bp,

進行blast nr 比對結果,大多也無法得到理想 的結果 (資料未顯示),推測為降解的 RNA。

扣除錯誤拼接的 contigs 之後,成功組裝的

contigs 認定為 78,932 條 (106,190 – 27258 = 78932)。

以混合拼接後各個contig 在種子和葉片 中標準化後的RPKM 值繪製散佈圖。比較相 同 contig 在兩種子及葉片中相對表現差異 (圖 4),整體而言,同樣的 contig 在種子中有 較高的表現量。

進一步分析各 contig 之 RPKM 值可發 現,種子和葉片中各有 37,147 及 49,845 條 contigs 之 RPKM 值趨近於 0,所比對到序列 長 度(hit length) 也 都 極 低 (15~100 bp) , RPKM 值介於 0-1 之間者各有 33,178 及 35,287 條 (圖 5),這些 contigs 因為表現量 低,或是因為錯誤組裝使得其在整體資料中 相對為微量,或者是因為其本身表現即為微 量,推測並非我們有興趣之基因。蕎麥引人 注目的機能性成分包括芸香苷、手性肌醇 (D-chiral inositol)、cupin 家族的過敏蛋白質 等,從文獻得知這些成分含量在蕎麥中都相 當高,本研究中專注在高表現量的contig 分 析;在數據的處理上,篩選掉種子RPKM<10 之後的contig,總共剩下 8,973 條 contig (圖 5)。此外,混合拼接之後表現量高於 1 的 contig 在種子樣品中數量也較多 (圖 5),因 此 本 研 究 篩 選 在 種 子 中 具 有 高 表 現 量 (RPKM>10),且和葉片表現量相比也有高比 值者優先進行分析。

所有contig 序列與資料庫相比對,其中 33,342 筆 可 比 對 出 基 因 功 能 (gene ontology) , 與 蛋 白 質 區 塊 資 料 庫 比 對 有 21,649 筆 , 與 酵 素 資 料 庫 比 對 則 可 得 到 2,580 筆 (圖 6),而其中三者交集的序列為 2,157 筆,三者聯集者為 37,936 筆。整體而 言所有比對到的筆數占全部認定為成功組裝 contigs 的 48.1%。

依照細胞組成加以分類,佔比重最高的 前 五 名 依 序 為 細 胞 膜 成 分 (integral to membrane)、原生質膜 (plasma membrane)、

細胞質 (cytosol)、細胞核 (nucleus)以及粒線 體 (mitochondria) (圖 7)。前二名皆屬於細胞 膜上之功能基因,可見膜功能在生物中的重 要性,受限於時間因素,目前尚未和其他植 物文獻報告比對,而 Logacheva 氏等 (2011) 所發表的蕎麥花芽轉錄體並未提出以細胞組 成分類的結果。

圖 4. 種子和葉片標準化後 contig 之 RPKM 數值 散佈圖

Fig 4. Scattered plot of standardized seed and leaf RPKM value.

圖 5. 蕎麥葉片與種子混合拼接之 contig 依照 RPKM 值分類圖

Fig. 5. Distribution of RPKM value of mixed assembled contigs.

圖 6. 蕎麥種子與葉片轉錄體註解分類

Fig. 6. Buckwheat contigs (BS-BL) annotation

segmentation

蕎麥葉片及種子轉錄體分析 113

圖 7. 以細胞成份為標準之基因功能分類。

Fig. 7. Gene ontology classification according to cellular components.

依據 Logacheva 氏等分析蕎麥花芽轉 錄體的報告,其使用簡化的 GOSlim 註解方 式和阿拉伯芥的生物資訊 (TAIR) (Rhee et al., 2003) 互相比較,依照生理程序分類蕎麥 花芽轉錄體之五項分別為生理程序、細胞程 序、代謝程序、初級代謝程序與細胞程序,

可知此分類方式相當簡化。本研究比對2013 年之NCBI 資料庫序列並註解,生理程序排 序前五名分別為氧化還原反應、絲胺酸家族 胺基酸代謝、DNA 依賴性的轉錄控制、蛋白

質磷酸化以及電子傳遞鍊 (圖 8),

當以分子功能為分類依據時,排序前五 名分別為ATP binding, Zinc ion binding, DNA binding, sequence-specific DNA binding transcription factor activity, and binding (圖 9)。而 Logacheva 氏等 (2011) 之報告其排序 前五名分別為 molecular function, binding, catalytic activity, transferase activity and protein binding,與本報告分類方式不同,但 是並無太大之牴觸。

圖 8. 以生理程序為標準之基因功能分類。

Fig. 8. Gene ontology classification according to biological processes.

蕎麥葉片及種子轉錄體分析 115

圖 9. 以分子功能為標準之基因功能分類。

Fig. 9. Gene ontology classification according to molecular functions.

在文檔中 雜糧作物試驗研究年報, 101年 (頁 116-122)

相關文件