四、轉錄體分析與基因分類註解

以CLC Genomics workbench 套裝軟體之“trim 模組”去除訊號不良之序列，並使用”de novo 組裝模組”將種子與葉片之 reads 混合組裝 (由於無法獲得蕎麥詳細的基因組資訊故以此作為本次參考基因訊息)；以 b l a s t x 與 N C B I n r 資料庫比對，以 FastAnnotator (Chen et al., 2012)進行基因註解(annotation) (圖 2)。再將此註解好之 contigs 當作參考基因組，分別將種子與葉片之 reads 進行 RNA-Seq 定序，並以 RPKM

圖 1. 蕎麥種子與葉片轉錄體材料的製備流程。

Fig. 1. Preparation of seeds and leaves transcriptome of buckwheat.

圖 2. 轉錄體分析與基因分類註解流程。

Fig.2 Flow chart of gene ontology classification and annotation.

(Reads Per Kilo-base per Million reads)來表示參考基因之表現量(Wagner et al., 2012)，將種子與葉片表達量有差異之contigs 比較分析。

結果與討論

本研究中送定序之種子(BS)與葉片(BL) 樣本分別讀取143 M 及 247 M 條序列，共組裝97,200 及 74,544 條 contigs，平均覆蓋率(coverage)分別約為 1474 及 3340 倍，contig 序列平均長度分別為 565 及 607 bp，全部拼接完成之序列分別為54M 及 45M bp (表 1)。

參考 Logacheva 氏等(2011) 進行之蕎麥花朵轉錄體分析，共讀取 266,782 條序列，獲得25,435 條 contig，平均長度為 698 bp，覆蓋率為8.2。

本研究所使用之種子及葉片轉錄體樣品同為蕎麥臺中5 號，完成種子及葉片轉錄體分析之後，進一步混合拼接以比較種子和葉片表現基因之異同，如此可以得知哪些 contigs 分別屬於種子或葉片，或是屬於兩者共有，不屬於葉片或種子則可視為錯誤拼接 (圖 3C) 可排除之。其次，混合拼接可將不完整的同源序列組裝為更完整之contigs。

所有讀取之序列進行混合拼接，共可獲得106,190 條 contig，其中屬於種子和葉片者分別為69,043 及 56,345 條 (圖 3)，單獨存於種子或葉片者分別為 22,587 及 9,889 條；混合拼接後衍生27,258 條(圖 3C 區) contig 其 RPKM 值為 0，這些組裝後無法算出 RPKM 值的 contig，表示其為由兩者共同 assembly

蕎麥葉片及種子轉錄體分析 111

表 1. 原始資料及重疊群 (contig) 之特徵 Table 1. Characteristics of raw data and contigs

Buckwheat seeds Buckwheat leaf BS-BL mixed assembly Number of reads 143,803,530 247,195,816 390,999,346

N75 370 397 445

N50 696 810 840

N25 1,457 1,651 1,716 Minimum Length 135 68 106 Maximum Length 17,000 14,726 23,106 Average Length 565 607 640 Number of Contigs 97,200 74,544 106,190 Total bps 54,889,512 45,283,362 67,945,620

A (BS) Area: 69043, B (BL) Area: 56345, C Area: 27258, AB Area: 46456, AC Area: 0, BC Area: 0, ABC Area: 0, Total: 106190

圖 3. 蕎麥葉片與種子個別拼接與混合拼接後所獲得 contig 之片段分類。

Fig. 3. Contigs segmentation after mixed assembly.

出的 contig，不屬於種子或葉片，在此認定為錯誤之拼接，佔總contigs 數量的 25.6%，

由原始資料也可以看出這些共同組裝的 contig 其長度平均也短，為 260 ± 53 bp，

進行blast nr 比對結果，大多也無法得到理想的結果 (資料未顯示)，推測為降解的 RNA。

扣除錯誤拼接的 contigs 之後，成功組裝的

contigs 認定為 78,932 條 (106,190 – 27258 = 78932)。

以混合拼接後各個contig 在種子和葉片中標準化後的RPKM 值繪製散佈圖。比較相同 contig 在兩種子及葉片中相對表現差異 (圖 4)，整體而言，同樣的 contig 在種子中有較高的表現量。

進一步分析各 contig 之 RPKM 值可發現，種子和葉片中各有 37,147 及 49,845 條 contigs 之 RPKM 值趨近於 0，所比對到序列長度(hit length) 也都極低 (15~100 bp) ， RPKM 值介於 0-1 之間者各有 33,178 及 35,287 條 (圖 5)，這些 contigs 因為表現量低，或是因為錯誤組裝使得其在整體資料中相對為微量，或者是因為其本身表現即為微量，推測並非我們有興趣之基因。蕎麥引人注目的機能性成分包括芸香苷、手性肌醇 (D-chiral inositol)、cupin 家族的過敏蛋白質等，從文獻得知這些成分含量在蕎麥中都相當高，本研究中專注在高表現量的contig 分析；在數據的處理上，篩選掉種子RPKM<10 之後的contig，總共剩下 8,973 條 contig (圖 5)。此外，混合拼接之後表現量高於 1 的 contig 在種子樣品中數量也較多 (圖 5)，因此本研究篩選在種子中具有高表現量 (RPKM>10)，且和葉片表現量相比也有高比值者優先進行分析。

所有contig 序列與資料庫相比對，其中 33,342 筆可比對出基因功能 (gene ontology) ，與蛋白質區塊資料庫比對有 21,649 筆，與酵素資料庫比對則可得到 2,580 筆 (圖 6)，而其中三者交集的序列為 2,157 筆，三者聯集者為 37,936 筆。整體而言所有比對到的筆數占全部認定為成功組裝 contigs 的 48.1%。

依照細胞組成加以分類，佔比重最高的前五名依序為細胞膜成分 (integral to membrane)、原生質膜 (plasma membrane)、

細胞質 (cytosol)、細胞核 (nucleus)以及粒線體 (mitochondria) (圖 7)。前二名皆屬於細胞膜上之功能基因，可見膜功能在生物中的重要性，受限於時間因素，目前尚未和其他植物文獻報告比對，而 Logacheva 氏等 (2011) 所發表的蕎麥花芽轉錄體並未提出以細胞組成分類的結果。

圖 4. 種子和葉片標準化後 contig 之 RPKM 數值散佈圖

Fig 4. Scattered plot of standardized seed and leaf RPKM value.

圖 5. 蕎麥葉片與種子混合拼接之 contig 依照 RPKM 值分類圖

Fig. 5. Distribution of RPKM value of mixed assembled contigs.

圖 6. 蕎麥種子與葉片轉錄體註解分類

Fig. 6. Buckwheat contigs (BS-BL) annotation

segmentation

蕎麥葉片及種子轉錄體分析 113

圖 7. 以細胞成份為標準之基因功能分類。

Fig. 7. Gene ontology classification according to cellular components.

依據 Logacheva 氏等分析蕎麥花芽轉錄體的報告，其使用簡化的 GOSlim 註解方式和阿拉伯芥的生物資訊 (TAIR) (Rhee et al., 2003) 互相比較，依照生理程序分類蕎麥花芽轉錄體之五項分別為生理程序、細胞程序、代謝程序、初級代謝程序與細胞程序，

可知此分類方式相當簡化。本研究比對2013 年之NCBI 資料庫序列並註解，生理程序排序前五名分別為氧化還原反應、絲胺酸家族胺基酸代謝、DNA 依賴性的轉錄控制、蛋白

質磷酸化以及電子傳遞鍊 (圖 8)，

當以分子功能為分類依據時，排序前五名分別為ATP binding, Zinc ion binding, DNA binding, sequence-specific DNA binding transcription factor activity, and binding (圖 9)。而 Logacheva 氏等 (2011) 之報告其排序前五名分別為 molecular function, binding, catalytic activity, transferase activity and protein binding，與本報告分類方式不同，但是並無太大之牴觸。

圖 1. 蕎麥種子與葉片轉錄體材料的製備流程。

Fig. 1. Preparation of seeds and leaves transcriptome of buckwheat.

圖 2. 轉錄體分析與基因分類註解流程。

Fig.2 Flow chart of gene ontology classification and annotation.

結果與討論

表 1. 原始資料及重疊群 (contig) 之特徵 Table 1. Characteristics of raw data and contigs

A (BS) Area: 69043, B (BL) Area: 56345, C Area: 27258, AB Area: 46456, AC Area: 0, BC Area: 0, ABC Area: 0, Total: 106190

圖 3. 蕎麥葉片與種子個別拼接與混合拼接後所獲得 contig 之片段分類。

Fig. 3. Contigs segmentation after mixed assembly.

圖 4. 種子和葉片標準化後 contig 之 RPKM 數值散佈圖

Fig 4. Scattered plot of standardized seed and leaf RPKM value.

圖 5. 蕎麥葉片與種子混合拼接之 contig 依照 RPKM 值分類圖

Fig. 5. Distribution of RPKM value of mixed assembled contigs.

圖 6. 蕎麥種子與葉片轉錄體註解分類

Fig. 6. Buckwheat contigs (BS-BL) annotation

segmentation

圖 7. 以細胞成份為標準之基因功能分類。

Fig. 7. Gene ontology classification according to cellular components.

圖 8. 以生理程序為標準之基因功能分類。

Fig. 8. Gene ontology classification according to biological processes.

圖 9. 以分子功能為標準之基因功能分類。

Fig. 9. Gene ontology classification according to molecular functions.

四、轉錄體分析與基因分類註解

圖 1. 蕎麥種子與葉片轉錄體材料的製備流程。

Fig. 1. Preparation of seeds and leaves transcriptome of buckwheat.

圖 2. 轉錄體分析與基因分類註解流程。

Fig.2 Flow chart of gene ontology classification and annotation.

結果與討論

表 1. 原始資料及重疊群 (contig) 之特徵 Table 1. Characteristics of raw data and contigs

A (BS) Area: 69043, B (BL) Area: 56345, C Area: 27258, AB Area: 46456, AC Area: 0, BC Area: 0, ABC Area: 0, Total: 106190

圖 3. 蕎麥葉片與種子個別拼接與混合拼接後所獲得 contig 之片段分類。

Fig. 3. Contigs segmentation after mixed assembly.

圖 4. 種子和葉片標準化後 contig 之 RPKM 數值 散佈圖

Fig 4. Scattered plot of standardized seed and leaf RPKM value.

圖 5. 蕎麥葉片與種子混合拼接之 contig 依照 RPKM 值分類圖

Fig. 5. Distribution of RPKM value of mixed assembled contigs.

圖 6. 蕎麥種子與葉片轉錄體註解分類

Fig. 6. Buckwheat contigs (BS-BL) annotation

segmentation

圖 7. 以細胞成份為標準之基因功能分類。

Fig. 7. Gene ontology classification according to cellular components.

圖 8. 以生理程序為標準之基因功能分類。

Fig. 8. Gene ontology classification according to biological processes.

圖 9. 以分子功能為標準之基因功能分類。

Fig. 9. Gene ontology classification according to molecular functions.

圖 4. 種子和葉片標準化後 contig 之 RPKM 數值散佈圖