材料與方法 - 利用限制酶切位連結核酸定序技術探討野生稻導入系統之基因體多型性

試驗材料

本研究使用之重組自交系 (recombinant inbred lines, RILs) 及野生稻導入系統 (introgression lines, ILs) 為行政院農業試驗所稻作研究室的李長沛博士所建立；野生稻親本皆來自於國際稻米研究所 (International Rice Research Institute, IRRI)。本研究所用之兩族群組成簡述如下：

852T034 / TNG71 RILs (AA 族群)：

AA 族群之母本 852T034，為栽培稻台農 67 號 (Tainung 67, TNG67) 與原產 於馬來西亞的亞洲型普通野生稻 Oryza nivara (IRGC. acc. 102165) 雜交後再經一 次回交的 BC1F11系統。O. nivara 為 AA 染色體組，一年生、早熟、穗大而有芒、

分蘖多、抗褐飛蝨與抗白背飛蝨 (李 2010)。再以 852T034 與台農 71 號 (Tainung 71, TNG71) 進行雜交，於 F2世代逢機選出 158 個單株，經多代自交，並從族系

中外表性狀或褐飛蝨檢定有明顯分離者再增選 3－5 株進入下一世代中，至 F10

成立 199 個 RILs (圖一)。

TNG67 / O. officinalis ILs (AC 族群)：

AC 族群是以原產於印度之 CC 染色體組多年生野生稻 O. officinalis (IRGC.

acc. 100896) 為父本與栽培稻 TNG67 進行雜交所得。為了克服後代不稔性，經

過 F1世代胚培養後與 TNG67 進行二次回交，從後代篩選稔實率佳者繁殖，各世

代淘汰易倒伏、芒太長、落粒性強的系統，優良系統增選 3－5 株進入下一世代中，至 BC2F14共 134 個 ILs (圖二)。

農藝性狀調查

AA 族群性狀調查數據來自李長沛博士之論文 (李，2010)，試驗於 2008 年在臺中縣霧峰鄉行政院農業試驗所試驗田區進行：每品系及親本各栽植三行，每行 12 株單本植，行株距 30×15 公分，共三重複，田間管理依慣行農法施行，肥料於移植後 10 天及 30 天施用每公頃 N：P2O5：K2O = 80：50：40 公斤。各性狀參照國際稻米研究所訂定之標準 (INGER, 1996) 或做部份之修改進行調查。AC 族群則於 2014 與 2015 年於同一地點進行性狀調查，並於 2015 年增加高肥區 (N : 174 kg/ha) 與低肥區 (N : 48 kg/ha) 兩種氮素處理，以探討 AC 品系於高低肥下的產量和病害反應，模擬農民過度施肥是否加重病害之程度。田間依品系編號順序排列，每品系種 3 行，每行 10 株單本植，行株距 28×16 公分。所調查性狀敘述統整於表一。

葉片 DNA 萃取與定量

DNA 萃取採用 DNeasy Plant Mini Kit (Cat. No. 69106, QIAGEN, Hilden, Germany)。水稻葉片經冷凍乾燥處理後保存於 -80°C 冰箱，萃取前以剪刀將約 0.05g 葉片剪碎後放入 2 mL 微量離心管中，加入一顆鋼珠並使用樣品均質機 (SH-100, KURABO, Osaka, Japan)，以最高轉速震盪 150 秒至粉末狀。取出鋼珠後加入 600 µL Buffer AP1 及 4 µL 100 mg/mL RNaseA，上下搖晃混合均勻後置於 65°C 水浴槽 10 分鐘，其間搖晃 2 至 3 次使受熱均勻。加入 195 µ L Buffer P3，

混勻並靜置於冰上 5 分鐘後以 14000 rpm 離心 5 分鐘，取上清液至 QIAshredder spin column 中以 14000 rpm 離心 2 分鐘，將過濾後下層之液體轉移至新的 1.5 mL 微量離心管內，加入 750 µL Buffer AW1 後混勻。將管內所有液體分兩次加入 DNeasy Mini spin column 中以 8000 rpm 離心 1 分鐘後拋棄下層溶液，置換下管並以 500 µL Buffer AW2 以 8000 rpm 離心 1 分鐘、14000 rpm 離心 2 分鐘共清洗

兩次，將上層 column 轉移至新的 1.5 mL 微量離心管中，將 60 µL Buffer AE 注入 column 溶出 DNA，靜置 5 分鐘後以 8000 rpm 離心 1 分鐘，即可獲得目標之 DNA 溶液。

為達到後續酶切系統需要之 DNA 濃度，採用酒精沉澱使 DNA 濃縮至 20 ng/µ L 以上。將濃度未達標準之 DNA 溶液，加入總體積 0.5 倍 6 M 乙酸銨 (CH3COONH4) 後，再加入 DNA 與乙酸銨混和溶液總體積 2.5 倍的 95%酒精後 混和均勻，在室溫下放置兩小時以上，以 16000 ×g 離心 30 分鐘，去掉上清液後，

加入 500 µL 95%酒精清洗，以 16000 ×g 離心 5 分鐘去除酒精後放置於室溫下待 其完全乾燥後，回溶於 20 µL Buffer AE。以 Nanodrop (ND-1000, Thermo Fisher Scientific Inc., MA, USA) 做濃度初估，並以 1%瓊脂膠 (in 0.5× Tris-borate EDTA [TBE] Burffer) 檢測 DNA 品質，最後透過 Picogreen dsDNA Assay Kit (Cat.

No.P7589, Thermo Fisher) 進行 DNA 精確定量。

RAD-seq 定序庫製備

本 RAD-seq 定序庫製備採用 Chen et al. (2014) 所改良之定序庫製備法。親本取樣七份，後代各品系取樣一份，每份樣品取 1 µg DNA，使用 20 units 限制 酶 PstI-HF (Cat. No. R3140S, New England Biolabs, Ipswich, MA, USA)，以 1×

CutSmart® Buffer (Cat. No. B7204S, New England Biolabs, Ipswich, MA, USA) 與二次蒸餾水配置總反應體積 50 µL，於 37°C 培養箱過夜進行酶切反應。以 80°C 20 分鐘去除限制酶活性後於室溫降溫。接著加入 2 µL 100 nM barcoded P1 adapter、

0.5 µ L 2000 unit/μL T4 DNA ligase (Cat. No. M0202T, New England Biolabs, Ipswich, MA, USA)、0.6 µ L 100 mM riboATP (Cat. No. E6011, Promega, Madison, WI, USA) 等，單一樣品總反應體積為 60 µ L，於 20°C 反應 1 小時，於 65°C 處理 20 分鐘終止活性後自然降至室溫。接著使用超音波震盪器 (Bioruptor Sonication System UCD-200, Diagenode, Seraing, Belgium) 將 DNA 以超音波震盪

至 1 kb 以下的片段長度；每個樣品取 (300/樣品數) µL 混合均勻後分裝至 6 管 0.5 mL 微離心管以配合機器操作，每 7 分鐘一循環共震盪 21 分鐘。使用 0.5%瓊脂膠 (in 0.5× TBE) 進行初步片段大小判別，若片段範圍過大，則再度進行超音波震盪至理想片段範圍。之後將 6 管 DNA 混合並使用 MinElute PCR Purification Kit (Cat. No. 28004, QIAGEN, Venlo, Netherland) 濃縮 DNA，以 40 µ L elution buffer (10 mM Tris-Cl, pH8.5) 溶出 DNA。片段篩選使用 BluePippin System (Sage science, Beverly, MA, USA)，範圍設定在蒐集 200 bp 到 500 bp 長度間片段，加入 DNA 溶液體積 0.8 倍的 Agencourt® AMPure® XP system (Cat. No. A63881, Beckman Coulter, Brea CA, USA) 以磁珠協助 DNA 純化，並以 1%瓊脂膠 (in 0.5

× TBE) 檢測 DNA 片段大小。取定量 1 µg 之 DNA 樣品使用 Quick Blunting Kit (Cat. No. E1201, New England Biolabs, Ipswich, MA, USA) 將超音波震碎產生的破裂端修復成磷酸化的平坦端。修復完以 1.8× Agencourt® AMPure® XP system 磁珠系統純化 DNA 溶液後加入 5 μL 10× NEBuffer2 (Cat. No. B7002S, New England Biolabs, Ipswich, MA, USA)、1 μL 10 mM dATP 及 3 μL Klenow exo^- (Cat.

No. M0212, New England Biolabs, Ipswich, MA, USA)，於 37˚C 反應 30 分鐘後使其自然冷卻，再次純化後加入 5 μL 10× NEBuffer2、1 μL 10 μM P2 adapter、0.5 μL 100 mM riboATP、及 0.5 μL 2,000 unit/μL T4 DNA ligase，置於 PCR 機器進行反應，20℃ 3 小時，再經 Agencourt® AMPure® XP system 純化後即為 RAD library template。接著進行高精確度聚合酶連鎖擴增反應，取上步驟完成之 RAD template 定量 50 ng，加入 50 μL Phusion® High-Fidelity PCR Kit (Cat. No. B7204S, New England Biolabs, Ipswich, MA, USA) 或 NEBNext® Ultra^TM Q5 Master Mix (Cat.

No. M0544S, New England Biolabs, Ipswich, MA, USA) 及 4 μL 10 mM Solexa primer mix (primer sequences : Solexa forward primer 5′-AAT GAT ACG GCG ACC ACC GA-3′; Solexa reverse primer 5′-CAA GCA GAA GAC GGC ATA CGA-3′)，

PCR 反應為 98°C 30 秒；98°C 10 秒，66°C 30 秒，72°C 30 秒，共 18 cycles；72

°C 5 分鐘；PCR 結束後產品保存於 4°C 中。PCR 完成後以 Agencourt® AMPure®

XP system 純化擴增產物。定序庫於國立陽明大學榮陽基因體研究中心以 Illumina-HiSeq 2500 次世代核酸定序平台 (Illumina Inc., San Diego, CA, USA)，

進行 single-read 100 bp sequencing 定序作業。

RAD-seq 資料分析及基因型資料整理

本次 RAD-seq 資料首先以 Stacks (Catchen et al. 2013; Catchen et al. 2011) 為分析工具，使用版本為 V1.37 (2016/02/24)，分為已知參考序列 (Pstacks) 與未知參考序列 (Ustacks) 兩種處理程序，並配合使用 FastQC (Andrews 2010)、Bowtie2 (Langmead and Salzberg 2012)、SAMtools (Li et al. 2009)、R (R Core Team 2017) 等軟體輔助分析。先在 local 端進行資料準備步驟，再利用臺灣大學農藝學系伺服器進行運算 (中階 2U，型號為 HPDL385p、CPU 為 AMD Opteron 6348 ×2，暫存記憶體 128 GB)。除了 Stacks 外，本研究亦使用 TASSEL 3.0 GBS Pipeline (Bradbury et al. 2007) 與 TASSEL 5.0 GBSv2 Pipeline (Glaubitz et al. 2014) 進行分析，兩者同樣使用臺灣大學農藝學系之中階 2U 伺服器進行分析，將定序資料 fastq 檔分析結果輸出為 Variant Call Format (VCF) 檔案型式後再於 local 端圖形介面進行後續篩選步驟，以及使用 R 統計軟體協助分析。

Pstacks (已知參考序列)

整理定序條碼與區分各樣品序列資料

首先以 Stacks 之 process_radtags 指令，將每一個 lane 的定序資料依照條碼區分成各樣品。檔案輸入及輸出的格式為 .gzfastq，序列帶有正確之條碼及酶切位點予以保留，且開啟指令內條碼區與限制酶切位區錯誤回復之功能，擷取扣除條碼後的 95 bp 以滑動窗口法 (sliding windows) 進行序列品質篩選，滑動窗口大小設定為每 0.1 倍序列長度進行一次品質判定，讀序品質標準 (phred quality score：

Q = -log10 (P)，P 為定序錯誤率) 設為 20，每 10 bp 之平均定序品質若低於 20 則捨棄此讀序。相關參數依照該 Stacks 使用說明設定 (附錄 1)，序列整理完成後可得各樣品讀序資料檔案與整個 lane 的過程紀錄，包括每個樣品的讀序量、刪除之低品質讀序數、各條碼對應讀序數與非正確之條碼數量等。

比對參考序列

由 Rice Genome Annotation Project (http://riceplantbiology.msu.edu/) 下載水稻 參考序列 MSU7 (equivalent to IRGSP-1.0, ssp. japonica, cv 日本晴)，利用 Bowtie2 V2.2.7 (2016/02/12) 比對樣本及參考序列。首先以 bowtie2-build 將所下載之參考序列資料轉為 Rice_MSU7 之 fasta 參考序列檔案，在 end-to-end 比對模式下，以 Bowtie2 內建之 --very sensitive 模式進行精確之比對。接著使用 SAMtools 套件，

將檔案轉換與壓縮成 BAM (binary SAM) File，再依照 MAPQ (Mapping quality, MAPQ = -log10(P), P 值為比對錯誤率) 值判斷該序列位置，MAPQ 越大表示該讀序愈具專一性，愈可能位於參考序列比對之相關位置，可避免同一序列同時比對到多個位置而造成誤判，處理完之 BAM 檔案可進行 stacks 程式之後續處理。

彙整並建立各樣本基因座資料

Pstacks 將各樣本比對至參考序列相同位置之讀序視為基因座，不進行讀序深度篩選。比對檔案中 CIGAR code，遇到 Insertion 會將插入片段刪除後補上 N 並修剪尾端維持讀序等長，遇到 Deletion 則在尾端補上 N 使片段等長於參考序列，根據相同位置之讀序，針對每一個核苷酸位點進行同質結合或異質結合之判讀。各樣品於本階段處理後形成三個檔案：.tags.tsv、.snps.tsv、.alleles.tsv。tags.tsv 紀錄每個基因座的染色體確切位置；snps.tsv 紀錄計算概度與判讀結果；alleles.tsv 則紀錄異質結合基因座中的 haplotypes 與其頻度。

建立親本間共通基因座目錄並對應樣本之基因型

Stacks 核心程式 cstacks 可找出樣本間共通基因座並建立目錄，若分析材料為雙親本雜交組合，則以親本資料建立目錄。基因座目錄之建立始於尋找親本間共有且為不同對偶基因之同質結合基因座，接著使用核心程式 sstacks，比對各樣本之序列至親本間共通基因座目錄，進行基因型分型，最後將基因型資訊輸出為 .matches.tsv。

使用 Stacks 串聯程式

Stacks 程式中的串聯程式 ref_map.pl 可一次執行前述步驟，並將檔案與 MySQL database 整合，藉由網頁瀏覽 PHP 圖形化介面視窗，可設定染色體、SNP 數量、基因型判讀、讀序深度等多項篩選條件，並直接於網頁上顯示結果。若要將資料輸出成為其他後續軟體可分析之型式，可利用 export_sql.pl，依照 haplotype 或是 genotype 格式輸出該批次分析結果，便於後續其他軟體之分析，亦可直接使用指令 genotypes 或 populations 輸出所需要之檔案。

Ustacks (未知參考序列)

在各樣品之序列資料經初步整理 (process_radtags, 同 Pstacks 步驟) 後，以 Ustacks 取代 Pstacks 進行序列彙整並建立各樣本基因座資料，不經過參考序列比對，直接堆疊各樣本之讀序；同一序列之讀序數> 3 才加以保留，以降低定序錯 誤之序列比例 (附錄 2)。接著兩族群以親本 TNG71、TNG67、O. officinalis、O.

nivara 建立共通基因座目錄 (cstacks)；AA 族群及 AC 族群再分別根據目錄建立

全族群之基因型 (sstacks)，以 VCF 輸出 (指令：populations) 供後續分析。最後將 SNP 前後的序列比對回水稻參考序列以得 SNP 之位置。

GBS Pipeline

TASSEL GBS Pipeline 保留擁有一個完整條碼與限制酶切位之序列，並將其修剪為 64 bp (不包括條碼片段，由限制酶切位點開始)，修剪途中遇到缺值 (N) 時拋棄，而遇到第二個限制酶切位或共同轉接子 (common adapter) 時則將其移

在文檔中利用限制酶切位連結核酸定序技術探討野生稻導入系統之基因體多型性 (頁 17-27)