統計模型預測準確度 - 模擬探討基因體選種在水稻育種計畫中之運用

4.1.1 影響預測準確度因子

影響預測準確度因子很多，包括訓練族群大小、訓練族群與驗證族群相關性、統計模型、分子標誌數量與分布、外表型調查、性狀遺傳結構與遺傳率等 (Desta and Ortiz 2014; Lorenz et al. 2011; Zhao et al. 2015)。本研究 1000 次十折交叉驗證之訓練族群和驗證族群來自相同 327 品系，品系間無次族群結構，每次重複族群大小相同；黑小麥、番茄及大麥研究指出訓練族群和驗證族群的相關性越高則預測準確度越好 (Duangjit et al. 2016; Wurschum et al. 2017)，且比族群大小重要，族群小但與選拔族群關係緊密的訓練族群，較數量大、多樣性高但與選拔族群相關性低的訓練族群有更好的預測能力 (Lorenz and Smith 2015)。8 種統計模型三種性狀 1000 次預測準確度變方範圍 0.01-0.023 相當小 (表九)，或許即因本研究材料族群結構簡單且品系間相關性高，使得預測準確度穩定且變化不大。分子標誌數量與分布係依照 Spindel et al. (2015) 之結果從 38,639 個 SNP 每 50 kb 區間隨機抽取一個 SNP，共 5,264 個 SNP，與作者以 50 kb 為抽樣區間共抽出 7,142 個 SNP 相比少了近 2,000 個分子標誌。但作者以 120 kb 為間隔抽出 3,076 個 SNP 之預測準確度與 7,142 個 SNP 差異不大，故推測利用本研究所抽出之 5,264 SNP 應仍在最佳準確度範圍內。另外分子標誌均勻分布基因體或隨機分布對預測準確度影響則與分子標誌數量有關，數量越大則兩者差異不大，均勻分布稍優於隨機分布，尤其 BL 模型差異較大；分子標誌數量越少則隨機抽樣之準確度下降較均勻分布劇烈。但是在另一篇大豆研究中卻有不同結果，產量性狀均勻抽樣之分子標誌預測準確度反倒較隨機抽樣稍低 (Ma et al. 2016)。造成兩種分子標誌抽樣方式預測準確度高低不同的原因，可能為原始分子標誌分布在目標性狀 QTL 附近情

doi:10.6342/NTU201701806

況不同，Ma et al. 已先挑選靠近 QTL 的 SNP，因此隨機抽樣可能比等距抽樣更有效地選出與性狀 QTL 連鎖之 SNP，使得預測準確度較高。

4.1.2 性狀遺傳結構與統計模型關係

性狀之遺傳結構將影響統計模型預測準確度，一般認為 RR-BLUP 和 BRR 適合由大量 QTL 控制之複雜性狀；BL、BayesA、BayesB、BayesC 適合由少數 QTL 控制之簡單性狀；RKHS 適合具非累加性效應之性狀；RF 適合具基因上位性之性狀 (Desta and Ortiz 2014; Lorenz et al. 2011; Onogi et al. 2015)。發表本研究族群資料之團隊同時也有做 GWAS 分析 (Begum et al. 2015)，性狀遺傳結構判斷結果與以上 GS 適用模型之認知相互符合。其結果顯示抽穗期由少數 QTL 控制，

其中第 3 條染色體上有一強效 QTL 於乾濕季之外表型變異解釋量 (phenotypic variance explained, PVE) 高達 40%以上；株高於第 2、3、6、8 條染色體上具顯著 SNP，僅第 3 條染色體上 SNP 之 PVE 接近 15%，其餘 PVE 約 6%上下，顯示株高由一定數量 QTL 控制；產量則僅有濕季於第 11 條染色體上有顯著 SNP，PVE 小於 10%，應由大量微效 QTL 控制。本研究 GWAS 結果於第 3、6 條染色體上發現與抽穗期性狀相關之顯著 SNP，其中第 3 條染色體最顯著之 SNP 於 Begum et al. (2015) 研究中同樣為最顯著 SNP，乾季之 PVE 高達 43%，濕季之 PVE 為 28%，此 SNP 也與株高性狀相關，乾季之 PVE 達 12%；第 6 條染色體最顯著之 SNP 在作者研究中同樣與抽穗期性狀相關，乾季之 PVE 為 2%。株高性狀調升閾值至FDR = 0.1時僅於第 4 條染色體上有一顯著 SNP，但原作者在第 2、3、6、8 條染色體上顯著的 SNP 並未在本研究呈現顯著，可能因株高 QTL 之 PVE 不大或原著中顯著的 SNP 未被選取。本研究產量性狀無顯著 SNP，作者也僅於濕季在第 11 條染色體上有顯著 SNP，再次分析結果亦符合產量應受大量微效 QTL 控制。

本研究所使用族群基因型資料全為同型結合，不存在顯性效應，RKHS 優勢小，三種性狀之預測準確度皆為最差 (圖八)。各統計模型於抽穗期性狀之表現，

BayesB、BayesA、RF 預測準確度較佳，RR-BLUP 和 BRR 僅比 RKHS 稍高，符

doi:10.6342/NTU201701806

合 GWAS 推測抽穗期由少數 QTL 控制故適合 BayesB 模型，且該性狀可能具上位性效應；株高性狀則除 RKHS 和 RF 外皆無顯著差異，對照 GWAS 結果株高性狀可能由一定數量 QTL 控制；產量顯然為大量 QTL 控制之複雜性狀，研究結果最適合模型為 RR-BLUP 和 BayesA，BL 僅比 RF 和 RKHS 稍好，BayesA 預測準確度高或許因為此模型只假設每個分子標誌具不同變方而沒有變數選擇仍包含全部分子標誌 (圖七至圖八)。

對照 Spindel et al. (2015) 和 Onogi et al. (2015) 的研究，前者以相同水稻族群不同交叉驗證資料組比較 RR-BLUP、BL、RKHS 和 RF 等 6 種方法對於抽穗期、

株高及產量之預測準確度，後者則以日本 110 個水稻品系作為材料，比較包括 GBLUP (與 RR-BLUP 結果相同)、BL、RKHS 和 RF 在內共 9 種方法於抽穗期和株高等性狀之預測準確度。兩者結果皆顯示 RF 對於抽穗期有良好預測能力，前者顯示 RR-BLUP 適合預測產量；但 RKHS 和 RF 預測三種性狀能力皆同樣好，

反而 BL 為四種方法中各性狀預測準確度最差，尤其抽穗期性狀 RR-BLUP 表現比 BL 好。Spindel et al. (2015) 以乾季資料作為驗證組估計預測準確度，抽穗期預測準確度最高為多元線性迴歸模型 (multiple linear regression, MLR) 之 0.627，

株高為 RF 之 0.3411，產量為 RR-BLUP 之 0.3044；本研究則分別是 BayesB 之 0.7，RR-BLUP 之 0.486，RR-BLUP 之 0.476，相較之下準確度較高 (表九)。可能造成此結果差異原因包括不同校正外表型方式、交叉驗證資料組及分子標誌數量，許多因子影響統計模型預測準確度而非簡單通則。Onogi et al. (2015) 另外模擬不同訓練族群大小、QTL 數量、遺傳率和上位性效應存在與否等情境下各統計模型之預測準確度，結果顯示 BL 穩定度最佳，於各情境下準確度排名皆不錯，

RF 只在訓練族群大小為 100 時表現良好，RKHS 於存在上位性效應情境表現佳，

GBLUP 在訓練族群大與遺傳率高之情境下具優勢。顯然 BL 雖然穩定度佳，但在特定情境下仍須測試才知道最適模型。建議實際使用 GS 育種前先測試育種族群各性狀所適合統計模型，甚至測試模型最佳參數值，以便提高預測準確度。

doi:10.6342/NTU201701806

4.1.3 利用歷史資料建立預測模型

許多 GS 研究不會只使用單次區域試驗資料而會結合多年資料校正外表型再建立預測模型 (Habyarimana et al. 2017; Technow et al. 2014; You et al. 2016)，以更準確地評估各品系基因型值並提高預測準確度 (He et al. 2016; Lado et al. 2016)。

又，結合單一年份多地點資料或任一年份、地點定義之下大環境 (maga-environment, ME) 資料可提升在不同環境下之模型預測準確率 (Lado et al.

2016)。本研究使用線性混合效應模型校正外表型，模型中將年份與季節效應結合成環境效應，不考慮基因型與環境間交感效應。計算抽穗期、株高和產量之廣義遺傳率分別為 0.528、0.382 和 0.353 (表八)，Spindel et al. (2015) 計算 2012 年乾季之遺傳率則分別為 0.4378、0.3546 和 0.3213，遺傳率之範圍及各性狀遺傳率相對大小類似。校正外表型與校正前四個環境資料相關性高皆大於 0.7 具代表性 (表八)，此校正方式應無問題。在測試各模型預測準確度時，曾分別以各別環境資料建立 RR-BLUP 與 BL 之預測模型，結果顯示使用校正外表型資料建立預測模型能夠提高預測準確度 (附圖一)。

4.2 雙親本雜交

4.2.1 探討雙親本雜交產量性狀 GS 效率較 PS 高之原因

本研究中所模擬的基因型值與外表型值差別只在殘差項，因此本研究 GS 與 PS 的比較為理想狀態，因為我們將 GS 模型預測值視同真實基因型值而未考慮準確度非 100%的問題。實際影響 GS 與 PS 相對效率因子為遺傳率：產量遺傳率為 0.353，327 品系校正外表型標準差為 515.71，經 RR-BLUP 壓縮後 GEBV 標準差為 336.47，雙親本雜交後代變異更低，而殘差標準差為 663.23，極易掩蓋基因型表現。遺傳率低之性狀外表型選拔不易，因此模擬結果 GS 產量優於 PS，僅有一雜交組合沒有差異 (圖十)。考慮 GS 預測準確度問題，理所當然準確度越高越好，但預測準確度與遺傳率相關性高 (Duangjit et al. 2016; You et al. 2016)，模擬

doi:10.6342/NTU201701806

研究顯示遺傳率越高則 GS 模型預測準確度越高 (Bernardo and Yu 2007)，因此以預測準確度除以遺傳率 (𝑟/ℎ²) 評估 GS 對 PS 之相對效率 (Dekkers 2007; You et al. 2016; Ziyomo and Bernardo 2013)。本研究抽穗期、株高與產量最佳模型之平均相對效率分別為 1.33、1.27 和 1.35，皆大於 1，表示 GS 相對 PS 效率較高。有研究顯示 GS 遺傳增進優勢會隨著遺傳率提高而減少 (Rajsic et al. 2016; You et al.

2016)，考慮經濟效益 GS 在遺傳率小於 0.25 之性狀較有利 (Rajsic et al. 2016)。

實際大麥資料比較產量、赤霉病 (Fusarium head blight, FHB) 感病性和脫氧雪腐鐮刀菌烯醇 (deoxynivalenol, DON) 濃度等性狀，性狀遺傳率為 0.54-0.82，單一世代 GS 預測準確度 0.32-0.99，而 GS 相對 PS 遺傳增進率最低為 0.16 但許多大於 1，顯示 GS 表現可比 PS 更好 (Sallam and Smith 2016)。即使 GS 相對效率較低，若每年利用 GS 加速世代推進能比 PS 選拔更多次，則 GS 單位時間內育種效率較高，如溫帶玉米育種 (Massman et al. 2013)。

4.2.2 實際育種計畫之應用

同上節一開始所言，本研究結果為模擬顯示之理想狀態，不等同實際情形，

因此本研究結果具有一定限度。因能力所限，基因效應只考慮累加性效應而沒有考慮顯性效應和上位性效應、校正外表型時結合年份和季節資料簡化環境變異、

不考慮基因型與環境交感影響，並且在世代推進時直接將 GS 預測之 GEBV 視為基因型值。雖然本研究結果鼓勵使用 GS，但是在這樣簡化情境之下，若要實際應用在育種計畫中有許多事項須得留意，比如訓練族群與育種族群關係、訓練族群大小、使用分子標誌數量等，以提升最重要的 GS 預測能力，才可能較 PS 選拔效率高。在建立預測模型時，可使用更多地點年份之歷史資料校正外表型提高預測能力 (Wang et al. 2014; Zhao et al. 2015)。

建立預測模型之訓練族群組成很重要，與育種族群相關性越高則預測準確度越高 (Duangjit et al. 2016; Wurschum et al. 2017)，因此若能使用育種族群建立預測模型效果最好，或是加入過去育種循環資料校正預測模型 (Auinger et al. 2016)，

doi:10.6342/NTU201701806

訓練族群與育種族群間需有足夠共同祖先否則預測能力將大幅下降 (Gowda et al.

在文檔中模擬探討基因體選種在水稻育種計畫中之運用 (頁 32-40)