結果與討論 - 基於分群集成技術的非平衡學習應用於預測非編碼區變異的致病性

4.1 採樣參數對訓練的影響

為了探討 CE-SMOTE 和 CE-Under 對於訓練的影響，本研究調整 CE-SMOTE 的過採樣係數：f 和 CE-Under 的欠採樣係數：r 來檢視兩種採樣技術對於訓練的影 響，其結果如圖 4-1，從圖中可以明顯比較 CE-SMURF 在不同 f 和 r 下的訓練結果，

在相同的 f 時，可以發現到隨著 r 的下降，CE-SMURF 的 AUPRC 值呈現上升的趨 勢，此結果進一步證實了 CE-Under 在刪去負樣本時能有效的保持與原本訓練集類似的資料特性，且同時縮小了正負樣本間的數量比例，讓隨機森林模型在訓練時 能更好的平衡正負樣本的誤差，而不會因此偏袒某一方。另一方面，隨著 f 的上升，

CE-SMURF 的 AUPRC 值卻沒有與之上升，表示在準備的資料集當中透過 CE-SMOTE 增加的新正樣本對於隨機森林模型的樣本辨別能力沒有幫助。

本研究藉由圖 4-1 的結果選擇了 AUPRC 最好的採樣係數組合作為後續實驗的 CE-SMURF 代表模型，其 f 等於 0，r 等於 0.1，表示在 CE-SMURF 中只單獨使用 CE-Under 針對負樣本做欠採樣，而不使用 CE-SMOTE 對正樣本做過採樣，這樣的 方式能在訓練上獲得最好的表現，除了 f 和 r 之外，表 4-1 列出了 CE-SMURF 機 器學習框架內的其他預設參數。

表 4- 1 CE-SMURF 預設參數值

Parameter Description Default

n Number of partitions 10 h Number of Clustering times 10 c Number of clusters in K-means 3 f Over-sampling ratio of CE-SMOTE 0 r Under-sampling ratio of CE-Under 0.1 k SMOTE k-nearest neighbor 5

t Number of trees in Random Forest 100

4.2 不同方法間預測的比較

本研究將有使用採樣技術的 GWAVA [5]和 HyperSMURF [6]做為比較對象，利用相同的資料集重新訓練方法的模型後使用 10-fold 的交叉驗證方式來評估訓練表現，圖 4-2 為三種方法訓練表現的 ROC 曲線和 PRC 曲線，從右邊的 ROC 曲線可以觀察到 CE-SMURF 達到了 0.989 的 AUROC，而 HyperSMURF 和 GWAVA 則是分別達到 0.989 和 0.987，雖然三者的 AUROC 都趨近於 1，看似都有很好的訓練表現，但其實是因為在正負樣本間的數量比例極不平衡時 FPR 值會容易趨近於 0，

所以在 ROC 曲線上會有三者都表現很好的錯覺，因此需要使用 PRC 曲線來做為衡量的指標，從左邊的 PRC 曲線可以觀察到 CE-SMURF 達到了 0.648 的 AUPRC，

而 HyperSMURF 和 GWAVA 則是分別達到 0.540 和 0.396，三者之間有了明顯的差異，CE-SMURF 相較第二好的 HyperSMURF 在 AUPRC 的分數上有了 20%的提升，

且不管是在精確率(precision)或是召回率(recall)的部分都較另外兩者來的好，從 CE-SMURF 和 HyperSMURF 的差異中能夠看出 CE-SMOTE 和 CE-Under 相對於 SMOTE 和 Random sampling 在樣本採樣上的改善，而從 GWAVA 和 HyperSMURF 的差異也能看出 Hyper-ensemble 方法對於預測的結果表現有一定的貢獻。

圖 4-2 訓練集的 ROC 曲線和 PRC 曲線比較

做完訓練結果的比較後，本研究接著測試了三種方法對於尋找未知變異的能力，將訓練集訓練完的模型用來預測測試集的資料，三者的 ROC 曲線和 PRC 曲線如圖 4-3，從圖中可看出 CE-SMURF 相較另外兩種方法，不管是在 ROC 指標或是 PRC 指標都有最佳的表現，在 ROC 曲線圖中能夠觀察到與訓練表現結果相同的情況，三種方法在測試表現上都有相當高的 AUROC，但卻無法明顯區分三者的表現，而在 PRC 曲線圖中便能輕易將 CE-SMURF 和另外兩者明顯區分開，且在相同 recall 的情況下，CE-SMURF 的 precision 有很大的提升，表示 CE-SMURF 能夠有效減少模型預測 FP (false positive)的情況發生，但和預期不同的是，雖然 HyperSMURF 在訓練集上的 AUPRC 遠高於 GWAVA，但在測試集上的預測表現卻略低於 GWAVA，表示 HyperSMURF 在訓練集上的好並沒辦法代表它擁有比 GWAVA 好的變異預測能力。

圖 4-3 測試集的 ROC 曲線和 PRC 曲線比較

4.3 不平衡程度對預測的影響

為了比較訓練集資料的不平衡程度對於 CE-SMURF、HyperSMURF 以及 GWAVA 的影響，本研究透過改變訓練集中負樣本的數量來準備不同比例的訓練資料，其比例包括：1、10、100 和 1,000，利用這 4 筆不同的訓練資料來分別訓練三種方法的模型並做 10-fold 的訓練表現評估比較，其結果如圖 4-4，隨著不平衡程度的上升，三種方法的 AUPRC 都呈現下降的趨勢，表示資料量不平衡程度的提升會造成模型訓練表現變差。當資料比例為 1 時三種方法的 AUPRC 大致相同，但隨著資料量的上升不同方法間的差距逐漸明顯，而 CE-SMURF 在 4 種比例下，都能有最好的訓練表現，表示 CE-SMURF 在三種方法中對於不平衡程度的改變有最小的敏感度，能減少資料集中負樣本增加時模型訓練表現降低的現象。

圖 4-4 不同訓練資料比例下的訓練表現

除此之外，本研究也試圖探討不同比例的資料對於測試集預測的影響，因此利用上述準備的 4 筆資料來分別訓練三種方法的模型並做測試集的預測比較，其結果如圖 4-5，從圖中的結果發現到隨著不平衡程度的上升，測試集的預測結果是呈現上升的趨勢，這是與訓練結果呈現完全相反的情況，表示雖然增加資料集內的負樣本會導致訓練結果的表現變差，但卻能讓未來在尋找新變異時有更高的準確度。

圖 4-5 不同訓練資料比例下的測試表現

4.4 不同可信度變異資料對預測的影響

為了探討不同可信度的變異資料是否會影響預測的表現，本研究使用 Ritchie et al. 在 GWAVA [5]研究中提供的致病變異來替換訓練集中的正樣本，其為從 HGMD 資料庫 2013 年的公開版本中篩選出位於非編碼區的 1,614 個與疾病相關變異，GWAVA 提供的資料因為使用沒有移除掉潛藏的錯誤致病變異，所以相較於本研究原本使用 Liu et al. [21]研究中提供的致病相關變異具有較低的可信度。

首先，利用兩組不同的資料集分別訓練 CE-SMURF 並做 10-fold 表現評估，

其結果如圖 4-6，圖例中的 Liu 為使用 Liu et al. 提供之正樣本，做為訓練資料之結果，Ritchie 為使用 Ritchie et al. 提供之正樣本做為訓練資料之結果，從結果可以發現到雖然 Liu 訓練集中的正樣本數量較少，但訓練結果不管是在 ROC 指標或是 PRC 指標都表現的比 Ritchie 來的好，AUROC 為 0.989，AUPRC 為 0.648。

圖 4-6 不同可信度資料的訓練表現

接著用這兩組訓練資料分別做測試集的測試，其結果如圖 4-7，同樣也是用 Liu 做為訓練資料時在 ROC 指標和 PRC 指標都獲得較好的表現，AUROC 為 0.967，

AUPRC 為 0.767。從訓練和測試的結果來看，可以發現到確實使用較高可信度的

變異資料做為正樣本能夠有效的提升預測的表現，若是從數量上來看，用 Ritchie 資料集做為訓練資料應當表現的較好，但結果卻相反，原因可能是因為 Ritchie 資料集當中正樣本和負樣本有著一定的相似性，導致分類器的學習效果不佳，表示 HGMD 資料庫內具有一定數量的潛藏錯誤致病變異。

圖 4-7 不同可信度資料的測試表現

在文檔中基於分群集成技術的非平衡學習應用於預測非編碼區變異的致病性 (頁 33-41)