4.1 採樣參數對訓練的影響
為了探討 CE-SMOTE 和 CE-Under 對於訓練的影響,本研究調整 CE-SMOTE 的過採樣係數:f 和 CE-Under 的欠採樣係數:r 來檢視兩種採樣技術對於訓練的影 響,其結果如圖 4-1,從圖中可以明顯比較 CE-SMURF 在不同 f 和 r 下的訓練結果,
在相同的 f 時,可以發現到隨著 r 的下降,CE-SMURF 的 AUPRC 值呈現上升的趨 勢,此結果進一步證實了 CE-Under 在刪去負樣本時能有效的保持與原本訓練集類 似的資料特性,且同時縮小了正負樣本間的數量比例,讓隨機森林模型在訓練時 能更好的平衡正負樣本的誤差,而不會因此偏袒某一方。另一方面,隨著 f 的上升,
CE-SMURF 的 AUPRC 值 卻 沒 有 與 之 上 升 , 表 示 在 準 備 的 資 料 集 當 中 透 過 CE-SMOTE 增加的新正樣本對於隨機森林模型的樣本辨別能力沒有幫助。
本研究藉由圖 4-1 的結果選擇了 AUPRC 最好的採樣係數組合作為後續實驗的 CE-SMURF 代表模型,其 f 等於 0,r 等於 0.1,表示在 CE-SMURF 中只單獨使用 CE-Under 針對負樣本做欠採樣,而不使用 CE-SMOTE 對正樣本做過採樣,這樣的 方式能在訓練上獲得最好的表現,除了 f 和 r 之外,表 4-1 列出了 CE-SMURF 機 器學習框架內的其他預設參數。
表 4- 1 CE-SMURF 預設參數值
Parameter Description Default
n Number of partitions 10 h Number of Clustering times 10 c Number of clusters in K-means 3 f Over-sampling ratio of CE-SMOTE 0 r Under-sampling ratio of CE-Under 0.1 k SMOTE k-nearest neighbor 5
t Number of trees in Random Forest 100
4.2 不同方法間預測的比較
本研究將有使用採樣技術的 GWAVA [5]和 HyperSMURF [6]做為比較對象,利 用相同的資料集重新訓練方法的模型後使用 10-fold 的交叉驗證方式來評估訓練表 現,圖 4-2 為三種方法訓練表現的 ROC 曲線和 PRC 曲線,從右邊的 ROC 曲線可 以觀察到 CE-SMURF 達到了 0.989 的 AUROC,而 HyperSMURF 和 GWAVA 則是 分別達到 0.989 和 0.987,雖然三者的 AUROC 都趨近於 1,看似都有很好的訓練 表現,但其實是因為在正負樣本間的數量比例極不平衡時 FPR 值會容易趨近於 0,
所以在 ROC 曲線上會有三者都表現很好的錯覺,因此需要使用 PRC 曲線來做為 衡量的指標,從左邊的 PRC 曲線可以觀察到 CE-SMURF 達到了 0.648 的 AUPRC,
而 HyperSMURF 和 GWAVA 則是分別達到 0.540 和 0.396,三者之間有了明顯的差 異,CE-SMURF 相較第二好的 HyperSMURF 在 AUPRC 的分數上有了 20%的提升,
且不管是在精確率(precision)或是召回率(recall)的部分都較另外兩者來的好,從 CE-SMURF 和 HyperSMURF 的差異中能夠看出 CE-SMOTE 和 CE-Under 相對於 SMOTE 和 Random sampling 在樣本採樣上的改善,而從 GWAVA 和 HyperSMURF 的差異也能看出 Hyper-ensemble 方法對於預測的結果表現有一定的貢獻。
圖 4-2 訓練集的 ROC 曲線和 PRC 曲線比較
做完訓練結果的比較後,本研究接著測試了三種方法對於尋找未知變異的能 力,將訓練集訓練完的模型用來預測測試集的資料,三者的 ROC 曲線和 PRC 曲 線如圖 4-3,從圖中可看出 CE-SMURF 相較另外兩種方法,不管是在 ROC 指標或 是 PRC 指標都有最佳的表現,在 ROC 曲線圖中能夠觀察到與訓練表現結果相同 的情況,三種方法在測試表現上都有相當高的 AUROC,但卻無法明顯區分三者的 表現,而在 PRC 曲線圖中便能輕易將 CE-SMURF 和另外兩者明顯區分開,且在相 同 recall 的情況下,CE-SMURF 的 precision 有很大的提升,表示 CE-SMURF 能夠 有效減少模型預測 FP (false positive)的情況發生,但和預期不同的是,雖然 HyperSMURF 在訓練集上的 AUPRC 遠高於 GWAVA,但在測試集上的預測表現卻 略低於 GWAVA,表示 HyperSMURF 在訓練集上的好並沒辦法代表它擁有比 GWAVA 好的變異預測能力。
圖 4-3 測試集的 ROC 曲線和 PRC 曲線比較
4.3 不平衡程度對預測的影響
為了比較訓練集資料的不平衡程度對於 CE-SMURF、HyperSMURF 以及 GWAVA 的影響,本研究透過改變訓練集中負樣本的數量來準備不同比例的訓練資 料,其比例包括:1、10、100 和 1,000,利用這 4 筆不同的訓練資料來分別訓練三 種方法的模型並做 10-fold 的訓練表現評估比較,其結果如圖 4-4,隨著不平衡程 度的上升,三種方法的 AUPRC 都呈現下降的趨勢,表示資料量不平衡程度的提升 會造成模型訓練表現變差。當資料比例為 1 時三種方法的 AUPRC 大致相同,但隨 著資料量的上升不同方法間的差距逐漸明顯,而 CE-SMURF 在 4 種比例下,都能 有最好的訓練表現,表示 CE-SMURF 在三種方法中對於不平衡程度的改變有最小 的敏感度,能減少資料集中負樣本增加時模型訓練表現降低的現象。
圖 4-4 不同訓練資料比例下的訓練表現
除此之外,本研究也試圖探討不同比例的資料對於測試集預測的影響,因此 利用上述準備的 4 筆資料來分別訓練三種方法的模型並做測試集的預測比較,其 結果如圖 4-5,從圖中的結果發現到隨著不平衡程度的上升,測試集的預測結果是 呈現上升的趨勢,這是與訓練結果呈現完全相反的情況,表示雖然增加資料集內 的負樣本會導致訓練結果的表現變差,但卻能讓未來在尋找新變異時有更高的準 確度。
圖 4-5 不同訓練資料比例下的測試表現
4.4 不同可信度變異資料對預測的影響
為了探討不同可信度的變異資料是否會影響預測的表現,本研究使用 Ritchie et al. 在 GWAVA [5]研究中提供的致病變異來替換訓練集中的正樣本,其為從 HGMD 資料庫 2013 年的公開版本中篩選出位於非編碼區的 1,614 個與疾病相關變 異,GWAVA 提供的資料因為使用沒有移除掉潛藏的錯誤致病變異,所以相較於本 研究原本使用 Liu et al. [21]研究中提供的致病相關變異具有較低的可信度。
首先,利用兩組不同的資料集分別訓練 CE-SMURF 並做 10-fold 表現評估,
其結果如圖 4-6,圖例中的 Liu 為使用 Liu et al. 提供之正樣本,做為訓練資料之結 果,Ritchie 為使用 Ritchie et al. 提供之正樣本做為訓練資料之結果,從結果可以 發現到雖然 Liu 訓練集中的正樣本數量較少,但訓練結果不管是在 ROC 指標或是 PRC 指標都表現的比 Ritchie 來的好,AUROC 為 0.989,AUPRC 為 0.648。
圖 4-6 不同可信度資料的訓練表現
接著用這兩組訓練資料分別做測試集的測試,其結果如圖 4-7,同樣也是用 Liu 做為訓練資料時在 ROC 指標和 PRC 指標都獲得較好的表現,AUROC 為 0.967,
AUPRC 為 0.767。從訓練和測試的結果來看,可以發現到確實使用較高可信度的
變異資料做為正樣本能夠有效的提升預測的表現,若是從數量上來看,用 Ritchie 資料集做為訓練資料應當表現的較好,但結果卻相反,原因可能是因為 Ritchie 資 料集當中正樣本和負樣本有著一定的相似性,導致分類器的學習效果不佳,表示 HGMD 資料庫內具有一定數量的潛藏錯誤致病變異。
圖 4-7 不同可信度資料的測試表現