• 沒有找到結果。

第二章 文獻探討

3.5 模型表現評估指標

一般在評估機器學習的訓練表現時,會將訓練資料依比例分為訓練集和驗證 集,訓練集用來訓練模型,而驗證集用來檢視模型的訓練效果,但在基因變異的 測試上,沒辦法保證哪些變異最能代表整體的資料,因此本研究使用 K-fold 的交 叉驗證方法來評估模型的訓練結果,因為 K-fold 較能避免隨機選擇某一部分資料 當作驗證集造成的偏差,K-fold 概念如圖 3-4 所示,首先將資料集切成 K 等份,並 進行 K 次迭代,每次迭代都選擇其中 K-1 份當作訓練集,剩下那份當做驗證集,

迭代完 K 次之後,把每次驗證集的預測結果分數作平均,另外在迭代次數 K 的部 分,本研究選擇 K 等於 10 的 10-fold,將資料切為 10 等份並做 10 次的交叉驗證來 評估訓練的結果。

納為 4 種不同的情況:(1) 正類預測成正類,稱之為真正類(true positive,TP);

(2)負類預測成正類,稱之為假正類(false positive,FP);(3) 負類預測成負類,稱 之為真負類(true negative,TN);(4) 正類預測成負類,稱之為假負類(false negative,

FN),利用上面 4 種不同的分類結果,可以使用公式 3.1 來計算真陽性率(true positive rate,TPR)和偽陽性率(false positive rate,FPR)。

𝑇𝑃𝑅 = 𝑇𝑃

𝑇𝑃 + 𝐹𝑁 ; 𝐹𝑃𝑅 = 𝐹𝑃

𝐹𝑃 + 𝑇𝑁 (3.1)

藉由設定不同的閾值來得到多組 TPR 和 FPR,並利用這些數值作為點座標畫在 XY 座標圖中,連結這些點座標後便能夠得到ROC 曲線(receiver operating characteristic curve),計算曲線下的面積可得到 AUROC(area under the curve of ROC),一個好的 分類器 TPR 要趨近於 1,而 FPR 要趨近於 0,正常情況下,隨著閾值的下降,當 TP 上升時,FP 也會同時上升,導致 TPR 和 FPR 之間會互相牽制,但在正負資料 量不平衡的情況下,負樣本數量遠大於正樣本的緣故,當閾值下降,TP 和 FP 同 時上升時,因為 FP + TN 過大的緣故會導致 FP 的變化在 FPR 上沒辦法呈現,使得 在 ROC 指標上會有模型表現的很好的錯覺,為了能更有效辨別各個模型間的優劣,

本研究改由使用 PRC(precision-recall curve)曲線和 AUPRC(area under the curve of PRC)作為主要的指標,PRC 曲線是在不同閾值下的精準率(precision)和召回率 編碼區致病變異且同樣基於採樣技術的 GWAVA [6]以及 HyperSMURF [7]當作比較 對象,與 CE-SMURF 和 HyperSMURF 不同的是 GWAVA 僅使用欠採樣的技術的來 平衡數據集,並沒有使用 Hyper-ensemble 的方法來合併多個分類器的預測結果,

除此之外,三者在機器學習分類器的部分都是使用 Random Forest 演算法來做學習,

因此更能觀察出 Hyper-ensemble 和分群集成採樣對於結果的影響。然而,GWAVA 和 HyperSMURF 在使用的訓練資料(變異樣本、特徵選取)並不相同,必須在相同 訓練資料的基準下才有辦法進行比較,基於這個原因,本研究使用了前面小節所 蒐集的變異樣本和 174 個註釋特徵來重新訓練 GWAVA 及 HyperSMURF,此步驟 能讓結果的差異單純來自於模型的不同,而避免訓練資料不同所造成的差異影響 分數評估。

相關文件