模型表現評估指標

第二章文獻探討

3.5 模型表現評估指標

一般在評估機器學習的訓練表現時，會將訓練資料依比例分為訓練集和驗證集，訓練集用來訓練模型，而驗證集用來檢視模型的訓練效果，但在基因變異的測試上，沒辦法保證哪些變異最能代表整體的資料，因此本研究使用 K-fold 的交叉驗證方法來評估模型的訓練結果，因為 K-fold 較能避免隨機選擇某一部分資料 當作驗證集造成的偏差，K-fold 概念如圖 3-4 所示，首先將資料集切成 K 等份，並 進行 K 次迭代，每次迭代都選擇其中 K-1 份當作訓練集，剩下那份當做驗證集，

迭代完 K 次之後，把每次驗證集的預測結果分數作平均，另外在迭代次數 K 的部 分，本研究選擇 K 等於 10 的 10-fold，將資料切為 10 等份並做 10 次的交叉驗證來 評估訓練的結果。

納為 4 種不同的情況：(1) 正類預測成正類，稱之為真正類（true positive，TP）；

(2)負類預測成正類，稱之為假正類（false positive，FP）；(3) 負類預測成負類，稱之為真負類（true negative，TN）；(4) 正類預測成負類，稱之為假負類（false negative，

FN），利用上面 4 種不同的分類結果，可以使用公式 3.1 來計算真陽性率(true positive rate，TPR)和偽陽性率(false positive rate，FPR)。

𝑇𝑃𝑅 = 𝑇𝑃

𝑇𝑃 + 𝐹𝑁 ； 𝐹𝑃𝑅 = 𝐹𝑃

𝐹𝑃 + 𝑇𝑁 (3.1)

藉由設定不同的閾值來得到多組 TPR 和 FPR，並利用這些數值作為點座標畫在 XY 座標圖中，連結這些點座標後便能夠得到ROC 曲線(receiver operating characteristic curve)，計算曲線下的面積可得到 AUROC(area under the curve of ROC)，一個好的分類器 TPR 要趨近於 1，而 FPR 要趨近於 0，正常情況下，隨著閾值的下降，當 TP 上升時，FP 也會同時上升，導致 TPR 和 FPR 之間會互相牽制，但在正負資料量不平衡的情況下，負樣本數量遠大於正樣本的緣故，當閾值下降，TP 和 FP 同時上升時，因為 FP + TN 過大的緣故會導致 FP 的變化在 FPR 上沒辦法呈現，使得在 ROC 指標上會有模型表現的很好的錯覺，為了能更有效辨別各個模型間的優劣，

本研究改由使用 PRC(precision-recall curve)曲線和 AUPRC(area under the curve of PRC)作為主要的指標，PRC 曲線是在不同閾值下的精準率(precision)和召回率編碼區致病變異且同樣基於採樣技術的 GWAVA [6]以及 HyperSMURF [7]當作比較對象，與 CE-SMURF 和 HyperSMURF 不同的是 GWAVA 僅使用欠採樣的技術的來平衡數據集，並沒有使用 Hyper-ensemble 的方法來合併多個分類器的預測結果，

除此之外，三者在機器學習分類器的部分都是使用 Random Forest 演算法來做學習，

因此更能觀察出 Hyper-ensemble 和分群集成採樣對於結果的影響。然而，GWAVA 和 HyperSMURF 在使用的訓練資料(變異樣本、特徵選取)並不相同，必須在相同訓練資料的基準下才有辦法進行比較，基於這個原因，本研究使用了前面小節所蒐集的變異樣本和 174 個註釋特徵來重新訓練 GWAVA 及 HyperSMURF，此步驟能讓結果的差異單純來自於模型的不同，而避免訓練資料不同所造成的差異影響分數評估。

在文檔中基於分群集成技術的非平衡學習應用於預測非編碼區變異的致病性 (頁 30-33)

第二章 文獻探討

3.5 模型表現評估指標

第二章文獻探討