第四章 進階分析
4.3 分類
4.3.6 分類結果統計指標
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
類樹投票多少形成的分數而定,並且可以對剩餘資料預測其類別。隨機森林分類 法是決策樹分類法的一種改進,將多個決策樹合併在一起,以隨機的方式建立多 個不同的決策樹,每棵樹的建立依賴於一個獨立抽取的樣品,森林中的每棵樹具 有相同的分布,分類誤差取決於每一棵樹的分類能力和它們之間的相關性。
4.3.5 交叉驗證
在本研究中,我們採用的是 K-fold Cross-Validation,其方式為將資料切分為 K 等分,每份資料為 D1,D2,…Dk,每份資料的大小相同,將 K-1 等分的資料作 為訓練資料(Training Data),剩餘一等分為測試資料(Testing Data),並重複 進行 K 次,每次取不同等分的資料 Di作為測試資料,最後,取總體最小的平均 數作為測試的異常值,通常情況下,會設定 K 的值為 10。不同於隨機取樣方式,
此種方式可使每份資料的資料分布相同於原始資料,且次數分為多次,不會只進 行一次的評估。用於分類的測試上,準確率估計是重複 K 次的正確分數除以初始 數據中的樣本總數[10]。
4.3.6 分類結果統計指標
在經過分類器的分類後,我們可得到一些統計分析數據,以進一步說明此分類器 的分類情況和結果,其各項統計分析指標說明和公式如下:
4.3.6.1 TP Rate
True Positive Rate,簡寫為 TP Rate,指目標樣本分類正確的樣本數目比率,
其計算如式(52)所示,其中 TP 為 True Positive,代表實際情況為真,分類預 測也為真,則為正確預測。FN 為 False Negative,代表實際情況為真,分類預 測為假,則為誤判。
𝑇𝑃 𝑅𝑎𝑡𝑒 = 𝑇𝑃
𝑇𝑃 + 𝐹𝑁 (54)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
4.3.6.2 FP Rate
False Positive Rate,簡寫為 FP Rate,是指非目標樣本分類正確的非樣本數 目比率,其計算如式(52)所示,其中 FP 為 False Positive,代表實際情況為假,
分類預測為真,則為錯誤預測。TN 為 True Negative,代表實際情況為假,分類 預測為假,則為正確錯誤。
𝐹𝑃 𝑅𝑎𝑡𝑒 = 𝐹𝑃
𝐹𝑃 + 𝑇𝑁 (55)
4.3.6.3 Precision
Precision,是指結果中有多少個數為正確的比率,其計算如式(54)所示,其中 TP 為 True Positive,代表實際情況為真,分類預測也為真,則為正確預測,
FP 為 False Positive,代表實際情況為假,分類預測為真,則為錯誤預測。
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = |𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡&𝑅𝑒𝑡𝑟𝑖𝑒𝑣𝑒𝑑|
|𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡| = 𝑇𝑃
𝑇𝑃 + 𝐹𝑃 (56) 4.3.6.4 Recall
Recall,是指初始預設中有多少個數為正確的比率,其計算如式(55)所示,其中 TP 為 True Positive,代表實際情況為真,分類預測也為真,則為正確預測,
FN 為 False Negative,代表實際情況為真,分類預測為假,則為誤判。
𝑅𝑒𝑐𝑎𝑙𝑙 =|𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡&𝑅𝑒𝑡𝑟𝑖𝑒𝑣𝑒𝑑|
|𝑅𝑒𝑡𝑟𝑖𝑒𝑣𝑒𝑑| = 𝑇𝑃
𝑇𝑃 + 𝐹𝑁 (57) 4.3.6.5 F-Measure
F-Measure,是指結合 Precision 和 Recall 的平均數,其計算如式(56)所示。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
𝐹 − 𝑀𝑒𝑎𝑠𝑢𝑟𝑒 = 2 × 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙 (58) 4.3.6.6 ROC Area
ROC Area,Area under the Curve of ROC (AUC ROC),ROC 曲線下方的面積,
ROC 圖表是一個二維的圖表,Y 軸表示 TP Rate,X 軸表示 FP Rate,ROC Area 代表分類器的效能。比較不同的分類模型時,可以將每個模型的 ROC 曲線都畫出 來,比較曲線下面積做為模型優劣的指標,數值介於 0~1 之間(通常不小於 0.5),
數值愈大代表分類器正確率愈高。如圖 4.3.2 中,有分類 A 和分類 B,分類 B 的 面積較分類 A 來的大,代表分類 B 平均表現較佳[26]。
圖 4.3.2:ROC Area 圖 [26]