分類結果統計指標

第四章進階分析

4.3 分類

4.3.6 分類結果統計指標

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

類樹投票多少形成的分數而定，並且可以對剩餘資料預測其類別。隨機森林分類法是決策樹分類法的一種改進，將多個決策樹合併在一起，以隨機的方式建立多個不同的決策樹，每棵樹的建立依賴於一個獨立抽取的樣品，森林中的每棵樹具有相同的分布，分類誤差取決於每一棵樹的分類能力和它們之間的相關性。

4.3.5 交叉驗證

在本研究中，我們採用的是 K-fold Cross-Validation，其方式為將資料切分為 K 等分，每份資料為 D¹，D²，…D^k，每份資料的大小相同，將 K-1 等分的資料作為訓練資料(Training Data)，剩餘一等分為測試資料(Testing Data)，並重複進行 K 次，每次取不同等分的資料 Dⁱ作為測試資料，最後，取總體最小的平均數作為測試的異常值，通常情況下，會設定 K 的值為 10。不同於隨機取樣方式，

此種方式可使每份資料的資料分布相同於原始資料，且次數分為多次，不會只進行一次的評估。用於分類的測試上，準確率估計是重複 K 次的正確分數除以初始數據中的樣本總數[10]。

4.3.6 分類結果統計指標

在經過分類器的分類後，我們可得到一些統計分析數據，以進一步說明此分類器的分類情況和結果，其各項統計分析指標說明和公式如下：

4.3.6.1 TP Rate

True Positive Rate，簡寫為 TP Rate，指目標樣本分類正確的樣本數目比率，

其計算如式(52)所示，其中 TP 為 True Positive，代表實際情況為真，分類預測也為真，則為正確預測。FN 為 False Negative，代表實際情況為真，分類預測為假，則為誤判。

𝑇𝑃 𝑅𝑎𝑡𝑒 = 𝑇𝑃

𝑇𝑃 + 𝐹𝑁 (54)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

4.3.6.2 FP Rate

False Positive Rate，簡寫為 FP Rate，是指非目標樣本分類正確的非樣本數目比率，其計算如式(52)所示，其中 FP 為 False Positive，代表實際情況為假，

分類預測為真，則為錯誤預測。TN 為 True Negative，代表實際情況為假，分類預測為假，則為正確錯誤。

𝐹𝑃 𝑅𝑎𝑡𝑒 = 𝐹𝑃

𝐹𝑃 + 𝑇𝑁 (55)

4.3.6.3 Precision

Precision，是指結果中有多少個數為正確的比率，其計算如式(54)所示，其中 TP 為 True Positive，代表實際情況為真，分類預測也為真，則為正確預測，

FP 為 False Positive，代表實際情況為假，分類預測為真，則為錯誤預測。

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = |𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡&𝑅𝑒𝑡𝑟𝑖𝑒𝑣𝑒𝑑|

|𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡| = 𝑇𝑃

𝑇𝑃 + 𝐹𝑃 (56) 4.3.6.4 Recall

Recall，是指初始預設中有多少個數為正確的比率，其計算如式(55)所示，其中 TP 為 True Positive，代表實際情況為真，分類預測也為真，則為正確預測，

FN 為 False Negative，代表實際情況為真，分類預測為假，則為誤判。

𝑅𝑒𝑐𝑎𝑙𝑙 =|𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡&𝑅𝑒𝑡𝑟𝑖𝑒𝑣𝑒𝑑|

|𝑅𝑒𝑡𝑟𝑖𝑒𝑣𝑒𝑑| = 𝑇𝑃

𝑇𝑃 + 𝐹𝑁 (57) 4.3.6.5 F-Measure

F-Measure，是指結合 Precision 和 Recall 的平均數，其計算如式(56)所示。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

𝐹 − 𝑀𝑒𝑎𝑠𝑢𝑟𝑒 = 2 × 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙 (58) 4.3.6.6 ROC Area

ROC Area，Area under the Curve of ROC (AUC ROC)，ROC 曲線下方的面積，

ROC 圖表是一個二維的圖表，Y 軸表示 TP Rate，X 軸表示 FP Rate，ROC Area 代表分類器的效能。比較不同的分類模型時，可以將每個模型的 ROC 曲線都畫出來，比較曲線下面積做為模型優劣的指標，數值介於 0~1 之間(通常不小於 0.5)，

數值愈大代表分類器正確率愈高。如圖 4.3.2 中，有分類 A 和分類 B，分類 B 的面積較分類 A 來的大，代表分類 B 平均表現較佳[26]。

圖 4.3.2：ROC Area 圖 [26]

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中 NBA球員表現與薪資關聯性之分析 - 政大學術集成 (頁 64-67)

第四章 進階分析

4.3 分類

4.3.6 分類結果統計指標

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第四章進階分析

立政治大學

立政治大學

立政治大學

立政治大學