第四章 進階分析
4.4 實驗結果
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
4.4 實驗結果
在經過實驗後,正確率表現所呈現的是資料為經過特徵選取後,將所選出的特徵 組合丟入分類器進行分類及交叉驗證後所得出的結果,作為評估預測效能的指標,
其中例行賽的資料筆數為 3440,季後賽的資料筆數為 1595。分類結果為
Confusion Matrix,代表預測結果中每個分類的實例數。其中矩陣的行是實際的 分類,矩陣的列是預測得到的分類,矩陣元素就是相應測試樣本的個數。A、B、
C、D 為預測結果,Q1、Q2、Q3、Q4 為正確分類。
表 4.4.1:決策樹分類器例行賽分類正確率表現
Class TP Rate FP Rate Precision Recall F-Measure ROC Area Q1 0.623 0.167 0.561 0.623 0.59 0.8 Q2 0.321 0.171 0.382 0.321 0.349 0.663 Q3 0.416 0.199 0.407 0.416 0.412 0.683 Q4 0.724 0.099 0.709 0.724 0.717 0.891
表 4.4.2:決策樹分類器例行賽分類結果
Q1 Q2 Q3 Q4 <- Classified
546 165 140 25 Q1
278 274 230 72 Q2
117 220 354 159 Q3
33 58 146 623 Q4
表 4.4.3:決策樹分類器例行賽分類與實際情形差異
Q1 Q2 Q3 Q4
分類預測 974 717 870 879
實際個數 876 854 850 860
差距數 98 -137 20 19
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 4.4.4:決策樹分類器季後賽分類正確率表現
Class TP Rate FP Rate Precision Recall F-Measure ROC Area Q1 0.65 0.206 0.522 0.65 0.579 0.786 Q2 0.202 0.125 0.343 0.202 0.254 0.628 Q3 0.447 0.201 0.423 0.447 0.435 0.661 Q4 0.744 0.117 0.68 0.744 0.711 0.861
表 4.4.5:決策樹分類器季後賽分類結果
Q1 Q2 Q3 Q4 <- Classified
266 73 59 11 Q1
169 79 106 37 Q2
61 66 177 92 Q3
14 12 76 297 Q4
表 4.4.6:決策樹分類器季後賽分類與實際情形差異
Q1 Q2 Q3 Q4
分類預測 510 230 418 437
實際個數 409 391 396 399
差距數 101 -161 22 38
表 4.4.7:支援向量機分類器例行賽分類正確率表現
Class TP Rate FP Rate Precision Recall F-Measure ROC Area Q1 0.61 0.163 0.56 0.61 0.584 0.806 Q2 0.361 0.188 0.388 0.361 0.374 0.653 Q3 0.438 0.19 0.431 0.438 0.434 0.656 Q4 0.734 0.077 0.76 0.734 0.747 0.894
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 4.4.8:支援向量機分類器例行賽分類結果
Q1 Q2 Q3 Q4 <- Classified
534 213 115 14 Q1
279 308 214 53 Q2
116 230 372 132 Q3
24 43 162 631 Q4
表 4.4.9:支援向量機分類器例行賽分類與實際情形差異
Q1 Q2 Q3 Q4
分類預測 953 794 863 830
實際個數 876 854 850 860
差距數 77 -60 13 -30
表 4.4.10:支援向量機分類器季後賽分類正確率表現
Class TP Rate FP Rate Precision Recall F-Measure ROC Area Q1 0.597 0.19 0.52 0.597 0.556 0.785 Q2 0.294 0.179 0.347 0.294 0.319 0.622 Q3 0.419 0.173 0.444 0.419 0.431 0.663 Q4 0.742 0.105 0.703 0.742 0.722 0.88
表 4.4.11:支援向量機分類器季後賽分類結果
Q1 Q2 Q3 Q4 <- Classified
244 108 52 5 Q1
159 115 88 29 Q2
57 82 166 91 Q3
9 26 68 296 Q4
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 4.4.12:支援向量機分類器季後賽分類與實際情形差異
Q1 Q2 Q3 Q4
分類預測 469 331 374 421
實際個數 409 391 396 399
差距數 60 -60 -22 22
表 4.4.13:貝式分類器例行賽分類正確率表現
Class TP Rate FP Rate Precision Recall F-Measure ROC Area Q1 0.697 0.25 0.488 0.697 0.574 0.813 Q2 0.274 0.171 0.346 0.274 0.306 0.639 Q3 0.259 0.134 0.388 0.259 0.311 0.654 Q4 0.701 0.133 0.638 0.701 0.668 0.868
表 4.4.14:貝式分類器例行賽分類結果
Q1 Q2 Q3 Q4 <- Classified
611 172 69 24 Q1
375 234 131 114 Q2
209 217 220 204 Q3
57 53 147 603 Q4
表 4.4.15:貝式分類器例行賽分類與實際情形差異
Q1 Q2 Q3 Q4
分類預測 1252 676 567 945
實際個數 876 854 850 860
差距數 376 -178 -283 85
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 4.4.16:貝式分類器季後賽分類正確率表現
Class TP Rate FP Rate Precision Recall F-Measure ROC Area Q1 0.67 0.26 0.471 0.67 0.553 0.79 Q2 0.225 0.12 0.379 0.225 0.283 0.652 Q3 0.321 0.19 0.358 0.321 0.338 0.644 Q4 0.692 0.125 0.648 0.692 0.669 0.877
表 4.4.17:貝式分類器季後賽分類結果
Q1 Q2 Q3 Q4 <- Classified
274 66 57 12 Q1
178 88 84 41 Q2
107 65 127 97 Q3
23 13 87 276 Q4
表 4.4.18:貝式分類器季後賽分類與實際情形差異
Q1 Q2 Q3 Q4
分類預測 582 232 355 426
實際個數 409 391 396 399
差距數 173 -159 -41 27
表 4.4.19:隨機森林分類器例行賽分類正確率表現
Class TP Rate FP Rate Precision Recall F-Measure ROC Area Q1 0.611 0.176 0.543 0.611 0.575 0.825 Q2 0.349 0.177 0.394 0.349 0.37 0.695 Q3 0.407 0.197 0.404 0.407 0.405 0.699 Q4 0.714 0.088 0.729 0.714 0.722 0.917
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 4.4.20:隨機森林分類器例行賽分類結果
Q1 Q2 Q3 Q4 <- Classified
535 196 131 14 Q1
277 298 217 62 Q2
146 206 346 152 Q3
27 56 163 614 Q4
表 4.4.21:隨機森林分類器例行賽分類與實際情形差異
Q1 Q2 Q3 Q4
分類預測 985 756 857 842
實際個數 876 854 850 860
差距數 109 -98 7 -18
表 4.4.22:隨機森林分類器季後賽分類正確率表現
Class TP Rate FP Rate Precision Recall F-Measure ROC Area Q1 0.577 0.192 0.509 0.577 0.541 0.815 Q2 0.263 0.19 0.31 0.263 0.285 0.633 Q3 0.374 0.185 0.4 0.374 0.386 0.681 Q4 0.747 0.11 0.695 0.747 0.72 0.9
表 4.4.23:隨機森林分類器季後賽分類結果
Q1 Q2 Q3 Q4 <- Classified
236 112 49 12 Q1
154 103 106 28 Q2
65 92 148 91 Q3
9 25 67 298 Q4
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 4.4.24:隨機森林分類器季後賽分類與實際情形差異
Q1 Q2 Q3 Q4
分類預測 464 332 370 429
實際個數 409 391 396 399
差距數 55 -59 -26 30
表 4.4.25:分類器結果比較
決策樹 支援向量機 貝式分類器 隨機森林 例行賽正確率 52.238 53.634 48.488 52.122 季後賽正確率 51.348 51.473 47.962 49.216
從實驗結果我們可以發現以下幾點:
一、在 Q1 和 Q4 的分類,實際情形和分類結果的差距並不算大,推測可能受年紀 影響,新秀球員大多落在 Q1 類別,而球員隨著年紀增長,在 NBA 聯盟中取 得自由球員身份後,新簽合約可使球員一舉獲得高薪,此時很有機會位於 Q4 類別,球員年紀在 Q1 和 Q4 分佈情形可參考圖 4.4.1。
圖 4.4.1:分類 Q1 和分類 Q4 球員年紀分佈情形
二、Q2 和 Q3 的分類,實際情形和分類結果差距較為明顯,從結果上來看,Q1 和 Q4 的分類較 Q2 和 Q3 的分類來的明顯,正確率也較高,針對此一現象,
可參考圖 4.4.2 和 4.4.3,可推測目前常被討論的議題,M 型化,也存在於 NBA 球員的薪資分佈情況。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 4.4.2:各分類球員人數比例
圖 4.4.3:各分類球員薪資與整體薪資比例
三、從表 4.4.25 結果來看,此次的資料進行特徵選取和分類後,支援向量機分 類器有較好的表現,最差的則為貝式分類器。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
四、在例行賽與季後賽結果,例行賽分類準確率相較季後賽分類準確率,例行賽 明顯較高,針對此一現象,可解釋球員薪資與例行賽表現有較直接的關係。
由於例行賽賽季場次較多,球員有較多的機會可以發揮表現,不會幾場比賽 的失常表現,而影響了整體數據,季後賽由於球員可進行的場次不同,且場 次較少,球員的數據有可能大幅不同而影響了數據結果。
五、承上點,從比賽的本質上來看,也有可能因為例行賽和季後賽在比賽內容的 強度有所不同而影響了整體結果,在某些情況下,球員有可能因避免受傷,
或是在球隊已確定取得晉級季後賽資格,而缺席了例行賽的部份場次。但是 季後賽才是球員最終努力的目標,且比賽對抗強度較例行賽更為明顯,特別 是在防守環節上的努力,球員受對手防守影響而無法發揮如同例行賽的水準 之情形,在季後賽時常發生,而影響了數據結果。
六、從第四點和第五點的結果來看,影響球員的薪資,例行賽數據有較大的比重 成份,許多球員在例行賽的數據結果,可使該球員在球季結束後,獲得薪資 大幅的成長,即使該名球員可能沒能帶領球隊進入季後賽或是球隊在季後賽 的結果不甚理想,仍不影響球隊爭取球員時所開出的價碼。
七、在經過預測(3.5 節)和特徵選取(4.2 節)所找出的結果,包含顯著欄位與特 徵,放到分類器進行運算後,發現對於薪資是較具有直接的相關性。