• 沒有找到結果。

第四章 進階分析

4.4 實驗結果

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4.4 實驗結果

在經過實驗後,正確率表現所呈現的是資料為經過特徵選取後,將所選出的特徵 組合丟入分類器進行分類及交叉驗證後所得出的結果,作為評估預測效能的指標,

其中例行賽的資料筆數為 3440,季後賽的資料筆數為 1595。分類結果為

Confusion Matrix,代表預測結果中每個分類的實例數。其中矩陣的行是實際的 分類,矩陣的列是預測得到的分類,矩陣元素就是相應測試樣本的個數。A、B、

C、D 為預測結果,Q1、Q2、Q3、Q4 為正確分類。

表 4.4.1:決策樹分類器例行賽分類正確率表現

Class TP Rate FP Rate Precision Recall F-Measure ROC Area Q1 0.623 0.167 0.561 0.623 0.59 0.8 Q2 0.321 0.171 0.382 0.321 0.349 0.663 Q3 0.416 0.199 0.407 0.416 0.412 0.683 Q4 0.724 0.099 0.709 0.724 0.717 0.891

表 4.4.2:決策樹分類器例行賽分類結果

Q1 Q2 Q3 Q4 <- Classified

546 165 140 25 Q1

278 274 230 72 Q2

117 220 354 159 Q3

33 58 146 623 Q4

表 4.4.3:決策樹分類器例行賽分類與實際情形差異

Q1 Q2 Q3 Q4

分類預測 974 717 870 879

實際個數 876 854 850 860

差距數 98 -137 20 19

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 4.4.4:決策樹分類器季後賽分類正確率表現

Class TP Rate FP Rate Precision Recall F-Measure ROC Area Q1 0.65 0.206 0.522 0.65 0.579 0.786 Q2 0.202 0.125 0.343 0.202 0.254 0.628 Q3 0.447 0.201 0.423 0.447 0.435 0.661 Q4 0.744 0.117 0.68 0.744 0.711 0.861

表 4.4.5:決策樹分類器季後賽分類結果

Q1 Q2 Q3 Q4 <- Classified

266 73 59 11 Q1

169 79 106 37 Q2

61 66 177 92 Q3

14 12 76 297 Q4

表 4.4.6:決策樹分類器季後賽分類與實際情形差異

Q1 Q2 Q3 Q4

分類預測 510 230 418 437

實際個數 409 391 396 399

差距數 101 -161 22 38

表 4.4.7:支援向量機分類器例行賽分類正確率表現

Class TP Rate FP Rate Precision Recall F-Measure ROC Area Q1 0.61 0.163 0.56 0.61 0.584 0.806 Q2 0.361 0.188 0.388 0.361 0.374 0.653 Q3 0.438 0.19 0.431 0.438 0.434 0.656 Q4 0.734 0.077 0.76 0.734 0.747 0.894

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 4.4.8:支援向量機分類器例行賽分類結果

Q1 Q2 Q3 Q4 <- Classified

534 213 115 14 Q1

279 308 214 53 Q2

116 230 372 132 Q3

24 43 162 631 Q4

表 4.4.9:支援向量機分類器例行賽分類與實際情形差異

Q1 Q2 Q3 Q4

分類預測 953 794 863 830

實際個數 876 854 850 860

差距數 77 -60 13 -30

表 4.4.10:支援向量機分類器季後賽分類正確率表現

Class TP Rate FP Rate Precision Recall F-Measure ROC Area Q1 0.597 0.19 0.52 0.597 0.556 0.785 Q2 0.294 0.179 0.347 0.294 0.319 0.622 Q3 0.419 0.173 0.444 0.419 0.431 0.663 Q4 0.742 0.105 0.703 0.742 0.722 0.88

表 4.4.11:支援向量機分類器季後賽分類結果

Q1 Q2 Q3 Q4 <- Classified

244 108 52 5 Q1

159 115 88 29 Q2

57 82 166 91 Q3

9 26 68 296 Q4

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 4.4.12:支援向量機分類器季後賽分類與實際情形差異

Q1 Q2 Q3 Q4

分類預測 469 331 374 421

實際個數 409 391 396 399

差距數 60 -60 -22 22

表 4.4.13:貝式分類器例行賽分類正確率表現

Class TP Rate FP Rate Precision Recall F-Measure ROC Area Q1 0.697 0.25 0.488 0.697 0.574 0.813 Q2 0.274 0.171 0.346 0.274 0.306 0.639 Q3 0.259 0.134 0.388 0.259 0.311 0.654 Q4 0.701 0.133 0.638 0.701 0.668 0.868

表 4.4.14:貝式分類器例行賽分類結果

Q1 Q2 Q3 Q4 <- Classified

611 172 69 24 Q1

375 234 131 114 Q2

209 217 220 204 Q3

57 53 147 603 Q4

表 4.4.15:貝式分類器例行賽分類與實際情形差異

Q1 Q2 Q3 Q4

分類預測 1252 676 567 945

實際個數 876 854 850 860

差距數 376 -178 -283 85

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 4.4.16:貝式分類器季後賽分類正確率表現

Class TP Rate FP Rate Precision Recall F-Measure ROC Area Q1 0.67 0.26 0.471 0.67 0.553 0.79 Q2 0.225 0.12 0.379 0.225 0.283 0.652 Q3 0.321 0.19 0.358 0.321 0.338 0.644 Q4 0.692 0.125 0.648 0.692 0.669 0.877

表 4.4.17:貝式分類器季後賽分類結果

Q1 Q2 Q3 Q4 <- Classified

274 66 57 12 Q1

178 88 84 41 Q2

107 65 127 97 Q3

23 13 87 276 Q4

表 4.4.18:貝式分類器季後賽分類與實際情形差異

Q1 Q2 Q3 Q4

分類預測 582 232 355 426

實際個數 409 391 396 399

差距數 173 -159 -41 27

表 4.4.19:隨機森林分類器例行賽分類正確率表現

Class TP Rate FP Rate Precision Recall F-Measure ROC Area Q1 0.611 0.176 0.543 0.611 0.575 0.825 Q2 0.349 0.177 0.394 0.349 0.37 0.695 Q3 0.407 0.197 0.404 0.407 0.405 0.699 Q4 0.714 0.088 0.729 0.714 0.722 0.917

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 4.4.20:隨機森林分類器例行賽分類結果

Q1 Q2 Q3 Q4 <- Classified

535 196 131 14 Q1

277 298 217 62 Q2

146 206 346 152 Q3

27 56 163 614 Q4

表 4.4.21:隨機森林分類器例行賽分類與實際情形差異

Q1 Q2 Q3 Q4

分類預測 985 756 857 842

實際個數 876 854 850 860

差距數 109 -98 7 -18

表 4.4.22:隨機森林分類器季後賽分類正確率表現

Class TP Rate FP Rate Precision Recall F-Measure ROC Area Q1 0.577 0.192 0.509 0.577 0.541 0.815 Q2 0.263 0.19 0.31 0.263 0.285 0.633 Q3 0.374 0.185 0.4 0.374 0.386 0.681 Q4 0.747 0.11 0.695 0.747 0.72 0.9

表 4.4.23:隨機森林分類器季後賽分類結果

Q1 Q2 Q3 Q4 <- Classified

236 112 49 12 Q1

154 103 106 28 Q2

65 92 148 91 Q3

9 25 67 298 Q4

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 4.4.24:隨機森林分類器季後賽分類與實際情形差異

Q1 Q2 Q3 Q4

分類預測 464 332 370 429

實際個數 409 391 396 399

差距數 55 -59 -26 30

表 4.4.25:分類器結果比較

決策樹 支援向量機 貝式分類器 隨機森林 例行賽正確率 52.238 53.634 48.488 52.122 季後賽正確率 51.348 51.473 47.962 49.216

從實驗結果我們可以發現以下幾點:

一、在 Q1 和 Q4 的分類,實際情形和分類結果的差距並不算大,推測可能受年紀 影響,新秀球員大多落在 Q1 類別,而球員隨著年紀增長,在 NBA 聯盟中取 得自由球員身份後,新簽合約可使球員一舉獲得高薪,此時很有機會位於 Q4 類別,球員年紀在 Q1 和 Q4 分佈情形可參考圖 4.4.1。

圖 4.4.1:分類 Q1 和分類 Q4 球員年紀分佈情形

二、Q2 和 Q3 的分類,實際情形和分類結果差距較為明顯,從結果上來看,Q1 和 Q4 的分類較 Q2 和 Q3 的分類來的明顯,正確率也較高,針對此一現象,

可參考圖 4.4.2 和 4.4.3,可推測目前常被討論的議題,M 型化,也存在於 NBA 球員的薪資分佈情況。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 4.4.2:各分類球員人數比例

圖 4.4.3:各分類球員薪資與整體薪資比例

三、從表 4.4.25 結果來看,此次的資料進行特徵選取和分類後,支援向量機分 類器有較好的表現,最差的則為貝式分類器。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

四、在例行賽與季後賽結果,例行賽分類準確率相較季後賽分類準確率,例行賽 明顯較高,針對此一現象,可解釋球員薪資與例行賽表現有較直接的關係。

由於例行賽賽季場次較多,球員有較多的機會可以發揮表現,不會幾場比賽 的失常表現,而影響了整體數據,季後賽由於球員可進行的場次不同,且場 次較少,球員的數據有可能大幅不同而影響了數據結果。

五、承上點,從比賽的本質上來看,也有可能因為例行賽和季後賽在比賽內容的 強度有所不同而影響了整體結果,在某些情況下,球員有可能因避免受傷,

或是在球隊已確定取得晉級季後賽資格,而缺席了例行賽的部份場次。但是 季後賽才是球員最終努力的目標,且比賽對抗強度較例行賽更為明顯,特別 是在防守環節上的努力,球員受對手防守影響而無法發揮如同例行賽的水準 之情形,在季後賽時常發生,而影響了數據結果。

六、從第四點和第五點的結果來看,影響球員的薪資,例行賽數據有較大的比重 成份,許多球員在例行賽的數據結果,可使該球員在球季結束後,獲得薪資 大幅的成長,即使該名球員可能沒能帶領球隊進入季後賽或是球隊在季後賽 的結果不甚理想,仍不影響球隊爭取球員時所開出的價碼。

七、在經過預測(3.5 節)和特徵選取(4.2 節)所找出的結果,包含顯著欄位與特 徵,放到分類器進行運算後,發現對於薪資是較具有直接的相關性。

相關文件