特徵選取 - 進階分析 - NBA球員表現與薪資關聯性之分析

第四章進階分析

4.2 特徵選取

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

4.2 特徵選取

此一章節，是為了進行 Data Mining 時，能夠先找出較具影響的特徵，使分類可更有效率的進行。通常我們在對目標資料進行分類選取時，常常因為在資料中，

對分類結果具實際影響的特徵只有少數幾個，在一般情況下，龐大的資料集，可能會導致 Data Mining 無法有效的進行，如何減少不相關的特徵和使演算法在運行中縮短時間，有助找出更好的結果，此時，特徵選取是一個常見且有效率的方式。特徵選取的特點是從原來的資料集中，優先找出相關的特徵，使資料集的子集可以與目標更具相關性，其廣泛的定義包括如下[16]：

一、理想化：找出最小的資料子集合，其中包括必要的和足以代表原始資料的特徵。

二、經典的：從資料集 N 中找出一個的子資料集集 M。

三、提高預測的準確度：特徵選取目的是要選擇特徵用於提高預測的準確度或是減少資料集中不顯著的特徵，降低資料的結構，在分類時僅使用所選擇的特徵。

四、近似原始的資料結構：特徵選取的目標是找出一組較小的子資料集，盡可能接近原始資料集的資料分佈，且保持了所有特徵的資料。

特徵選取的流程包含了以下四個步驟：子資料集的產生，子資料集的評估，停止的準則，結果的驗證，如下圖 4.2[16]所示。

圖 4.2：特徵選取流程[16]

‧

20. LastYearEFFCompare

‧

(Crossover Rate)與突變率(Mutation Rate)，此次的配置情形為，族群規模為 20、交配率為 0.5、突變率為 0.05，用來評估結果的演算法為 CfsSubsetEval，

其不斷演化的過程如下表 4.2.2 和表 4.2.4：

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表 4.2.3：例行賽資料特徵驗證結果

特徵代號統計指標比例 (%)

1. Age 100%

2. G 0%

3. MP 100%

4. EFF 100%

5. GmSc 100%

6. PER 10%

7. ORtg 0%

8. DRtg 0%

9. AST_Per 20%

10. STL_Per 0%

11. BLK_Per 0%

12. TOV_Per 0%

13. TS_Per 0%

14. FT_Per 0%

15. Three_Per 0%

16. ORB_Per 0%

17. DRB_Per 0%

18. TRB_Per 0%

19. USG_Per 10%

20. LastYearEFFCompare 0%

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表 4.2.4：季後賽資料基因演算進化情形

基因演化代數基因組合(代號請參考表 4.2.1) 1. 1 3 4 5 19

2. 1 3 4 5 19

3. 1 3 4 5 11 19 20 4. 1 3 4 5 15 19 20 5. 1 3 4 5 19

6. 1 3 19 20

7. 1 2 3 4 5 15 20

8. 1 3 4 5 9 10 15 17 18 20 9. 1 3 4 5 7 19 20

10. 1 3 4 5 15 19 20 11. 1 3 5 19

12. 1 3 4 5 6 7 9 14 15 19 20 13. 3 4 5 9 10 15 17 20 14. 3 4 5 15 19 20 15. 1 3 4 5 19 16. 1 3 4 5 19 20

17. 1 3 4 9 11 18 19 20 18. 1 2 3 4 5 10 19 19. 1 2 3 4 5 15 19 20 20. 1 3 4 5 9 10 15 17 20

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

USG_Per，季後賽：Age、MP、EFF、GmSc、USG_Per。

3. 此部份與章節 3.5，成績與薪資關連性預測，所找出的結果不同，其中例行賽差異的特徵為 G、STL_Per、BLK_Per、TOV_Per、TS_Per、FT_Per、Three_Per、

ORB_Per、TRB_Per，季後賽差異的特徵為 G、ORTG、STL_Per、Three_Per、

ORB_Per。

4. 例行賽和季後賽所找出的特徵選取組合，有差異的部份，PER 為例行賽的特徵，此點也驗證了近年常被籃球專家作為球員表現依據的 PER，在例行賽的 PER 值表現愈好，薪資水平可相對提高，但是部份球員可能在季後賽的表現不同於例行賽，造成 PER 值下降，在季後賽的特徵組合結果來看，並不具直接影響性。

5. 季後賽的資料筆數較少，但以廻歸預測與基因演算法找出性的特徵差異反而也較少，此部份驗証了特徵選取的特色，資料較大的集合，不一定較具代表性。

在文檔中 NBA球員表現與薪資關聯性之分析 - 政大學術集成 (頁 54-61)

特徵選取

第四章 進階分析

4.2 特徵選取

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

4.2 特徵選取

‧

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第四章進階分析

立政治大學

立政治大學

立政治大學

立政治大學