• 沒有找到結果。

第四章 進階分析

4.2 特徵選取

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4.2 特徵選取

此一章節,是為了進行 Data Mining 時,能夠先找出較具影響的特徵,使分類可 更有效率的進行。通常我們在對目標資料進行分類選取時,常常因為在資料中,

對分類結果具實際影響的特徵只有少數幾個,在一般情況下,龐大的資料集,可 能會導致 Data Mining 無法有效的進行,如何減少不相關的特徵和使演算法在運 行中縮短時間,有助找出更好的結果,此時,特徵選取是一個常見且有效率的方 式。特徵選取的特點是從原來的資料集中,優先找出相關的特徵,使資料集的子 集可以與目標更具相關性,其廣泛的定義包括如下[16]:

一、理想化:找出最小的資料子集合,其中包括必要的和足以代表原始資料的特 徵。

二、經典的:從資料集 N 中找出一個的子資料集集 M。

三、提高預測的準確度:特徵選取目的是要選擇特徵用於提高預測的準確度或是 減少資料集中不顯著的特徵,降低資料的結構,在分類時僅使用所選擇的特 徵。

四、近似原始的資料結構:特徵選取的目標是找出一組較小的子資料集,盡可能 接近原始資料集的資料分佈,且保持了所有特徵的資料。

特徵選取的流程包含了以下四個步驟:子資料集的產生,子資料集的評估,停止 的準則,結果的驗證,如下圖 4.2[16]所示。

圖 4.2:特徵選取流程[16]

20. LastYearEFFCompare

(Crossover Rate)與突變率(Mutation Rate),此次的配置情形為,族群規模為 20、交配率為 0.5、突變率為 0.05,用來評估結果的演算法為 CfsSubsetEval,

其不斷演化的過程如下表 4.2.2 和表 4.2.4:

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 4.2.3:例行賽資料特徵驗證結果

特徵代號 統計指標 比例 (%)

1. Age 100%

2. G 0%

3. MP 100%

4. EFF 100%

5. GmSc 100%

6. PER 10%

7. ORtg 0%

8. DRtg 0%

9. AST_Per 20%

10. STL_Per 0%

11. BLK_Per 0%

12. TOV_Per 0%

13. TS_Per 0%

14. FT_Per 0%

15. Three_Per 0%

16. ORB_Per 0%

17. DRB_Per 0%

18. TRB_Per 0%

19. USG_Per 10%

20. LastYearEFFCompare 0%

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 4.2.4:季後賽資料基因演算進化情形

基因演化代數 基因組合(代號請參考表 4.2.1) 1. 1 3 4 5 19

2. 1 3 4 5 19

3. 1 3 4 5 11 19 20 4. 1 3 4 5 15 19 20 5. 1 3 4 5 19

6. 1 3 19 20

7. 1 2 3 4 5 15 20

8. 1 3 4 5 9 10 15 17 18 20 9. 1 3 4 5 7 19 20

10. 1 3 4 5 15 19 20 11. 1 3 5 19

12. 1 3 4 5 6 7 9 14 15 19 20 13. 3 4 5 9 10 15 17 20 14. 3 4 5 15 19 20 15. 1 3 4 5 19 16. 1 3 4 5 19 20

17. 1 3 4 9 11 18 19 20 18. 1 2 3 4 5 10 19 19. 1 2 3 4 5 15 19 20 20. 1 3 4 5 9 10 15 17 20

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

USG_Per,季後賽:Age、MP、EFF、GmSc、USG_Per。

3. 此部份與章節 3.5,成績與薪資關連性預測,所找出的結果不同,其中例行 賽差異的特徵為 G、STL_Per、BLK_Per、TOV_Per、TS_Per、FT_Per、Three_Per、

ORB_Per、TRB_Per,季後賽差異的特徵為 G、ORTG、STL_Per、Three_Per、

ORB_Per。

4. 例行賽和季後賽所找出的特徵選取組合,有差異的部份,PER 為例行賽的特 徵,此點也驗證了近年常被籃球專家作為球員表現依據的 PER,在例行賽的 PER 值表現愈好,薪資水平可相對提高,但是部份球員可能在季後賽的表現 不同於例行賽,造成 PER 值下降,在季後賽的特徵組合結果來看,並不具直 接影響性。

5. 季後賽的資料筆數較少,但以廻歸預測與基因演算法找出性的特徵差異反而 也較少,此部份驗証了特徵選取的特色,資料較大的集合,不一定較具代表 性。

相關文件