第四章 進階分析
4.2 特徵選取
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
4.2 特徵選取
此一章節,是為了進行 Data Mining 時,能夠先找出較具影響的特徵,使分類可 更有效率的進行。通常我們在對目標資料進行分類選取時,常常因為在資料中,
對分類結果具實際影響的特徵只有少數幾個,在一般情況下,龐大的資料集,可 能會導致 Data Mining 無法有效的進行,如何減少不相關的特徵和使演算法在運 行中縮短時間,有助找出更好的結果,此時,特徵選取是一個常見且有效率的方 式。特徵選取的特點是從原來的資料集中,優先找出相關的特徵,使資料集的子 集可以與目標更具相關性,其廣泛的定義包括如下[16]:
一、理想化:找出最小的資料子集合,其中包括必要的和足以代表原始資料的特 徵。
二、經典的:從資料集 N 中找出一個的子資料集集 M。
三、提高預測的準確度:特徵選取目的是要選擇特徵用於提高預測的準確度或是 減少資料集中不顯著的特徵,降低資料的結構,在分類時僅使用所選擇的特 徵。
四、近似原始的資料結構:特徵選取的目標是找出一組較小的子資料集,盡可能 接近原始資料集的資料分佈,且保持了所有特徵的資料。
特徵選取的流程包含了以下四個步驟:子資料集的產生,子資料集的評估,停止 的準則,結果的驗證,如下圖 4.2[16]所示。
圖 4.2:特徵選取流程[16]
‧
‧
20. LastYearEFFCompare
‧
(Crossover Rate)與突變率(Mutation Rate),此次的配置情形為,族群規模為 20、交配率為 0.5、突變率為 0.05,用來評估結果的演算法為 CfsSubsetEval,其不斷演化的過程如下表 4.2.2 和表 4.2.4:
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 4.2.3:例行賽資料特徵驗證結果
特徵代號 統計指標 比例 (%)
1. Age 100%
2. G 0%
3. MP 100%
4. EFF 100%
5. GmSc 100%
6. PER 10%
7. ORtg 0%
8. DRtg 0%
9. AST_Per 20%
10. STL_Per 0%
11. BLK_Per 0%
12. TOV_Per 0%
13. TS_Per 0%
14. FT_Per 0%
15. Three_Per 0%
16. ORB_Per 0%
17. DRB_Per 0%
18. TRB_Per 0%
19. USG_Per 10%
20. LastYearEFFCompare 0%
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 4.2.4:季後賽資料基因演算進化情形
基因演化代數 基因組合(代號請參考表 4.2.1) 1. 1 3 4 5 19
2. 1 3 4 5 19
3. 1 3 4 5 11 19 20 4. 1 3 4 5 15 19 20 5. 1 3 4 5 19
6. 1 3 19 20
7. 1 2 3 4 5 15 20
8. 1 3 4 5 9 10 15 17 18 20 9. 1 3 4 5 7 19 20
10. 1 3 4 5 15 19 20 11. 1 3 5 19
12. 1 3 4 5 6 7 9 14 15 19 20 13. 3 4 5 9 10 15 17 20 14. 3 4 5 15 19 20 15. 1 3 4 5 19 16. 1 3 4 5 19 20
17. 1 3 4 9 11 18 19 20 18. 1 2 3 4 5 10 19 19. 1 2 3 4 5 15 19 20 20. 1 3 4 5 9 10 15 17 20
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
USG_Per,季後賽:Age、MP、EFF、GmSc、USG_Per。
3. 此部份與章節 3.5,成績與薪資關連性預測,所找出的結果不同,其中例行 賽差異的特徵為 G、STL_Per、BLK_Per、TOV_Per、TS_Per、FT_Per、Three_Per、
ORB_Per、TRB_Per,季後賽差異的特徵為 G、ORTG、STL_Per、Three_Per、
ORB_Per。
4. 例行賽和季後賽所找出的特徵選取組合,有差異的部份,PER 為例行賽的特 徵,此點也驗證了近年常被籃球專家作為球員表現依據的 PER,在例行賽的 PER 值表現愈好,薪資水平可相對提高,但是部份球員可能在季後賽的表現 不同於例行賽,造成 PER 值下降,在季後賽的特徵組合結果來看,並不具直 接影響性。
5. 季後賽的資料筆數較少,但以廻歸預測與基因演算法找出性的特徵差異反而 也較少,此部份驗証了特徵選取的特色,資料較大的集合,不一定較具代表 性。