• 沒有找到結果。

第二章 文獻探討

2.2 特徵選取(Feature Selection)

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2.2 特徵選取(Feature Selection)

在資料探勘領域,或現今很常被提起的大數據,變數的數量往往非常龐大,不同 的變數間我們不一定能確定其中是否有重複性或是相依性,容易影響到系統模型 的建立與預測的正確性。因此,特徵選擇成為該領域研究的重要過程,透過特徵 選取可以找出資料集中的顯著變量(Sikora and Piramuthu,2007)。

尋找顯著變量的問題中,n 維的特徵變數共有 2n-1 種變數組合情形,當擁有的 特徵變數數目越多,所需測試的變數組合也越多。如要獲得「最佳」的特徵變數 組合,那只有使用暴力法,把所有組合都測試過一遍才能得知,多維度特徵的測 試將非常耗時且不切實際。故在研究上往往退而尋求「近似最佳」的特徵變數組 合,利用有效的特徵變數選取方法,來節省運算時間及找出可信賴的變數組合。

Dash 和 Liu(1997)定義了特徵選擇的四個步驟,生成子集合、評估子集合、停 止測試標準和結果驗證。在評估子集合的過程中,依據特徵選取方法是否獨立於 分類的演算法,可以分為兩大類:

(1) Filter方法:

獨立於分類器的演算法,直接利用所有訓練數據統計出的相關性來評估所選取特 徵,速度快,但所選取的特徵與後續分類演算法的準確率偏差較大。

(2) Wrapper方法:

相對於 Filter 方法,Wrapper 方法主要的目的是利用分類器演算法比較各種不 同特徵子集合在 Training data 的效果(例如,準確率),最後尋找出效果最好的 特徵組合(歐嘉文,2012)。下表整理了 Filter 方法 與 Wrapper 方法特性比較。

表 2.2:Filter 方法與 Wrapper 方法比較,資料來源:歐嘉文(2012)

種類 特色 缺點 常見方法

2.Stepwise logit regression 3.Discriminant analysis 4.Iterative RELIEF Wrapper 1.結合分類器

2.適配特定模型

1.計算密集 2.依賴分類器 3.過適風險

1.Sequential forward selection 2.Sequential backward selection 3.Randomized hill climbing 4.Genetic algorithms

另一方面,Wrapper 方法普遍都會遇到 Overfitting 的問題。Overfitting 現象 是指在訓練模型時,使用過多參數,造成訓練結果很好,因為模型複雜,完美地

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 2.2:Overfitting and Underfitting,資料來源:Dieterle(2003)

通常在預測分類正確率時,Wrapper 方法所得之正確率會優於 Filter 之方法 (Zhu,Z.,Ong,Y.S.,& Dash,M.,2007),原因是因為 Filter 方法獨立於演算法,

著重挑選出相關性高的特徵,而相關性高並不代表在預測會有最好的效果。常見 的 Wrapper 方法包括 Sequential forward selection 和 Sequential backward selection。(Kohavi and John,1997)

2.2.1.循序前進搜尋(Sequential Forward Selection, SFS)

本文使用循序前進搜尋作為特徵選取之方法,SFS 由 Whitney(1971)首次用於特 徵選取上。從一維開始測試每個特徵,根據分類器的準確率挑出一個績效最高的 特徵,以此特徵為基礎加入其它特徵當作二維特徵的候選組合,再次挑選出績效 最高的特徵當作最佳組合,以此最佳組合當基礎,繼續加入其他特徵為三維特徵 的候選組合,依上述條件搜尋下去,停止條件為到達預選取特徵的所需數目。SFS 之流程圖如下:

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 2.3:循序前進搜尋,資料來源:本研究整理

舉例來說,如果我們要找出{F1,F2,F3,F4}特徵集合中,最佳的 3 個特徵變數,

我們需要遵循三個步驟:

第一步:我們需要確定單一維度的最有代表性的特徵。於是我們測試每個特徵在 分類器計算下,擁有最佳準確率的特徵,在此假定是 F2。

第二步:以 F2 為基礎,兩維的候選組合是{F2,F1},{F2,F3},{F2,F4}。選 擇每個候選組合在分類器計算下,擁有最佳準確率的特徵組合,假定其為{F2,

F3}。

第三步:最後,我們再增加一個維度。該組合是{F2,F3,F1},{F2,F3,F4}。

如果{F2,F3,F4}的分類準確率最高,達到我們欲選取特徵的數目,則 SFS 的特 徵挑選結果即為{F2,F3,F4}。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

以 SFS 方法選取特徵,因結合了分類器,所需計算的組合數量也遠比窮舉法要來 得少,因此 SFS 被視為是傳統上快速的特徵選取方法,選取的質量則會隨著訓練 資料量的增加而跟著提昇(Jain and Zongker,1997)。