• 沒有找到結果。

特徵選取(F EATURE S ELECTION )

第二章 文獻探討

2.3 特徵選取(F EATURE S ELECTION )

多媒體發展數年,所能取得的資料跟特徵非常之多,而當我們在處理大量 的特徵時,維數災難(Curse of Dimensionality)[7]的問題一直是不容易解決的難 題,也就是指當特徵數量提高,特徵分布空間愈漸稀疏,為了在統計學上獲得 力法(Brute Force)窮舉所有特徵值的可能組合才能得知。然而在實際運用上,有 限的時間及資源內暴力法並不可行,故後續的研究提出生成「近似最佳特徵子 集合」的問題,找出一個近似解以達到與最佳解相近之結果。

過去的研究中生成「近似最佳特徵子集合」的方法,其步驟包括子集合生 成(Subset Generation)、 子 集 合 效 能 評 估(Subset Evaluation)、 停 止 測 試 條 件 (Stopping Criteria)以及結果驗證(Result Validation)等四個條件,重複以上前三個 步驟,直到滿足停止測試條件為止[8][9],如圖 8 所示。而根據演算法特性主要

11

可以分為Filter 與 Wrapper 兩種架構,說明如下。

圖 8 特徵選取基本步驟概念圖[8]

2.3.1 Filter Method

此方法 [6][8][10]主要目的是利用特徵本身所擁有的特徵去計算其權重值,

經由全部的特徵集合 D 中挑選出權重值高的特徵子集合 D’作為最後訓練的特徵 集合。透過不一樣的效能評估指標,例如:訊息增益(Information Gain, IG)[11]、

Relief[12]、Chi-Square[13]等統計或資訊理論標準來衡量特徵的好壞與否,是否 為有鑑別力的特徵,其同時也意味著對特徵做排名。

這種作法好處是,只需要透過一次計算就可以評估所有不一樣的特徵對於 分類器的效果,計算簡單而且快速,可以簡單的擴展到高維度的資料集當中。

缺點則是沒有考慮到特徵與模型之間的相互關係,因為每個特徵皆單獨考慮,

忽略了特徵彼此之間的依賴性,有可能導致不良的辨識結果。

12

2.3.2 Wrapper Method

Wrapper 則是透過最佳化的演算法,或者是搜尋的策略逐一將能夠提高效 能指標數值的特徵納入特徵子集合中,例如:循序搜尋法(Sequential Search)[14]、

基 因 演 算 法(Genetic Algorithms, GAs)[15], 或 者 近 幾 年 的 循 序 向 前 選 取 法 (Sequential Forward Selection, SFS)[16]、循序向後選擇法(Sequential Backward Selection, SBS)[16]。

該做法的優點相較 Filter Method,考量到特徵與模型間的相互作用,以及 特徵與特徵之間的依賴性,但也因為如此所付出的計算成本比 Filter Method 要 高出很多。

2.3.3 Filter + Wrapper

Wrapper Method 的方法計算量雖遠比 Filter Method 大上很多,但效能卻比 Filter Method 來的佳,近年來也有許多方法將兩者結合以加快計算速度並且試

著 提 升 更 進 一 步 的 效 能 , 常 見 的 做 法 是 Filter Method 加 上 Wrapper Method[17][18][19][20],如圖 9所示。利用Filter Method 將認為相差甚遠的特徵 先行淘汰,亦為先行選出較為可能的候選特徵,接著再利用 Wrapper Method 的 方法,從已經篩選過的特徵中找出最佳的特徵子集合,除了能夠大量降低窮舉 的計算量之外,效能結果也有不錯的表現。

13

圖 9 Filter 加上 Wrapper 示意圖

14

Fisher’s Criterion[21]是一種統計準則,用來評估特徵是否具有鑑別力,簡 單並且有效率的衡量方法。將Fisher’s Criterion 應用於特徵排序即計算特徵分數,

簡稱F-score,透過 F-score 來表示特徵與標記之間的鑑別度。

根據 F-score 的分子表示類與類之間的關係(Between Class),分母表示每一類別 中的緊密程度(Within Class)。

F(j) = (𝑥̅𝑗(+)− 𝑥̅𝑗)2+ (𝑥̅𝑗(−)− 𝑥̅𝑗)2 1

𝑛+− 1 ∑𝑛𝑖=1+(𝑥𝑖,𝑗(+)− 𝑥̅𝑗(+))2+ 1

𝑛− 1 ∑𝑛𝑖=1 (𝑥𝑖,𝑗(−)− 𝑥̅𝑗(−))2

相關文件