• 沒有找到結果。

1.1 背景與動機

分類問題的目的是根據已知類別的資料之屬性或特徵,訓練出分類的規則或模型,

然後透過建立好的規則或模型,對未知類別的資料進行判別類別的工作。在分類問題 中,會影響分類準確率的主要三項因素是:訓練模型的資料樣本、資料輸入的屬性及分 類器。當訓練模型的樣本包含離群值或錯誤值時,將影響分類器的預測效果,但這通常 是無法避免的。至於分類器方面,不同的分類器適用的資料類型各不相同,很難找到一 種分類器能在各種資料類型下均有最好的表現。對於資料輸入屬性而言,當輸入屬性愈 多,除了會增加分類過程的計算複雜度外,並不一定保證會有更佳的分類準確率,甚至 可能會使分類器的表現更差。如何選取良好的資料輸入屬性,使分類器具有良好的分類 績效,即稱之為特徵選取(feature selection)問題。圖 1.1 為常見的特徵選取方法[7]。

特徵選取

統計辨識方法 類神經網路

(節點懲罰)

區域最佳解 最佳解

(窮舉法) (截枝法)

單一解 非單一解

具再現性 無再現性 具再現性 無再現性

圖1.1 特徵選取方法[1]

(基因演算法) 柱搜尋法)

(光 模擬退火法) (

(累加搜尋法) (累減搜尋法) (流動搜尋法)

在特徵選取問題上,主要分成兩種方向,第一種是找出錯誤率最低的特徵組合,主 要目標在於降低分類錯誤率;第二種是找出在可容忍的錯誤率內,特徵數最少的特徵組 合,主要目標在於降低使用特徵數,增進運算效率。當特徵選取問題具有「選取的特徵 數越少,分類準確率越低」的性質時,此種性質即稱之為單調性(monotonic),而此種特 性在一些線性迴歸分類器上,是較常見到的。當特徵選取問題具有單調性時,截枝法 (branch and bound)是一種有效的特徵選取方法[11]。但截枝法在實施上有兩個主要的缺 點,第一是當問題不具備單調性時,可能會將最佳解修剪掉。第二是因截枝法必須對所 有未修剪的區域做全域搜尋,所以當特徵數增多時,截枝法依然要花費很多的時間去搜 尋最佳解,尤其是當特徵數大於二十時,截枝法將變成難以實行。有鑒於此,Siedlecki 與Sklansky[11]將基因演算法應用於特徵選取上,以解決非單調性或大型的特徵選取問 題。

基因演算法是一種有效的最佳解搜尋方法,於六零年代由John Holland 所提出,因 其擁有從區域性最佳解跳脫,並快速找到近似最佳解,甚至是全域最佳解的可能性,所 以被廣泛的應用於各種科學領域上。基因演算法最早於1989 年,被 Siedlecki 及 Sklansky 使用於特徵選取後,直到最近,基因演算法於特徵選取之應用的相關研究,依然持續著。

Kuncheva[8]在 1999 年將基因演算法應用於樣本及輸入屬性的選取上,以提高最近距離 分類器的運算速度。Chen[3]於 2003 年發表 GKMT(GA based k-means-type algorithm)演 算法,處理樣本選取及輸入屬性之權重調整的問題。

當使用基因演算法進行特徵選取時,通常利用染色體(chromosome)表示可能的特徵 組合,而如何評定染色體,亦即各種特徵組合之間的優劣,是攸關特徵選取成敗的關鍵 步驟之一。一般考慮的因素包括特徵組合之分類準確率及所使用之特徵數兩者,但此兩 者在某種程度上經常是相衝突的,當使用越少之特徵進行分類,通常分類準確率亦會隨 之下降,要如何在兩者之間取得平衡,是一個難題。Emmanouilidis[4]等人應用 Horn[5]

所提出之利基柏拉圖基因演算法(Niched Pareto GA)於特徵組合之評選上,透過搜尋柏拉

圖最佳邊際(pareto optimal frontier),找出多種不同的準確率與使用特徵數之間的折衷方 案。

使用基因演算法搜尋各種使用特徵數與分類準確率之間的折衷解時,染色體會均勻 散佈到柏拉圖邊際上,某些無法互相取代的不同聚落裡,而實驗過程中所設定的聚落半 徑(σs),將決定這些聚落的影響範圍及聚落個數。當原始資料所考慮的總特徵數非常龐 大時,如果設定的聚落半徑較小,可能導致所找到之柏拉圖邊際不完整,偏向某一方向;

此狀況常常會使基因演算法的搜尋方向偏向減少特徵數的方向,導致因特徵數刪減過 多,而使得分類準確率降低。但若加大聚落半徑,可能會使染色體收斂到少數幾個點上,

導致很多折衷解無法顯現。針對此一問題,增加染色體數是一項解決辦法,但隨著使用 的染色體數增多,將使基因演算法之運算時間,也隨之大幅的增加。如何使用適當的染 色體數,搜尋到符合使用者需求的柏拉圖最佳邊際,是一值得研究的議題。

1.2 研究目的

圖1.2 顯示使用之染色體多寡,與所搜尋到的柏拉圖邊際之關係。為了解決當需考 慮的特徵項目過多,需要大量的染色體去搜尋柏拉圖邊際的問題。本研究透過設定分類 準確率限制的方法,以限制基因演算法的搜尋方向,使基因演算法能針對使用者感興趣 的方向搜尋,希望能以較少的染色體數,依然能求得分類準確率較高之特徵組合。

本研究首先採用三筆UCI 資料庫的資料,說明不同的準確率限制將如何影響基因演 算法所搜尋到之柏拉圖最佳邊際。在各種不同的準確率限制條件下,基因演算法隨著世 代交替數的增加,透過所搜尋到之染色體族群重心的移動趨勢,我們將比較在各種不同 世代交替數下,於各種不同使用特徵數所能找到之最佳分類準確率。此外,本研究所提 之方法將被應用到一個製程參數最佳化之實際問題。本研究以所提之限制型利基柏拉圖 演算法來找出製程參數中之重要因子,並利用類神經網路,建構這些重要因子與產品品

質之間的模型,最後再利用基因演算法針對此模型找出製程之最佳參數設定。

相關文件