• 沒有找到結果。

應用模糊亂度量測法及模糊資訊增益量測法以處理分類問題 之新方法研究 (1/2)

一、 中文摘要

本研究計畫為一個兩年期的計畫,旨 在根據模糊亂度量測法及模糊資訊增益 量 測 法 提 出 一 些 處 理 分 類 問 題 的 新 方 法。在本研究計畫的第一年計畫中,我們 提出一個用來處理分類問題的特徵子集 合挑選的新方法,其中特徵子集合挑選的 目的是降低在分類問題或識別問題中特 徵的數量。首先,我們提出一個用來建構 各特徵之模糊集合歸屬函數的演算法,其 中我們將數值型的特徵離散化來建構它 的模糊集合歸屬函數。然後,我們根據邊 界樣本提出一個新的模糊亂度量測法。根 據我們所提的模糊亂度量測法,我們提出 一個用來挑選特徵子集合的演算法。我們 所提出的特徵子集合挑選的方法可以挑 出相關的特徵來比現有的方法獲得更高 的平均分類正確率。

關鍵詞:模糊資訊增益、模糊亂度、分類 問題、歸屬函數、特徵子集合挑 選、模糊邏輯。

Abstract

This project is a 2-year project. The purposes of this project are to present new methods for handling classification problems based on new fuzzy entropy measures and new fuzzy information gain measures. In the first year of this project, we propose a new method for dealing with feature subset selection for handling classification problems. The goal of feature subset selection is to reduce the number of features used in classification or recognition tasks. First, we “discretize”

numeric features to construct the membership function of each fuzzy set of a feature. Then, we propose a new fuzzy entropy measure based on boundary samples. Based on the proposed fuzzy entropy measure, we propose a feature selection method to select feature subsets based on the proposed fuzzy entropy measure focusing on boundary samples.

The proposed feature subset selection method can select relevant features to get higher average classification accuracy rates than the ones selected by the existing methods.

Keywords: Fuzzy Information Gain, Fuzzy Entropy, Classification Problems, Membership Functions, Feature Subset Selection, Fuzzy Logic.

二 、計畫緣由與目的

分類技術已被廣泛的應用在多個領 域。各種類型的分類器已被提出[2], [8], [11], [20], [19],[15], [3], [18], [14] 、…

等。在參考文獻[10]中,Dong 等人指出 特徵子集合的挑選是用來降低在分類問 題或識別問題中特徵的數量。很明顯的資 料中可能包含非相關及相關的特徵。如果 我們可以適切的挑選相關的特徵來處理 分類問題,我們可以提升分類的正確率。

近 年 來 有 些 特 徵 子 集 合 挑 選(Feature Subset Selection)的方法被提出,例如:相 似度量測法(Similarity Measures) [23]、亂 度改進量測法(Gain-Entropies Measures) [4]、特徵的相關性(Relevance of Features) [1] 、 決 策 表 (Decision Tables) [6] 、 OFEI(Overall Feature Evaluation Index) [9] 、FQI(Feature Quality Index) [7]、MIFS

(Mutual Information Based Feature Selector) [2] 、分類能力量測法 [10]、…

等。有很多用來降低特徵空間的搜尋演算 法被提出,例如:經驗搜尋法[23]、遺傳 演算法[6]、貪婪演算法[4]、…等。挑選 特徵資料項子集合的方法,可分為 Filter Model 及 Wrapper Model[13]兩類。Filter model 是指特徵子集合的挑選過程與分類 演算法無關。而Wrapper Model 是指配合 特定的分類演算法來挑選特徵資料項子 集合。我們採用 Filter mode 來挑選特徵 資料項子集合。

本研究計畫旨在根據模糊亂度量測 法及模糊資訊增益量測法提出一些處理 分類問題的新方法。本研究計畫為一個 兩年期的計畫,在本研究計畫的第一年 計畫中,我們提出一個用來處理分類問 題的特徵子集合挑選的新方法。特徵子 集合挑選是用來降低在分類問題或識別 問題中特徵的數量。首先,我們提出一 個用來建構各特徵之模糊集合歸屬函數 的演算法,其中我們將數值型的特徵離 散化來建構它的模糊集合歸屬函數。然 後,我們根據我們所提出的用邊界樣本 的模糊亂度量測法提出一個用來挑選特 徵子集合的演算法。我們所提出的特徵 子集合挑選的方法可以挑出相關的特徵 來比現有的方法獲得更高的平均分類正 確率。

三、研究方法及成果

在本研究計畫之第一年計畫中,我們 用邊界樣本(Boundary Samples)提出一個 挑選特徵子集合(Feature Subset Selection) 以處理分類問題的新方法,其中“邊界樣 本”通常是提升分類問題的分類正確率的 關鍵。我們所提出的特徵子集合挑選的方 法 是 根 據 一 個 新 的 模 糊 亂 度 量 測 法 (Fuzzy Entropy Measure)來挑選特徵子集 合。

定義 1:假設有一組資料X被分成一組類 別C。某個類別c的樣本歸屬於某個模糊集A~ 的 類 別 歸 屬 度 (Class Degree)CDc(A~),其中c∈C,定義如下:

=

X x

X x A

x x CD

A c

A

c ( )

) ( )

(

~

~

~

μ μ

, (1) 其中Xc為類別c的樣本,c∈C,μA~為模糊 集合A~的歸屬函數, ~(x)

μA 為數值x歸屬於 模糊集合A~的程度及μA~(x)∈ [0, 1]。

定義 2:某個類別c的樣本歸屬於某個模 糊集合A~的模糊亂度FEc(A~),其中c∈C,

定義如下:

) ( log ) ( )

(A~ c A~ 2 c A~

c CD CD

FE = . (2) 定義 3:模糊集合A~的模糊亂度FE(A~)義如下:

=c∈C A

A FEc

FE(~) (~). (3) 特徵可以由多個語意變數[25]來描 述,其中每個語意變數可以用一個模糊集 合[24]的歸屬函數來表示。下面我們提出 一個新的特徵的模糊亂度量測法及提出 一個用來建構特徵的模糊集合歸屬函數 的演算法。我們提出的特徵的模糊亂度量 測法定義如下。

定義 4:特徵f的模糊亂度FFE(f)定義如 下:

= ∑

v∈V S S FE v f

FFE( ) v ( ), (4) 其中V為在特徵f的一組模糊集合,FE(v) 為模糊集合v的模糊亂度,S為樣本歸屬於 特徵f的各個模糊集合的歸屬度總和及Sv

為樣本歸屬於模糊集合v的歸屬度總和。

下面我們提出一個用來建構特徵的 模糊集合歸屬函數的演算法,如下所示:

步驟1:初始化,將分群的數量k設定為2。

步驟 2:以 k-Means 分群演算法(k-Means Clustering Algorithm)[12] 根 據 特徵的值來產生k個群心,其中 k ≥ 2,列示如下:

/* 給予k個群心初始值 */

for i = 1 to k do

k i xi

m = ; repeat {

/* 將各個樣本分配到具有最短 的 歐 幾 里 德 距 離(Euclidean Distance) 的 群 心 , 其 中

arg min x mk 2

m x Cluster

x

= ;

} until each cluster is not changed.

步驟 3:根據 k 個群心建構模糊集合歸屬函

矩 陣 的 函 數(Combined-Extension-Matrix Function)”來建構特徵子集合的值的歸屬

的特徵集合及FS為已挑選到的特徵集 合。我們所提出的用來挑選特徵子集合 的演算法如下所示:

步驟 1:/*分別建構各個特徵f的值歸屬於 各個特徵f的模糊集合的歸屬 度擴張矩陣EMf,及計算各個 特徵f的模糊亂度FFE(f)。*/

for each f F do {

根據公式(5),建構特徵f的值歸 屬於特徵f的模糊集合的歸屬度 擴張矩陣EMf,列示如下:

m f n rn f v

rn v

r f f v

v r EM f

m m

×

=

) ( )

(

1 ) ( 1 )

(

1 1

μ μ

μ μ

L M M M

L

; 根據公式(6),計算各個類別c 的樣本歸屬於各個模糊集合v 的類別歸屬度CDc(v),其中cC;

根據公式(2)及(3),計算特徵f 的各個模糊集合v的模糊亂度 FE(v);

根據公式(4),計算特徵f的模 糊亂度FFE(f)

}.

步驟 2:/*將具有最小模糊亂度的特徵放 入已挑選到的特徵集合FS,並將 此特徵從候選的特徵集合F中移 除。*/

fˆ arg minFFE(f)

f∈F

= , 其 中

符號“arg minFFE(f)

F

f ” 會傳回一個 可以使得函數FFE(f)的值最小化 的某個特徵f。

EFS =FFE( fˆ);

FS={};

F = F{}.

步驟 3:/* 反覆地將可以降低特徵子集 合的模糊亂度的特徵放入已挑 選到的特徵集合FS,直到沒有仼 何這樣的特徵為止。 */

repeat {

for each f∈F do

{

根據公式(8),依照由使用 者所定義的類別歸屬度最 大值的門閂值Tr,其中Tr ∈ [0, 1] ,來建構特徵子集合 FS ∪{f}的值的歸屬度擴張 矩陣EMFSU{ f},列示如下:

) , ,

} (

{f r

FS CEM FS f T

EM U = ;

根據公式(6),計算各個類別c 的樣本歸屬於特徵子集合FS

∪{f}的各個複合式模糊集 合v的類別歸屬度CDc(v),其 中c∈ C;

根據公式(2)及(3),計算特徵 子集合FS ∪{f}的各個複合 式 模 糊 集 合 v 的 模 糊 亂 度 FE(v);

根據公式(9),用邊界樣本來 計算特徵子集合FS ∪{f}的 模糊亂度BSFFE(FS, f) };

fˆ arg min BSFFE(FS,f) F

f

= ,其中

符 號 “ arg min BSFFE(FS,f)

F

f

會 傳 回 一 個 可 以 使 得 函 數

) , (FS f

BSFFE 的值最小化的某

個特徵f。;

D=EFS BSFFE(FS,fˆ); 令EFS =BSFFE(FS,fˆ);

FS= FS U{};

F = F{}

} until(EFS =0 orD0orF =φ); 令FS 為所挑選的特徵子集合.

四、結果與討論

我們將我們所提的方法做了兩個實 驗,其中這些實驗用了4種不同類型的分 類器(亦即:LMT [16]、naive Bayes[14] 、 SMO [18]及C4.5 [19])。第一個實驗用了 4種不同類型的UCI資料集[26] (亦即:

蝴 蝶 花(Iris) 資 料 集 [26] 、 乳 癌 (Breast Cancer)資料集[26]、糖尿病(Pima Diabetes) 資料集[26]及MPG(Mile Per Gallon)資料

集[26])來比較我們所提出的方法所挑選 的 特 徵 與 分 別 由 OFFSS (Optimal Fuzzy-Valued Feature Subset)方法[23] 、 OFEI (Overall Feature Evaluation Index) 方法[9] 、FQI (Feature Quality Index) 方 法[9]及MIFS (Mutual Information-Based Feature Selector) 方法[2] 所挑選的特徵 的平均分類正確率。我們所提出的方法所 挑 選 的 特 徵 子 集 合 可 以 比 OFFSS (Optimal Fuzzy-Valued Feature Subset)方 法[23] 、OFEI (Overall Feature Evaluation Index) 方 法 [9] 、 FQI (Feature Quality Index) 方 法 [9] 及 MIFS (Mutual Information-Based Feature Selector)方法[2]

所挑選的特徵有更高的平均分類正確率。

第二個實驗用了8種不同類型的UCI資料 集[26] (亦即:糖尿病(Pima Diabetes) 資 料 集[26] 、 Cleve 資 料 集 [26] 、 相 關 性 (Correlated) 資料集[26]、M of N-3-7-10 資料集[26]、Crx資料集[26]、Monk-1資料 集[26]、Monk-2資料集[26]及Monk-3資料 集[26])來比較我們所提出的方法所挑選 的特徵與由參考文獻[10]提出的方法所 挑選的特徵的平均分類正確率。我們用兩 種不同類型的分類器(亦即:C4.5 [19]

及Naive Bayes [14])來比較由Dong等人 的方法 [10] 所挑選的特徵子集合與我 們所提出的方法所挑選的特徵子集合的 平均分類正確率。我們用一個自由軟體 Weka [27]的環境來做實驗,並且應用 10-fold交互驗證(10-Fold Cross-Validation) [22] 來取得這8個資料集的平均分類正 確率。我們用兩種不同類型的分類器(亦 即:C4.5 [19]及Naive Bayes [14])來比較 由Dong等人的方法 [10] 所挑選的特徵 子集合與我們所提出的方法所挑選的特 徵子集合的平均分類正確率。我們用一個 自由軟體Weka [27]的環境來做實驗,並 且 應 用 10-fold 交 互 驗 證 (10-Fold Cross-Validation) [22] 來取得這8個資料 集的平均分類正確率,我們可以看出我們 所提出的方法所挑選的特徵子集合可以 比Dong等人的方法[10]所挑選的特徵有 更高的平均分類正確率。

五、計畫成果自評

本計畫在理論與實際應用上均有很 高的價值。本計畫之研究內容與原計畫相 符程度為100%,也 100%達成預期目標。

在本研究計畫的經費支持下,我們目前已 有下列之期刊論文被接受,即將發表於國 際期刊Applied Intelligence,謹此致謝:

J. D. Shie and S. M. Chen, “Feature subset selection based on fuzzy entropy measures for handling classification problems,” Accepted and to appear in Applied Intelligence, 2008. (SCI and EI)

六、參考文獻

[1] P. W. Baim, “A method for attribute selection in inductive learning systems,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 10, no. 6, pp.

888-896, 1988.

[2] R. B. Banerji, “A language for the description of concepts,” General Systems, vol. 9, no. 1, pp. 135-141, 1964.

[3] B. E. Boser, I. M. Guyon, and V. N.

Vapnik, “A training algorithm for optimal margin classifiers,”

Proceedings of the Fifth Annual Workshop on Computational Learning Theory, Pittsburgh, Pennsylvania, 1992, pp.144-152.

[4] R. Caruana and D. Freitag, “Greedy attribute selection,” Proceedings of International Conference on Machine Learning, New Brunswick, New Jersey, 1994, pp. 28-36.

[5] J. Catlett, “On changing continuous attributes into ordered discretize attributes,” Proceedings of the Fifth European Working Session on Learning, Berlin, Germany, 1991, pp.

164-178.

[6] N. Chaikla and Y. Qi, “Genetic algorithms in feature selection,”

Proceedings of the 1999 IEEE International Conference on Systems, Man, and Cybernetics, Tokyo, Japan,

1999, vol. 5, pp. 538-540.

[7] S. M. Chen and J. D. Shie, “A new method for feature subset selection for handling classification problems,”

Proceedings of the 2005 IEEE International Conference on Fuzzy Systems, Reno, Nevada, 2005, pp.

183-188.

[8] T. M. Cover and P. E. Hart, “Nearest Neighbor Pattern Classification,”

IEEE Transactions on Information Theory, vol. IT-13, no. 1, pp. 21-27, 1967.

[9] R. K. De, N. R. Pal, and S. K. Pal,

“Feature analysis: Neural network and fuzzy set theoretic approaches,”

Pattern Recognition, vol. 30, no. 10, pp. 1579-1590, 1997.

[10] M. Dong and R. Kothari, “Feature subset selection using a new definition of classifiability,” Pattern Recognition Letters, vol. 24, no. 9, pp. 1215-1225, 2003.

[11] R. A. Fisher, “The use of multiple measurements in taxonomic problems,” Annals of Eugenics, vol. 7,

[11] R. A. Fisher, “The use of multiple measurements in taxonomic problems,” Annals of Eugenics, vol. 7,

相關文件