2.1 引言
特征选择就是从一组特征中挑选出一些最有效的特征以达到降低特征空间维 数的目的,即在一组数量为 D 的特征中选择出数量为 d( D d > )的一组最优特 征来,对于分类任务来说,这样做的目的是简化分类算法的时间和空间复杂度, 从而提高了分类算法的精度、效率。总地来说,对于分类问题,解决特征选择问 题的方法总体上分为两类:一类是将特征选择和分类过程分离,特征选择的过程 和具体的分类器无关,如 RELIEF 算法 [13] ,这类方法称为过滤型方法(Filterapproach) [13,52,53] ;另外一类是封装型方法(Wrapper approach) [54,55] ,这类方法
将特征选择和分类器的设计融合在一起, 特征选择性能和采用的分类器密切相关。 两类分法各具特色和不足:滤波型方法实现简单,效率高,但用于分类识别时分 类精度较差;封装型方法具有较高的分类性能,但对于不同的分类器,移植性不 如滤波法。本章研究的重点属于第二大类,即构造一种封装型的特征选择方法。 近年来,基于支持向量机 SVM 技术的封装型特征选择方法由于其一些独特 的优势得到了较为广泛的关注 [2,56,57,58,59,60] 。该类方法最突出的优点是基于结构风 险最小化原理,具有较强的泛化能力。因此,在特征选择问题上较基于经验风险 最小的众多方法具有更好的鲁棒性。 在最近基于支持向量技术的封装型特征选择方法中,S. Hochreiter 和 K. Obermayer 等人提出的势支持向量机 (Potential Support Vector Machine, PSVM) [5,6163] 方法是最具特色的方法之一。该方法通过定义新的目标函数和相应的边界条件直接 实现对支持特征的选取,因此和一些基于标准 SVM 的特征选择方法 [5760] 相比具有以 下优点:①由于是直接选取支持特征,而不是通过选择支持向量来实现对特征选取, 所以提高了特征选择的速度;②通过定义新的边界条件减少了边缘误差传播的可能 性,提高了分类和特征选择的精度和稳定性;③通过定义新的目标函数实现了对并 矢数据集(Dyadic Matrix)的处理,从而克服了标准 SVM 方法只能处理成对数据集 (Pairwise Matrix)的局限,提高了特征选择和分类的适应性。 然而通过研究 Fisher 线性判别准则 [45] 和 PSVM 对应的目标函数发现, PSVM 对应的目标函数只是类内离散度的一种特殊情形(即当各类的样本均值为 0 时对
应的类内离散度) ,从而使得该方法的运用受到一定的限制。同时由于满足各类样 本均值为 0 ,一定程度上会导致 0 矢量周围出现样本交叉,从而不利于 PSVM 方 法得到最优决策超平面,而且降维后会出现重叠的现象,降低分类效果。针对 PSVM 存在的不足,本章通过使用标准的类内散度矩阵重新构造目标函数来实现 对 PSVM 的泛化,提出一种广义的势支持特征选择方法 GPSFM(Generalized Potential Support Features Selection Method) 。 GPSFM 不但提高了 PSVM 作为特征 选择方法的适应性, 而且还继承了势支持向量机作为封装型特征选择方法的优点, 同时还具有冗余度底、特征选择快的特点,从而在一定程度上提高了特征选择效 果和分类的精度。
2.2
势支持向量机 PSVM
定义 2.1 [5] 设输入样本空间 1 { , , , n} (xi, ,x id ) T = 1 2 " i = X x x L x , x L , 复杂特征 空间 { , , , } ( 1 , , ) T j jd z z = 1 2 Q " j = Z z z L z , z L ,则称 F = X Z 为并矢矩阵(图T 21 (a)) ,显然当 = Z X 时,并矢矩阵转化为成对矩阵(图 21(b)) ,而当 = Z I 时, T = F X 。 1 x x 2 x 3 x 4 1 z 0 1 3 2 2 z 3 5 1 7 3 z 2 1 3 4 4 z 2 1 2 0 1 x x 2 x 3 x 4 1 x 1 0.1 2 3 2 x 0.1 1 3 1 3 x 2 3 1 0.5 4 x 3 1 0.5 1 (a)并矢数据矩阵 (b)成对数据矩阵 图 21 并矢数据矩阵和成对数据矩阵 从定义 2.1 可以看出,并矢矩阵 F 一般是不对称的,该矩阵的列向量表示输 入样本,行向量代表复杂特征。也就是说,列向量对应的列对象是要描述的对象, 而复杂特征(行对象)是为描述列对象服务的。比如文献[64,65]中的基因数据集 (druggene matrix)就是一个并矢矩阵的形式,该数据集就是使用 drugcell 矩阵 ( X 矩阵)和 genecell 矩阵(复杂空间矩阵 Z )相互作用形成的,因此该数据集 使用基因(行对象)来描述生物组织样本(列对象) ,而矩阵中任意一个数值则反 映了在特定样本中的特定基因的表现程度。再比如在网页文档数据集中,通常用 网页作为输入样本(列对象) ,而使用其他包含这些网页(列对象)超链接的网页 (行对象)来描述,数据集中的数值反映了包含直接超链接的数目等。而在实际的特征选取过程中,对一些特定的数据集所对应的复杂特征空间 Z 不太容易得 到, 在文献[5,6163]中 Z 通过两种方法求解: 一是假设数据集对应的复杂特征 Z 满 足均匀分布或者正态分布,从而随机产生相应的复杂特征空间;二是取 = Z I 。 而本章最后测试的数据集就是数据集 X 本身,因此实验过程中设定复杂特征 = Z I , T = F X 。 图 22 表明的是一个二维数据的二分类问题,在图 22(a)中,两类样本可 以较好地被一带有最大间隔的超平面(用实线表示)区分开,其中最大间隔 2 2 1 d d 2 = x+ y r ,比率 2 2 2 2 2 4 d d = + R R x y r (该比率与 VC 维相关 [23] ) ;在图 22(b) 中,两类样本(该样本是图 22(a)中的训练样本沿
y
方向被放大s
倍后得到的) 同样被一带有最大间隔的超平面(实线表示)区分开,其中 1 2 2 2 d d 2 = x+ s y r , 2 2 2 2 2 2 4 d d = + R R x s y r ,而当变换因子s
再次转换为s
=
1
时,该实线已经不再是原问 题的解了(图 22(a)中的虚线) 。因此,在传统的 SVM 方法中,优化超平面在 变换因子s
的影响下并不是不变的(r 和 2 2 R r 都随 s 变化而变化) ,特别是在 SVM 学习方法使用前,训练样本如果已经经过了相应的变换,那么在一定程度上会影 响最终的分类效果。 (a) (b) 图 22 变换因子 s 对选取最优超平面的影响 为了降低变换因子s
对决策超平面的影响、 在一定程度上保持决策超平面稳 定性(即不随变换因子s
的变化而变化) ,Hochreiter S 和 Obermayer K 等人提出 dx dx sdy dy R R了势支持向量机 PSVM。为了便于优化,该支持向量机使用过估计的方法选取 比率 2 2 R r 的最小上界 | || T X ω 作为目标函数, 从而在一定程度上保证了决策超平面 的不变性,同时根据经验风险最小化 和最小二乘 原理构造相应的约束条件 ( ) T T b + - = F X ω 1 y 0 ,然而为了降低噪音对特征选择和分类的影响,可以将条 件放宽为 |FT(X ω T +b1 - y ) ||¥ ≤ ( e e > 0 ) 。该约束条件与传统的 SVM 方法对 应的约束条件不同,PSVM 的每一个约束条件对应的是每一个特征,而传统 SVM 的约束条件对应的是每一个样本,因此相对于直接选取支持向量的传统 SVM,PSVM 直接选取的是支持特征。由此,可以得到如下 PSVM 方法的原 始优化问题。 定义 2.2 [5] 给定为输入样本空间 X 和复杂特征空间 Z 对应的并矢矩阵 F , 输入样本对应的类标号 ( ,1 2 , , ) T n y y y = y K ,设 ω 、 b 分别为分类超平面对应的法 向量、偏移量,则势支持向量机(PSVM)原始最优化问题为: 2 , 1 min || || 2 T b w X ω (2.1) ( ) T T e - + F X ω y 1≥ 0 (2.2) ( ) T T e - - F X ω y 1≤ 0 (2.3) 其中e 为衡量相关性阈值,决定特征选择的数目。 对定义 2.2 要说明一点,即在(2.2) 、 (2.3)中没有偏移量 b 的出现,这是因 为在 PSVM 方法中已经对矩阵 F 进行了规范化处理 [5,60] ,使得 0 T b = F 1 。 定理 2.1 [5] 考虑线性的 PSVM 方法,则原始最优化问题(2.1)~(2.3)的 对偶问题是: 1 min ( ) ( ) ( ) ( ) 2 T T T e + - + - + - + - + - - - - - + + α ,α α α F F α α y F α α 1 α α s.t. 1 1 ( , , ) ( , , ) T Q T Q a a a a + + + - - - = = α α K K ≤ ≤ 0 0 (2.4) 在势支持向量机方法中,通过定理 2.1 的解实现对支持特征的选取,当 0 j j a+ a- - > 时,对应的复杂特征 z 被作为支持正类的特征被选取;当j aj+ aj- 0 - < 时,对应的复杂特征 z 被作为支持负类的特征被选取。 j 定理 2.2 [5] 考虑线性 PSVM 方法,设 + - = - α α α 是对偶问题(2.4)的任意 解,则可按下列方式计算出原始问题(2.1)~(2.3)的解( ,b ω ) = ω Zα (2.5)
1 1 n i i b y n = =
å
(2.6) 因此,在 PSVM 算法中,根据定理 2.1 所指定的对偶问题的解来实现特征选 择,根据定理 2.2 对应的解生成决策函数 ( ) ( , ) g x i = ω x i + b 来实现分类。 PSVM 方法作为一种封装型特征选择方法,既可以实现特征的选取,又可以 实现预测样本的分类,而且它是通过求解对偶问题(2.4)直接进行特征选择,实 验表明有较好的特征选择效果。然而为了便于优化,在寻找比率 2 2 R r 的最小上界 ||X ω 的过程中使用了超估计方法,从而导致T || PSVM 方法存在一定的问题,这 可以使我们通过下文的角度来研究 PSVM。不难发现,PSVM 对应的原始问题 的目标函数只是各类输入样本均值为 0 的类内离散度,而在实际问题的求解过程 中很少满足该算法所对应的条件,即使满足,也会由于条件的存在导致分类精度 在一定程度上受到影响,从而大大地影响了算法的效果和效率。为此,为了在一 定程度上提高 PSVM 方法的适应性和分类效果, 本章从更具一般意义的类内离散 度出发,泛化 PSVM 特征选择方法的原始目标函数, 提出一种新的广义的势支持 特征选择方法——GPSFM。2.3
广义的势支持特征选择方法:GPSFM
2.3.1 类内离散度 定义 2.3 [45] 假设有 n 个样本组成的样本集 D= { ,x x1 2 ,L x n } , d i Î x R , 它们分 别属于两个不同的类,其中大小为 n 的样本子集1 D 属于正类,大小为1 n 的样本子集2 2 D 属于负类,给定分类决策平面的法向量ω ,则类内离散度为 ω S ω 。其中:T w 2 1 ( )( ) k T k= x D Î =å å
- - w k k S x u x u (称为类内散度矩阵) (2.7) 1 , 1, 2 k D k k n Î =å
= k x u x (称为均值) (2.8) 在 Fisher 线性判别准则中,类内离散度是衡量类内样本紧密程度的度量。类 内离散度越小,说明类内样本的紧密程度越高,因此,在分类时要尽可能地要求 类内离散度小,这样才能保证分类的精度,得到好的分类效果。而提出的 GPSFM 算法就是利用最小化类内离散度作为原问题的目标函数,这样就可以较好地保证 分类的效果。2.3.2 广义的势支持特征选择方法 下面的定理 2.3 和图 23 可以帮助我们从另外一个角度来观察 PSVM。 定理 2.3 在 PSVM 方法原问题最优化的目标函数是各类样本均值为 0 的类 内离散度。即假设有 m 个样本组成的样本集 D= { ,x x1 2 ,L x n } ,它们分别属于两 个不同的类,其中大小为 m 的样本子集1 D 属于正类,大小为1 m 的样本子集2 D 属 2 于负类,给定分类决策平面的法向量 ω ,当样本集均值 u k = 0 ( k = 1, 2 时) , T w ω S ω= 2 ||X ω 。 T || 证明 因为 2 || T || Τ T = X ω ω XX ω (2.9) 而当 u k = 0 ( k = 1, 2 时) 2 1 k T T T k= Î D =
å å
w x ω S ω ω xx ω (2.10) 根据基本推导,因 2 1 k T T k= Î D =å å
x XX xx 所以,定理得证。 从定理 2.3 可以看出,PSVM 目标函数可以看成当两类样本均值同时为 0 时 的类内离散度,那么在最小化目标函数时,只有保证满足定理条件的特殊的数据 集才能达到类内离散度最小。然而在解决实际问题时,绝大部分问题对应的数据 集不具备这样的条件, 从而使得 PSVM 这种特征选择算法在处理实际问题时呈现 出适应能力不强的特点。 图 23 说明的是在二分类时,要求各类均值为 0 和不要求各类均值为 0 两种 情况可能对分类所产生的影响。从图 23(a)中可以看出,当要求各类均值为 0 时,一定程度上会导致在矢量 0 = (0, 0) T 周围出现两类样本相互交叉的情况,从而 不利于寻找最优决策超平面, 而且样本在降维后在一定程度上会出现重叠的现象, 以致降低分类的效果。而当使用一般意义的散度 T w ω S ω 来替代 PSVM 的目标函 数时,由于散度矩阵 S 不需要满足各类均值为w 0 的条件,因此一定程度上会防止 两类样本交叉重叠的现象出现,有利于寻找最优决策超平面和提高分类精度(图 23(b)) 。 而本章广义的势支持特征选择方法 GPSFM 正是将散度 T w ω S ω 引入 PSVM 方法中得到的。因此该方法不但可以提高原方法的适应性,而且还可以在一定程 度上提高分类效果和效率,同时具有比较明确的几何含义。8 6 4 2 0 2 4 6 8 10 10 8 6 4 2 0 2 4 6 8 10 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 (a) (b) 注:红色的“□” 、黑色的“○”分别表示不同的两类的样本。 图 23 各类样本均值对分类的影响 定义 2.4 给定为输入样本空间 X 和复杂特征空间 Z 对应的并矢矩阵 F ,输 入样本对应的类标号 ( ,1 2 , , ) T n y y y = y K ,设 ω 、b 分别为分类超平面对应的法向 量、偏移量,则 GPSFM 方法的原始最优化问题为: , 1 min ( ) ( ) 2 + - + 1 + T T b w C ω ω S ω ξ ξ (2.11) ( - ) + + + 1 0 T T e F X ω y ξ ≥ (2.12) ( ) - - - - 1 0 T T e F X ω y ξ ≤ (2.13) 其中 + - ξ ,ξ ≥ 0 是松弛因子。 松弛因子的作用是放松边界条件,允许有训练集被划错的情况出现。e 为衡 量相关性阈值,C 是惩罚参数。阈值e 越大,被选择的特征数越少;而惩罚参数 C 越小,特征选择的冗余度越高 [5] 。因此,在实际求解上述对偶式时,要适当地选 取这两种参数,以达到较好的特征选择效果。 原始最优化问题目标函数体现了类内离散度最小化, 而且实现了对 PSVM 方 法的泛化, 同时引入了松弛因子, 体现了允许训练集被划错的情况, 说明了 GPSFM 具有较强的适应性。下面给出最优化问题(2.11)~(2.13)的对偶问题。 定理 2.4 考虑线性 GPSFM 方法,则原始最优化问题(2.11)~(2.13)的 对偶问题是: , 1 min ( ) ( ) ( ) ( ) 2 T T b e + - + - + - + - - - - - + + ω α α H α α y F α α 1 α α (2.14) s.t. 1 1 ( , , ) ( , , ) T Q T Q C C a a a a + + + - - - < = < < = < α α K K 0 1 0 1 (2.15)
其中: T T + = w H F X (S ) XF 和S 是w + MP 广义逆,当 S 非奇异时,则广义逆 w 为正常逆矩阵,否则为伪逆。 证明 首先对原问题引入 Lagarange 函数。 w 1 ( ) ( ) ( ) 2 ( ) ( ) T T T T T L C e e + - + - + - + - + + - - + + - - = + + - - + + + - - - - - ω,α ,α ,ξ ,ξ , β , β ω S ω 1 ξ ξ α F (X ω y) ξ 1 α F (X ω y) ξ 1 β ξ β ξ (2.16) 要想原问题达到最优,就必须有 0 L ¶ = ¶ω (2.17) 0 0 L L + - ¶ ¶ = = ¶ξ , ¶ ξ (2.18) 根据(2.17)得到 + + - = w - ω (S ) XF(α α ) (2.19) 根据(2.18)得到 C + + = - β 1 α (2.20) C - - = - β 1 α (2.21) 将(2.19)~(2.21)代入(2.16) ,即可得到对偶问题(2.14)和(2.15) 。 定理 2.5 考虑线性问题,设 + - = - α α α 是对偶问题(2.14)~(2.15)的解, 则可按下列方式计算出原始最优化问题(2.11)~(2.13)的解( ,b ω ): + + - = w - ω (S ) XF(α α ) (2.22) 1 T T T T b m + - + = - ((α -α ) F X (S ) Xw - y )1 (2.23) 证明 (2.22)已经在定理 2.4 中得到了说明,下面证明(2.23) 。 设在 GPSFM 方法中的决策函数为 ( ) ( , ) g x i = ω x i + b ,则对于任意一个样本 i x ,对应的残差为 ri =g(x i ) - y i ,根据最小二乘原理,要想 GPSFM 方法在分类 时 得 到 的 局 部 误 差 最 小 , 就 必 须 满 足 所 有 样 本 对 应 的 残 差 平 方 和 均 值 2 1 1 ( ( )) 2 n i i R g r n = =
å
i x 最小,即有: 1 (( ) i ) 0 R b y b n ¶ = + - = ¶å
x i i ω, x (2.24) 因此 1 1 1 (( ) ) ( ) n T T i i b y n = n = -å
ω, x i - = - ω X- y 1 (2.25) 将(2.22)代入(2.25) ,即得结果(2.23) 。在 GPSFM 算法中,根据定理 2.4 中对偶问题的解来进行支持特征的选取,当 0 j j a+ a- - > 时,对应的复杂特征 zj 被作为支持正类的特征被选取;当 aj aj 0 + - - < 时,对应的复杂特征 zj 被作为支持负类的特征被选取。然而,从这种选择过程并 不能看出一个具体的复杂特征如何实现对分类的贡献程度以及对偶问题解的直观 含义,因此,下面给出一个定理来说明。 定理 2.6 考虑线性问题,设 (α 1, ,α Q)T (α 1, ,α Q ) T + + + - - - = = α L , α L 分别是对偶 问题(2.14)和(2.15)的解,则有下列性质成立: <1>当 aj 0 + > ,则 aj 0 - = ; <2>当 aj 0 - > ,则 aj 0 + = ; <3>对 j " , a aj j 0 + - = 。 证明 首先证明性质<1>。 令 T T ( ) + = w H F X S XF , T = l F y , Tj=[Hα ] j- l j ,其中 α α = +- α , - l 是 j l 的第 j 个分量, Tj+ Tj e = + ,T j- Tj e = - + , 因此原始最优化问题的 (2.12) 和 (2.13) 可以表示为: ( ) T T e + + + - + + = + F X ω y ξ 1 T ξ ( ) ( ) T T e + - - - - - = - + F X ω y ξ 1 T ξ (2.26) 根据构造 KarushKuhnTucker(KKT)条件的基本原理 [23] 、GPSFM 方法的对 偶问题和(2.26) ,可以构造如下 KKT 条件: ( ) 0 j Tj j a+ + x+ + = ( ) 0 j Tj j a- - x- - + = (2.27) 0 b x+ + = 0 b x- - = 根据前提 aj+ 0 > 和 KKT 条件(2.27) ,则限制条件(2.12)的第 j 个限制条 件分量为: [ T( T )]j xj e Tj xj 0 + + + - + + = + = F X ω y (2.28) 因为 Tj Tj 2 e + - + = , 由 (2.28) 可得 Tj 2e xj 0 - + = + > , 所以根据 KKT 条件 (2.27) 可得 aj 0 - = 。性质成立。 同理可以证明性质<2>。 对于性质<3>, 根据以上两条性质, 当 aj+ 和 aj - 不同时为 0 时显然成立, 当 j a+ 和 a- j同时为 0 时更成立。 从定理 2.6 可以看出,当 a+ j为非零时,其对应的复杂特征 z 就是支持正类的j
支持特征;当 aj - 为非零时,其对应的复杂特征 j z 就是支持负类的支持特征。这和 标准的 SVM 方法有点相似,只不过这里最后选择的是支持特征,而不是支持向 量。而且还可以看出,对于任意一个复杂特征,最多只能对两类中的一类决策起 作用,这一点说明了本章的 GPSFM 方法很好地继承了 PSVM 方法的基本性质, 并使该性质在新的泛化后的目标函数上得到了推广。 根据以上定理构造 GPSFM 算法。 算法 2.1 广义的势支撑支持向量机 GPSFM。 Algorithm:GPSFM Step1: 求解定理 2.4 对应的对偶问题的解: ( 1 , , ) T Q a a + + + = α L , ( 1 , , ) T Q a a - - - = α L ; Step2: 令 aj aj aj (j 1, , ) Q + - = - = L 。 如果 a > , j 0 则复杂特征空间 Z 中分量 z j 将作为支持正类的特征被选择;反之,将作为支持负类的特征被选择; Step3:根据定理 2.5 中的(2.22)、(2.23) ,分别计算分类决策平面法向量 ω 和偏移量 b; Step4 : 根 据 分 类 决 策 平 面 法 向 量 ω 和 偏 移 量 b , 构 造 分 类 决 策 函 数 ( ) ( , ) g x i = ω x i + b ; Step5:使用决策函数 (g x 对待分类样本进行分类。i )
2.4
实验研究
通过以上分析可以看出, GPSFM 方法不但在一定程度上继承了势支持向量机 的优点,而且从理论上实现了支持向量机的泛化。下面使用三种线性分类算法 (GPSFM、 PSVM、 SVMRFE[58]) 分别在国际公认的 UCI 数据集 (http://www.ics. uci.edu/~mlearn/MLRepository.html ) 和 人 脸 识 别 数 据 集 ORL [38,42,68] (http://www.cs.uiuc.edu/homes/dengcai2/)测试,而在测试基因数据集(UCI 中的 DNA 数据集[64,66]、Colon 数据集(http://www.molbio.princeton.edu/)时只使用 GPSFM 和 PSVM。需要说明的是,在使用 GPSFM 和 PSVM 方法时,取复杂特 征 = Z I , T = F X ,并对矩阵 T = F X 进行规范化 [5,60] 。 在比较 GPSFM 和 PSVM 方法时, 主要说明特征选择结果和测试精度之间的 关系,同时说明参数e 值对两种方法选择结果的影响。具体实现过程为:在相近 的特征选择数目的前提下比较e 值和相应的分类精度。而对于 SVMRFE 方法, 采用线性核的方式进行实验。2.4.1 真实数据
UCI 数据集是经典的数据集,经常用来测试聚类、分类算法的性能。本书使 用 UCI 数据集中的多个数据子集来测试 GPSFM 方法,这些数据子集包括: australian 数据集、diabetes 数据集、heart 数据集、breast 数据集、liver_disorder 数据集、ionosphere 数据集、pima 数据集、glass 数据集(float 和 non_float) 、sonar 数据集和 threeof9 数据集等,上述数据基本状态见表 21。 表 21 australian 数据集、heart 数据集数据集 Datasets The Number of Training Samples The Number of Test Samples The Number of Features australian 460 230 14 diabetes 510 256 8 heart 180 90 13 breast 465 233 10 liver_disorder 230 115 6 ionosphere 230 117 33 pima 510 256 8 glass2 105 54 9 sonar 135 69 60 threeof9 340 170 9 为了说明算法的具体性能,本实验首先对每一个数据集随机组合 5 次,每次 组合后采用 5折交叉验证,并计算得到平均精度和相应的方差。同时为了说明参 数
e
对本书 GSPFM 方法的影响,任意选取 4 个数据集在具体某一次测试过程中 的效果来加以说明。实验结果见表 22 和图 24。 表 22 GPSFM 方法、PSVM 方法和 SVMRFE 方法测试精度比较 Datasets The Number ofSelected Features Methods Accuracies GSPFM 0.73478
±
0.047029 PSVM 0.7058±
0.032633 14 SVMRFE 0.72609±
0.10237 GSPFM 0.76087±
0.037148 PSVM 0.72457±
0.030123 australian 12~13 SVMRFE 0.80754±
0.051871续表
Datasets The Number of
Selected Features Methods Accuracies GSPFM 0.77536
±
0.021447 PSVM 0.81043±
0.032929 10~11 SVMRFE 0.79034±
0.123 GSPFM 0.83072±
0.039848 PSVM 0.75507±
0.048098 8~9 SVMRFE 0.73623±
0.12192 GSPFM 0.81884±
0.048098 PSVM 0.65797±
0.031453 5~7 SVMRFE 0.73118±
0.12269 GSPFM 0.71426±
0.01193 PSVM 0.61563±
0.026566 3~4 SVMRFE 0.72309±
0.2539 GPFM 0.66377±
0.018407 PSVM 0.60391±
0.01368 australian 1~2 SVMRFE 0.68986±
0.14836 GSPFM 0.66276±
0.044244 PSVM 0.66797±
0.055381 8 SVMRFE 0.47135±
0.044936 GSPFM 0.73438±
0.037263 PSVM 0.7487±
0.026009 6~7 SVMRFE 0.60794±
0.037292 GSPFM 0.76042±
0.023868 PSVM 0.76832±
0.026598 3~5 SVMRFE 0.52083±
0.16798 GSPFM 0.65104±
0.044936 PSVM 0.71224±
0.055427 diabetes 1~2 SVMRFE 0.42708±
0.13104 GSPFM 0.81852±
0.061195 PSVM 0.82963±
0.061864 heart 13 SVMRFE 0.76465±
0.1753续表
Datasets The Number of
Selected Features Methods Accuracies GSPFM 0.82094
±
0.039021 PSVM 0.82593±
0.050103 11~12 SVMRFE 0.74386±
0.16814 GSPFM 0.84074±
0.039021 PSVM 0.83333±
0.061195 8~10 SVMRFE 0.79259±
0.3407 GSPFM 0.84444±
0.02222 PSVM 0.81481±
0.078829 6~7 SVMRFE 0.82963±
0.07229 GSPFM 0.8037±
0.044905 PSVM 0.7963±
0.078042 4~5 SVMRFE 0.6667±
0.16814 GSPFM 0.68519±
0.035717 PSVM 0.64676±
0.069389 2~3 SVMRFE 0.6±
0.1975 GSPFM 0.58779±
0.048365 PSVM 0.60741±
0.081901 heart 1 SVMRFE 0.5667±
0.18745 GSPFM 0.65522±
0.042342 PSVM 0.56509±
0.01777 10 SVMRFE 0.80963±
0.101 GSPFM 0.76109±
0.084249 PSVM 0.70386±
0.01777 8~9 SVMRFE 0.95567±
0.016749 GSPFM 0.80687±
0.052739 PSVM 0.8927±
0.060746 7 SVMRFE 0.90844±
0.0042918 SPFM 0.90275±
0.067041 PSVM 0.85408±
0.060847 breast 5~6 SVMRFE 0.87139±
0.006559续表
Datasets The Number of
Selected Features Methods Accuracies GSPFM 0.76402
±
0.070296 PSVM 0.714587±
0.060847 2~4 SVMRFE 0.837842±
0.0049558 GSPFM 0.64389±
0.052967 PSVM 0.55564±
0.047281 breast 1 SVMRFE 0.795826±
0.0029532 GSPFM 0.58841±
0.026566 PSVM 0.66667±
0.04094 5~6 SVMRFE 0.46667±
0.010041 GSPFM 0.68261±
0.030123 PSVM 0.5768±
0.027953 3~4 SVMRFE 0.53623±
0.078902 GSPFM 0.5791±
0.025102 PSVM 0.56852±
0.023007 liver_disorder 1~2 SVMRFE 0.50725±
0.03058 GSPFM 0.88889±
0.017904 PSVM 0.86325±
0.037259 33 SVMRFE 0.77778±
0.08547 GSPFM 0.8661±
0.022723 PSVM 0.85755±
0.044412 31~32 SVMRFE 0.68946±
0.13843 GSPFM 0.87179±
0.049346 PSVM 0.8547±
0.043019 23~25 SVMRFE 0.70573±
0.0952 GSPFM 0.89744±
0.014804 PSVM 0.8604±
0.013056 16~19 SVMRFE 0.80912±
0.038541 GSPFM 0.86352±
0.017792 PSVM 0.85185±
0.071168 ionosphere 8~11 SVMRFE 0.69231±
0.066754续表
Datasets The Number of
Selected Features Methods Accuracies GSPFM 0.849
±
0.021509 PSVM 0.8433±
0.054281 3~5 SVMRFE 0.5755±
0.09131 GSPFM 0.79202±
0.065279 PSVM 0.71795±
0.059215 ionosphere 1~2 SVMRFE 0.5782±
0.1773 GSPFM 0.66797±
0.024808 PSVM 0.75±
0.02067 8 SVMRFE 0.46484±
0.13003 GSPFM 0.75911±
0.021514 PSVM 0.76823±
0.035229 6~7 SVMRFE 0.47529±
0.14894 GSPFM 0.76432±
0.017027 PSVM 0.7526±
0.022212 3~5 SVMRFE 0.48698±
0.17834 GSPFM 0.66276±
0.011934 PSVM 0.71094±
0.023761 pima 1~2 SVMRFE 0.42188±
0.010335 GSPFM 0.69258±
0.042767 PSVM 0.69136±
0.074842 8~9 SVMRFE 0.67901±
0.046604 GSPFM 0.66676±
0.03529 PSVM 0.685391±
0.010428 5~7 SVMRFE 0.67284±
0.038549 GSPFM 0.59321±
0.10692 PSVM 0.64815±
0.08072 3~4 SVMRFE 0.62346±
0.010692 GSPFM 0.48765±
0.010593 PSVM 0.59295±
0.048995 glass2 1~2 SVMRFE 0.5679±
0.09135续表
Datasets The Number of
Selected Features Methods Accuracies GSPFM 0.653892
±
0.030274 PSVM 0.704597±
0.083201 60 SVMRFE 0.66547±
0.057971 GSPFM 0.72446±
0.052254 PSVM 0.71368±
0.066414 27~30 SVMRFE 0.67633±
0.074371 GSPFM 0.73745±
0.050897 PSVM 0.687429±
0.047601 12~15 SVMRFE 0.71498±
0.030109 GSPFM 0.65739±
0.071491 PSVM 0.66349±
0.052254 6~8 SVMRFE 0.69565±
0.063172 GSPFM 0.57971±
0.075307 PSVM 0.59082±
0.11257 sonar 1~3 SVMRFE 0.61353±
0.082409 GSPFM 0.8±
0.048149 PSVM 0.79412±
0.050259 9 SVMRFE 0.78235±
0.013362 GSPFM 0.7902±
0.044927 PSVM 0.76471±
0.047059 7~8 SVMRFE 0.73529±
0.012959 GSPFM 0.59216±
0.02227 PSVM 0.57059±
0.072284 3~4 SVMRFE 0.58235±
0.048149 GSPFM 0.56078±
0.062898 PSVM 0.53333±
0.04004 threeof9 1~2 SVMRFE 0.56471±
0.154780 20 40 60 80 100 120 140 160 0 2 4 6 8 10 12 14 e th e S e le c te d F e a tu re s GPSFM PSVM 0 50 100 150 200 250 300 350 400 1 2 3 4 5 6 7 8 9 10 e the S e le c te d F e a tu re s GPSFM PSVM (a)australian 数据集 (b)breast 数据集 0 20 40 60 80 100 120 140 0 5 10 15 20 25 30 35 e th e S e le c ted F e a tu re s GPSFM PSVM 0 10 20 30 40 50 60 70 0 10 20 30 40 50 60 e th e S e le c ted F e a tu re s GPSFM PSVM (c)ionosphere 数据集 (d)sonar 数据集 图 24 参数与选择特征数的关系 从表 22 和图 24 可以得到如下结论: (1)根据表 22 可以看出,在对 UCI 数据集进行测试时,GSPFM 方法只有在 3 个数据集上最高分类精度略低于 PSVM、 SVMRFE 方法测试所得精度, 这可以说明 GSPFM 方法具有较好的分类精度。从测试的方差上看,GSPFM 方法同其他两种方 法相比,具有相对较小的方差值,这说明 GSPFM 方法具有较好的分类稳定性。 (2)从表 22 还可以看出,GPSFM 方法符合特征选择方法的一般规律,即 测试精度随着特征选择数目的变化有一个从小到大再到小的过程。同时和其他两 种方法相比, 还具有特征冗余度低的优点, 比如: 测试 australian 数据集时, GPSFM 方法在支持特征数为 8~9 时测试精度最高,而 PSVM、SVMRFE 方法分别在选 择特征数为 10~11、12~13 时测试精度最高;在测试 liver_disorder 数据集时, GPSFM 方法在支持特征数为 3 时测试精度最高,而 PSVM 和 SVMRFE 则分别
在特征数为 5~6 和 4 时取得最高;在测试 heart 数据集时,GPSFM 方法在支持特 征数为 6 时测试精度最高,而 PSVM、SVMRFE 方法分别在选择特征数 10、7 左右时测试精度最高。 (3)图 24 说明本章的 GPSFM 方法和 PSVM 相关性参数e 增大,特征选择 数减少的基本特点, 符合这两种算法构造的基本原理。 然而, GPSFM 方法和 PSVM 相比,当e 增大时,拥有更快速的特征选择过程,这就说明 GPSFM 方法具有更 强的特征选择能力和效率。 2.4.2 基因数据 基因数据集具有维数高、特征冗余度大的特点,因此经常用来测试分类算法 和聚类算法。本章使用一个训练样本和测试样本数较大的基因集(DNA 数据集) 和一个维数较高的基因集(Colon 数据集)(表 23)来测试 GPSFM 方法的特征选 择能力和分类效果。 表 23 基因(DNA、Colon)数据集 Datasets The Number of Training Samples The Number of Test Samples The Number of Features DNA 2000 1186 180 Colon 32 30 2000 表 24 GPSFM 方法、PSVM 方法和 SVMRFE 方法测试基因数据集精度比较 Datasets The Number of
Selected Features Methods Classification Accuracies GPSFM(e =0.1) 0.66842 180 PSVM(e =0.1) 0.6702 GPSFM(e =1) 0.67291 174~175 PSVM(e =1) 0.6702 GPSFM(e =10) 0.6774 126~128 PSVM(e =10) 0.66896 GPSFM(e =20) 0.70257 57~58 PSVM(e =30) 0.68606 GPSFM(e =30) 0.6739 DNA 31~32 PSVM(e =40) 0.67291
续表
Datasets The Number of
Selected Features Methods Classification Accuracies GPSFM(e =40) 0.66994 7 PSVM(e =70) 0.64348 GPSFM(e =78) 0.65896 DNA 1 PSVM(e =570) 0.64348 GPSFM(e =0.1) 0.56552 2000 PSVM(e =0.1) 0.5657 GPSFM(e =3) 0.66897 1000~1005 PSVM(e =15) 0.6549 GPSFM(e =3.42) 0.71264 490~500 PSVM(e =23) 0.6827 GPSFM(e =3.44) 0.76092 250~254 PSVM(e =23) 0.6653 GPSFM(e =3.5) 0.71264 15~18 PSVM(e =31) 0.652 GPSFM(e =8.4) 0.65289 Colon 1~2 PSVM(e =36) 0.54023 注:以上结果是按表 23 比例划分,重复运行 5 次的平均性能 根据表 24 可以得到如下结论: (1)在测试 DNA 数据集时,尽管测试的样本数较大,然而还可以看出, GPSFM 方法和 PSVM 方法比较,在特征选择数大致相同的情况下具有较高的分 类精度,这说明该方法在处理样本数较高的数据集时具有较好的分类精度和较好 的特征选择效果; (2)在测试 Colon 数据集时,因为该数据集具有较高的维数,所以从某种程 度上更能说明特征选择的效果。 从表 24 的测试结果来看, GPSFM 方法和 PSVM 方法相比,不管在特征选择效果还是在分类精度上都具有一定的优势,从而说明 了该方法在处理高维基因数据集时可以实现有效的特征选择,以达到提高分类精 度的作用; (3)根据表 24 还可以看出,在测试基因数据集时和测试经典 UCI 数据集时 具有相似的结果,即 GPSFM 方法同 PSVM 方法相比,在特征选择过程中具有更
低的特征冗余度,而且当这两种方法在选择相近的特征数时,GPSFM 方法对应的 参数
e
值要比 PSVM 方法中相应的参数小得多,这说明本章 GPSFM 方法具有更 快速的特征选择过程。 2.4.3 人脸图像数据 ORL( 32 32 ´ )人脸识别数据集是经常用来测试特征降维后分类器的分类精 度 [38,42,68] ,该数据集包含 40 类不同人的脸部图像,每类具有同一个人 10 种不同 表情、背景的图像,在本书中,我们选取两类共 20 个人脸图像,其中每类随机选 取 3 幅图像作为训练样本,剩下的作为测试样本。图 25 表明的是同一个人的 10 幅不同表情的图像,测试结果见表 25。 50 100 150 200 250 300 5 10 15 20 25 30 图 25 ORL 数据集中某一类所有图像 表 25 GPSFM 方法、PSVM 方法和 SVMRFE 方法测试人脸数据集精度比较 Datasets The Number of Selected Features Algorithms The Test Set Accuracy GPSFM(e =0.1) 0.78571 PSVM(e =0.1) 0.78571 1024 SVMRFE 0.85714 GPSFM(e =0.3) 0.85714 PSVM(e =4.7) 0.78571 500~512 SVMRFE 0.85714 GPSFM(e =0.5) 0.85714 PSVM(e =8) 0.85714 114~128 SVMRFE 0.92857 GPSFM(e =0.85) 0.92857 PSVM(e =11) 0.71429 64~88 SVMRFE 0.85714 GPSFM(e =1) 0.64286 PSVM(e =19) 0.42857 ORL(32×32) 1~3 SVMRFE 0.5从表 25 可以看出: (1)当 GPSFM 和 SVMREF 从分类精度上进行比较时,虽然两种方法测试 该人脸图像数据时,最高精度都可以达到 0.92875,但 SVMREF 在选择了 128 个 特征后精度达到最高,而本章的 GPSFM 方法在达到最高精度时只选取了 88 个特 征;当 GPSFM 同 PSVM 进行比较时,可以表明 GPSFM 方法具有较高的分类精 度,同时具有更低的特征冗余度。 (2)从 GSPFM 方法、PSVM 方法、SVMRFE 方法中选择 1~3 特征进行 降维分类的测试结果来看,GPSFM 方法在只选取两个特征时,分类精度还可以达 到 0.64286,这充分说明了该方法作为一种封装型特征选择方法,具有一定的特征 选择能力和分类效果。 总之,通过以上三个实验可以充分说明 GPSFM 方法具有一定的分类效果, 同时表现出较强的特征选择能力,和 PSVM 相比还具有较快的特征选择速度。