• 沒有找到結果。

基于智能计算的降维技术研究与应用 - 万水书苑-出版资源网

N/A
N/A
Protected

Academic year: 2021

Share "基于智能计算的降维技术研究与应用 - 万水书苑-出版资源网"

Copied!
21
0
0

加載中.... (立即查看全文)

全文

(1)

2.1 引言

特征选择就是从一组特征中挑选出一些最有效的特征以达到降低特征空间维 数的目的,即在一组数量为 D 的特征中选择出数量为  d( D d > )的一组最优特 征来,对于分类任务来说,这样做的目的是简化分类算法的时间和空间复杂度, 从而提高了分类算法的精度、效率。总地来说,对于分类问题,解决特征选择问 题的方法总体上分为两类:一类是将特征选择和分类过程分离,特征选择的过程 和具体的分类器无关,如  RELIEF  算法 [13] ,这类方法称为过滤型方法(Filter 

approach) [13,52,53] ;另外一类是封装型方法(Wrapper  approach) [54,55] ,这类方法

将特征选择和分类器的设计融合在一起, 特征选择性能和采用的分类器密切相关。 两类分法各具特色和不足:滤波型方法实现简单,效率高,但用于分类识别时分 类精度较差;封装型方法具有较高的分类性能,但对于不同的分类器,移植性不 如滤波法。本章研究的重点属于第二大类,即构造一种封装型的特征选择方法。 近年来,基于支持向量机  SVM  技术的封装型特征选择方法由于其一些独特 的优势得到了较为广泛的关注 [2,56,57,58,59,60] 。该类方法最突出的优点是基于结构风 险最小化原理,具有较强的泛化能力。因此,在特征选择问题上较基于经验风险 最小的众多方法具有更好的鲁棒性。 在最近基于支持向量技术的封装型特征选择方法中,S.  Hochreiter  和  K.  Obermayer 等人提出的势支持向量机 (Potential Support Vector Machine, P­SVM) [5,61­63]  方法是最具特色的方法之一。该方法通过定义新的目标函数和相应的边界条件直接 实现对支持特征的选取,因此和一些基于标准 SVM 的特征选择方法 [57­60] 相比具有以 下优点:①由于是直接选取支持特征,而不是通过选择支持向量来实现对特征选取, 所以提高了特征选择的速度;②通过定义新的边界条件减少了边缘误差传播的可能 性,提高了分类和特征选择的精度和稳定性;③通过定义新的目标函数实现了对并 矢数据集(Dyadic Matrix)的处理,从而克服了标准 SVM 方法只能处理成对数据集 (Pairwise Matrix)的局限,提高了特征选择和分类的适应性。 然而通过研究 Fisher 线性判别准则 [45]  和 P­SVM 对应的目标函数发现, P­SVM  对应的目标函数只是类内离散度的一种特殊情形(即当各类的样本均值为 0 时对

(2)

应的类内离散度) ,从而使得该方法的运用受到一定的限制。同时由于满足各类样 本均值为 0 ,一定程度上会导致 0 矢量周围出现样本交叉,从而不利于 P­SVM 方 法得到最优决策超平面,而且降维后会出现重叠的现象,降低分类效果。针对  P­SVM 存在的不足,本章通过使用标准的类内散度矩阵重新构造目标函数来实现 对  P­SVM  的泛化,提出一种广义的势支持特征选择方法  GPSFM(Generalized  Potential Support Features Selection Method) 。 GPSFM 不但提高了 P­SVM 作为特征 选择方法的适应性, 而且还继承了势支持向量机作为封装型特征选择方法的优点, 同时还具有冗余度底、特征选择快的特点,从而在一定程度上提高了特征选择效 果和分类的精度。 

2.2

势支持向量机 P­SVM 

定义 2.1 [5]  设输入样本空间  1  { , , , n} (xi, ,x id ) T  = 1 2 " X x x L x L , 复杂特征 空间  { , , , } ( , , ) T  j jd  z z = 1 2 Q " Z z z L z L ,则称 F X Z  为并矢矩阵(图T   2­1  (a)) ,显然当 = Z X  时,并矢矩阵转化为成对矩阵(图 2­1(b)) ,而当 = Z I 时,  T F X  。  0  1  3  ­2  3  ­5  1  7  2  ­1  ­3  4  ­2  1  ­2  0  1  ­0.1  ­2  ­3  ­0.1  1  3  1  ­2  3  1  ­0.5  ­3  1  ­0.5  1  (a)并矢数据矩阵 (b)成对数据矩阵 图 2­1  并矢数据矩阵和成对数据矩阵 从定义 2.1 可以看出,并矢矩阵 F 一般是不对称的,该矩阵的列向量表示输 入样本,行向量代表复杂特征。也就是说,列向量对应的列对象是要描述的对象, 而复杂特征(行对象)是为描述列对象服务的。比如文献[64,65]中的基因数据集 (drug­gene matrix)就是一个并矢矩阵的形式,该数据集就是使用 drug­cell 矩阵 ( X 矩阵)和 gene­cell 矩阵(复杂空间矩阵 Z )相互作用形成的,因此该数据集 使用基因(行对象)来描述生物组织样本(列对象) ,而矩阵中任意一个数值则反 映了在特定样本中的特定基因的表现程度。再比如在网页文档数据集中,通常用 网页作为输入样本(列对象) ,而使用其他包含这些网页(列对象)超链接的网页 (行对象)来描述,数据集中的数值反映了包含直接超链接的数目等。而在实际

(3)

的特征选取过程中,对一些特定的数据集所对应的复杂特征空间 Z 不太容易得 到, 在文献[5,61­63]中 Z 通过两种方法求解: 一是假设数据集对应的复杂特征 Z 满 足均匀分布或者正态分布,从而随机产生相应的复杂特征空间;二是取 = Z I 。 而本章最后测试的数据集就是数据集 X  本身,因此实验过程中设定复杂特征 Z I ,  T F X  。 图 2­2 表明的是一个二维数据的二分类问题,在图 2­2(a)中,两类样本可 以较好地被一带有最大间隔的超平面(用实线表示)区分开,其中最大间隔  2 2  1  d d  2 = x+  y r ,比率  2 2  2 2 2  4  d d = R x y r (该比率与 VC 维相关  [23] ;在图 2­2(b) 中,两类样本(该样本是图 2­2(a)中的训练样本沿 

方向被放大

s

倍后得到的) 同样被一带有最大间隔的超平面(实线表示)区分开,其中  1  2 2 2  d d  2 = x+ s y r ,  2 2  2 2 2 2  4  d d = R x s y r ,而当变换因子

再次转换为 

1

时,该实线已经不再是原问 题的解了(图 2­2(a)中的虚线) 。因此,在传统的 SVM 方法中,优化超平面在 变换因子

s

的影响下并不是不变的(r 和  2  R r 都随 s 变化而变化) ,特别是在 SVM  学习方法使用前,训练样本如果已经经过了相应的变换,那么在一定程度上会影 响最终的分类效果。 (a) (b) 图 2­2  变换因子 s 对选取最优超平面的影响 为了降低变换因子

s

对决策超平面的影响、 在一定程度上保持决策超平面稳 定性(即不随变换因子

s

的变化而变化) ,Hochreiter S 和 Obermayer K 等人提出  dx  dx  sdy  dy  R  R

(4)

了势支持向量机  P­SVM。为了便于优化,该支持向量机使用过估计的方法选取 比率  2  R r 的最小上界 | ||  X  ω  作为目标函数, 从而在一定程度上保证了决策超平面 的不变性,同时根据经验风险最小化 和最小二乘 原理构造相应的约束条件  ( T b + - F X  ω  1 0 ,然而为了降低噪音对特征选择和分类的影响,可以将条 件放宽为 |FT(X  ω  +b- ) ||¥ ≤ ( e  e ) 。该约束条件与传统的  SVM  方法对 应的约束条件不同,P­SVM  的每一个约束条件对应的是每一个特征,而传统  SVM  的约束条件对应的是每一个样本,因此相对于直接选取支持向量的传统  SVM,P­SVM  直接选取的是支持特征。由此,可以得到如下  P­SVM  方法的原 始优化问题。 定义  2.2 [5]  给定为输入样本空间 X 和复杂特征空间 Z 对应的并矢矩阵 F , 输入样本对应的类标号  ( ,1 , , ) T  y y y K ,设 ω 、 b 分别为分类超平面对应的法 向量、偏移量,则势支持向量机(P­SVM)原始最优化问题为:  2  ,  1  min || ||  X  ω  (2.1)  ( T T e - F X  ω  y  1≥ 0  (2.2)  ( T T e - F X  ω  y  1≤ 0  (2.3) 其中e 为衡量相关性阈值,决定特征选择的数目。 对定义 2.2 要说明一点,即在(2.2) 、 (2.3)中没有偏移量 b 的出现,这是因 为在 P­SVM 方法中已经对矩阵 F 进行了规范化处理 [5,60] ,使得  b =  F  1  。 定理 2.1 [5]  考虑线性的 P­SVM 方法,则原始最优化问题(2.1)~(2.3)的 对偶问题是:  1  min ( ) ( ) ( ) ( )  T T T e + - + - + - + - + - - - - - + α  ,α  α  α  F F  α  α  y F  α  α  1  α  α  s.t.  1  1  ( , , )  ( , , Q a a a a + + + - - - = α  α  K K ≤ ≤  (2.4) 在势支持向量机方法中,通过定理  2.1  的解实现对支持特征的选取,当  j j a+ a- - > 时,对应的复杂特征 z  被作为支持正类的特征被选取;当  aj+ aj- - < 时,对应的复杂特征 z  被作为支持负类的特征被选取。 定理 2.2 [5]  考虑线性 P­SVM 方法,设 + - = α  α  α  是对偶问题(2.4)的任意 解,则可按下列方式计算出原始问题(2.1)~(2.3)的解(  ,b ω  ) ω  Zα  (2.5)

(5)

1 n  b n = =

å

(2.6) 因此,在 P­SVM 算法中,根据定理 2.1 所指定的对偶问题的解来实现特征选 择,根据定理 2.2 对应的解生成决策函数  ( ) ( , ) g i = ω  x  b 来实现分类。  P­SVM 方法作为一种封装型特征选择方法,既可以实现特征的选取,又可以 实现预测样本的分类,而且它是通过求解对偶问题(2.4)直接进行特征选择,实 验表明有较好的特征选择效果。然而为了便于优化,在寻找比率  2  R r 的最小上界  ||X  ω  的过程中使用了超估计方法,从而导致 ||   P­SVM 方法存在一定的问题,这 可以使我们通过下文的角度来研究  P­SVM。不难发现,P­SVM  对应的原始问题 的目标函数只是各类输入样本均值为 0 的类内离散度,而在实际问题的求解过程 中很少满足该算法所对应的条件,即使满足,也会由于条件的存在导致分类精度 在一定程度上受到影响,从而大大地影响了算法的效果和效率。为此,为了在一 定程度上提高 P­SVM 方法的适应性和分类效果, 本章从更具一般意义的类内离散 度出发,泛化 P­SVM 特征选择方法的原始目标函数, 提出一种新的广义的势支持 特征选择方法——GPSFM。 

2.3

广义的势支持特征选择方法:GPSFM 

2.3.1  类内离散度 定义 2.3 [45]  假设有 n 个样本组成的样本集 D{ ,x x1 2 ,L n } ,  i Π x R  , 它们分 别属于两个不同的类,其中大小为 n  的样本子集  D  属于正类,大小为  n  的样本子集   D  属于负类,给定分类决策平面的法向量ω ,则类内离散度为 ω  S  ω 。其中:   2  1  ( )( k= x D Î =

å å 

- - w k S x u x (称为类内散度矩阵) (2.7)  1  , 1, 2  n Î =

å 

= u (称为均值) (2.8) 在 Fisher 线性判别准则中,类内离散度是衡量类内样本紧密程度的度量。类 内离散度越小,说明类内样本的紧密程度越高,因此,在分类时要尽可能地要求 类内离散度小,这样才能保证分类的精度,得到好的分类效果。而提出的 GPSFM  算法就是利用最小化类内离散度作为原问题的目标函数,这样就可以较好地保证 分类的效果。

(6)

2.3.2  广义的势支持特征选择方法 下面的定理 2.3 和图 2­3 可以帮助我们从另外一个角度来观察 P­SVM。 定理 2.3  在 P­SVM 方法原问题最优化的目标函数是各类样本均值为 0 的类 内离散度。即假设有  m  个样本组成的样本集 D{ ,x x1 ,L n ,它们分别属于两 个不同的类,其中大小为 m  的样本子集1   D  属于正类,大小为  m  的样本子集2   D  属 于负类,给定分类决策平面的法向量 ω ,当样本集均值 0 ( k = 1, 2 时) ,  ω  S  ω=  2  ||X  ω  。 ||  证明 因为  2  || ||  Τ  T X  ω  ω  XX  ω  (2.9) 而当 0 ( k = 1, 2 时)  2  T T k= Î D =

å å 

ω  S  ω  ω  xx  ω  (2.10) 根据基本推导,因  2  T k= Î D =

å å 

XX xx  所以,定理得证。 从定理 2.3 可以看出,P­SVM 目标函数可以看成当两类样本均值同时为 0 时 的类内离散度,那么在最小化目标函数时,只有保证满足定理条件的特殊的数据 集才能达到类内离散度最小。然而在解决实际问题时,绝大部分问题对应的数据 集不具备这样的条件, 从而使得 P­SVM 这种特征选择算法在处理实际问题时呈现 出适应能力不强的特点。 图 2­3 说明的是在二分类时,要求各类均值为 0 和不要求各类均值为 0 两种 情况可能对分类所产生的影响。从图  2­3(a)中可以看出,当要求各类均值为  0  时,一定程度上会导致在矢量 0 = (0, 0) T 周围出现两类样本相互交叉的情况,从而 不利于寻找最优决策超平面, 而且样本在降维后在一定程度上会出现重叠的现象, 以致降低分类的效果。而当使用一般意义的散度  ω  S  ω 来替代  P­SVM  的目标函 数时,由于散度矩阵 S  不需要满足各类均值为  0 的条件,因此一定程度上会防止 两类样本交叉重叠的现象出现,有利于寻找最优决策超平面和提高分类精度(图  2­3(b)) 。 而本章广义的势支持特征选择方法  GPSFM  正是将散度  ω  S  ω 引入  P­SVM  方法中得到的。因此该方法不但可以提高原方法的适应性,而且还可以在一定程 度上提高分类效果和效率,同时具有比较明确的几何含义。

(7)

­8  ­6  ­4  ­2  0  2  4  6  8  10  ­10  ­8  ­6  ­4  ­2  0  2  4  6  8  10  ­1  ­0.8  ­0.6  ­0.4  ­0.2  0  0.2  0.4  0.6  0.8  1  ­1  ­0.8  ­0.6  ­0.4  ­0.2  0  0.2  0.4  0.6  0.8  1  (a) (b) 注:红色的“□” 、黑色的“○”分别表示不同的两类的样本。 图 2­3  各类样本均值对分类的影响 定义 2.4  给定为输入样本空间 X 和复杂特征空间 Z 对应的并矢矩阵 F ,输 入样本对应的类标号  ( ,1 2 , , y y y K ,设 ω 、b  分别为分类超平面对应的法向 量、偏移量,则 GPSFM 方法的原始最优化问题为:  ,  1  min ( ) ( )  2 + - + T ω  ω  S  ω  ξ  ξ  (2.11)  ( - ) + + +  1 T T e  F X  ω  y  ξ  ≥ (2.12)  ( ) - - - -  1 T T e  F X  ω  y  ξ  ≤ (2.13) 其中 + ξ  ,ξ  ≥ 0 是松弛因子。 松弛因子的作用是放松边界条件,允许有训练集被划错的情况出现。e 为衡 量相关性阈值,C 是惩罚参数。阈值e 越大,被选择的特征数越少;而惩罚参数 C  越小,特征选择的冗余度越高 [5] 。因此,在实际求解上述对偶式时,要适当地选 取这两种参数,以达到较好的特征选择效果。 原始最优化问题目标函数体现了类内离散度最小化, 而且实现了对 P­SVM 方 法的泛化, 同时引入了松弛因子, 体现了允许训练集被划错的情况, 说明了 GPSFM  具有较强的适应性。下面给出最优化问题(2.11)~(2.13)的对偶问题。 定理 2.4  考虑线性 GPSFM 方法,则原始最优化问题(2.11)~(2.13)的 对偶问题是:  ,  1  min ( ) ( ) ( ) ( )  T b e + - + - + - + - - - - - + ω  α  α  H  α  α  y F  α  α  α  α  (2.14)  s.t.  1  1  ( , , )  ( , , C a a a a + + + - - - < = < < = α  α  K 0 0 (2.15)

(8)

其中:  T T + H F X (S ) XF  和S  是  M­P 广义逆,当 S  非奇异时,则广义逆 为正常逆矩阵,否则为伪逆。 证明 首先对原问题引入 Lagarange 函数。  w  1  ( ) ( ) ( )  2  ( ) ( T T T L C e e + - + - + - + - + + - - + + - - = + + - - + + + - - - - ω,α  ,α  ,ξ  ,ξ  , β  , β  ω  S  ω  1 ξ  ξ  α  F (X  ω  y)  ξ  α  F (X  ω  y)  ξ  β  ξ  β  ξ  (2.16) 要想原问题达到最优,就必须有  L ¶ = ¶ω  (2.17)  0   L L + - ¶ ¶ = = ¶ξ ¶ ξ  (2.18) 根据(2.17)得到 + + - = ω  (S ) XF(α  α  )  (2.19) 根据(2.18)得到  C + + = β  α  (2.20)  C - - = β  α  (2.21) 将(2.19)~(2.21)代入(2.16) ,即可得到对偶问题(2.14)和(2.15) 。 定理 2.5  考虑线性问题,设 + - = α  α  α  是对偶问题(2.14)~(2.15)的解, 则可按下列方式计算出原始最优化问题(2.11)~(2.13)的解(  ,b ω  ): + + - = ω  (S ) XF(α  α  )  (2.22)  T T T m + - + = - ((α  -α  ) F X (S ) X y )1  (2.23) 证明 (2.22)已经在定理 2.4 中得到了说明,下面证明(2.23) 。 设在  GPSFM  方法中的决策函数为  ( ) ( , ) g i = ω  x  b ,则对于任意一个样本  x  ,对应的残差为 ri =g(y i ,根据最小二乘原理,要想 GPSFM 方法在分类 时 得 到 的 局 部 误 差 最 小 , 就 必 须 满 足 所 有 样 本 对 应 的 残 差 平 方 和 均 值  2  1  1  ( ( ))  R g n = =

å 

最小,即有:  1  (( ) ) b b n ¶ = + - = ¶

å

ω, x  (2.24) 因此  1  1 1  (( ) ) ( T b n = n = -

å 

ω, x  - = - ω  X- y  1  (2.25) 将(2.22)代入(2.25) ,即得结果(2.23) 。

(9)

在 GPSFM 算法中,根据定理 2.4 中对偶问题的解来进行支持特征的选取,当  j j a+ a- - > 时,对应的复杂特征 z被作为支持正类的特征被选取;当 aj aj + - - < 时,对应的复杂特征 z被作为支持负类的特征被选取。然而,从这种选择过程并 不能看出一个具体的复杂特征如何实现对分类的贡献程度以及对偶问题解的直观 含义,因此,下面给出一个定理来说明。 定理  2.6  考虑线性问题,设  (α 1, ,α Q)T (α 1, ,α Q ) T  + + + - - - = α  L , α  L 分别是对偶 问题(2.14)和(2.15)的解,则有下列性质成立:  <1>当 aj + > ,则 aj - = ;  <2>当 aj - > ,则 aj + = ;  <3>对  j " , a aj j + - = 。 证明 首先证明性质<1>。 令  T T ( + H F X S XF ,  T l F y , Tj=[Hα jl ,其中 α  α = +α  , - l  是  l 的第 j 个分量, Tj+ T e = + ,j- T e = - + , 因此原始最优化问题的 (2.12) 和 (2.13) 可以表示为:  ( T T e + + + - + + = F X  ω  y  ξ  1 ξ  ( ) ( T T e + - - - - - = - F X  ω  y  ξ  1 ξ  (2.26) 根据构造 Karush­Kuhn­Tucker(KKT)条件的基本原理 [23]  、GPSFM 方法的对 偶问题和(2.26) ,可以构造如下 KKT 条件:  ( ) j Tj a+ + x+ + =  ( ) j Tj a- - x- - + = (2.27)  0 b x+ + =  0 b x- - = 根据前提 aj+ > 和  KKT  条件(2.27) ,则限制条件(2.12)的第  j  个限制条 件分量为:  [ T( )]j xj e Tj x + + + - + + = + F X  ω  y  (2.28) 因为 Tj Tj  e + - + = , 由 (2.28) 可得 Tj 2e x - + = + > , 所以根据 KKT 条件 (2.27) 可得 aj - = 。性质成立。 同理可以证明性质<2>。 对于性质<3>, 根据以上两条性质, 当 aj+ 和 aj - 不同时为 0 时显然成立, 当  j a+ 和 a- j同时为 0 时更成立。 从定理 2.6 可以看出,当 a+ j为非零时,其对应的复杂特征 z  就是支持正类的

(10)

支持特征;当 aj - 为非零时,其对应的复杂特征  z  就是支持负类的支持特征。这和 标准的  SVM  方法有点相似,只不过这里最后选择的是支持特征,而不是支持向 量。而且还可以看出,对于任意一个复杂特征,最多只能对两类中的一类决策起 作用,这一点说明了本章的 GPSFM 方法很好地继承了 P­SVM 方法的基本性质, 并使该性质在新的泛化后的目标函数上得到了推广。 根据以上定理构造 GPSFM 算法。 算法 2.1  广义的势支撑支持向量机 GPSFM。  Algorithm:GPSFM  Step1: 求解定理 2.4 对应的对偶问题的解:  ( 1 , , Q a a + + + α  L ,  ( 1 , , Q a a - - - α  L ;  Step2: 令 aj aj a(j 1, , ) Q + - = - = L 。 如果 a > , j 则复杂特征空间 Z 中分量  将作为支持正类的特征被选择;反之,将作为支持负类的特征被选择;  Step3:根据定理 2.5 中的(2.22)、(2.23) ,分别计算分类决策平面法向量 ω  和偏移量 b;  Step4 : 根 据 分 类 决 策 平 面 法 向 量 ω 和 偏 移 量  b , 构 造 分 类 决 策 函 数  ( ) ( , g i = ω  x  b ;  Step5:使用决策函数  (x  对待分类样本进行分类。  

2.4

实验研究

通过以上分析可以看出, GPSFM 方法不但在一定程度上继承了势支持向量机 的优点,而且从理论上实现了支持向量机的泛化。下面使用三种线性分类算法 (GPSFM、 P­SVM、 SVM­RFE[58]) 分别在国际公认的 UCI 数据集 (http://www.ics.  uci.edu/~mlearn/MLRepository.html  ) 和 人 脸 识 别 数 据 集  ORL  [38,42,68]  (http://www.cs.uiuc.edu/homes/dengcai2/)测试,而在测试基因数据集(UCI  中的  DNA  数据集[64,66]、Colon  数据集(http://www.molbio.princeton.edu/)时只使用  GPSFM 和 P­SVM。需要说明的是,在使用 GPSFM 和 P­SVM 方法时,取复杂特 征 = Z I ,  T F X  ,并对矩阵  T F X  进行规范化 [5,60] 。 在比较 GPSFM 和 P­SVM 方法时, 主要说明特征选择结果和测试精度之间的 关系,同时说明参数e 值对两种方法选择结果的影响。具体实现过程为:在相近 的特征选择数目的前提下比较e 值和相应的分类精度。而对于  SVM­RFE  方法, 采用线性核的方式进行实验。

(11)

2.4.1  真实数据 

UCI 数据集是经典的数据集,经常用来测试聚类、分类算法的性能。本书使 用  UCI  数据集中的多个数据子集来测试  GPSFM  方法,这些数据子集包括:  australian  数据集、diabetes  数据集、heart  数据集、breast  数据集、liver_disorder  数据集、ionosphere 数据集、pima 数据集、glass 数据集(float 和 non_float) 、sonar  数据集和 threeof9 数据集等,上述数据基本状态见表 2­1。 表 2­1  australian 数据集、heart 数据集数据集  Datasets  The Number of  Training Samples  The Number of Test  Samples  The Number of  Features  australian  460  230  14  diabetes  510  256  8  heart  180  90  13  breast  465  233  10  liver_disorder  230  115  6  ionosphere  230  117  33  pima  510  256  8  glass2  105  54  9  sonar  135  69  60  threeof9  340  170  9  为了说明算法的具体性能,本实验首先对每一个数据集随机组合 5 次,每次 组合后采用 5­折交叉验证,并计算得到平均精度和相应的方差。同时为了说明参 数

e

对本书 GSPFM 方法的影响,任意选取 4 个数据集在具体某一次测试过程中 的效果来加以说明。实验结果见表 2­2 和图 2­4。 表 2­2  GPSFM 方法、P­SVM 方法和 SVM­RFE 方法测试精度比较  Datasets  The Number of 

Selected Features  Methods  Accuracies  GSPFM  0.73478

± 

0.047029  P­SVM  0.7058

± 

0.032633  14  SVM­RFE  0.72609

± 

0.10237  GSPFM  0.76087

± 

0.037148  P­SVM  0.72457

± 

0.030123  australian  12~13  SVM­RFE  0.80754

± 

0.051871

(12)

续表 

Datasets  The Number of 

Selected Features  Methods  Accuracies  GSPFM  0.77536

± 

0.021447  P­SVM  0.81043

± 

0.032929  10~11  SVM­RFE  0.79034

± 

0.123  GSPFM  0.83072

± 

0.039848  P­SVM  0.75507

± 

0.048098  8~9  SVM­RFE  0.73623

± 

0.12192  GSPFM  0.81884

± 

0.048098  P­SVM  0.65797

± 

0.031453  5~7  SVM­RFE  0.73118

± 

0.12269  GSPFM  0.71426

± 

0.01193  P­SVM  0.61563

± 

0.026566  3~4  SVM­RFE  0.72309

± 

0.2539  GPFM  0.66377

± 

0.018407  P­SVM  0.60391

± 

0.01368  australian  1~2  SVM­RFE  0.68986

± 

0.14836  GSPFM  0.66276

± 

0.044244  P­SVM  0.66797

± 

0.055381  8  SVM­RFE  0.47135

± 

0.044936  GSPFM  0.73438

± 

0.037263  P­SVM  0.7487

± 

0.026009  6~7  SVM­RFE  0.60794

± 

0.037292  GSPFM  0.76042

± 

0.023868  P­SVM  0.76832

± 

0.026598  3~5  SVM­RFE  0.52083

± 

0.16798  GSPFM  0.65104

± 

0.044936  P­SVM  0.71224

± 

0.055427  diabetes  1~2  SVM­RFE  0.42708

± 

0.13104  GSPFM  0.81852

± 

0.061195  P­SVM  0.82963

± 

0.061864  heart  13  SVM­RFE  0.76465

± 

0.1753

(13)

续表 

Datasets  The Number of 

Selected Features  Methods  Accuracies  GSPFM  0.82094

± 

0.039021  P­SVM  0.82593

± 

0.050103  11~12  SVM­RFE  0.74386

± 

0.16814  GSPFM  0.84074

± 

0.039021  P­SVM  0.83333

± 

0.061195  8~10  SVM­RFE  0.79259

± 

0.3407  GSPFM  0.84444

± 

0.02222  P­SVM  0.81481

± 

0.078829  6~7  SVM­RFE  0.82963

± 

0.07229  GSPFM  0.8037

± 

0.044905  P­SVM  0.7963

± 

0.078042  4~5  SVM­RFE  0.6667

± 

0.16814  GSPFM  0.68519

± 

0.035717  P­SVM  0.64676

± 

0.069389  2~3  SVM­RFE  0.6

± 

0.1975  GSPFM  0.58779

± 

0.048365  P­SVM  0.60741

± 

0.081901  heart  1  SVM­RFE  0.5667

± 

0.18745  GSPFM  0.65522

± 

0.042342  P­SVM  0.56509

± 

0.01777  10  SVM­RFE  0.80963

± 

0.101  GSPFM  0.76109

± 

0.084249  P­SVM  0.70386

± 

0.01777  8~9  SVM­RFE  0.95567

± 

0.016749  GSPFM  0.80687

± 

0.052739  P­SVM  0.8927

± 

0.060746  7  SVM­RFE  0.90844

± 

0.0042918  SPFM  0.90275

± 

0.067041  P­SVM  0.85408

± 

0.060847  breast  5~6  SVM­RFE  0.87139

± 

0.006559

(14)

续表 

Datasets  The Number of 

Selected Features  Methods  Accuracies  GSPFM  0.76402

± 

0.070296  P­SVM  0.714587

± 

0.060847  2~4  SVM­RFE  0.837842

± 

0.0049558  GSPFM  0.64389

± 

0.052967  P­SVM  0.55564

± 

0.047281  breast  1  SVM­RFE  0.795826

± 

0.0029532  GSPFM  0.58841

± 

0.026566  P­SVM  0.66667

± 

0.04094  5~6  SVM­RFE  0.46667

± 

0.010041  GSPFM  0.68261

± 

0.030123  P­SVM  0.5768

± 

0.027953  3~4  SVM­RFE  0.53623

± 

0.078902  GSPFM  0.5791

± 

0.025102  P­SVM  0.56852

± 

0.023007  liver_disorder  1~2  SVM­RFE  0.50725

± 

0.03058  GSPFM  0.88889

± 

0.017904  P­SVM  0.86325

± 

0.037259  33  SVM­RFE  0.77778

± 

0.08547  GSPFM  0.8661

± 

0.022723  P­SVM  0.85755

± 

0.044412  31~32  SVM­RFE  0.68946

± 

0.13843  GSPFM  0.87179

± 

0.049346  P­SVM  0.8547

± 

0.043019  23~25  SVM­RFE  0.70573

± 

0.0952  GSPFM  0.89744

± 

0.014804  P­SVM  0.8604

± 

0.013056  16~19  SVM­RFE  0.80912

± 

0.038541  GSPFM  0.86352

± 

0.017792  P­SVM  0.85185

± 

0.071168  ionosphere  8~11  SVM­RFE  0.69231

± 

0.066754

(15)

续表 

Datasets  The Number of 

Selected Features  Methods  Accuracies  GSPFM  0.849

± 

0.021509  P­SVM  0.8433

± 

0.054281  3~5  SVM­RFE  0.5755

± 

0.09131  GSPFM  0.79202

± 

0.065279  P­SVM  0.71795

± 

0.059215  ionosphere  1~2  SVM­RFE  0.5782

± 

0.1773  GSPFM  0.66797

± 

0.024808  P­SVM  0.75

± 

0.02067  8  SVM­RFE  0.46484

± 

0.13003  GSPFM  0.75911

± 

0.021514  P­SVM  0.76823

± 

0.035229  6~7  SVM­RFE  0.47529

± 

0.14894  GSPFM  0.76432

± 

0.017027  P­SVM  0.7526

± 

0.022212  3~5  SVM­RFE  0.48698

± 

0.17834  GSPFM  0.66276

± 

0.011934  P­SVM  0.71094

± 

0.023761  pima  1~2  SVM­RFE  0.42188

± 

0.010335  GSPFM  0.69258

± 

0.042767  P­SVM  0.69136

± 

0.074842  8~9  SVM­RFE  0.67901

± 

0.046604  GSPFM  0.66676

± 

0.03529  P­SVM  0.685391

± 

0.010428  5~7  SVM­RFE  0.67284

± 

0.038549  GSPFM  0.59321

± 

0.10692  P­SVM  0.64815

± 

0.08072  3~4  SVM­RFE  0.62346

± 

0.010692  GSPFM  0.48765

± 

0.010593  P­SVM  0.59295

± 

0.048995  glass2  1~2  SVM­RFE  0.5679

± 

0.09135

(16)

续表 

Datasets  The Number of 

Selected Features  Methods  Accuracies  GSPFM  0.653892

± 

0.030274  P­SVM  0.704597

± 

0.083201  60  SVM­RFE  0.66547

± 

0.057971  GSPFM  0.72446

± 

0.052254  P­SVM  0.71368

± 

0.066414  27~30  SVM­RFE  0.67633

± 

0.074371  GSPFM  0.73745

± 

0.050897  P­SVM  0.687429

± 

0.047601  12~15  SVM­RFE  0.71498

± 

0.030109  GSPFM  0.65739

± 

0.071491  P­SVM  0.66349

± 

0.052254  6~8  SVM­RFE  0.69565

± 

0.063172  GSPFM  0.57971

± 

0.075307  P­SVM  0.59082

± 

0.11257  sonar  1~3  SVM­RFE  0.61353

± 

0.082409  GSPFM  0.8

± 

0.048149  P­SVM  0.79412

± 

0.050259  9  SVM­RFE  0.78235

± 

0.013362  GSPFM  0.7902

± 

0.044927  P­SVM  0.76471

± 

0.047059  7~8  SVM­RFE  0.73529

± 

0.012959  GSPFM  0.59216

± 

0.02227  P­SVM  0.57059

± 

0.072284  3~4  SVM­RFE  0.58235

± 

0.048149  GSPFM  0.56078

± 

0.062898  P­SVM  0.53333

± 

0.04004  threeof9  1~2  SVM­RFE  0.56471

± 

0.15478

(17)

0  20  40  60  80  100  120  140  160  0  2  4  6  8  10  12  14 e th e  S e le c te d  F e a tu re s   GPSFM  P­SVM  0  50  100  150  200  250  300  350  400  1  2  3  4  5  6  7  8  9  10 e the  S e le c te d  F e a tu re s   GPSFM  P­SVM  (a)australian  数据集 (b)breast  数据集  0  20  40  60  80  100  120  140  0  5  10  15  20  25  30  35 e th e  S e le c ted  F e a tu re s   GPSFM  P­SVM  0  10  20  30  40  50  60  70  0  10  20  30  40  50  60 e th e  S e le c ted  F e a tu re s   GPSFM  P­SVM  (c)ionosphere  数据集 (d)sonar 数据集 图 2­4  参数与选择特征数的关系 从表 2­2 和图 2­4 可以得到如下结论: (1)根据表 2­2 可以看出,在对 UCI 数据集进行测试时,GSPFM 方法只有在 3  个数据集上最高分类精度略低于 P­SVM、 SVM­RFE 方法测试所得精度, 这可以说明  GSPFM  方法具有较好的分类精度。从测试的方差上看,GSPFM  方法同其他两种方 法相比,具有相对较小的方差值,这说明 GSPFM 方法具有较好的分类稳定性。 (2)从表 2­2 还可以看出,GPSFM 方法符合特征选择方法的一般规律,即 测试精度随着特征选择数目的变化有一个从小到大再到小的过程。同时和其他两 种方法相比, 还具有特征冗余度低的优点, 比如: 测试 australian 数据集时, GPSFM  方法在支持特征数为 8~9 时测试精度最高,而 P­SVM、SVM­RFE 方法分别在选 择特征数为  10~11、12~13  时测试精度最高;在测试  liver_disorder  数据集时,  GPSFM 方法在支持特征数为 3 时测试精度最高,而 P­SVM 和 SVM­RFE 则分别

(18)

在特征数为 5~6 和 4 时取得最高;在测试 heart 数据集时,GPSFM 方法在支持特 征数为 6 时测试精度最高,而 P­SVM、SVM­RFE 方法分别在选择特征数 10、7  左右时测试精度最高。 (3)图 2­4 说明本章的 GPSFM 方法和 P­SVM 相关性参数e 增大,特征选择 数减少的基本特点, 符合这两种算法构造的基本原理。 然而, GPSFM 方法和 P­SVM  相比,当e 增大时,拥有更快速的特征选择过程,这就说明  GPSFM  方法具有更 强的特征选择能力和效率。  2.4.2  基因数据 基因数据集具有维数高、特征冗余度大的特点,因此经常用来测试分类算法 和聚类算法。本章使用一个训练样本和测试样本数较大的基因集(DNA 数据集) 和一个维数较高的基因集(Colon 数据集)(表 2­3)来测试 GPSFM 方法的特征选 择能力和分类效果。 表 2­3  基因(DNA、Colon)数据集  Datasets  The Number of  Training Samples  The Number of Test  Samples  The Number of  Features  DNA  2000  1186  180  Colon  32  30  2000  表 2­4  GPSFM 方法、P­SVM 方法和 SVM­RFE 方法测试基因数据集精度比较  Datasets  The Number of 

Selected Features  Methods  Classification Accuracies  GPSFM(e =0.1)  0.66842  180  P­SVM(e =0.1)  0.6702  GPSFM(e =1)  0.67291  174~175  P­SVM(e =1)  0.6702  GPSFM(e =10)  0.6774  126~128  P­SVM(e =10)  0.66896  GPSFM(e =20)  0.70257  57~58  P­SVM(e =30)  0.68606  GPSFM(e =30)  0.6739  DNA  31~32  P­SVM(e =40)  0.67291

(19)

续表 

Datasets  The Number of 

Selected Features  Methods  Classification Accuracies  GPSFM(e =40)  0.66994  7  P­SVM(e =70)  0.64348  GPSFM(e =78)  0.65896  DNA  1  P­SVM(e =570)  0.64348  GPSFM(e =0.1)  0.56552  2000  P­SVM(e =0.1)  0.5657  GPSFM(e =3)  0.66897  1000~1005  P­SVM(e =15)  0.6549  GPSFM(e =3.42)  0.71264  490~500  P­SVM(e =23)  0.6827  GPSFM(e =3.44)  0.76092  250~254  P­SVM(e =23)  0.6653  GPSFM(e =3.5)  0.71264  15~18  P­SVM(e =31)  0.652  GPSFM(e =8.4)  0.65289  Colon  1~2  P­SVM(e =36)  0.54023  注:以上结果是按表 2­3 比例划分,重复运行 5 次的平均性能 根据表 2­4 可以得到如下结论: (1)在测试  DNA  数据集时,尽管测试的样本数较大,然而还可以看出,  GPSFM 方法和 P­SVM 方法比较,在特征选择数大致相同的情况下具有较高的分 类精度,这说明该方法在处理样本数较高的数据集时具有较好的分类精度和较好 的特征选择效果; (2)在测试 Colon 数据集时,因为该数据集具有较高的维数,所以从某种程 度上更能说明特征选择的效果。 从表 2­4 的测试结果来看, GPSFM 方法和 P­SVM  方法相比,不管在特征选择效果还是在分类精度上都具有一定的优势,从而说明 了该方法在处理高维基因数据集时可以实现有效的特征选择,以达到提高分类精 度的作用; (3)根据表 2­4 还可以看出,在测试基因数据集时和测试经典 UCI 数据集时 具有相似的结果,即 GPSFM 方法同 P­SVM 方法相比,在特征选择过程中具有更

(20)

低的特征冗余度,而且当这两种方法在选择相近的特征数时,GPSFM 方法对应的 参数

e

值要比 P­SVM 方法中相应的参数小得多,这说明本章 GPSFM 方法具有更 快速的特征选择过程。  2.4.3  人脸图像数据  ORL( 32 32 ´ )人脸识别数据集是经常用来测试特征降维后分类器的分类精 度 [38,42,68] ,该数据集包含 40 类不同人的脸部图像,每类具有同一个人 10 种不同 表情、背景的图像,在本书中,我们选取两类共 20 个人脸图像,其中每类随机选 取 3 幅图像作为训练样本,剩下的作为测试样本。图 2­5 表明的是同一个人的 10  幅不同表情的图像,测试结果见表 2­5。  50  100  150  200  250  300  5  10  15  20  25  30  图 2­5  ORL 数据集中某一类所有图像 表 2­5  GPSFM 方法、P­SVM 方法和 SVM­RFE 方法测试人脸数据集精度比较  Datasets  The Number of  Selected Features  Algorithms  The Test Set  Accuracy  GPSFM(e =0.1)  0.78571  P­SVM(e =0.1)  0.78571  1024  SVM­RFE  0.85714  GPSFM(e =0.3)  0.85714  P­SVM(e =4.7)  0.78571  500~512  SVM­RFE  0.85714  GPSFM(e =0.5)  0.85714  P­SVM(e =8)  0.85714  114~128  SVM­RFE  0.92857  GPSFM(e =0.85)  0.92857  P­SVM(e =11)  0.71429  64~88  SVM­RFE  0.85714  GPSFM(e =1)  0.64286  P­SVM(e =19)  0.42857  ORL(32×32)  1~3  SVM­RFE  0.5

(21)

从表 2­5 可以看出: (1)当 GPSFM 和 SVM­REF 从分类精度上进行比较时,虽然两种方法测试 该人脸图像数据时,最高精度都可以达到 0.92875,但 SVM­REF 在选择了 128 个 特征后精度达到最高,而本章的 GPSFM 方法在达到最高精度时只选取了 88 个特 征;当 GPSFM 同 P­SVM 进行比较时,可以表明 GPSFM 方法具有较高的分类精 度,同时具有更低的特征冗余度。 (2)从 GSPFM 方法、P­SVM 方法、SVM­RFE 方法中选择 1~3 特征进行 降维分类的测试结果来看,GPSFM 方法在只选取两个特征时,分类精度还可以达 到 0.64286,这充分说明了该方法作为一种封装型特征选择方法,具有一定的特征 选择能力和分类效果。 总之,通过以上三个实验可以充分说明  GPSFM  方法具有一定的分类效果, 同时表现出较强的特征选择能力,和 P­SVM 相比还具有较快的特征选择速度。 

2.5

本章小结

本章通过分析  P­SVM  方法存在的不足,提出一种广义的势特征选择方法  GPSFM,该方法在一定程度上不但继承了原始算法 P­SVM 方法的优点,而且还具 有特征选择冗余度低、特征选择速度快、分类精度高、适应性强的特点。当然,在  GPSFM  方法中还存在有待研究的问题,比如参数e 和特征选择数之间是否存在一 定的线性或非线性的联系,特别是在该方法中引入了类内散度矩阵 S  ,从而为构 造对应的非线性特征选择方法增加了一定难度,这将是我们下一步研究的方向。

參考文獻

相關文件

p AChE 抑制剂可抑制脑内突触间隙内 ACh 的降解,增强 毒蕈碱受体和烟碱受体处 ACh 的浓度,从而提高认知功 能,其疗效最明确、应用最广泛 , 是当前 AD

u 复旦大学陈芬儿团队历经 10年,研制出了以不对称合成为核心 技术的制备方法;在国内投产后,该药物的生产成本由 1.5万元

過去有許多學者使用過幾種方法來評估組織績效,以下舉出常用的八種 方法:(1)比例分析法(Ratio Approach)。(2)平衡計分卡(Balanced Scorecard)

本研究於 2017 年 2 月至屏東縣 10 所校園採集使用水源及經淨水處理

• 全球已累积有 1600 万人次有效计算机案例, 5000 余家企 业、研究机构与政府组织持续追踪其有效性。. • 96% 的准确度、 34 个国家使用、

微积分的创立是数学发展中的里程碑, 它的发展 和广泛应用开启了向近代数学过渡的新时期, 为研究 变量和函数提供了重要的方法和手段. 运动物体的瞬

是偏振光。 光的偏振现象应用很广,如汽车夜间行车时,为了避免 对方汽车的灯光晃眼以保证行车安全,可以在所有汽车的车窗玻 璃和车灯前装上与水平方向成

业技术”模块是在“技术与设计 1” “技术与设计 2”必修模块学完之后的一 个选修模块,它包括“绿色食品” “种质资源的保护和引进” “无土栽培” “营 养与饲料”