最小二乘支持向量机算法及应用研究 - 万水书苑-出版资源网

(1)

第 2 章统计学习理论基本知识

统计学习理论是一种专门基于小样本的统计理论，它为研究有限样本情况下的统计模式识别和更广泛的机器学习问题建立了一个较好的理论框架，同时也发展了一种新的模式识别方法——支持向量机，能够较好地解决小样本学习问题。

2.1 统计学习理论的核心内容

机器学习的目的是根据给定的已知训练样本求取对系统输入和输出之间的依赖关系的估计，使它能够对未知输出作出尽可能准确的预测。机器学习问题可以 形式化地表示为：已知变量 y 与输入 x 之间存在一定的未知依赖关系，即存在一 个未知的联合概率 ( , ) F x y ，机器学习就是根据 n 个独立同分布观测样本 1 1 2 2 ( ,x y), (x y, ),..., (x_n,y _n) （2.1） 在一组函数{ ( , )} f x w 中求一个最优的函数 f x w ，使预测的期望风险最小。( , 0 ) ( ) ( , ( , )) ( , ) R w =

_ò

L y f x w dF x y （2.2） 其中，{ ( , )} f x w 为预测函数集， w Î W 为函数的广义参数，故{ ( , )} f x w 可以表示 任何函数集； ( , ( , )) L y f x w 为由于用 ( , ) f x w 对

y

进行预测而造成的损失。要使式（2.2）定义的期望风险最小化， 必须依赖关于联合概率 ( , ) F x y 的信息， 但在实际的机器学习问题中，我们只能利用已知样本（2.1）的信息，因此期望风险无法直接计算和最小化。根据概率论中大数定律定理的思想，人们自然想到用算术平均代替式（2.2）的数学期望，于是定义了 1 1 ( ) ( , ( , )) n emp i i i R w L y f x w n ₌ =

_å

（2.3）来逼近式（2.2）定义的期望风险。由于 R_emp( ) w 是用已知的训练样本（即经验数

(2)

据）定义的，因此称作经验风险。用对参数

w

求经验风险 R_emp( ) w 的最小值代替求期

望风险 ( ) R w 的最小值就是所谓的经验风险最小化（Empirical Risk Minimization，

ERM）原则。仔细研究经验风险最小化原则和机器学习问题中的期望风险最小化要求可以发现，从期望风险到经验风险最小化并没有可靠的理论依据，只是直观上合理的想当然做法。但是，经验风险最小化作为解决模式识别等机器学习问题的基本思想仍在相当长的时间内统治了这一领域的几乎所有研究，人们多年来一直将大部分注意力集中到如何更好地求取最小经验风险上。与此相反，统计学习理论则对用经验风险最小化原则解决期望风险最小化问题的前提是什么、当这些前提不成立时经验风险最小化方法的性能如何，以及是否可以找到更合理的原则等基本问题进行了深入的研究。统计学习理论被认为是目前针对小样本统计估计和预测学习的最佳理论，它从理论上较系统地研究了经验风险最小化原则成立的条件、有限样本下经验风险与期望风险的关系、如何利用这些理论找到新的学习原则和方法等问题。其主要内容包括以下四个方面 [8] ：（1）经验风险最小化原则下统计学习一致性的条件。（2）在这些条件下关于统计学习方法推广性的界的结论。（3）在这些界的基础上建立的小样本归纳推理原则。（4）实现这些新原则的实际方法（算法）。 2.1.1 学习过程一致性的条件学习过程一致性是统计学习理论的基础，也是与传统渐进统计学的基本联系。学习过程一致性就是指当训练样本的数目趋于无穷大时，经验风险的最优值能够收敛到真实风险的最优值。只有满足一致性条件，才能保证经验风险最小化原则下得到的最优解在样本无穷大时趋近于使用期望风险最小的最优结果 [8] _。定义 2.1 记 * ( , ) f x w 为在式（2.1）的 n 个独立同分布样本下，在函数集中使 经验风险取最小的预测函数，由它带来的损失函数为 * ( , ( , )) L y f x w ，相应的最小

(3)

统计学习理论基本知识 7 第 2 章经验风险值为 * ( ) emp R w 。记 R w 为在( * ) L y f x w ( , ( , * )) 函数下的式（2.2）所取得的真实风险值（期望风险）。当下面两式成立时称这个经验风险最小化学习过程是一致的： * 0 ( ) ( ) n R w R w ®¥ ® （2.4） * 0 ( ) ( ) emp n R w R w ®¥ ® （2.5）其中， ( 0 ) inf ( ) w R w = R w 为实际可能的最小风险，即式（2.2）的下确界或最小值。现在的关键问题是保证经验风险最小化方法一致性的条件，这个条件针对函数集的一般特性和概率测度。对于前面的一致性的定义存在一种特殊的情况：预测函数集中包含某个特殊函数，它使定义中的条件得到满足；而如果从函数集中去掉这个函数，这些条件就不能得到满足。为了保证一致性不是由于函数集中的个别函数导致的而产生了所谓非平凡一致性的概念，即要求定义中的条件对预测函数集的所有子集都成立。后面说到的一致性指的就是非平凡一致性。下面的定理给出了保证经验风险最小化方法一致性的条件，由于该定理在统计学习理论中的重要地位，该定理被称为学习理论的关键定理 [8] _。定理 2.1 对于有界的损失函数，经验风险最小化学习一致性的充分必要条件是经验风险在如下意义上一致地收敛于真实风险：

lim [sup( ( ) _emp( )) ] 0

n ®¥ P _w R w -R w >e = ， " > e 0 （2.6）其中， P 为概率， R_emp( ) w 和 ( ) R w 分别为在 n 个样本下的经验风险和对同一个

w

的真实风险。该定理把学习一致性的问题转化为式（2.6）的一致收敛问题，但是并没有给出哪种函数集能够满足这个充分必要条件，因此，统计学习理论定义了衡量函数集性能的一些指标，其中最重要的指标是 VC 维。 2.1.2 VC 维 模式识别问题中的 VC 维的直观定义是：如果一个指示函数集存在 h 个样本 能够被函数集中的函数按所有可能的 2h 种形式分开，则称函数集能够把 h 个样本

(4)

打散，函数集的 VC 维就是它能打散的最大样本数目 h ，即如果存在 h 个样本的 样本集能够被函数集打散，而不存在有 h + 个样本的样本集能被函数集打散，则 1 函数集的 VC 维就是 h 。若对任意数目的样本都有函数能将其打散，则函数集的 VC 维是无穷大。有界实函数的 VC 维可以通过用一定的阈值将其转化成指示函数来定义。VC 维反映了函数集的学习能力，VC 维越大则学习机器越复杂（容量越大）。遗憾的是，目前尚没有通用的关于任意函数集 VC 维计算的理论，只对一些特殊的函数集知道其 VC 维。对于一些比较复杂的学习机器（如神经网络），其 VC 维除了与函数集（神经网结构）有关外，还受学习算法等的影响，其确定更加困难 [30] _。根据文献[7]和[31]，经验风险最小化学习过程一致的充分必要条件是函数集的 VC 维有限，且这时收敛速度较快。 2.1.3 推广性的界前面关于一致收敛和收敛速度的条件在理论上有重要意义，但在实践中无法直接应用。统计学习理论系统地研究了对于各种类型的函数集的经验风险和实际风险之间的关系，即推广性的界 [31] 。关于两类分类问题，其结论是：对指示函数集中的所有函数（包括使经验风险最小的函数），经验风险 R_emp( ) w 和期望风险 ( ) R w 之间以至少1 h- 的概率满足如下关系 [32] _： (ln(2 / ) 1) ln( / 4) ( ) _emp( ) h n h R w R w n h + - + ≤ （2.7） 其中， h 是函数集的 VC 维， n 是样本数。 这一结论从理论上说明了学习机器的实际风险是由两部分组成的：一是经验风险（训练误差）；二是置信范围，它与学习机器的 VC 维和训练样本数有关。可以简单地表示为 ( ) _emp( ) ( ) n R w R w h + F ≤ （2.8) 进一步分析可以发现，当 / n h 较小时（比如小于 20，此时说样本数较少），

(5)

统计学习理论基本知识 9 第 2 章置信范围 F 较大，用经验风险近似期望风险就有较大的误差，用经验风险最小化 得到的最优解可能具有较差的推广性；如果样本数较多， / n h 较大，则置信范围 就会很小，经验风险最小化的最优解就接近实际的最优解。另一方面，对于一个特定的问题， 其样本数 n 是固定的， 此时学习机器的 VC 维越高（即复杂性越高），则置信范围就越大，导致期望风险与经验风险之间可能的差别就越大。因此，在有限训练样本下，学习机器的 VC 维越高（复杂性越高）则置信范围越大，导致期望风险与经验风险之间可能的差别越大，这就是为什么会出现过学习现象的原因。机器学习过程不但要使经验风险最小，还要使 VC 维尽量小以缩小置信范围，这样才能取得较小的期望风险，即对未来样本有较好的推广性。 2.1.4 结构风险最小化前面讨论了在样本数较多的情况下可以用经验风险最小化的最优值来估计实际的最优值，但是当样本数较少时，这个估计是不准确的。因为这时要同时最小化经验风险和置信范围，即在经验风险最小化的同时设法控制学习机器的 VC 维数。实际上，在传统的学习机器中，选择学习模型和算法的过程就是优化置信范 围的过程，如果选择的模型比较适合现有的训练样本（相当于 / n h 的值适当），则可以得到比较好的结果，但是这种选择往往依赖先验知识和经验。由于有式（2.8）的理论依据，统计学习理论提供了一种在小样本情况下，使 ( ) emp R w 极小化的同时控制 VC 维（模型复杂性）的方法，即对于给定的有限样本选择最佳模型复杂性的方法，该方法描述如下：首先把函数集 S={ ( , ),f x w w Î W 分解为一个函数子集序列， } 使其具有一种嵌套结构 1 2 k S ÌS ÌLÌS ÌL Ì S （2.9）其中 S_k ={ ( , ),f x w w Î W 为函数集的子集（元素）_k} ，其 VC 维数

h

_k为有限。在此结构中，嵌套子集按其复杂性（即 VC 维数大小）的顺序排列： 1 2 k h ≤ ≤ ≤ ≤ h L h L （2.10）这样在同一个子集中，置信范围是相同的。在每个子集中寻找最小经验风险，通常它随着子集复杂度的增加而减小。选择最小经验风险与置信范围之和最小的子

(6)

集就可以达到期望风险的最小，这个子集中使经验风险最小的函数就是要求的最优函数，这种思想称为结构风险最小化原则（Structural Risk Minimization，SRM）。如图 2.1 所示给出了结构风险最小化的示意。图 2.1 结构风险最小化示意图 SRM 原理实际上提供了一种对于给定的样本数据，在近似精度和模型近似函数复杂性之间折中的定量方法，即在近似函数集的结构中找出一个最佳子集，使实际风险确保上界达到极小。然而上述一般算法的计算量太大，不是一种在实际应用中可行的算法。在实际应用中可行的是以下两种算法。算法 1： （1）在函数集中，根据所给样本数据集的大小 n 和其他先验知识选定一个子 集 S ，使其置信区间足够小。 k 0 （2）在 S 中求解经验风险的极小化问题。 k 0 这个算法实质上是通过选择适当的近似函数结构使置信区间保持不变，然后进行经验风险极小化。这是在神经网络中应用的方法。算法 2： （1）找出一种特殊的函数集，其结构中每一个子集 S 的经验风险都相同（等_k

(7)

统计学习理论基本知识 11 第 2 章于零或一个非常小的数）。（2）求出使置信区间最小的一个子集，则该子集的期望风险为极小。这个算法就是在保持经验风险不变的条件下使置信区间极小。支持向量机用的就是这种算法。

2.2 支持向量分类机

支持向量机是在实际问题中具体实现统计学习理论的算法。支持向量机是统计学习理论中最新、最实用的内容，其核心内容于 1992～1995 年间提出 [6,910] _，目前在国内外的机器学习领域得到广泛的重视，并且还在不断地发展。 2.2.1 线性支持向量分类机考虑线性可分的情况 [3335] _{，给定有 l 个样本} 1 { ,x y _i _{i i}} l ₌的训练集合，其中第 i 个输入数据 n i x Î R 且第 i 个输出数据 y Î - + 是类标。定义判别函数_i { 1, 1} ( ) 0 f x =<w x× > + = b （2.11） 这个判别函数是 n 维矢量空间中的一个超平面，简称为分界面，其中 < × > 是矢量 的内积。为了使超平面（2.11）能将 y = + 和_i 1 y = - 的两类样本正确地区分，应 _i 1 选择适当的 w 和 b 使样本 (x i_i = 1,..., ) l 满足下列条件： 1 1 1 1 i i i i w x b y w x b y < × > + + = + ì í < × > + - = - î ≥ ≤ （2.12）这里式（2.12）可以改写成更紧凑的形式： [ ] 1 1,..., i i y <w x× > +b ≥ + i= l （2.13） 任意一个样本点 x 到分界面（_i 2.11）的距离为 ( )_i i f x d w = （2.14）若存在一个t ，对任意样本都有： ( ) 1,..., i i y f x i l w ≥ t = （2.15）

(8)

则称t 为判别函数（2.11）的余量，它表示样本点与分界面之间的最小距离。余量越大，基于该分界面的分类推广能力越好，但是对同一组分类样本可以做出许多分界面。 从式（2.15）可以看出，余量越大则 w 越小，因此求最优分界面的问题可以 表述为下列二次优化问题：对于给定的训练样本 { ,x y _i _{i i}} l ₌₁，求使下列二次泛函取极小值的 w 和 b 2 1 min 2 w （2.16）约束条件为 [ ] 1 1,..., i i y <w x× > +b ≥ + i= l （2.17）对于这样一个二次规划问题，通常转换成与其对应的 Lagrange 对偶问题来求解，该问题对应的 Lagrange 函数为： 2 1 1 ( , , ) [ ( ) 1] 2 l i i i i La w b w a y w x b = = -

_å

< × > + - （2.18）其中 a _i（ a _i≥ 0 ）为 Lagrange 乘子。Lagrange 对偶问题为: , max min ( , , ) w b L w b a a （2.19）利用 KuhnTucker 条件 0 L w ¶ = ¶ 0 L b ¶ = ¶ 得到 1 l i i i i w a y x = =

_å

（2.20） 1 0 l i i i y a = =

å

（2.21）将式（2.20）代入式（2.18），并利用式（2.21）得到原二次规划问题的对偶优化问题：对给定的训练样本 { ,x y _i _{i i}} l ₌₁，求使下列二次函数取极大值的 a_i

(9)

统计学习理论基本知识 13 第 2 章 1 1 1 1 max ( ) 2 l l l i i j i j i j i i j L y y x x a a =

å

回归问题与分类问题相似， 已知一个包含 l 个样本 { , } 1 l i i i x y = 的训练集合，其中 第 i 个输入数据 n i

（2.70） * 0≤ a a_i, ≤ g ， i= 1, 2,... l （2.71）

2.4 本章小结

本章首先介绍了统计学习理论的核心内容，在此基础上按照从线性到非线性的顺序详细介绍了与支持向量机分类和支持向量机回归对应的优化问题及其 Lagrange 对偶问题，这两种问题是本文以下工作的基础。

最小二乘支持向量机算法及应用研究 - 万水书苑-出版资源网

第 2 章 统计学习理论基本知识

2.1 统计学习理论的核心内容

ò

y

å

w

w

h

2.2 支持向量分类机

å

å

å

å

åå

å

å

å

s

å

x

m

å

ò

òò

å

åå

å

å

å

å

åå

å

2.3 支持向量回归机

y

x

e

å

å

å

å

å

å

å

å

å

å

å

å

å

å

å

å

å

å

å

å

å

å

å

2.4 本章小结

第 2 章统计学习理论基本知识

_ò

_å

_å

_å

_å

_å

_å

_å

_ò

_å

_å

_å

_å

_å

_å

_å

_å

_å

_å