7 . 4 完整八 638008 丨算法的实现 123

124

第

7

章利用

AdaBoost

元算法提高分类性能

中，£»向量给第一个数据点0.5的权重。这就可以通过变量3 9 3 0 1 & 3 ^ ^ 的符号来了解总的类别。

第二次迭代之后，我们就会发现第一个数据点巳经正确分类了，但此时最后一个数据点却是错分了。£>向量中的最后一个元素变成0.5，而乃向量中的其他值都变得非常小。最后，第三次迭代之后a g g C l a S S E S t所有值的符号和真实类别标签都完全吻合，那么训练错误率为0,程序就此退出。

为了观察也88丨『防如 &>^的值，键人：

>>> c l a s s i f i e r A r r a y

[ { 'dim' : 0, 1i n e q ' ： 1 lt' , ' t h r e s h 1 : 1 . 3, 'a l p h a 1 : 0 . 6 9 3 1 4 7 1 8 0 5 5 9 9 4 529}, { 'dim' : 1, 1i n e q 1 : ' l t 1, 't h r e s h 1 : 1.0, 1a l p h a 1 ： 0 . 972 9 5 5 0 7 4 5 2 7 6 5 6 5}, { 1d i m 1 : 0,'i n e q ' : ' l t 1, 1 t h r e s h ' : 0 . 9 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 , 'a l p h a 1 :

0 . 8 9 5 8 7 9 7 3 4 6 1 4 0 2 7 2 6 } ]

该数组包含三部词典，其中包含了分类所需要的所有信息。此时，一个分类器已经构建成功，

而且只要我们愿意，随时都可以将训练错误率降到0。那么测试错误率会如何呢？为了观察测试错误率，我们需要编写分类的一些代码。下一节我们将讨论分类。

7 . 5 测试算法：基于八€ ^日00切的分类

一旦拥有了多个弱分类器以及其对应的&1!^值 ,进行测试就变得相当容易了。在程序清单7-2 的3(1战 0 0 比化七灿 3 ( ) 中，我们实际巳经写完了大部分的代码。现在，需要做的就只是将弱分类器的训练过程从程序中抽出来，然后应用到某个具体的实例上去。每个弱分类器的结果以其对应的&电1^值作为权重。所有这些弱分类器的结果加权求和就得到了最后的结果。在程序清单7-3 中列出了实现这一过程的所有代码。然后，将下列代码添加到3£ ^ 00对孙中，就可以利用它基于 a da b o ostTrainDS ()中的弱分类器对数据进行分类。

丨程序清单 7 - 3 八也 8 0 0 3汾类函数

def a d a C l a s s i f y ( d a t T o C l a s s , c l a s s i f i e r A r r ) ： d a t a M a t r i x = m a t (datToClass)

m = s h a p e ( d a t a M a t r i x ) [0]

a g g C l a s s E s t = m a t ( z e r o s ( (m,1))) f o r i in r a n g e ( l e n ( c l a s s i f i e r A r r ) ) ：

c l a s s E s t = s t u m p C l a s s i f y ( d a t a M a t r i x , c l a s s i f i e r A r r [ i ] [ 1d i m 1] , \ c l a s s i f i e r A r r [ i ] [ 't h r e s h 1] , \

c l a s s i f i e r A r r [ i ] ['i n e q 1]) a g g C l a s s E s t += c l a s s i f i e r A r r [ i ] ['a l p h a 1] * c l a s s E s t p r i n t a g g C l a s s E s t

r e t u r n s i g n { a g g C l a s s E s t )

读者也许可以猜到，上述的8 6 &0 1 妨 & 巧（）函数就是利用训练出的多个弱分类器进行分类的函数。该函数的输人是由一个或者多个待分类样例3 & ^ 冗 1 3 %以及多个弱分类器组成的数组 c l a s s i f i e r A r r 。函数&3301&351£乂（）首先将3 & 七0?001&33转换成了一个>^ « 的 ^ 阵，并且得到3 & 七010 0 1 & 3 3 中的待分类样例的个数^ 然后构建一个0列向量3 9 9 0 1 3日3瓦3 七，这个列向量与 adaBoostTrainDS () 43½ ^ ^ — '样。

接下来，遍历。1 & 331£16仏 1 ^ 中的所有弱分类器，并基于3 1 ^ 叩013331 £乂（>对每个分类器得到一个类别的估计值。在前面构建单层决策树时，我们巳经见过了3 七挪? 0 1 3 3 3 1 £ 7 ( ) 函数，

7 . 6

示例：在一个难数据集上应用八

4380081 125

在那里，我们在所有可能的树粧值上进行迭代来得到具有最小加权错误率的单层决策树。而这里 我们只是简单地应用了单层决策树。输出的类别估计值乘上该单层决策树的 a lpha权重然后累加到 a g g C l a s s E s t i , 就完成了这一过程。上述程序中加人了一条？4 址语句，以便我们了解 3 订9 0 1 3 3 3 £ 3 1 ；每次迭代后的变化结果。最后，程序返回 3 9 9 0 1 3 3 3 £ 3 1 的符号，即如果 3 9 9 0 1 3 3 3 £ 3 1 ：大于 0 则返回 + 1 , 而如果小于 0 则返回 - 1 。

我们再看看实际中的运行效果。加人程序清单 7 - 3 中的代码之后，在 ? 5 ^ 如提示符下输人：

>>> r e l o a d (adaboost)

< m o d u l e 1a d a b o o s t ' f r o m ' a d a b o o s t . p y ' >

如果没有弱分类器数组，可以输人如下命令：

>>> d a t A r r , l a b e l A r r = a d a b o o s t .l o a d S i m p D a t a ()

>>> c l a s s i f i e r A r r = a d a b o o s t . a d a B o o s t T r a i n D S ( d a t A r r , l a b e l A r r , 30) 于是，可以输人如下命令进行分类：

>>> a d a b o o s t .a d a C l a s s i f y ([0, 0 ] , c l a s s i f i e r A r r ) [[-0.69 3 1 4 7 1 8 ] ]

[[-1.66 6 1 0 2 2 6 ] ] [[-2.56 1 9 8 1 9 9 ] ]

m a t r i x ([[-1.]]) ‘

可以发现，随着迭代的进行，数据点 [0，0]的分类结果越来越强。当然，我们也可以在其他点上进 行分类：

>>> a d a b o o s t .a d a C l a s s i f y ([[5, 5 ],[ 0 , 0 ] ] , c l a s s i f i e r A r r ) t [ 0.6 9 3 1 4 7 1 8 ]

[-2•56198199]]

m a t r i x {[[ 1•],

[-1.]])

这两个点的分类结果也会随着迭代的进行而越来越强。在下一节中，我们会将该分类器应用到一个规模更大、难度也更大的真实数据集中。

7 . 6 示例：在一个难数据集上应用八0^巳005丨

本节我们将在第4章给出的马疝病数据集上应用入加8 00对分类器。在第4章，我们曾经利用匕叩^价回归来预测患有疝病的马是否能够存活。而在本节，我们则想要知道如果利用多个单层决策树和人也8008櫳不能预测得更准。

示例：

在一个难轉据集上的如辨妙

^{8 _}

取

^•

：：

» , ; i - j

;：

(1) 收集数据：提供的文本文件。

(2) 准备数据：确保类别标签是+1和-1而非₁和₀。 (3) 分析数据：手工检查数据。

(4) 训练算法：在数据上，利用己<1己^303七1^ 己11^33()函数训练出一系列的分类器。

126

第

7

章利用入

(1380081