7 . 3 基于单层决策树构建弱分类器

图

7-1

人如

8008

傷法的示意图。左边是数据集，其中直方图的不同宽度表示每个样例上的不同权重。在经过一个分类器之后，加权的预测结果会通过三角形中的

31?

匕值进行加权。每个三角形中输出的加权结果在圆形中求和，从而得到最终

的输出结果

计算出

3

碑

&

值之后，可以对权重向量乃进行更新，以使得那些正确分类的样本的权重降低而错分样本的权重升高。乃的计算方法如下。

如果某个样本被正确分类，那么该样本的权重更改为：

Sum(Z))

而如果某个样本被错分，那么该样本的权重更改为：

£) (<+!) _ A (,)eg '

Sum(D)

在计算出乃之后，人3沾00对又开始进入下一轮迭代。人(1&80邮傷；法会不断地重复训练和调整权重的过程，直到训练错误率为0或者弱分类器的数目达到用户的指定值为止。

接下来，我们将建立完整的八如

3 008

慎法。在这之前，我们首先必须通过一些代码来建立弱分类器及保存数据集的权重。

7 . 3 基于单层决策树构建弱分类器

单层决策树（

(^

洳丨

0 ^

如

^ ,

也称决策树桩）是一种简单的决策树。前面我们已经介绍了决策树的工作原理，接下来将构建一个单层决策树，而它仅基于单个特征来彳故决策。由于这棵树只有一次分裂过程，因此它实际上就是一个树桩。

分类器

_

7 . 3

基于单层决策树构建弱分类器

119

在构造人

4&8 0081

的代码时，我们将首先通过一个简单数据集来确保在算法实现上一切就绪。

然后，建立一个叫

3£1&

化咖仍的新文件并加人如下代码： def l o a d S i m p D a t a( ) ：

datMat = m a t r i x ( [[ 1. , 2.1], [ 2 . , 1.1],

[2. , 1.]])

classLabels = [1,0, 1.0, -1. ■1.0, 1.0]

return d a t M a t ,c lassLabels

图

7-2

给出了上述数据集的示意图。如果想要试着从某个坐标轴上选择一个值（即选择一条与坐标轴平行的直线）来将所有的圆形点和方形点分开，这显然是不可能的。这就是单层决策树难以处理的一个著名问题。通过使用多棵单层决策树，我们就可以构建出一个能够对该数据集完全正确分类的分类器。

单层决策树测试数据

1.0 ~tl 1.4 1.6

图

7 - 2

用于检测人如

800^

构建函数的简单数据。这不可能仅仅通过在某个坐标轴上选择某个阈值来将圆形点和方形点分开。人

£1

犯

0081

需要将多个单层决策树组合起来才能对该数据集进行正确分类

通过键人如下命令可以实现数据集和类标签的导人：

>>> import adaboost

>>> d a t M a t,c l a s s L a b e l s = a d a b o o s t .l o a d S i m p D a t a ()

有了数据，接下来就岢以通过构建多个函数来建立单层决策树。

结一个函数将用于测试是否有某个值小于或者大于我们正在测试的阈值。第二个函数则更加复杂一些，它会在一个加权数据集中循环，并找到具有最低错误率的单层决策树。

这个程序的伪代码看起来大致如下：

120

第

7

章利用八

<338003

丨元算法提高分类性能

7 . 3

基于单层决策树构建弱分类器

121 第二个函数

131^1<1311^ ()

将会遍历

七

1 ^ ^ 1 3 3 5 1 £

乂（

函数所有的可能输人值，并找到数据集上最佳的单层决策树。这里的

“

最佳

”

是基于数据的权重向量口来定义的，读者很快就会看到其具体定义了。在确保输人数据符合矩阵格式之后，整个函数就开始执行了。然后，函数将构建一个称为匕

七

；

1^1)

的空字典，这个字典用于存储给定权重向量

时所得到的最佳单层决策树的相关信息。变量

nmnStepS

用于在特征的所有可能值上进行遍历。而变量

^d n Err0r

则在一开始就初始化成正无穷大，之后用于寻找可能的最小错误率。

三层嵌套的£ ( ^循环是程序最主要的部分。第一层£(^ 循环在数据集的所有特征上遍历。考虑到数值型的特征，我们就可以通过计算最小值和最大值来了解应该需要多大的步长。然后，第二层£ ( ^循环再在这些值上遍历。甚至将阈值设置为整个取值范围之外也是可以的。因此，在取值范围之外还应该有两个额外的步骤。最后一个£ ( ^循环则是在大于和小于之间切换不等式。

在嵌套的三层化1循环之内，我们在数据集及三个循环变量上调用社咖如^ 郎丨^ 丨^函数。

基于这些循环变量，该函数将会返回分类预测结果。接下来构建一个列向量er r A r r, 如果口^ 出( ^ 0 ( ^ 3 1 3中的值不等于13匕61风3 1中的真正类别标签值，那么0 ^么^ 的相应位置为1。将错误向量6 ^ & 1 ^和权重向量0的相应元素相乘并求和，就得到了数值w e ig h te d E r r o r© 。这就是八£1犯0( ^和分类器交互的地方。这里，我们是基于权重向量^而不是其他错误计算指标来评价分类器的。如果需要使用其他分类器的话，就需要考虑£ 0：最佳分类器所定义的计算过程。

程序接下来输出所有的值。虽然这一行后面可以注释掉，但是它对理解函数的运行还是很有帮助的。最后，将当前的错误率与巳有的最小错误率进行对比，如果当前的值较小，那么就在词典化社3匕咖£ ^ 保存该单层决策树。字典、错误率和类别估计值都会返回给八(1&8 0抓濞法。

在文檔中关于封面 (頁 122-125)

7 . 3 基于单层决策树构建弱分类器

7-1

8008

31?

3

&

而如果某个样本被错分，那么该样本的权重更改为：

£) (<+!) _ A (,)eg '

在计算出乃之后，人3沾00对又开始进入下一轮迭代。人(1&80邮傷； 法会不断地重复训练和调整 权重的过程，直到训练错误率为0或者弱分类器的数目达到用户的指定值为止。

3 008

7 . 3 基于单层决策树构建弱分类器

(^

0 ^

^ ,

_

_

_

_

7 . 3

119

4&8 0081

3£1&

[2. , 1.]])

7-2

7 - 2

800^

£1

0081

120

7

<338003

7 . 3

121 第二个函数

将会遍历

七

乂（

函数所有的可能输人值，并找到数 据集上最佳的单层决策树。这 里 的

最佳

是基于数据的权重向量口来定义的，读者很快就会看 到其具体定义了。在确保输人数据符合矩阵格式之后，整个函数就开始执行了。然后，函数将构 建一个称为匕

七

；

的空字典，这个字典用于存储给定权重向量

时所得到的最佳单层决策树 的相关信息。变量

用于在特征的所有可能值上进行遍历。而变量

则在一开始 就初始化成正无穷大，之后用于寻找可能的最小错误率。

在计算出乃之后，人3沾00对又开始进入下一轮迭代。人(1&80邮傷；法会不断地重复训练和调整权重的过程，直到训练错误率为0或者弱分类器的数目达到用户的指定值为止。

函数所有的可能输人值，并找到数据集上最佳的单层决策树。这里的

是基于数据的权重向量口来定义的，读者很快就会看到其具体定义了。在确保输人数据符合矩阵格式之后，整个函数就开始执行了。然后，函数将构建一个称为匕

时所得到的最佳单层决策树的相关信息。变量

则在一开始就初始化成正无穷大，之后用于寻找可能的最小错误率。