4 回每个类别的条件概率

我们利用下面的代码来实现上述伪码。打开文本编辑器，将这些代码添加到

^ ^ ^ ^ ^

口^^文件中。该函数使用了他《

^

的一些函数，故应确保将卜

€^)^1

啦

1 ^ 0

比

*

语句添加至

1_^¥68.9^'

文件的最前面。

4 . 5

使用卩

7

^ < ^ 进行文本分类

61

>>> myVocabL ist = b a y e s .createVocabList(listOPosts) 至此我们构建了一个包含所有词的列表《

^^003

泣

^

曰七。

>>> p0V,pl V,p Ab =b ay es . trainNB0 (trainMat, listClasses)

62

^第

4

章基于概率论的分类方法：朴素贝叶斯接下来看这些变量的内部值：

>>> pAb 0.5

这就是任意文档属于侮辱性文档的概率。

>>> p O V

a r r a y ( [ 0.04166667, 0.04166667, 0.04166667, 0.

0.04166667, 0. • 0.04166667, 0. • 0.04166667,

0.04166667, 0.125 ])

>>> plV

a r r a y ([ 0. , 0. , 0. , 0 . 0 5 2 6 3 1 5 8 , 0 . 0 5 2 6 3 1 5 8 ,

0. , 0.1 5 7 8 9 4 7 4, 0. , 0.05263158, 0. ,

0. , 0. ])

首先，我们发现文档属于侮辱类的概率

1^3

为

0.5,

该值是正确的。接下来，看一看在给定文档类别条件下词汇表中单词的出现概率，看看是否正确。词汇表中的第一个词是

0 ^ ,

其在类别

0

中出现

1

次，而在类别

1

中从未出现。对应的条件概率分别为

0.041 666 67

与

0.0

。该计算是正确的。

我们找找所有概率中的最大值，该值出现在？

(1)

数组第

21

个下标位置，大小为

0.157 894 74

。在

1^

乂

0031^131

；的第

26

个下标位置上可以查到该单词是

81^

丨

£1

。这意味着

8 ^ ^ 4

是最能表征类别

1

(侮辱性文档类）的单词。

使用该函数进行分类之前，还需解决函数中的一些缺陷。

4 . 5 . 3 测试算法：根据现实情况修改分类器

利用贝叶斯分类器对文档进行分类时，要计算多个概率的乘积以获得文档属于某个类别的概率，即计算

…

、

^

々

( ' ^

々

^ …

。如果其中一个概率值为

0 ,

那么最后的乘积也为

0

。为降低这种影响，可以将所有词的出现数初始化为

1

，并将分母初始化为

2

。

在文本编辑器中打开匕

3768^7

文件, 并将

& & 1 1 ^ ^ 0 ()

的第

4

行和第

5

行修改为：

p O N u m = o n e s ( n u m W o r d s ) ； p l N u m = o n e s (numWords) p 0 D e n o m = 2.0 ； p l D e n o m = 2.0 、

另一个遇到的问题是下溢出，这是由于太多很小的数相乘造成的。当计算乘积

(w0

1 c J p ( W j

|

C i ) p ( w J C i ) . . . p ( W j , | c ^ 0 ^ j ' ,由于大部分因子者

3

非常小，所以程序会下溢出或者得到不正确的答案。（读者可以用

? 5 ^ 011

尝试相乘许多很小的数，最后四舍五人后会得到

0

。）一种解决办法是对乘积取自然对数。在代数中有

1 0 ( 3 % > = ln(a)+ln(b)

, 于是通过求对数可以避免下溢出或者浮点数舍入导致的错误。同时，采用自然对数进行处理不会有任何损失。图

4-4

给出函数

£(

幻与

1 1 ^ £

匕））的曲线。检查这两条曲线，就会发现它们在相同区域内同时增加或者减少，并且在相同点上取到极值。它们的取值虽然不同，但不影响最终结果。通过修政

[6& ^

前的两行代码，将上述做法用到分类器中：

plVect = l o g (plNum/plDenom) p0Vect = l o g (p0Num/p0Denom)

4.5

^{使用？}

7^0111

^{进行文本分类}

63

图4 - 4 函数£ 4 >与1“ £ ( \ ) )会一块增大。这表明想求函数的最大值时，可以使用该

函数的自然对数来替换原函数进行求解

现在已经准备好构建完整的分类器了。当使用

> ^ 11^^

向量处理功能时

,

这一切变得十分简单。

打开文本编辑器，将下面的代码添加到

1>

吵

^.?7

中：程序清单4 - 3朴素贝叶斯分类_

d e f c l a s s i f y N B { v e c 2 C l a s s i f y , pOVec, plVec, p C l a s s l ) :

p l =.s um ( v e c 2Classify * plVec) + l o g (pClassl) <~ n

p0 = s u m {vec2Classify * pOVec) + log(1.0 - pClassl) 办元素相乘 if p l > p0:

r e t u r n 1 e l s e ：

r e t u r n 0 d e f t e s t i n g N B ( ) ：

l i s t O P o s t s , l i s t C l a s s e s = l o a d D a t a S e t () m yVocabList = createVocabList(listOPosts) t r a i n M a t = []

f o r p o s t i n D o c i n l i s t O P o s t s ：

t r a i n M a t .a p p e n d ( s e t O f W o r d s 2 V e c ( m y V o c a b L i s t , p o s t i n D o c ) ) p O V , p l V , p A b = t r a i n N B 0 ( a r r a y ( t r a i n M a t ) , a r r a y { l i s t C l a s s e s ) ) t e s t E n t r y = [ 1 l o v e ', ' m y * , 1d a l m a t i o n ']

t h i s D o c = a r r a y ( s e t O f W o r d s 2 V e c ( m y V o c a b L i s t , t e s t E n t r y ) )

print t e s t E n t r y ；'classified as: 1,classifyNB(thisDoc,pOV,plV,pAb) t e s t E n t r y = [ 1 s t u p i d ', 1 g a r b a g e 1]

t h i s D o c = a r r a y { s e t O f W o r d s 2 V e c (my VocabList, t e s t E n t r y ) )

p r i n t testEritry, 1 c l a s s i f i e d as: ',c l a s s i f y N B ( t h i s D o c , p O V , p l V , p A b )

程序清单

4-3

的代码有

4

个输人：要分类的向量

7602013331£¥

以及使用函数匕

&11^^0

( ) 计

64

^第

4

章基于概率论的分类方法：朴素贝叶斯

算得到的三个概率。使用

N u m P y

的数组来计算两个向量相乘的结果

0

。这里的相乘是指对应元素相乘，即先将两个向量中的第

1

个元素相乘，然后将第

2

个元素相乘，以此类推。接下来将词汇表中所有词的对应值相加，然后将该值加到类别的对数概率上。最后，比较类别的概率返回大概率对应的类别标签。这一切不是很难，对吧？

代码的第二个函数是一个便利函数（

00

爪

^ 1 ^

加

6 6 « ^ ^ ) ,

该函数封装所有操作，以节省输人

4.3.1

节中代码的时间。

下面来看看实际结果。将程序清单

4-3

中的代码添加之后，在

?

乂也

(

奶提示符下输人：

>>> reload{bayes)

> > > b a y e s .t e s t i n g N B ()

[1l o v e1, 'my', 'd a l m a t i o n '] classified as: 0 [1 s t u p i d1, 1 garbage 1] classified as: 1

对文本做一些修改，看看分类器会输出什么结果。这个例子非常简单，但是它展示了朴素贝叶斯分类器的工作原理。接下来，我们会对代码做些修改，使分类器工作得更好。

4 . 5 . 4 准备数据：文档词袋模型

目前为止，我们将每个词的出现与否作为一个特征，这可以被描述为词集模型（

3

过

-0£^(^18

model)

。如果一个词在文档中出现不止一次，这可能意味着包含该词是否出现在文档中所不能表

达的某种信息，这种方法被称为词袋模型化

38-£^#0^801(^61)

。在词袋中，每个单词可以出现多次，而在词集中，每个词只能出现一次。为适应词袋模型，需要对函数

3 6 « ^

时

0^32¥60(>

稍加修改，修改后的函数称为

1 ^ 0 [

时。

^ 3 2

\^ 。（）。

下面的程序清单给出了基于词袋模型的朴素贝叶斯代码。它与函数從匕

(^

时

0=

乜祝扣（）几乎完全相同，唯一不同的是每当遇到一个单词时，它会增加词向量中的对应值，而不只是将对应的数值设为

1

。

程序清单4 - 4朴素贝叶斯词袋模型

def bagOfWords2VecMN(vocabList, i n p u t S e t ) : returnVec = [0]* l e n (vocabList)

for word in i n p u t S e t： if word in v o c a b L i s t：

r e t u r n V e c [vocabL is t.in d ex( w ord ) ] += 1 return returnVec

现在分类器巳经构建好了，下面我们将利用该分类器来过滤垃圾邮件。

在文檔中关于封面 (頁 64-68)