自動化文件分類

第二章、文獻探討

2.1 自動化文件分類

文件分類是資訊檢索(Information Retrieval，簡稱 IR)中的重要步驟(Jones, 1981;

Jones & Rijsber-gen, 1976; Borlund & Ingwersen, 1997; Oddy, 1981)，主要目的則是透過各種模型將文件分類存放，以加快資料的搜尋，古典的分類模型有三種，布林模型(boolean model)、向量模型(vector space model)(Joachims, 2001; Jason & Rifkin, 2001)、機率模型(probabilistic model)，這些模型分類的方式是先給每篇文件一個特

１１

，其中P R d( )表示文件 d 與文件 q 相關的機率，而

P R d ( )

表示文件 d 與文件 q 不 相關的機率。

在以上三種模型中，布林模型(boolean model)為最弱的模型(Ricardo & Berthier, 1999)，而機率模型的效率好壞會隨著樣本數的大小而變動，在 Salton 與 Buckley 的實驗中發現，向量模型的表現較機率模型為佳，因此向量模型成為近代資訊檢索中常用之方式，在本系統中亦將採用向量模型來進行敵意文章分類。

2.2 語詞權重：

在向量模型中，文件向量的每一維度即為關鍵詞的權重(term weight)，關鍵詞的權重也代表關鍵詞在文件中的重要性程度，權重越高，則代表此關鍵詞越能代表此篇文件。例如某篇文件中，關鍵值＂學習＂的權重很高，則代表此篇文件有很高的機率是屬於教育類的文件。最早的權重計算方式，是看關鍵詞的出現與否，若出現，

則將權重設為 1，若沒有出現則設為 0，如下所示：

若 w 代表文件 d 中關鍵字 k 的權重，則

1 k d

0 k d

w ⎧

= ⎨⎩

　　　若出現在中

　　　若沒出現在中 (3)

換句話說，只要文件中出現過的關鍵詞，不論出現幾次，其權重皆相等，代表出現過的詞皆能代表此文件的類別，但實際狀況並非如此。例如：在一篇教育類的文件中若出現“學習電腦與學習數學一樣重要＂，則依照此種權重計算方法，此篇文件屬於教育類、數學類或電腦類文件的可能性會一樣高，因此此種方式會造成文件分類的困難，而許多研究也顯示出權重可以是 1 與 0 之間的任何數，1 代表最高，0 代表最低的權重，如此較能符合一般狀況。

影響權重的要素有三個，第一個是關鍵詞出現的次數(term frequence)，出現次數越多，則表示此關鍵字越能代表此文件的類別。第二個是在所有文件中，出現此關鍵詞的篇數(collection frequence)，篇數越多，表示此關鍵詞越不能代表此文件的特性，例如一些常用的介詞或代名詞。在進行文件分類時，會將部份不同類的文件，

分為同一類。例如在電腦類的文件中會出現“學習＂，而在數學類也會出現“學習＂這個關鍵字，因此必須減少“學習＂此關鍵字的權重，以免將電腦類的文件與數學類的文件視為同一類。第三個要素則是文件向量的長度，由於每份文件的長短並不相同，但每份文件應視為同樣重要，因此關鍵詞權重必須正規化(normalized)，

也就是說關鍵詞的權重必須定義成

１２關鍵詞出現頻率(Term Frequency Component)

B 1 若出現關鍵詞，則設為 1，否則設為 0。

關鍵詞在文件中出現頻率(Collection Frequency Component)

X 1 不考慮在所有文件中出現的頻率。

資料來源：Salton, G., and Buckley, C., 1988a

上述的三個要素，若取的值為 1，則表示不考慮此要素的影響。常見的組合方式則如表 2 所示：

１３

表 2：常見的關鍵詞權重計算方式

Weighting system Document term weight Query term weight

Best fully weighted system

(TFC.NFX)

∑

⎟⎟

Best weighted probabilistic weight (NXX.BXP)

Classical weight

(BFX.BFX) n

log N

n log N

Binary term independence

(BXX.BPX) 1 log N n

Coordination level (BXX.BXX)

1 1

權重計算方式代碼說明：ABC.DEF，ABC 表示訓練文章的權重計算方式，DEF 表示實際文章的權重計算方式。

資料來源：Salton, G., and Buckley, C., 1988b

表2中的TFC.NFX的權重計算方式，是Salton and Buckley在進行文件分類實驗中，能產生最佳效能的計算方式，但是表2所使用的權重計算方式，主要是針對英文文件的分類，在Kwok and Luk (2002)針對中文自動化文件分類的實驗中發現，利用向量模型計算關鍵詞的權重方式時，關鍵詞權重的給定方式以

１４

當我們利用向量模型計算出文件向量後、如果要找出想要的文件類型、就必須計算兩文件的相似度，常用的相似度計算方式如表 3 所示：

表 3：常見的文章相似度計算公式

序號名稱計算公式

1 Simple matching

(coordination level match) ₁

j j

d q

∑

2 Dice＇s Coefficient ¹

2 2

3 Jaccard＇s Coefficient ¹

2 2

4 Cosine Coefficient ¹

2 2

5 Overlap Coefficient ¹

2 2

１５

大。

2.3.2 Dice＇s Coefficient：

此相似度計算方式為計算 q 與 d 重疊部分占全部的比值，若 q 與 d 無重疊部分，則 Dice＇s Coefficient 為 0，反之，若 q 與 d 是相同的文件，則值為 1。

2.3.3 Jaccard＇s Coefficient：

此相似度計算方式為計算 q 與 d 重疊部分占兩文件平均大小的比值。

2.3.4 Cosine Coefficient：

利用餘弦函數計算兩文件在向量空間中的餘弦值，若兩文件完全相同，則其值為 1。

2.3.5 Overlap Coefficient：

計算 q 與 d 重疊部份占 q 與 d 中長度較短文件的比值。

2.4 敵意與論戰：

到目前為止，心理學家還無法給敵意一個很清楚的定義，只知其為一多向度的概念，其中可能包含了許多的概念，如 Buss, Fischer, and Simmoms (1968) 提出，敵意是對人與事物的負向評價。敵意產生的原因，常常是由於別人與自己的觀念不同，但卻又無法說服其他人時產生。Cook and Medley (1954) 認為，個體一旦產生敵意後、會不喜歡與不信任他人，並認為其他人是不道德、令人厭惡，必須接受處罰的，因此敵意常常跟生氣有關，也就是說，當一個人產生敵意時，常常也會有生氣的情緒表現，為了保護自己或是證明自己是對的，個體就會產生攻擊的行為，在網路上的具體呈現即是所謂的網路論戰，網路上的論戰是指被使用者利用公開〈如留言版〉或非公開〈如電子郵件〉的工具，利用攻擊性的文字與他人持續交談的過程。

Reid (1995) 認為，論戰中的文章通常有下列特徵：無理由的批評，包括侮辱、咒罵，

以及敵意的陳述，因此當爭論的文章出現後，常常會引起一系列的攻擊性爭論。論戰是任何時候都會發生的，可能從文法、語詞或任何不重要的議題上開始，因此我們可以了解論戰的發生不一定是因為議題，常常是因為文字呈現方式的不同而發

１６

生。而 Thompsen and Foulger (1996) 則提出論戰的五個過程：

1.分歧〈divergence〉：參與討論的人對同一個議題表達了至少二種以上不同的意見，

而這些意見常呈現明顯的差異，甚至是相反的意義。

2.爭論〈disagreement〉：提出可支持自己意見的相關證據或是反對對方的相關證據，

但並不會直接反對對方的意見。

3.緊張〈dension〉：直接反對對方的意見，並膨脹自己贊成的意見。

4.敵對〈antajonism〉：針對對方做人身攻擊，破壞對方的人格，以降低對方言論的可性度，此時雙方的焦點已漸漸脫離原本討論的主題。

5.尖銳敵對期〈profane antagonsm〉：雙方用大量誇大、且具攻擊性的言論來攻擊對方，此時雙方的焦點已完全脫離了原本討論的主題。

參與論戰的雙方或多方，常常是在討論一個主題時，由原本正常的討論狀況，逐漸演變至後來的無法接受他人意見，而產生敵意，進而利用文字攻擊他人，此處所謂的攻擊，包含了情緒性文字，如高台茜的網路言論情緒用詞資料庫 (http://edu.ndhu.edu.tw/mkao/emotion)，及批評他人的負向字句，如：你全家死光吃屎、狗屎，而這類的發言，常常會使原本正常的討論文章，漸漸的偏離主題，變成具有敵意的文章。

2.5 語詞長度：

組成文件的基本單位為字詞，因此若要分析文件的特性，就必須先將文件做斷詞處理，才能對文件做進一步的分析(Damashek, 1995)，而中文與英文在結構上有相當大的不同，英文的每個單字都是由26個字母組合成，且在英文句子中每個字都以空格(space)或是標點符號隔開，因此在擷取關鍵詞時，只要以空白或是標點符號來作為斷詞依據即可，而中文則否，組成中文句子的最小單位為字，而中文詞則由一個或多個的字組成，由於字與字之間並無明顯分隔，因此在處理中文文件時必須先做斷詞的處理，假設一篇有n個字的文件，由於詞的長度可從一個（如：水，書）到八、九個（如：後天免疫不全症候群），因此若要對此篇文件斷詞，且要找出所有的可能性，則需執行 2ⁿ次斷詞，在實際的應用上會產生困難，根據統計發現，在文件中二字詞出現的比率約佔全部詞的75%，在Kwok and Luk的研究中也發現，在自動化分類中文文件時，若採取向量模式，則斷詞方式

１７

採二連字詞，其檢索效能較單字或多連字詞好，而楊允言、陳淑美、陳克健與謝清俊 (民88) 在中文文件自動分類的實驗中，也建議採用二連字詞，因此為了兼顧準確度與速度，本文中所用的系統將以二連字詞為主。曾元顯 (民91) 在進行文件主題自動分類成效因素探討實驗中發現，在文件中僅出現一次的詞，經常占一篇文章的60%~70%，刪掉之後雖然可以大幅減少文件的向量維度，但是保留的詞彙越多，效果越好，因此在本實驗中對於只出現一次的二連字詞將不進行刪除的動作，以提高分類效果。

2.6 測試文件集：

Salton 從 1961 年起，展開 SMART(System for Mechanical Analysis and Retrieval Text) 研究計畫，此計畫主要是利用 Cleverdon 在 1950 中期至 1960 中期完成的 Cranfield 研究的實驗文件為基礎，建立大型電子文件資料庫，便於展開對自動化文件分類與全文資訊檢索理論的研究工作，而研究大型語料與檢索效能的 TREC(Text Retrieval Evaluate Conference)更是有史以來最大、參加者最多的資訊檢索實驗，具有以下特點：

(1)文件與辭彙數量龐大。

(2)資料庫內文件多為全文。

(3)來自多個不同的學科領域。

(4)查詢句設計較長且具有結構性。

(5)對於查詢句與文件的相關性有較嚴格的標準，藉此增加相關判定的一致性。

(6)具有多種不同語言的語料。

TREC 成立的主要目的，是希望能讓研究者測試大規模語料實驗環境下，相關的檢索理論以及所設計之檢索系統的效能，甚至能更進一步地找出較適合的系統參數以及文件檢索方法。不過 TREC 雖然有建立中文的語料庫，但由於只有參與 TREC 實驗計劃的單位才能使用語料庫內的測試資料，且其使用中文方式，與國內使用中文的方式有相當大的差異，缺乏地域性。而國內在資訊檢索領域的研究起步較歐美國家晚，由中

在文檔中自動化文章敵意分級系統之初探研究 (頁 10-0)

第二章、 文獻探討

2.1 自動化文件分類

P R d ( )

∑

d q

∑

第二章、文獻探討