第二章、 文獻探討
2.1 自動化文件分類
文件分類是資訊檢索(Information Retrieval,簡稱 IR)中的重要步驟(Jones, 1981;
Jones & Rijsber-gen, 1976; Borlund & Ingwersen, 1997; Oddy, 1981),主要目的則是透 過各種模型將文件分類存放,以加快資料的搜尋,古典的分類模型有三種,布林模 型(boolean model)、向量模型(vector space model)(Joachims, 2001; Jason & Rifkin, 2001)、機率模型(probabilistic model),這些模型分類的方式是先給每篇文件一個特
11
,其中P R d( )表示文件 d 與文件 q 相關的機率,而
P R d ( )
表示文件 d 與文件 q 不 相關的機率。在以上三種模型中,布林模型(boolean model)為最弱的模型(Ricardo & Berthier, 1999),而機率模型的效率好壞會隨著樣本數的大小而變動,在 Salton 與 Buckley 的 實驗中發現,向量模型的表現較機率模型為佳,因此向量模型成為近代資訊檢索中 常用之方式,在本系統中亦將採用向量模型來進行敵意文章分類。
2.2 語詞權重:
在向量模型中,文件向量的每一維度即為關鍵詞的權重(term weight),關鍵詞的 權重也代表關鍵詞在文件中的重要性程度,權重越高,則代表此關鍵詞越能代表此 篇文件。例如某篇文件中,關鍵值"學習"的權重很高,則代表此篇文件有很高的 機率是屬於教育類的文件。最早的權重計算方式,是看關鍵詞的出現與否,若出現,
則將權重設為 1,若沒有出現則設為 0,如下所示:
若 w 代表文件 d 中關鍵字 k 的權重,則
1 k d
0 k d
w ⎧
= ⎨⎩
若 出現在 中
若 沒出現在 中 (3)
換句話說,只要文件中出現過的關鍵詞,不論出現幾次,其權重皆相等,代表出現 過的詞皆能代表此文件的類別,但實際狀況並非如此。例如:在一篇教育類的文件 中若出現“學習電腦與學習數學一樣重要",則依照此種權重計算方法,此篇文件 屬於教育類、數學類或電腦類文件的可能性會一樣高,因此此種方式會造成文件分 類的困難,而許多研究也顯示出權重可以是 1 與 0 之間的任何數,1 代表最高,0 代表最低的權重,如此較能符合一般狀況。
影響權重的要素有三個,第一個是關鍵詞出現的次數(term frequence),出現次 數越多,則表示此關鍵字越能代表此文件的類別。第二個是在所有文件中,出現此 關鍵詞的篇數(collection frequence),篇數越多,表示此關鍵詞越不能代表此文件的特 性,例如一些常用的介詞或代名詞。在進行文件分類時,會將部份不同類的文件,
分為同一類。例如在電腦類的文件中會出現“學習",而在數學類也會出現“學 習"這個關鍵字,因此必須減少“學習"此關鍵字的權重,以免將電腦類的文件與 數學類的文件視為同一類。第三個要素則是文件向量的長度,由於每份文件的長短 並不相同,但每份文件應視為同樣重要,因此關鍵詞權重必須正規化(normalized),
也就是說關鍵詞的權重必須定義成
12 關鍵詞出現頻率(Term Frequency Component)
B 1 若出現關鍵詞,則設為 1,否則設為 0。
關鍵詞在文件中出現頻率(Collection Frequency Component)
X 1 不考慮在所有文件中出現的頻率。
資料來源:Salton, G., and Buckley, C., 1988a
上述的三個要素,若取的值為 1,則表示不考慮此要素的影響。常見的組合方式則 如表 2 所示:
13
表 2:常見的關鍵詞權重計算方式
Weighting system Document term weight Query term weight
Best fully weighted system
(TFC.NFX)
∑
⎟⎟Best weighted probabilistic weight (NXX.BXP)
Classical weight
(BFX.BFX) n
log N
n log N
Binary term independence
(BXX.BPX) 1 log N n
Coordination level (BXX.BXX)
1 1
權重計算方式代碼說明:ABC.DEF,ABC 表示訓練文章的權重計算方式,DEF 表示實 際文章的權重計算方式。
資料來源:Salton, G., and Buckley, C., 1988b
表2中的TFC.NFX的權重計算方式,是Salton and Buckley在進行文件分類實驗中,能 產生最佳效能的計算方式,但是表2所使用的權重計算方式,主要是針對英文文件 的分類,在Kwok and Luk (2002)針對中文自動化文件分類的實驗中發現,利用向量 模型計算關鍵詞的權重方式時,關鍵詞權重的給定方式以
14
當我們利用向量模型計算出文件向量後、如果要找出想要的文件類型、就必須 計算兩文件的相似度,常用的相似度計算方式如表 3 所示:
表 3:常見的文章相似度計算公式
序號 名稱 計算公式
1 Simple matching
(coordination level match) 1
m
j j
j
d q
∑
=2 Dice's Coefficient 1
2 2
3 Jaccard's Coefficient 1
2 2
4 Cosine Coefficient 1
2 2
5 Overlap Coefficient 1
2 2
15
大。
2.3.2 Dice's Coefficient:
此相似度計算方式為計算 q 與 d 重疊部分占全部的比值,若 q 與 d 無重疊 部分,則 Dice's Coefficient 為 0,反之,若 q 與 d 是相同的文件,則值為 1。
2.3.3 Jaccard's Coefficient:
此相似度計算方式為計算 q 與 d 重疊部分占兩文件平均大小的比值。
2.3.4 Cosine Coefficient:
利用餘弦函數計算兩文件在向量空間中的餘弦值,若兩文件完全相同,則 其值為 1。
2.3.5 Overlap Coefficient:
計算 q 與 d 重疊部份占 q 與 d 中長度較短文件的比值。
2.4 敵意與論戰:
到目前為止,心理學家還無法給敵意一個很清楚的定義,只知其為一多向度的 概念,其中可能包含了許多的概念,如 Buss, Fischer, and Simmoms (1968) 提出,敵 意是對人與事物的負向評價。敵意產生的原因,常常是由於別人與自己的觀念不 同,但卻又無法說服其他人時產生。Cook and Medley (1954) 認為,個體一旦產生敵 意後、會不喜歡與不信任他人,並認為其他人是不道德、令人厭惡,必須接受處罰 的,因此敵意常常跟生氣有關,也就是說,當一個人產生敵意時,常常也會有生氣 的情緒表現,為了保護自己或是證明自己是對的,個體就會產生攻擊的行為,在網 路上的具體呈現即是所謂的網路論戰,網路上的論戰是指被使用者利用公開〈如留 言版〉或非公開〈如電子郵件〉的工具,利用攻擊性的文字與他人持續交談的過程。
Reid (1995) 認為,論戰中的文章通常有下列特徵:無理由的批評,包括侮辱、咒罵,
以及敵意的陳述,因此當爭論的文章出現後,常常會引起一系列的攻擊性爭論。論 戰是任何時候都會發生的,可能從文法、語詞或任何不重要的議題上開始,因此我 們可以了解論戰的發生不一定是因為議題,常常是因為文字呈現方式的不同而發
16
生。而 Thompsen and Foulger (1996) 則提出論戰的五個過程:
1.分歧〈divergence〉:參與討論的人對同一個議題表達了至少二種以上不同的意見,
而這些意見常呈現明顯的差異,甚至是相反的意義。
2.爭論〈disagreement〉:提出可支持自己意見的相關證據或是反對對方的相關證據,
但並不會直接反對對方的意見。
3.緊張〈dension〉:直接反對對方的意見,並膨脹自己贊成的意見。
4.敵對〈antajonism〉:針對對方做人身攻擊,破壞對方的人格,以降低對方言論的 可性度,此時雙方的焦點已漸漸脫離原本討論的主題。
5.尖銳敵對期〈profane antagonsm〉:雙方用大量誇大、且具攻擊性的言論來攻擊對 方,此時雙方的焦點已完全脫離了原本討論的主題。
參與論戰的雙方或多方,常常是在討論一個主題時,由原本正常的討論狀況,逐漸 演變至後來的無法接受他人意見,而產生敵意,進而利用文字攻擊他人,此處所謂 的 攻 擊 , 包 含 了 情 緒 性 文 字 , 如 高 台 茜 的 網 路 言 論 情 緒 用 詞 資 料 庫 (http://edu.ndhu.edu.tw/mkao/emotion),及批評他人的負向字句,如:你全家死光吃 屎、狗屎,而這類的發言,常常會使原本正常的討論文章,漸漸的偏離主題,變成 具有敵意的文章。
2.5 語詞長度:
組成文件的基本單位為字詞,因此若要分析文件的特性,就必須先將文件做 斷詞處理,才能對文件做進一步的分析(Damashek, 1995),而中文與英文在結構 上有相當大的不同,英文的每個單字都是由26個字母組合成,且在英文句子中每 個字都以空格(space)或是標點符號隔開,因此在擷取關鍵詞時,只要以空白或是 標點符號來作為斷詞依據即可,而中文則否,組成中文句子的最小單位為字,而 中文詞則由一個或多個的字組成,由於字與字之間並無明顯分隔,因此在處理中 文文件時必須先做斷詞的處理,假設一篇有n個字的文件,由於詞的長度可從一 個(如:水,書)到八、九個(如:後天免疫不全症候群),因此若要對此篇文 件斷詞,且要找出所有的可能性,則需執行 2n次斷詞,在實際的應用上會產生困 難,根據統計發現,在文件中二字詞出現的比率約佔全部詞的75%,在Kwok and Luk的研究中也發現,在自動化分類中文文件時,若採取向量模式,則斷詞方式
17
採二連字詞,其檢索效能較單字或多連字詞好,而楊允言、陳淑美、陳克健與謝 清俊 (民88) 在中文文件自動分類的實驗中,也建議採用二連字詞,因此為了兼 顧準確度與速度,本文中所用的系統將以二連字詞為主。曾元顯 (民91) 在進行 文件主題自動分類成效因素探討實驗中發現,在文件中僅出現一次的詞,經常占 一篇文章的60%~70%,刪掉之後雖然可以大幅減少文件的向量維度,但是保留的 詞彙越多,效果越好,因此在本實驗中對於只出現一次的二連字詞將不進行刪除 的動作,以提高分類效果。
2.6 測試文件集:
Salton 從 1961 年起,展開 SMART(System for Mechanical Analysis and Retrieval Text) 研究計畫,此計畫主要是利用 Cleverdon 在 1950 中期至 1960 中期完成的 Cranfield 研究的實驗文件為基礎,建立大型電子文件資料庫,便於展開對自動化文件分類與 全文資訊檢索理論的研究工作,而研究大型語料與檢索效能的 TREC(Text Retrieval Evaluate Conference)更是有史以來最大、參加者最多的資訊檢索實驗,具有以下特點:
(1)文件與辭彙數量龐大。
(2)資料庫內文件多為全文。
(3)來自多個不同的學科領域。
(4)查詢句設計較長且具有結構性。
(5)對於查詢句與文件的相關性有較嚴格的標準,藉此增加相關判定的一致性。
(6)具有多種不同語言的語料。
TREC 成立的主要目的,是希望能讓研究者測試大規模語料實驗環境下,相關的檢索 理論以及所設計之檢索系統的效能,甚至能更進一步地找出較適合的系統參數以及文 件檢索方法。不過 TREC 雖然有建立中文的語料庫,但由於只有參與 TREC 實驗計劃 的單位才能使用語料庫內的測試資料,且其使用中文方式,與國內使用中文的方式有 相當大的差異,缺乏地域性。而國內在資訊檢索領域的研究起步較歐美國家晚,由中
TREC 成立的主要目的,是希望能讓研究者測試大規模語料實驗環境下,相關的檢索 理論以及所設計之檢索系統的效能,甚至能更進一步地找出較適合的系統參數以及文 件檢索方法。不過 TREC 雖然有建立中文的語料庫,但由於只有參與 TREC 實驗計劃 的單位才能使用語料庫內的測試資料,且其使用中文方式,與國內使用中文的方式有 相當大的差異,缺乏地域性。而國內在資訊檢索領域的研究起步較歐美國家晚,由中