敵意與論戰

第二章、文獻探討

2.4 敵意與論戰

到目前為止，心理學家還無法給敵意一個很清楚的定義，只知其為一多向度的概念，其中可能包含了許多的概念，如 Buss, Fischer, and Simmoms (1968) 提出，敵意是對人與事物的負向評價。敵意產生的原因，常常是由於別人與自己的觀念不同，但卻又無法說服其他人時產生。Cook and Medley (1954) 認為，個體一旦產生敵意後、會不喜歡與不信任他人，並認為其他人是不道德、令人厭惡，必須接受處罰的，因此敵意常常跟生氣有關，也就是說，當一個人產生敵意時，常常也會有生氣的情緒表現，為了保護自己或是證明自己是對的，個體就會產生攻擊的行為，在網路上的具體呈現即是所謂的網路論戰，網路上的論戰是指被使用者利用公開〈如留言版〉或非公開〈如電子郵件〉的工具，利用攻擊性的文字與他人持續交談的過程。

Reid (1995) 認為，論戰中的文章通常有下列特徵：無理由的批評，包括侮辱、咒罵，

以及敵意的陳述，因此當爭論的文章出現後，常常會引起一系列的攻擊性爭論。論戰是任何時候都會發生的，可能從文法、語詞或任何不重要的議題上開始，因此我們可以了解論戰的發生不一定是因為議題，常常是因為文字呈現方式的不同而發

１６

生。而 Thompsen and Foulger (1996) 則提出論戰的五個過程：

1.分歧〈divergence〉：參與討論的人對同一個議題表達了至少二種以上不同的意見，

而這些意見常呈現明顯的差異，甚至是相反的意義。

2.爭論〈disagreement〉：提出可支持自己意見的相關證據或是反對對方的相關證據，

但並不會直接反對對方的意見。

3.緊張〈dension〉：直接反對對方的意見，並膨脹自己贊成的意見。

4.敵對〈antajonism〉：針對對方做人身攻擊，破壞對方的人格，以降低對方言論的可性度，此時雙方的焦點已漸漸脫離原本討論的主題。

5.尖銳敵對期〈profane antagonsm〉：雙方用大量誇大、且具攻擊性的言論來攻擊對方，此時雙方的焦點已完全脫離了原本討論的主題。

參與論戰的雙方或多方，常常是在討論一個主題時，由原本正常的討論狀況，逐漸演變至後來的無法接受他人意見，而產生敵意，進而利用文字攻擊他人，此處所謂的攻擊，包含了情緒性文字，如高台茜的網路言論情緒用詞資料庫 (http://edu.ndhu.edu.tw/mkao/emotion)，及批評他人的負向字句，如：你全家死光吃屎、狗屎，而這類的發言，常常會使原本正常的討論文章，漸漸的偏離主題，變成具有敵意的文章。

2.5 語詞長度：

組成文件的基本單位為字詞，因此若要分析文件的特性，就必須先將文件做斷詞處理，才能對文件做進一步的分析(Damashek, 1995)，而中文與英文在結構上有相當大的不同，英文的每個單字都是由26個字母組合成，且在英文句子中每個字都以空格(space)或是標點符號隔開，因此在擷取關鍵詞時，只要以空白或是標點符號來作為斷詞依據即可，而中文則否，組成中文句子的最小單位為字，而中文詞則由一個或多個的字組成，由於字與字之間並無明顯分隔，因此在處理中文文件時必須先做斷詞的處理，假設一篇有n個字的文件，由於詞的長度可從一個（如：水，書）到八、九個（如：後天免疫不全症候群），因此若要對此篇文件斷詞，且要找出所有的可能性，則需執行 2ⁿ次斷詞，在實際的應用上會產生困難，根據統計發現，在文件中二字詞出現的比率約佔全部詞的75%，在Kwok and Luk的研究中也發現，在自動化分類中文文件時，若採取向量模式，則斷詞方式

１７

採二連字詞，其檢索效能較單字或多連字詞好，而楊允言、陳淑美、陳克健與謝清俊 (民88) 在中文文件自動分類的實驗中，也建議採用二連字詞，因此為了兼顧準確度與速度，本文中所用的系統將以二連字詞為主。曾元顯 (民91) 在進行文件主題自動分類成效因素探討實驗中發現，在文件中僅出現一次的詞，經常占一篇文章的60%~70%，刪掉之後雖然可以大幅減少文件的向量維度，但是保留的詞彙越多，效果越好，因此在本實驗中對於只出現一次的二連字詞將不進行刪除的動作，以提高分類效果。

2.6 測試文件集：

Salton 從 1961 年起，展開 SMART(System for Mechanical Analysis and Retrieval Text) 研究計畫，此計畫主要是利用 Cleverdon 在 1950 中期至 1960 中期完成的 Cranfield 研究的實驗文件為基礎，建立大型電子文件資料庫，便於展開對自動化文件分類與全文資訊檢索理論的研究工作，而研究大型語料與檢索效能的 TREC(Text Retrieval Evaluate Conference)更是有史以來最大、參加者最多的資訊檢索實驗，具有以下特點：

(1)文件與辭彙數量龐大。

(2)資料庫內文件多為全文。

(3)來自多個不同的學科領域。

(4)查詢句設計較長且具有結構性。

(5)對於查詢句與文件的相關性有較嚴格的標準，藉此增加相關判定的一致性。

(6)具有多種不同語言的語料。

TREC 成立的主要目的，是希望能讓研究者測試大規模語料實驗環境下，相關的檢索理論以及所設計之檢索系統的效能，甚至能更進一步地找出較適合的系統參數以及文件檢索方法。不過 TREC 雖然有建立中文的語料庫，但由於只有參與 TREC 實驗計劃的單位才能使用語料庫內的測試資料，且其使用中文方式，與國內使用中文的方式有相當大的差異，缺乏地域性。而國內在資訊檢索領域的研究起步較歐美國家晚，由中央研究院資訊科學研究所所組成的中文詞知識庫發展小組，從民國 75 年起，便開始結合計算機與語言學的中文詞知識庫計畫。目前的研究現況與應用發展以中文詞知識庫為核心，主要發展中文語句分析、語音辨識、資訊檢索及語言學研究語料庫等。在此領域的基礎研究上，已有相當的成果 (楊允言, 民 82) 。中研院於 1984 年開始，開始推動史籍自動化的工作，並陸續將文件電子化，目前已經有總數近一億一千萬字的

１８

１９

２０

NTCIR 300000 N/A N/A 100 N/A N/A 多主題 2 1 英文 IREX N/A N/A N/A N/A N/A N/A 多主題 2 1 英文

資料來源：江玉婷

其中 TREC 是有史以來，文件數最多的測試集，在這麼大的測試文件集，

要對所有測試文件進行相關判定是一件非常困難的事，但是由於有相當多的測試系統參與系統效能測試，因此在相關判定上利用 Pooling Method 法進行相關測試，將各效能系統送回結果的前 n 篇文件，剔除重複的文件後，

回送給該查詢主題的原始建構者，再進行相關測試，此方法能有效的進行相關判定，並且能節省大量時間，由於本測試集只提供本文所建置的系統使用，因此在文件數的取樣數量上，將以非採用 Pooling Method 的測試集文件數量平均值為依據，並逐一對每個查詢做相關比對，以彌補樣本效度的不足。

2.6.2 異質性：

早期測試集由於是先經由篩選，採用同質性相當高的文章，且文件長度差距不大，因此與真實檢索環境有相當大的不同，測試結果常受到質疑，故本測試集將直接在真實檢索環境取樣，以符合真實檢索環境的特性，並提高測試文件異質性。

2.6.3 相關判定：

在進行實際實驗時，必須先給定測試文件集與查詢問題的相關程度判別方式，作為往後辨別文件分類方式結果準確率之依據，而相關判定有二元化與多元化等方式，二元化的方式是把文件區分為相關與不相關兩類，

如 TREC，其判別法則主要是觀察測試文件的某一部份是否與查詢問題有關，如果有關，則將其相關程度判定為相關，否則即判定為不相關，而多元判別的方式則是將文件相關程度區分為幾個程度，例如分為非常相關，

相關，部分相關，不相關，相關程度區分等級越多，則區分難度越高，主要是因為相關概念本身即是個相當主觀且模糊的概念，常會因為判別情境及判別者的不同而產生相當大差異，且相關與不相關之間為一個連續的，

非離散地帶，無法非常清楚的劃分，再加上敵意概念本身即為多向度概念，因此若採多元判定法，將影響相關判定的準確率，因此本測試集將以二元方式判斷文件與查詢主題相關程度，並且以多位領域專家進行相關判定，以提高相關判定的客觀度。

２１

2.6.4 相關判定者：

Saracevic(1975)認為，相關判定者通常是以資訊需求者擔任，以本文主題為例，由於網站管理者或是討論板板主需要對討論區或留言版進行管理的工作，因此需要對文章進行敵意判別，而 Reid and Mizzaro(1998)認為，

判別人數可採一人單獨判斷或是多位需要相關資訊的人一起判斷，再利用加權或是其他方式來確定最後的相關程度。由於判別相關是相當主觀的工作，每個進行相關工作的人員常會因為個人的個別認知差異，而對同一篇文章的相關判定產生很大的差異，據 TREC 的實驗結果顯示，不同的相關判斷者在判斷相關的一致性只有約 30%，而 Saracevic 也發現，(1)多位判斷者同時做相關判斷時，若判斷者的專長與需判斷文件所討論之主題相關性越高，則判斷結果的一致性越高。(2)若判斷者對討論主題較缺乏認識，則越容易將文件判定為相關。(3)判斷為不相關的一致性通常高於判斷為相關的一致性。Voorhees(1998)根據 TREC 對相關判定是否會影響測試集的準確性實驗中發現，不同使用者對相關判定的差異並不會影響到被檢測之系統效益穩定性。因此在相關判定上，可採多位資訊需求者進行相關判定，對於判定為相關的文章，可進行再次確認，以提高相關判定的客觀程度。

２２

三、研究架構與方法

3.1 研究架構：

在文檔中自動化文章敵意分級系統之初探研究 (頁 15-0)

第二章、 文獻探討

2.4 敵意與論戰

第二章、文獻探討