第二章、 文獻探討
2.4 敵意與論戰
到目前為止,心理學家還無法給敵意一個很清楚的定義,只知其為一多向度的 概念,其中可能包含了許多的概念,如 Buss, Fischer, and Simmoms (1968) 提出,敵 意是對人與事物的負向評價。敵意產生的原因,常常是由於別人與自己的觀念不 同,但卻又無法說服其他人時產生。Cook and Medley (1954) 認為,個體一旦產生敵 意後、會不喜歡與不信任他人,並認為其他人是不道德、令人厭惡,必須接受處罰 的,因此敵意常常跟生氣有關,也就是說,當一個人產生敵意時,常常也會有生氣 的情緒表現,為了保護自己或是證明自己是對的,個體就會產生攻擊的行為,在網 路上的具體呈現即是所謂的網路論戰,網路上的論戰是指被使用者利用公開〈如留 言版〉或非公開〈如電子郵件〉的工具,利用攻擊性的文字與他人持續交談的過程。
Reid (1995) 認為,論戰中的文章通常有下列特徵:無理由的批評,包括侮辱、咒罵,
以及敵意的陳述,因此當爭論的文章出現後,常常會引起一系列的攻擊性爭論。論 戰是任何時候都會發生的,可能從文法、語詞或任何不重要的議題上開始,因此我 們可以了解論戰的發生不一定是因為議題,常常是因為文字呈現方式的不同而發
16
生。而 Thompsen and Foulger (1996) 則提出論戰的五個過程:
1.分歧〈divergence〉:參與討論的人對同一個議題表達了至少二種以上不同的意見,
而這些意見常呈現明顯的差異,甚至是相反的意義。
2.爭論〈disagreement〉:提出可支持自己意見的相關證據或是反對對方的相關證據,
但並不會直接反對對方的意見。
3.緊張〈dension〉:直接反對對方的意見,並膨脹自己贊成的意見。
4.敵對〈antajonism〉:針對對方做人身攻擊,破壞對方的人格,以降低對方言論的 可性度,此時雙方的焦點已漸漸脫離原本討論的主題。
5.尖銳敵對期〈profane antagonsm〉:雙方用大量誇大、且具攻擊性的言論來攻擊對 方,此時雙方的焦點已完全脫離了原本討論的主題。
參與論戰的雙方或多方,常常是在討論一個主題時,由原本正常的討論狀況,逐漸 演變至後來的無法接受他人意見,而產生敵意,進而利用文字攻擊他人,此處所謂 的 攻 擊 , 包 含 了 情 緒 性 文 字 , 如 高 台 茜 的 網 路 言 論 情 緒 用 詞 資 料 庫 (http://edu.ndhu.edu.tw/mkao/emotion),及批評他人的負向字句,如:你全家死光吃 屎、狗屎,而這類的發言,常常會使原本正常的討論文章,漸漸的偏離主題,變成 具有敵意的文章。
2.5 語詞長度:
組成文件的基本單位為字詞,因此若要分析文件的特性,就必須先將文件做 斷詞處理,才能對文件做進一步的分析(Damashek, 1995),而中文與英文在結構 上有相當大的不同,英文的每個單字都是由26個字母組合成,且在英文句子中每 個字都以空格(space)或是標點符號隔開,因此在擷取關鍵詞時,只要以空白或是 標點符號來作為斷詞依據即可,而中文則否,組成中文句子的最小單位為字,而 中文詞則由一個或多個的字組成,由於字與字之間並無明顯分隔,因此在處理中 文文件時必須先做斷詞的處理,假設一篇有n個字的文件,由於詞的長度可從一 個(如:水,書)到八、九個(如:後天免疫不全症候群),因此若要對此篇文 件斷詞,且要找出所有的可能性,則需執行 2n次斷詞,在實際的應用上會產生困 難,根據統計發現,在文件中二字詞出現的比率約佔全部詞的75%,在Kwok and Luk的研究中也發現,在自動化分類中文文件時,若採取向量模式,則斷詞方式
17
採二連字詞,其檢索效能較單字或多連字詞好,而楊允言、陳淑美、陳克健與謝 清俊 (民88) 在中文文件自動分類的實驗中,也建議採用二連字詞,因此為了兼 顧準確度與速度,本文中所用的系統將以二連字詞為主。曾元顯 (民91) 在進行 文件主題自動分類成效因素探討實驗中發現,在文件中僅出現一次的詞,經常占 一篇文章的60%~70%,刪掉之後雖然可以大幅減少文件的向量維度,但是保留的 詞彙越多,效果越好,因此在本實驗中對於只出現一次的二連字詞將不進行刪除 的動作,以提高分類效果。
2.6 測試文件集:
Salton 從 1961 年起,展開 SMART(System for Mechanical Analysis and Retrieval Text) 研究計畫,此計畫主要是利用 Cleverdon 在 1950 中期至 1960 中期完成的 Cranfield 研究的實驗文件為基礎,建立大型電子文件資料庫,便於展開對自動化文件分類與 全文資訊檢索理論的研究工作,而研究大型語料與檢索效能的 TREC(Text Retrieval Evaluate Conference)更是有史以來最大、參加者最多的資訊檢索實驗,具有以下特點:
(1)文件與辭彙數量龐大。
(2)資料庫內文件多為全文。
(3)來自多個不同的學科領域。
(4)查詢句設計較長且具有結構性。
(5)對於查詢句與文件的相關性有較嚴格的標準,藉此增加相關判定的一致性。
(6)具有多種不同語言的語料。
TREC 成立的主要目的,是希望能讓研究者測試大規模語料實驗環境下,相關的檢索 理論以及所設計之檢索系統的效能,甚至能更進一步地找出較適合的系統參數以及文 件檢索方法。不過 TREC 雖然有建立中文的語料庫,但由於只有參與 TREC 實驗計劃 的單位才能使用語料庫內的測試資料,且其使用中文方式,與國內使用中文的方式有 相當大的差異,缺乏地域性。而國內在資訊檢索領域的研究起步較歐美國家晚,由中 央研究院資訊科學研究所所組成的中文詞知識庫發展小組,從民國 75 年起,便開始 結合計算機與語言學的中文詞知識庫計畫。目前的研究現況與應用發展以中文詞知識 庫為核心,主要發展中文語句分析、語音辨識、資訊檢索及語言學研究語料庫等。在 此領域的基礎研究上,已有相當的成果 (楊允言, 民 82) 。中研院於 1984 年開始,開 始推動史籍自動化的工作,並陸續將文件電子化,目前已經有總數近一億一千萬字的
18
19
20
NTCIR 300000 N/A N/A 100 N/A N/A 多主題 2 1 英文 IREX N/A N/A N/A N/A N/A N/A 多主題 2 1 英文
資料來源:江玉婷
其中 TREC 是有史以來,文件數最多的測試集,在這麼大的測試文件集,
要對所有測試文件進行相關判定是一件非常困難的事,但是由於有相當多 的測試系統參與系統效能測試,因此在相關判定上利用 Pooling Method 法 進行相關測試,將各效能系統送回結果的前 n 篇文件,剔除重複的文件後,
回送給該查詢主題的原始建構者,再進行相關測試,此方法能有效的進行 相關判定,並且能節省大量時間,由於本測試集只提供本文所建置的系統 使用,因此在文件數的取樣數量上,將以非採用 Pooling Method 的測試集 文件數量平均值為依據,並逐一對每個查詢做相關比對,以彌補樣本效度 的不足。
2.6.2 異質性:
早期測試集由於是先經由篩選,採用同質性相當高的文章,且文件長 度差距不大,因此與真實檢索環境有相當大的不同,測試結果常受到質 疑,故本測試集將直接在真實檢索環境取樣,以符合真實檢索環境的特 性,並提高測試文件異質性。
2.6.3 相關判定:
在進行實際實驗時,必須先給定測試文件集與查詢問題的相關程度判 別方式,作為往後辨別文件分類方式結果準確率之依據,而相關判定有二 元化與多元化等方式,二元化的方式是把文件區分為相關與不相關兩類,
如 TREC,其判別法則主要是觀察測試文件的某一部份是否與查詢問題有 關,如果有關,則將其相關程度判定為相關,否則即判定為不相關,而多 元判別的方式則是將文件相關程度區分為幾個程度,例如分為非常相關,
相關,部分相關,不相關,相關程度區分等級越多,則區分難度越高,主 要是因為相關概念本身即是個相當主觀且模糊的概念,常會因為判別情境 及判別者的不同而產生相當大差異,且相關與不相關之間為一個連續的,
非離散地帶,無法非常清楚的劃分,再加上敵意概念本身即為多向度概 念,因此若採多元判定法,將影響相關判定的準確率,因此本測試集將以 二元方式判斷文件與查詢主題相關程度,並且以多位領域專家進行相關判 定,以提高相關判定的客觀度。
21
2.6.4 相關判定者:
Saracevic(1975)認為,相關判定者通常是以資訊需求者擔任,以本文主 題為例,由於網站管理者或是討論板板主需要對討論區或留言版進行管理 的工作,因此需要對文章進行敵意判別,而 Reid and Mizzaro(1998)認為,
判別人數可採一人單獨判斷或是多位需要相關資訊的人一起判斷,再利用 加權或是其他方式來確定最後的相關程度。由於判別相關是相當主觀的工 作,每個進行相關工作的人員常會因為個人的個別認知差異,而對同一篇 文章的相關判定產生很大的差異,據 TREC 的實驗結果顯示,不同的相關 判斷者在判斷相關的一致性只有約 30%,而 Saracevic 也發現,(1)多位判斷 者同時做相關判斷時,若判斷者的專長與需判斷文件所討論之主題相關性 越高,則判斷結果的一致性越高。(2)若判斷者對討論主題較缺乏認識,則 越容易將文件判定為相關。(3)判斷為不相關的一致性通常高於判斷為相關 的一致性。Voorhees(1998)根據 TREC 對相關判定是否會影響測試集的準確 性實驗中發現,不同使用者對相關判定的差異並不會影響到被檢測之系統 效益穩定性。因此在相關判定上,可採多位資訊需求者進行相關判定,對 於判定為相關的文章,可進行再次確認,以提高相關判定的客觀程度。
22
三、研究架構與方法
3.1 研究架構:
3.1 研究架構: