測試文件集

第二章、文獻探討

2.6 測試文件集

Salton 從 1961 年起，展開 SMART(System for Mechanical Analysis and Retrieval Text) 研究計畫，此計畫主要是利用 Cleverdon 在 1950 中期至 1960 中期完成的 Cranfield 研究的實驗文件為基礎，建立大型電子文件資料庫，便於展開對自動化文件分類與全文資訊檢索理論的研究工作，而研究大型語料與檢索效能的 TREC(Text Retrieval Evaluate Conference)更是有史以來最大、參加者最多的資訊檢索實驗，具有以下特點：

(1)文件與辭彙數量龐大。

(2)資料庫內文件多為全文。

(3)來自多個不同的學科領域。

(4)查詢句設計較長且具有結構性。

(5)對於查詢句與文件的相關性有較嚴格的標準，藉此增加相關判定的一致性。

(6)具有多種不同語言的語料。

TREC 成立的主要目的，是希望能讓研究者測試大規模語料實驗環境下，相關的檢索理論以及所設計之檢索系統的效能，甚至能更進一步地找出較適合的系統參數以及文件檢索方法。不過 TREC 雖然有建立中文的語料庫，但由於只有參與 TREC 實驗計劃的單位才能使用語料庫內的測試資料，且其使用中文方式，與國內使用中文的方式有相當大的差異，缺乏地域性。而國內在資訊檢索領域的研究起步較歐美國家晚，由中央研究院資訊科學研究所所組成的中文詞知識庫發展小組，從民國 75 年起，便開始結合計算機與語言學的中文詞知識庫計畫。目前的研究現況與應用發展以中文詞知識庫為核心，主要發展中文語句分析、語音辨識、資訊檢索及語言學研究語料庫等。在此領域的基礎研究上，已有相當的成果 (楊允言, 民 82) 。中研院於 1984 年開始，開始推動史籍自動化的工作，並陸續將文件電子化，目前已經有總數近一億一千萬字的

１８

１９

２０

NTCIR 300000 N/A N/A 100 N/A N/A 多主題 2 1 英文 IREX N/A N/A N/A N/A N/A N/A 多主題 2 1 英文

資料來源：江玉婷

其中 TREC 是有史以來，文件數最多的測試集，在這麼大的測試文件集，

要對所有測試文件進行相關判定是一件非常困難的事，但是由於有相當多的測試系統參與系統效能測試，因此在相關判定上利用 Pooling Method 法進行相關測試，將各效能系統送回結果的前 n 篇文件，剔除重複的文件後，

回送給該查詢主題的原始建構者，再進行相關測試，此方法能有效的進行相關判定，並且能節省大量時間，由於本測試集只提供本文所建置的系統使用，因此在文件數的取樣數量上，將以非採用 Pooling Method 的測試集文件數量平均值為依據，並逐一對每個查詢做相關比對，以彌補樣本效度的不足。

2.6.2 異質性：

早期測試集由於是先經由篩選，採用同質性相當高的文章，且文件長度差距不大，因此與真實檢索環境有相當大的不同，測試結果常受到質疑，故本測試集將直接在真實檢索環境取樣，以符合真實檢索環境的特性，並提高測試文件異質性。

2.6.3 相關判定：

在進行實際實驗時，必須先給定測試文件集與查詢問題的相關程度判別方式，作為往後辨別文件分類方式結果準確率之依據，而相關判定有二元化與多元化等方式，二元化的方式是把文件區分為相關與不相關兩類，

如 TREC，其判別法則主要是觀察測試文件的某一部份是否與查詢問題有關，如果有關，則將其相關程度判定為相關，否則即判定為不相關，而多元判別的方式則是將文件相關程度區分為幾個程度，例如分為非常相關，

相關，部分相關，不相關，相關程度區分等級越多，則區分難度越高，主要是因為相關概念本身即是個相當主觀且模糊的概念，常會因為判別情境及判別者的不同而產生相當大差異，且相關與不相關之間為一個連續的，

非離散地帶，無法非常清楚的劃分，再加上敵意概念本身即為多向度概念，因此若採多元判定法，將影響相關判定的準確率，因此本測試集將以二元方式判斷文件與查詢主題相關程度，並且以多位領域專家進行相關判定，以提高相關判定的客觀度。

２１

2.6.4 相關判定者：

Saracevic(1975)認為，相關判定者通常是以資訊需求者擔任，以本文主題為例，由於網站管理者或是討論板板主需要對討論區或留言版進行管理的工作，因此需要對文章進行敵意判別，而 Reid and Mizzaro(1998)認為，

判別人數可採一人單獨判斷或是多位需要相關資訊的人一起判斷，再利用加權或是其他方式來確定最後的相關程度。由於判別相關是相當主觀的工作，每個進行相關工作的人員常會因為個人的個別認知差異，而對同一篇文章的相關判定產生很大的差異，據 TREC 的實驗結果顯示，不同的相關判斷者在判斷相關的一致性只有約 30%，而 Saracevic 也發現，(1)多位判斷者同時做相關判斷時，若判斷者的專長與需判斷文件所討論之主題相關性越高，則判斷結果的一致性越高。(2)若判斷者對討論主題較缺乏認識，則越容易將文件判定為相關。(3)判斷為不相關的一致性通常高於判斷為相關的一致性。Voorhees(1998)根據 TREC 對相關判定是否會影響測試集的準確性實驗中發現，不同使用者對相關判定的差異並不會影響到被檢測之系統效益穩定性。因此在相關判定上，可採多位資訊需求者進行相關判定，對於判定為相關的文章，可進行再次確認，以提高相關判定的客觀程度。

２２

三、研究架構與方法

3.1 研究架構：

本研究經由問題分析與文獻探討後，確立了研究的流程與架構，初步先確定研究的目的與動機，再進行相關的文獻探討工作，同時進行系統的規劃與建置工作，

並透過文獻不斷調整系統的規劃，選取樣本並進行實驗，最後依所得資訊進行分析，依實驗結果做出合理的結論，整體架構與流程如下圖所示：

研究開始

研究動機研究目的

敵意相關文獻探討

資訊檢索文獻探討

斷詞文獻探討

確定研究流程

建立系統雛形

輸入實驗資料

進行實驗

實驗結果評估

實驗結果分析

結論

圖 1：研究架構圖資料來源：本論文

２３

3.2 研究工具：

本研究的主要工具為一套建立在 web 上的敵意文章分類系統，系統環境如表 6 所示：

表 5：作業環境設置

作業系統 RedHat Linux 7.2 (Enigma)Kernel 2.4.7-10 on an i686 web 伺服器 Apache 1.3.20-16

資料庫 Postgresql 7.1.3-2

程式語言 PHP-4.0.6-7、PHP-pgsql-4.0.6-7

系統網址 http://163.25.180.120/cgi/nctu/i_r/index.html 資料來源：本論文

２４

兩種，辭典式斷詞法與統計式斷詞法，辭典式斷詞法需事先將能判別文件類別的語詞放入詞庫中，如中央研究院詞庫小組(http://godel.iis.sinica.edu.tw/CKIP/)所建立的語料庫，但由於有些類別文件在定義上並不是那麼的清楚，以這次主題為例，要找出具敵意文件的關鍵詞並不容易，況且由於地區、時間、討論主題的不同，即使他們都是具有敵意的文件，慣用語也會有不同的地方，而統計式斷詞法則是先蒐集一些同類型的文件(以下稱為訓練文件)，經過斷詞後，計算出語詞的權重，並將可以代表此類文件的語詞選為關鍵詞，並放入詞庫中，此方法可以解決辭典式斷詞法的缺點，因此在本系統中將採用統計式斷詞法。而取出語詞的長度，在中文文件中，由於較長的詞彙對文件分類並沒有明顯的效果［22］，因此取出語詞的長度將以長度為 2 的二連字詞為主。在電腦系統中，由於大小寫英文字母再加上常用符號，沒有超過 128 個，因此是以一個 byte 來儲存字母，但是常用中文字就將近 5000 個，所以必須用 2 個 byte 來儲存中文，但是這樣的方式，在斷詞時，會造成當大的困難，

以要斷詞的長度為兩個字為例，如果一份文件中，只有英文字母和符號，在斷詞時的處理，只要從文件一開始，每次擷取 2 個 byte 的資料到文件結束即可將整份文件斷詞完成，但如果一份文件中含有中文及英文，則必須從文件一開始，先判別第一個 byte 的二進位碼是否大於 128，如果不是，再判別第二個 byte 是否大於 128，如果也不是，表示取出的資料不包含中文，故只要直接 2 個 byte 資料即可，但如果是的話，表示取出的資料，第一個字為英文或符號，第二個字為中文，因此總共需取出 3 個 byte 的資料，但是如果第一個 byte 大於 128，則需判別第三個 byte 的二進位碼是否大於 128，如果不是，表示取出的資料，第一個字為中文，第二個字為英文或符號，如果是的話，表示這 4 個 byte 總共包含 2 個中文字，因此需取出 4 個 byte 的資料，整個程序如圖 3 所示：

２５輸入文件

判別第一個byte 是否大於128

是

否

判別第三個byte 是否大於128

是

判別第二個byte 是否大於128

是

否輸出2個byte的資料

輸出3個byte的資料

輸出4個byte的資料

圖 3：中文關鍵詞斷詞流程(未導入 iconv 函數) 資料來源：本論文

我們可以發現，中文的斷詞比英文的斷詞要來的複雜許多，若要處理大量文件的斷詞，會耗費大量時間，由於本研究主要針對中文文件，因此本文中的系統將只擷取文章中的中文字，並利用 iconv 函數(http://www.iconv.com)，來加快斷詞的速度。擷取流程如圖 4：

輸入文件

判別 1 6 進位編碼是否在 0 x a 4 4 0 ~ 0 x c 6 7 e 或 0 x c 9 4 0 ~ 0 x f 9 d c 之間

是

否

加入此字

刪除此字

圖 4：中文關鍵詞斷詞流程(導入 iconv 函數)

２６

資料來源：本論文以下列文章為例：

表 6：未經斷詞處理前的文章內容作者夏天

群組 tw.bbs.comp.hardware

標題 Re: 微星主機板作弊被抓包了..

時間 2003-06-14 05:04:16 微星主機板作弊被抓包了..

※ 引述《(甲蟲)》之銘言：

> 你們為何不買 ASUS P4C800 啊?

> .

P4C800 除了賣那顆 875 還有什麼?

南橋不搭 ICH5R 要用 20378 作 S-ATA raid

那想用 IDE raid 的還要另買轉接頭?

NIC 也是，明明有 CSA 卻用 3Com

看了就不爽

除了 P4P800-D 看起來比較不錯之外(但是 VIA 的 raid...-_-?)

ASUS 其他 865/875 的板子都沒興趣 --

Origin: 精靈之城 ◆ From: vai.dorm4.ntnu.edu.tw

在文檔中自動化文章敵意分級系統之初探研究 (頁 17-0)

第二章、 文獻探討

2.6 測試文件集

第二章、文獻探討