• 沒有找到結果。

第二章、 文獻探討

2.6 測試文件集

Salton 從 1961 年起,展開 SMART(System for Mechanical Analysis and Retrieval Text) 研究計畫,此計畫主要是利用 Cleverdon 在 1950 中期至 1960 中期完成的 Cranfield 研究的實驗文件為基礎,建立大型電子文件資料庫,便於展開對自動化文件分類與 全文資訊檢索理論的研究工作,而研究大型語料與檢索效能的 TREC(Text Retrieval Evaluate Conference)更是有史以來最大、參加者最多的資訊檢索實驗,具有以下特點:

(1)文件與辭彙數量龐大。

(2)資料庫內文件多為全文。

(3)來自多個不同的學科領域。

(4)查詢句設計較長且具有結構性。

(5)對於查詢句與文件的相關性有較嚴格的標準,藉此增加相關判定的一致性。

(6)具有多種不同語言的語料。

TREC 成立的主要目的,是希望能讓研究者測試大規模語料實驗環境下,相關的檢索 理論以及所設計之檢索系統的效能,甚至能更進一步地找出較適合的系統參數以及文 件檢索方法。不過 TREC 雖然有建立中文的語料庫,但由於只有參與 TREC 實驗計劃 的單位才能使用語料庫內的測試資料,且其使用中文方式,與國內使用中文的方式有 相當大的差異,缺乏地域性。而國內在資訊檢索領域的研究起步較歐美國家晚,由中 央研究院資訊科學研究所所組成的中文詞知識庫發展小組,從民國 75 年起,便開始 結合計算機與語言學的中文詞知識庫計畫。目前的研究現況與應用發展以中文詞知識 庫為核心,主要發展中文語句分析、語音辨識、資訊檢索及語言學研究語料庫等。在 此領域的基礎研究上,已有相當的成果 (楊允言, 民 82) 。中研院於 1984 年開始,開 始推動史籍自動化的工作,並陸續將文件電子化,目前已經有總數近一億一千萬字的

18

19

20

NTCIR 300000 N/A N/A 100 N/A N/A 多主題 2 1 英文 IREX N/A N/A N/A N/A N/A N/A 多主題 2 1 英文

資料來源:江玉婷

其中 TREC 是有史以來,文件數最多的測試集,在這麼大的測試文件集,

要對所有測試文件進行相關判定是一件非常困難的事,但是由於有相當多 的測試系統參與系統效能測試,因此在相關判定上利用 Pooling Method 法 進行相關測試,將各效能系統送回結果的前 n 篇文件,剔除重複的文件後,

回送給該查詢主題的原始建構者,再進行相關測試,此方法能有效的進行 相關判定,並且能節省大量時間,由於本測試集只提供本文所建置的系統 使用,因此在文件數的取樣數量上,將以非採用 Pooling Method 的測試集 文件數量平均值為依據,並逐一對每個查詢做相關比對,以彌補樣本效度 的不足。

2.6.2 異質性:

早期測試集由於是先經由篩選,採用同質性相當高的文章,且文件長 度差距不大,因此與真實檢索環境有相當大的不同,測試結果常受到質 疑,故本測試集將直接在真實檢索環境取樣,以符合真實檢索環境的特 性,並提高測試文件異質性。

2.6.3 相關判定:

在進行實際實驗時,必須先給定測試文件集與查詢問題的相關程度判 別方式,作為往後辨別文件分類方式結果準確率之依據,而相關判定有二 元化與多元化等方式,二元化的方式是把文件區分為相關與不相關兩類,

如 TREC,其判別法則主要是觀察測試文件的某一部份是否與查詢問題有 關,如果有關,則將其相關程度判定為相關,否則即判定為不相關,而多 元判別的方式則是將文件相關程度區分為幾個程度,例如分為非常相關,

相關,部分相關,不相關,相關程度區分等級越多,則區分難度越高,主 要是因為相關概念本身即是個相當主觀且模糊的概念,常會因為判別情境 及判別者的不同而產生相當大差異,且相關與不相關之間為一個連續的,

非離散地帶,無法非常清楚的劃分,再加上敵意概念本身即為多向度概 念,因此若採多元判定法,將影響相關判定的準確率,因此本測試集將以 二元方式判斷文件與查詢主題相關程度,並且以多位領域專家進行相關判 定,以提高相關判定的客觀度。

21

2.6.4 相關判定者:

Saracevic(1975)認為,相關判定者通常是以資訊需求者擔任,以本文主 題為例,由於網站管理者或是討論板板主需要對討論區或留言版進行管理 的工作,因此需要對文章進行敵意判別,而 Reid and Mizzaro(1998)認為,

判別人數可採一人單獨判斷或是多位需要相關資訊的人一起判斷,再利用 加權或是其他方式來確定最後的相關程度。由於判別相關是相當主觀的工 作,每個進行相關工作的人員常會因為個人的個別認知差異,而對同一篇 文章的相關判定產生很大的差異,據 TREC 的實驗結果顯示,不同的相關 判斷者在判斷相關的一致性只有約 30%,而 Saracevic 也發現,(1)多位判斷 者同時做相關判斷時,若判斷者的專長與需判斷文件所討論之主題相關性 越高,則判斷結果的一致性越高。(2)若判斷者對討論主題較缺乏認識,則 越容易將文件判定為相關。(3)判斷為不相關的一致性通常高於判斷為相關 的一致性。Voorhees(1998)根據 TREC 對相關判定是否會影響測試集的準確 性實驗中發現,不同使用者對相關判定的差異並不會影響到被檢測之系統 效益穩定性。因此在相關判定上,可採多位資訊需求者進行相關判定,對 於判定為相關的文章,可進行再次確認,以提高相關判定的客觀程度。

22

三、研究架構與方法

3.1 研究架構:

本研究經由問題分析與文獻探討後,確立了研究的流程與架構,初步先確定研 究的目的與動機,再進行相關的文獻探討工作,同時進行系統的規劃與建置工作,

並透過文獻不斷調整系統的規劃,選取樣本並進行實驗,最後依所得資訊進行分 析,依實驗結果做出合理的結論,整體架構與流程如下圖所示:

研 究 開 始

研 究 動 機 研 究 目 的

敵 意 相 關 文 獻 探 討

資 訊 檢 索 文 獻 探 討

斷 詞 文 獻 探 討

確 定 研 究 流 程

建 立 系 統 雛 形

輸 入 實 驗 資 料

進 行 實 驗

實 驗 結 果 評 估

實 驗 結 果 分 析

結 論

圖 1:研究架構圖 資料來源:本論文

23

3.2 研究工具:

本研究的主要工具為一套建立在 web 上的敵意文章分類系統,系統環境如表 6 所示:

表 5:作業環境設置

作業系統 RedHat Linux 7.2 (Enigma)Kernel 2.4.7-10 on an i686 web 伺服器 Apache 1.3.20-16

資料庫 Postgresql 7.1.3-2

程式語言 PHP-4.0.6-7、PHP-pgsql-4.0.6-7

系統網址 http://163.25.180.120/cgi/nctu/i_r/index.html 資料來源:本論文

24

兩種,辭典式斷詞法與統計式斷詞法,辭典式斷詞法需事先將能判別文件類別的語 詞放入詞庫中,如中央研究院詞庫小組(http://godel.iis.sinica.edu.tw/CKIP/)所建立的語 料庫,但由於有些類別文件在定義上並不是那麼的清楚,以這次主題為例,要找出 具敵意文件的關鍵詞並不容易,況且由於地區、時間、討論主題的不同,即使他們 都是具有敵意的文件,慣用語也會有不同的地方,而統計式斷詞法則是先蒐集一些 同類型的文件(以下稱為訓練文件),經過斷詞後,計算出語詞的權重,並將可以代 表此類文件的語詞選為關鍵詞,並放入詞庫中,此方法可以解決辭典式斷詞法的缺 點,因此在本系統中將採用統計式斷詞法。而取出語詞的長度,在中文文件中,由 於較長的詞彙對文件分類並沒有明顯的效果[22],因此取出語詞的長度將以長度 為 2 的二連字詞為主。在電腦系統中,由於大小寫英文字母再加上常用符號,沒有 超過 128 個,因此是以一個 byte 來儲存字母,但是常用中文字就將近 5000 個,所 以必須用 2 個 byte 來儲存中文,但是這樣的方式,在斷詞時,會造成當大的困難,

以要斷詞的長度為兩個字為例,如果一份文件中,只有英文字母和符號,在斷詞時 的處理,只要從文件一開始,每次擷取 2 個 byte 的資料到文件結束即可將整份文件 斷詞完成,但如果一份文件中含有中文及英文,則必須從文件一開始,先判別第一 個 byte 的二進位碼是否大於 128,如果不是,再判別第二個 byte 是否大於 128,如 果也不是,表示取出的資料不包含中文,故只要直接 2 個 byte 資料即可,但如果是 的話,表示取出的資料,第一個字為英文或符號,第二個字為中文,因此總共需取 出 3 個 byte 的資料,但是如果第一個 byte 大於 128,則需判別第三個 byte 的二進位 碼是否大於 128,如果不是,表示取出的資料,第一個字為中文,第二個字為英文 或符號,如果是的話,表示這 4 個 byte 總共包含 2 個中文字,因此需取出 4 個 byte 的資料,整個程序如圖 3 所示:

25 輸入文件

判別第一個byte 是否大於128

判別第三個byte 是否大於128

判別第二個byte 是否大於128

輸出2個byte的資料

輸出3個byte的資料

輸出4個byte的資料

圖 3:中文關鍵詞斷詞流程(未導入 iconv 函數) 資料來源:本論文

我們可以發現,中文的斷詞比英文的斷詞要來的複雜許多,若要處理大量文件的斷 詞,會耗費大量時間,由於本研究主要針對中文文件,因此本文中的系統將只擷取 文章中的中文字,並利用 iconv 函數(http://www.iconv.com),來加快斷詞的速度。擷 取流程如圖 4:

輸 入 文 件

判 別 1 6 進 位 編 碼 是 否 在 0 x a 4 4 0 ~ 0 x c 6 7 e 或 0 x c 9 4 0 ~ 0 x f 9 d c 之 間

加 入 此 字

刪 除 此 字

圖 4:中文關鍵詞斷詞流程(導入 iconv 函數)

26

資料來源:本論文 以下列文章為例:

表 6:未經斷詞處理前的文章內容 作者 夏天

群組 tw.bbs.comp.hardware

標題 Re: 微星主機板作弊被抓包了..

時間 2003-06-14 05:04:16 微星主機板作弊被抓包了..

※ 引述《(甲蟲)》之銘言:

> 你們為何不買 ASUS P4C800 啊?

> .

> .

P4C800 除了賣那顆 875 還有什麼?

南橋不搭 ICH5R 要用 20378 作 S-ATA raid

那想用 IDE raid 的還要另買轉接頭?

NIC 也是,明明有 CSA 卻用 3Com

看了就不爽

除了 P4P800-D 看起來比較不錯之外(但是 VIA 的 raid...-_-?)

ASUS 其他 865/875 的板子都沒興趣 --

Origin: 精靈之城 ◆ From: vai.dorm4.ntnu.edu.tw

Origin: 精靈之城 ◆ From: vai.dorm4.ntnu.edu.tw

相關文件