中文資訊檢索測試集之設計與製作
中文資訊檢索測試集之設計與製作
中文資訊檢索測試集之設計與製作
中文資訊檢索測試集之設計與製作
The Design and Implementation of the Chinese IR Benchmark
陳光華
Kuang-hua Chen
國立臺灣大學圖書資訊學系助理教授
江玉婷
Yu-ting Chiang
國立臺灣大學圖書資訊學研究所碩士
【摘要
【摘要
【摘要
【摘要 Abstract】
】
】
】
在國內資訊檢索研究已日趨受到重視,卻缺少合適的測試評估機制之背景下,本文參考國外 各測試集的結構、特性與建構經驗,設計中文資訊檢索測試集的方法與程序,發展華文世界第一 套中文資訊檢索測試集,實際地進行測試集的規劃建置工作。本研究所建立的測試集包括 132,207 篇新聞文件、50 個查詢主題、以及文件與查詢主題間的相關判斷,平均每個查詢主題有 16.32 篇相關文件。研究結果顯示,以統計抽樣的觀點,本測試集的文件數量具有一定的效度;查詢主 題呈現詳盡且多樣化的查詢需求,能反映真實的檢索情況;由三位判斷者進行的相關判斷具有顯 著的一致性,推斷它們是具有可信度的。本測試集不僅具有可應用性,並能作為進一步資訊檢索 與評估研究之基礎。The research and development of information retrieval has made considerable progress recently. However, there is not any applicable test mechanism for system evaluation in the Chinese research society. This paper reports our research on the design and implementation of the first Chinese information retrieval benchmark. According to the framework and contents of the existing foreign benchmarks, we develop a methodology to establish the Chinese IR benchmark. An IR benchmark consists of three parts: document set, topic set, and relevance judgments. Our document set contains 132,207 documents collected from news web sites, the topic set contains 50 topics transformed from real users’ information needs, and each topic has on the average16.34 related documents as a result of the relevance judgments. The results of our research show that the quantity of document set is valid from the viewpoint of sampling statistics. The topics reveal multiple kinds of information need, and they also reflect certain real retrieval environment. Besides, the judgments given by three judges have exhibited significant consistency, so we conclude their reliability. Although the benchmark is in its first edition, it possesses a complete structure and medium scale. On this basis, it is readily feasible to expand this benchmark's current scale to a proper large one in the near future.
【關鍵詞 Keywords】:
資訊檢索測試集;資訊檢索評估;文件集;查詢主題;相關判斷
一、前言
一、前言
一、前言
一、前言
在知識爆炸的現代,如何從不斷遽增的龐 大資訊中快速且精準地進行搜尋篩選,已是眾 所關切的焦點課題。因此,在資訊檢索系統扮 演的角色日趨重要的背景之下,許多學者紛紛 投入相關研究,期盼能發展更好的檢索技術與 檢索系統,協助人們快速有效地掌握所需資 訊。 資訊檢索系統不論在設計、研發、運作等 各階段,評估均是其中不可或缺的重要環節。 透過此程序,研究者能藉以驗證系統效益、比 較各種檢索技術的優劣,以作為改進之參考, 使資訊檢索系統的運作及效能更臻完善。資訊 檢索系統評估的研究發展,自 1950 年代至 今,已有四十年以上的歷史。(註1)早期此方 面相關的實證研究,大多是在規範化的環境 ( Laboratory Environment ) 中 進 行 測 試 (Test),透過一些量化或質化的準則,衡量不 同技術或不同系統間檢索效益之優劣。最早採 用此評估模式的是 1966 年 Cleverdon 所進行的 Cranfield II 計 劃 , 它 以 文 件 集 ( Document Set )、 查 詢 問 題 ( Question ) 及 相 關 判 斷 (Relevance Judgment)構成一組測試集(Test Collection)作為測試的基礎資料,並訂定一套 效益測量準則(Effectiveness Measurement), 以評估多種索引方式之優劣。(註2)Cranfield 研究採用的實驗模型與測試方法,在系統評估 的領域中一直廣受仿效與援用,直至今日仍佔 有舉足輕重的開創性地位。然而,早期的測試 集規模通常不大,與真實檢索環境間存在頗大 的差距,因此植基於其上所發展的檢索系統, 在實際運作時往往無法達到良好的效益。(註 3) 1992 年,美國國防部高 等研究 計劃 署 ( Defense Advanced Research Projects Agency,簡稱 DARPA)與美國國家標準暨技 術 局 ( National Institute of Standards and Technology,簡稱 NIST)共同舉辦了文件檢索 會 議 ( Text REtrieval Conference , 簡 稱 TREC),透過大型測試集的建構,以及測試項 目、測試程序、評估準則的訂定,提供不同檢 索系統與檢索技術之間的標準評比環境,並舉 辦論壇提供參與者討論及分享結果。(註4)它 首創了前所未有的大型測試集,使測試環境得 以更接近真實的情況,對檢索技術的發展與系 統效益的提昇具有相當重要的貢獻。 影響資訊檢索系統效益的因素十分廣泛 而複雜,系統評估工作亦應考量到各個層面, 並不能僅依據單純的量化準則。無可否認的, 如同 Cranfield II 及 TREC 這般的測試機制, 的確在許多方面都有其侷限與爭議性,但是至 目前為止,它們確實是少數能得知系統可能效 益的具體可行方案,對資訊檢索系統的研究與 發展來說,還是具有十分重大的意義。 在今日資訊檢索研究蓬勃發展之際,各界 紛紛意識到建立一致性評比環境的必要性。目 前除了 TREC 之外,已有一些針對不同語言設 計 的 類 似 機 制 嘗 試 開 始 運 作 , 如 NTCIR (NACSIS Test Collection for IR Systems)計劃 (註5)與 IREX(Information Retrieval and Extraction Exercise)計畫(註6)分別建立了 日文測試集,AMARYLLIS 計畫則建立了以法 文為主的測試集(註7)。 反觀國內,目前亦有許多中文檢索系統, 但合 適 的測 試 機制 卻 一直 付之 闕 如。 雖然 TREC 已建構一個小型的中文測試集(註8), 不過由於只有參與 TREC 的單位才能使用測 試資料,且其文件集之特性及使用文字之方式 與台灣地區有所不同(註9),並不適用於國內 資訊檢索系統的評估。因此,建構一個合適的 中文資訊檢索測試集的確是迫切亟需的。本研 究乃實際地經由蒐集文件資料、建構使用者查 詢需求、進行相關判斷等程序,建立一個結構 完整的中文資訊檢索測試集,期能提供給眾多 的研究發展人員,作為有效測試系統效益的基 礎,實質地解決目前缺乏適當測試集的情形, 也希望本研究建構測試集的方法與程序能作 為後續研究的參考依據。 以下本文將對測試集作進一步探討,並提 出中文資訊檢索測試集實作之方法與成果;第 二節文獻分析介紹測試集的發展演進及數個 現行的重要測試集研究;三、四、五節說明測試集建置的具體方法與步驟,並分析探討其特 性及可用度;第六節除了簡要的總結之外,並 提出對未來研究工作方向的建議。
二、文獻分析
二、文獻分析
二、文獻分析
二、文獻分析
使用者進行資訊檢索的一般模式,是將欲 查詢的問題(Question)形成查詢問句(Query) 輸入檢索系統(註10),系統在文件集中進行 檢索,將可能符合需求的文件輸出給使用者。 資訊 檢 索系 統 測試 便 是希 望模 擬 這樣 的程 序,因此測試集通常會包括一組文件集、查詢 問題以及二者之間的相關判斷。(註11)換句 話說,我們可將測試集視為系統測試的基礎資 料,參與測試的系統必須在其上運作,依據所 訂定的查詢問題,以文件集作為檢索的對象, 並將測試集提供的相關判斷結果視為標準答 案,以此進行檢索效益的評比。 早期的測試集大部分是為了個別的測試 計劃而建立,除了前述之 Cranfield II 之外,還 有 ADI、MEDLARS、TIME、CACM、CISI、 NPL、INSPEC、ISILT、UKCIS、UKAEA、 LISA 等(註12)(註13)(註14)(註15)(註 16),它們各依不同的測試目的、測試對象而 有不同的組成架構,但共有的特性是測試集的 規模 均 不大 , 且同 質 性頗 高。 舉 例來 說, Cranfield II 實驗所使用的測試集由 1400 篇文 件、200 餘個查詢問題組成,文件範圍限定於 太空動力學的領域,且文件長度均頗為相似。 (註17)由於這些測試集的規模及特性與真實 的檢索環境差異頗大,因此依據它們進行的系 統測試,效度(註18)受到許多質疑。(註19) 1980 年 代 之 後 陸 續 發 展 的 一 些 測 試 集 如 OHSUMED、Cystic Fibrosis、BMIR-J2 等(註 20)(註21)(註22),雖然有些規模稍大,但 大體來說其形式還是與早期的測試集相似,也 有著上述的缺失。 要建構一個測試集是很耗費時間及人力 的,尤以相關判斷為甚。再以 Cranfield II 研究 為例,若要將每個查詢問題逐一與每篇文件比 對,必須執行數十萬次的相關判斷,其間所需 花費之代價可想而知。因此,早期的測試集發 展並不十分熱絡,也往往無法達到很大的規 模,一旦有較完整的測試集出現,就算不盡符 合系統評估之需求,通常還是會被許多人重覆 利用,如 Cranfield II 測試集中的子測試集就廣 受援用(註23)。另外,也有一些研究將多個 測試集結合起來,如 SMART 系統評估計劃即 採用六個不同主題領域的測試集進行實驗。 (註24) 研 究 者 對 於 測 試 集 的 需 求 是 十 分 急 切 的,若能建立一可因應不同測試目的及需求的 通用性「可攜式」(Portable)測試集,無疑將 對資訊檢索研究產生相當大的助益。Sparck Jones 與 Van Rijsbergen 認為,理想的測試集除 了必須具備一定的規模之外,在文件及查詢問 題的內容、型態、取得來源等方面要有相當程 度的異質性,以反映真實的檢索環境,但是在 測試集內部,也應包含一些同質性高的子測試 集,提供特殊目的的測試之用。(註25) 1992 年,在美國舉行的 TREC 建立了一 個不同於以往的大規模測試集,其文件集及查 詢問題的結構特性亦與先前的測試集有顯著 的差異,可說是為資訊檢索系統評估測試的研 究開創了一個新的里程碑,在此之後陸續發展 的測試集,大部分均仿效其架構與模式。以下 將 TREC 測試集的各部分組成要素作一簡 述:(註26) 1. 文件集(Document Set) 目前 TREC 已蒐羅約二百萬篇的各類 型文件,且每年持續地擴展增加。TREC 使 用標準通用標誌語言(Standard Generalized Markup Language,簡稱 SGML)及文件型 態定義檔(Document Type Definition,簡稱 DTD)為每篇文件加上標記(Tags),以利 系統進行各種剖析(Parsing)工作。 2. 查詢主題(Topic) TREC 的查詢問題形式與早期的測試 集有顯著的不同。它模擬使用者的資訊需 求,以各種方式、各種角度陳述,並利用結 構 化 的 欄 位 呈 現 , 稱 之 為 查 詢 主 題 (Topic)。TREC 每年建構 50 個新的查詢主題,並將之循序編號,以便於利用辨識。 至 TREC-7(1998)為止,已有 400 個不同 的查詢主題。每年 TREC 會根據先前的測 試結果或當時的特殊需求,將查詢主題的結 構與呈現方式作適度的修正,使其能發揮最 佳的測試效能。TREC-1 與TREC-2 的查詢主題 所包含的欄位多達 10 個,十分詳細且複 雜;而近年的查詢主題則有簡化的趨勢,主 要以<title>、<description>及<narrative>三部 分為主,呈現不同詳簡層次的資訊需求。 3. 相關判斷(Relevance Judgment) TREC 採取二元化的相關判斷方式,即 將所有文件分為相關與不相關二個層次,只 要文件中一部分與查詢主題有關聯即視為 相關。對於 TREC 這樣的大型測試集來說, 要逐一將每個查詢主題與每篇文件作詳盡 的相關比對,所須耗費的工程可想而知,因 此 TREC 採用 Pooling Method 輔助相關判 斷的進行:在參與測試評比的系統均能提供 相關性排序功能的前提下,抽取各系統送回 之測試結果的前 n 篇文件,合併形成一個 Pool,視之為該查詢主題的相關文件候選 集,去除集合中重覆的文件後,再送回給該 查詢主題的原始建構者進行相關判斷。利用 此方法的主要精神是希望透過多個不同的 系統與不同的檢索技術,盡量網羅所有可能 的相關文件,減少人工判斷的負荷。 目前正積極發展的其他語文測試集,均承 襲 TREC 查詢主題多欄位化的設計概念,有些 也將之擴展變化,例如日本的 BMIR 測試集即 加入了功能性標記的欄位(註27)。由於測試 集發展的規模愈來愈大,以 Pooling 輔助相關 判斷的方法廣受延用,除此之外,有些測試集 也同時利用系統評比的結果對測試集的標準 答案作修正(註28)。另外值得注意的是,許 多測試集在進行相關判斷時,均傾向以多元化 的相關判斷取代 TREC 所採用的二元化模式。 表一整理了自 1960 年代至今的重要測試 集基本資料(註29),從中可看出測試集規模 的演變與部分特性。早期測試集的文件大部分 由題名、摘要、關鍵詞等簡短的書目性資料組 成,主題領域也多屬專門。近年來測試集的發 展主要以 TREC 為標竿,逐漸趨向前述之「可 攜式」目標,雖然還未到達理想的境界,但無 論在規模、組成特性等各方面均較以往大幅增 進,包含多主題的全文文件以及詳盡的查詢問 題,且正持續擴展之中。 無疑地,資訊檢索測試集對資訊檢索研究 的價值,已受到相當程度的重視與肯定。但是 從 Cranfield II 研究開始,還是不斷有學者對測 試集、測試方法、評估準則等各方面的有效性 提出質疑。在文件集方面,由於早期的文件集 大多只有數千至數萬篇,且其中有許多僅包含 文件摘要部分,因此主要受到的批評是規模太 小、文件的同質性過高,無法反映真實的檢索 環境,使測試的結果較無意義與代表性,各系 統間的顯著差異也較難顯現(註30)(註31) (註32)。但從表一可看出,近年來發展的幾 個較大規模的測試集在此方面已較以往改進 不少。 在理想的情況下,測試集的查詢問題應為 真實環境中的使用者資訊需求,但一般來說, 由於蒐集這些需求並不容易,且為了使實驗測 試能獲得較佳的控制,查詢問題通常會以人工 模擬建立,或是對使用者原始的需求作部分修 飾,如 Cranfield II 與 TREC 的查詢主題均是 由上述方法建構而成。因此,測試集中的查詢 問題常被認為過於人工化,使得系統測試的效 度產生疑慮。(註33)(註34)(註35) 在查詢問題的內容方面,大多數測試集雖 然是以自然語言的方式陳述,但卻十分簡短, 所包含的訊息相當少,因此有不少學者認為它 們過於簡化使用者的需求。(註36)(註37) (註38)近來 TREC 首創的查詢主題,以多個 欄位呈現不同層次的資訊需求,可說是一大突 破,後來發展的測試集也紛紛仿效這樣的模 式。另外,查詢問題所涉及的面向也愈來愈多 元化,除了主題相關之外,也逐漸加入其他層 面的描述。(註39)
表一 各測試集之基本資料 相關判斷層次 測試集 文件數 文件集大小 (MB) 文件 平均字數 查詢 問題數 查詢問題 平均字數 查詢問題 平均相關 文件數 主題領域 相關 不相關 語 文 Cranfield II 1,400 1.6 53.1 225 9.2 7.2 太空動力 學 4 1 英文 ADI 82 0.04 27.1 35 14.6 9.5 文獻學 N/A 英文 MEDLARS 1,033 1.1 51.6 30 10.1 23.2 醫學 2 2 英文 TIME 423 1.5 570 24 16.0 8.7 世界情勢 N/A 英文 CACM 3,204 2.2 24.5 64 10.8 15.3 ACM 通訊 N/A 英文 CISI 1,460 2.2 46.5 112 28.3 49.8 資訊科學 N/A 英文 NPL 11,429 3.1 20.0 100 7.2 22.4 電子、電 腦、物理、 地理 N/A 英文 INSPEC 12,684 N/A 32.5 84 15.6 33.0 物理、電 子、控制 2 1 英文 ISILT 800 N/A N/A 63 N/A 8.4 文獻學 1 1 英文 UKCIS 27,361 N/A 182 193 N/A 57 生化 2 2 英文 UKAEA 12,765 N/A N/A 60 N/A N/A 核子科學 2 1 英文 LISA 6,004 3.4 N/A 35 N/A 10.8 N/A N/A 英文 Cystic
Fibrosis 1,239 N/A 49.7 100 6.8 6.4-31.9 醫學 6 1 英文 OSHUMED 348,566 N/A 250 101 10 17/19.4 N/A 2 1 英文 BMIR-J2 5,080 N/A 621.8 60 102.2 10.6/28.
4 經濟、工程 2 1 日文 TREC
(TREC-1~6) 1,754,896 ~5GB 481.6 350 105.8 185.3 多主題 1 1 英文 AMARYLLIS 336,000 201 N/A 56 N/A N/A 多主題 N/A 法文 NTCIR 300,000 N/A N/A 100 N/A N/A 多主題 2 1 日文 IREX N/A N/A N/A N/A N/A N/A 多主題 2 1 日文
相關原本就是較主觀且模糊的概念,相關 判斷更會因判斷者、判斷情境等諸多因素而可 能產生很大的差異,加上進行相關判斷時往往 宥於時間人力等種種限制,無法作十分周詳的 考量,通常只能採取一些可行性較高的權宜方 案。因此,相關判斷在測試集中一直是最受爭 議的部分。歷來學者對於測試集中相關判斷部 分的質疑,主要可歸納為相關層面、相關測量 尺度、相關判斷者、相關判斷的完整性等幾個 議題。 在進行檢索系統評估時,宥於使用者相關 層面的複雜、模糊與不確定性,大部分的研究 者僅論及主題相關層面,前面所介紹的測試集 大部分亦採用此觀點。但畢竟相關無法單純由 客觀的主題因素決定,許多學者主張在相關判 斷時應納入如情境相關等多層面的考量。 相關與不相關之間為一連續地帶,相關程 度很難清楚地劃分,不同使用者間的認知也往 往有相當大的差異(註40)(註41)。但是由於 測試集中文件與查詢問題的相關程度必須有 較為客觀且明確的定義,採用抽象的排序或連 續尺度是較為困難的,因此現行測試集大多採 用類別尺度。在必須考量實施可行性的前提 下,測試集所採用的測量尺度是否能準確地反 映實際的相關程度差異,是值得進一步探討 的。 一般認為資訊需求者是最具資格進行相 關判斷的人(註42),因此理論上相關判斷應 由原始的查詢問題建構者進行。但對依據真實 使用者需求構成查詢問題的測試集來說,如此 實施的困難度較高,所以大多數的相關判斷是 由一位或多位次判斷者(Secondary Judges)進 行。至於如何結合不同判斷者的意見以形成最 後的相關判斷結果,則有許多不同的做法,例 如 IREX 以第三者參考其他人的相關判斷進行
最後的決策工作,Reid 等人則提出加權式計算 方法結合不同的判斷決策。(註43) 不同判斷者所產生的相關判斷結果,通常 也有相當程度的歧異產生。TREC 的實驗顯 示,不同的相關判斷者之間有高達 71%的不一 致狀況。Saravecic 歸結先前的研究結果發現以 下現象:(1)判斷者的主題專長與查詢主題愈 接近,判斷的一致性愈高;(2)較缺乏查詢主 題知識的判斷者,愈容易將文件判斷為相關 (意即判斷結果愈為鬆散);(3)判斷為不相 關的一致性通常高於判斷相關的一致性。(註 44)(註45)在如此不穩定的相關判斷之下, 測試集的有效性是否受到影響呢?TREC 的實 驗結果顯示,相關判斷的差異並不會影響系統 效益優劣排序的穩定度(註46),Burgin、 Kazhdan、Cleverdon 及 Lesk & Salton 的研究 亦得到相似的結論。(註47)(註48)但是, Harter 則認為這樣的測試集有效性仍是值得質 疑的。(註49) 相關判斷的完整性指的是查詢問題在文 件集 中 真正 相 關的 文 件被 判斷 為 相關 的程 度。求全率(Recall)(註50)是目前系統測試 的重要準則,理想中測試集應找出文件集中所 有可能的相關文件,才能精準地計算求全率, 但是相關判斷的工作非常耗費人力、時間,且 判斷者的不同認知會產生不同判斷結果,使得 可信度(註51)受到影響,因此要獲致一個相 當完整的相關文件集合是十分不容易的,測試 集漏失真正相關文件的高比例(註52)使得評 估系統效益時計算求全率的意義令人質疑。 (註53)但亦有學者認為,吾人可以透過事前 對可能遺漏的相關文件數量的預測,減低評估 時的偏差。(註54)
三、文件集
三、文件集
三、文件集
三、文件集
本 研 究 發 展 中 文 資 訊 檢 索 測 試 集 的 方 法,主要參照現有測試集的實施經驗,考量各 種不同作法的優缺點與可行性,並根據中文資 訊檢索系統的型態與特性,實際設計一套建構 測試集的模式,依各步驟的不同需求,選擇採 用適當的研究方法與工具,以建立一套可因應 不同評估需求的通用性測試集。在評估對象方 面,考慮以檢索文字式資料為主、以單篇文件 為最小檢索單位、能夠計算文件與輸入系統的 查詢問句間之相關性、並提供相關排序輸出的 一般資訊檢索系統;評估方式則考量以相關為 主的效益測量方法,在測試集中提供所需的標 準答案。本節及以下二節即依文件集、查詢主 題、相關判斷三個部分,說明中文資訊檢索測 試集的建構方法、程序以及有關的分析討論。 本研究在一年的時間內,自WWW網站下 載大量的新聞報導全文(註55)。選擇新聞文 件的原因主要是目前網際網路上許多新聞性 網站均提供大量的全文式新聞,且多數具有免 費與正當的存取管道,因此在資料取得上實施 的困難度較低。再者,網際網路上的資料傳播 更新十分迅速,內容大多極為新穎,主題分佈 也非常廣泛,以其作為文件集的主要組成元 件,應能即時反映目前語言文字的使用情形與 特性,如此不僅可以測試出資訊檢索系統是否 能適應時代的走向及需求,也較能切合一般資 訊檢索系統或搜尋引擎的設計目的與應用對 象。文件下載來源主要為中時電子報(包括中 國時報、工商時報與中時晚報)、中央日報、 中華日報等三個新聞網站中的報紙新聞電子 版部分,這些網站均提供綜合性主題的新聞全 文,且文件長度不致過短,大致上符合本研究 對文件集構成之要求。 為 了 使 系 統 易 於 對 文 件 進 行 辨 識 與 處 理,文件格式應具一致性,在測試時才不致因 為文件中的其他雜訊使系統的檢索結果受到 影響。因此,本研究將取得的 html 文件整理 為一致的純文字格式,刪除新聞報導正文之外 的資訊。另外,並考慮文件原始的結構與特 性,將之加上標記,使每篇文件具有相同的格 式與資料項目:除了各文件原有的新聞標題與 新聞內容之外,並統一加註文件來源識別碼與 新聞報導日期,如圖一所示。但本研究僅針對 文件的呈現形式作統一的處理,並不對新聞內 容作任何更改。 表二說明本文件集的來源與數量,目前共 有 132,173 篇文件,約佔 200MB。文件內容包 括政治、財經、社會綜合、生活、體育、藝文、 國際、資訊科技等多元性主題。文件集規模愈大,愈能接近真實的檢索環 境,測試集本身的效度也愈高。因此,吾人可 從統計抽樣的觀點檢視文件集的效度,意即依 據取得的文件樣本進行之測試,結果能推估實 際情況的有效程度。(註56)(註57)真實檢索 環境中的文件數量通常十分龐大,因此我們可 假定它是一個無限大的母體,其分布應趨近於 常態分配,如此可進一步推得一個比較保守的 應取樣本數 n: 2 2 4 )] 2 / ( [ b n≅ Ζα (b 為容許誤差 值)。以本測試集的 132,173 篇文件而言,若 將容許誤差設為 0.5%,信賴區間可高達 99.9% 以上;而若以估計中慣常採用的信賴區間 95% 或 90%所得的結果來推斷,如此的文件集規模 應已能達到相當高的效度。(註58) <doc> <id>chinatimes_focus_0005660</id> <data>05071999</date> <title>解決高鐵融資 尋求第三管道</title> <text> <p> 【記者羅兩莎台北報導】據負責台灣高速鐵路聯合貸款的主辦銀行表示,高鐵融資問題目前仍卡在銀 行團、交通部高鐵局以及台灣高鐵公司「三方合約」內容的訂定。在銀行團和交通部一直未能就相關 歧見達成共識之下,三大主辦銀行原則決定,將尋求行政院經建會等第三管道與交通部協調,以儘早 解決銀行團和交通部之間對融資問題的歧見。 <p> 高鐵案將向國內銀行融資二千八百多億元,這項聯貸案確定由交銀、台銀和中國國際商業銀行共同主 辦。不過,由於高鐵是國內首宗BOT案,潛在風險究竟有多高,銀行無從評估。三大主辦銀行與交 通部和台灣高鐵公司訂定貸款合約時,重點亦著重在風險控制以及債權確保。 <p> 據主辦銀行主管表示,銀行當然希望債權確保不會有問題,譬如,在三方合約中訂定,由政府出面保 證萬一將來台灣高鐵公司蓋不下去時,政府可以出面買下,負責把工程完成等。 <p> 但是三大主辦銀行經多次與交通部協商,前述問題均未達成共識。 </text> </doc> 圖一 文件標記範例 表二 文件集數量統計 中國 時報 工商 時報 中時 晚報 中央 日報 中華 日報 總數 38,163 28.8% 25,812 19.5% 5,747 4.4% 27,770 21.0% 34,728 26.3% 132,173 (200MB)
四、查詢主題
四、查詢主題
四、查詢主題
四、查詢主題
查詢主題之建構主要有以下三個程序: 1. 查詢需求之徵集 為了加強測試集與真實檢索環境的相 似度,本研究希望經由徵集真實環境中使用 者的查詢需求,獲致查詢主題建構的參考來 源,再將其修正轉化成正式的查詢主題。我 們透過網路問卷的方式進行調查,共徵得 405 個查詢需求。問卷內容由封閉式與開放 式的問題組成,收集使用者資訊需求的類 別、主題、詳細內容、及各種相關資訊。實 施此方法的基本假定為:使用者均能對其特 定之查詢問題作清楚且詳盡的陳述。 2. 查詢需求之篩選 由於蒐集而來的問卷答卷品質並不整 齊,對問題的敘述詳簡各異,問題形式與所 涵蓋之主題範圍也不一定適合作為測試集 的查詢主題,因此我們分三階段對其進行篩 選的工作,找出 50 個最合適的查詢需求。 第一階段以人工檢視的方式考慮填答 者對查詢需求之陳述方式與需求主題之適切性,過濾敘述不清、不夠詳盡、或過於主 觀的需求,在需求主題方面則將範圍過廣、 與文件集主題不符、型態特殊、或變動過大 的即時性問題刪除。第二階段利用龍捲風全 文檢索軟體,考慮可能相關文件之數量,判 斷查詢需求的主題範圍是否過於廣泛或過 於狹窄,另外也透過觀察檢索所得之前 n 篇文件與查詢需求之相關情形,初步預測查 詢需求之難易度。第三階段以人工檢視的方 式,考慮的層面包括需求之事件主題的相似 性,以及需求敘述的詳簡及清晰程度,選擇 最適當的 50 個查詢需求。各次篩選結果如 表三所示。 表三 查詢需求之篩選 篩選方式 刪除數量 剩餘數量 第一次篩選 人工檢視 163 242 第二次篩選 以 全 文 檢 索 軟體輔助 173 69 第三次篩選 人工檢視 19 50 3. 查詢主題之建構 此部分主要以前述篩選產生的 50 個查 詢需求為藍本,依據所訂定的建構原則,將 問卷回答內容轉化成標準一致的格式。每個 查 詢 主 題 均 以 <title> 、 <question> 、 <narrative>及<concepts>等四個欄位呈現查 詢需求的內容,各欄位之特性、意義與建構 依據如表四所示。查詢主題中<title>欄位所 涵蓋的主題範圍最廣,其次是<question>欄 位,<narrative>欄位雖然敘述最詳盡,卻也 是其中最為特定的,而<concepts>欄位中的 詞彙則可能涉及上述各層次的主題,其間之 關係如圖二所示。 圖二 查詢主題之欄位關係 表四 查詢主題各欄位說明 欄位 中文名稱 內容 組成語法 建構依據 <title> 查詢標題 對查詢主題的簡單描述 名詞 或名詞片語 查詢需求主題 <question> 查詢問題 利用簡短語句傳達查詢需求的主要內容 一至二個句子 查詢需求 <narrative> 查詢說明 對查詢問題的進一步解釋、專有名詞的釋義 與澄清、相關與不相關資訊之列舉、對相關 文件的特殊需求與限制 數個句子 查詢需求 <concepts> 相關概念 與查詢主題中各層次敘述相關的詞彙 一至數個詞彙 相關與不相關文 件之詞彙 在釐清查詢主題之結構與意義之後,將 先前篩選出的 50 個查詢需求依據規範編輯 轉化為正式的查詢主題,並使其能具有相近 的呈現模式及一定的詳盡程度。建構查詢問 題時必須遵照下列之主要原則:(1)儘量使 用清楚、易懂、且常用詞彙表達,艱澀難以 理解之詞彙應儘量避免出現,或必須在查詢 主題中加以解釋。若為人名、事件、專有名 詞等,應選擇正式且一般普遍常用的名稱; (2)句子陳述應符合正確之文法,並加上 標點符號。內容應以簡潔直述的方式呈現, 在能充分傳達所需資訊的前提下,應刪除不 必要的贅語,另外,陳述中也應避免出現隱 喻、暗示、及不正式的用語。 <narrative> 查詢說明 <question> 查詢問題 <title> 查詢標題 相 關 概 念 <concepts> 主 題 涵 蓋 面
除了上述原則之外,各欄位也分別有 其建構規範,主要依據所蒐集之各層面的 使 用 者 需 求 加 以 轉 化 。 較 特 別 的 是 在 <concepts>相關概念的部分,我們假定在去 除一般常用的詞彙之後,相關文件裡使用 率高的詞彙傾向是與查詢主題有關的概 念,而常出現在不相關文件中的詞彙則應 避免列舉出來。因此本研究透過一中文斷 詞程式,分析與查詢主題十分相關及十分 不相關文件中所使用的詞彙及頻率,作為 相關概念關鍵詞列舉的主要來源。建構完 成的正式查詢主題如圖三所示。 <topic> <number>01-011</number> <title>金融機構合併。</title> <description> 查詢我國政府單位鼓勵金融機構合併之各項措 施。 </description> <narrative> 財政部等相關單位為健全金融市場、改善金融 體質,推動了一連串鼓勵銀行、證券商及保險 公司等金融機構合併的措施。相關文件內容包 括各項具體的獎勵優惠辦法、施行細節、法令 中明定之規範條文、以及各界對相關政策的討 論與評估。若文件中只陳述金融機構合併之個 案,視為不相關。 </narrative> <concepts> 金融機構、合併、銀行合併、租稅優惠、租稅 減免、稅前盈餘、低利融資、促進產業升級條 例、財政部、經濟部、央行、中央銀行、增值 稅、印花稅、證交稅。 </concepts> </topic> 圖三 查詢主題範例 最後產生的 50 個查詢主題可概略劃分為 9 個新聞類別,其中以社會綜合類最多(佔 28%),其次為生活類與科技資訊類。查詢主 題的平均總字數約為 169 字,與其他測試集相 較,相近欄位的字數相差並不大,但本研究 50 個查詢主題之間的變異程度較低,意即各 查詢主題陳述文字的多寡分布較平均,並沒有 特別簡略或特別長的查詢主題,相關統計值如 表五所示。 本研究所建構的查詢主題是依據真實環 境中的使用者查詢需求修正轉化而來,並以多 種不同的形式與詳簡層次呈現。經由查詢需求 的篩選與建構準則與規範的訂定,我們可較為 確保其在測試評估時之適用性,查詢主題的內 容品 質 與陳 述 的明 確 性亦 能得 到 一定 的控 制。在測試的功能上,這樣的查詢主題不僅能 反映實際情況,且能展現多種不同的查詢問題 形態。 透過個別候選文件集中文件與查詢主題 的相關情形,我們也可觀察不同查詢主題應用 在測試上的不同意義與特性。就本測試集初步 進行相關判斷的結果來看,候選文件中真正與 查詢主題相關的比例多在 0.2-0.3 之間。然而, 查詢主題的平均文件相關度僅能反映片斷的 狀況,仍需將以下二方面的資訊納入考量:(1) 查詢標題與查詢問題之關係:由於查詢問題是 判斷者主要依據的判斷基準,因此以查詢標題 所產生的候選文件集,真正相關文件的比例也 會應有多寡程度的差別,若查詢標題與真正的 查詢問題相差太大,將會使平均相關度變得很 低;(2)查詢主題與文件集之關係:在各個查 詢主題的候選文件集中,相關度並不會以固定 的模式分布,可能有多種不同的情況產生,例 如常態分布、隨機分布與兩極化分布的相關判 斷結果,其內在的意義亦是可深入探討的。 另外,從三位判斷者相關判斷結果的一致 情形,也可判斷查詢主題在下列方面可能具有 的不同表現:(1)查詢主題是否提供詳盡的資 訊?(2)查詢主題是否表達清晰?(3)查詢 主題的專指性如何? 透過以上資訊,可以幫助吾人研判查詢主 題可能的難易度,並推估其不同特性所造成判 斷困擾的程度。不過,由於查詢主題難易度仍 是一個模糊的概念,不僅牽涉的因素多且複 雜,在不同的觀點與基礎下,對它的解釋也會 有所不同,目前並無法清楚界定。但是系統仍 可以藉此觀察每個查詢主題所展現的不同特 質,或是從中選擇合適的查詢主題進行測試。
表五 各測試集查詢主題長度比較 欄位 最小字數 最大字數 平均字數 標準差 標準差/平均字數 <title> 3 13 6.52 2.23 0.34 <question> 12 37 23.64 5.92 0.25 <narrative> 57 141 93.90 20.43 0.22 <concepts> 26 74 44.68 11.58 0.26 本研究 Total 103 244 168.74 27.77 0.16 <title> 4 29 12.30 5.58 0.45 <desc> 6 35 17.48 7.40 0.43 <narr> 31 174 81.54 30.28 0.37 TREC Chinese Topic 1-54 Total 53 204 111.32 31.36 0.28 <title> 3 13 6.80 2.28 0.34 <desc> 7 87 30.14 16.88 0.56 <narr> 26 217 94.56 42.15 0.45 TREC-6 Topic 301-350 (中文翻譯) Total 64 237 131.5 42.03 0.32
五、相關判斷
五、相關判斷
五、相關判斷
五、相關判斷
執行相關判斷的主要目的是建立查詢問 題與文件集中文件的關聯程度,而此階段工作 是以下列假定為前提:(1)使用者的資訊需求 能透過相關的概念得到滿足;(2)相關判斷者 能依據查詢主題做出客觀而正確的判斷,不受 當時外在環境或個人內在因素的影響;(3)相 關判斷結果是穩定而不易變動的,判斷者不需 在不同的時間對同一組查詢問題與文件重覆 進行多次的判斷;(4)相關判斷者能將文件與 查詢主題之間的關聯性,量化區分為數個不同 的相關等級或類別;(5)個別查詢主題與文件 間所形成之相關現象是相互獨立的,不會受到 其他判斷結果的影響。系統評估必須依據相關 判斷的結果進行測試,始能進一步得知其可能 的效益,因此相關判斷可說是測試集的關鍵部 分。首先,應建立一些判斷的準則與程序,包 括選取相關判斷者、決定判斷尺度及訂定判斷 規範等。另外,為了縮小欲進行相關判斷的文 件數量,必須針對每個查詢主題進立相關文件 候選集。在相關判斷進行完畢之後,則根據各 判斷者的判斷結果,計算每篇文件的總相關分 數。茲將主要步驟分述如下: 1. 相關判斷實施之準則與規範 本測試集的查詢主題數量眾多,並且經 過重重的篩選以及結構重組建構而成,而每 個查詢主題必須進行判斷的文件亦不少,在 此種種限制下,50 位查詢需求提供者很難 能夠完全配合研究的進行。本研究因而改採 以次判斷者(Secondary Judges)進行相關 判斷。另外,為了增強判斷結果的信度,不 致因單一判斷者的特殊認知或可能產生的 錯誤影響測試集的有效性與客觀性,對每一 個查詢主題安排三位次判斷者進行相關判 斷,並分別將其定位為具主題專長、檢索專 長以及一般使用者的角色。在相關判斷中, 若除去純為個人的特殊觀點或特殊判斷情 境等主觀因素,具有此三種不同外在角色特 性的判斷者,應能反映一般檢索情境中可能 造成相關認知不同的情況,換句話說,透過 三位次判斷者的判斷結果,可以推測某文件 在真實情況中相關狀況是具有一致性或爭 議性,使判斷結果能有一定的效度。另外, 由於詳盡的相關判斷耗日費時,所有的判斷 工作不可能以一人之力為之,因此假定具有 同一判斷背景的判斷者在客觀性前提下,對 查詢主題的認知觀點是相似的,而相關判斷 的結果可以、也只能反映該背景的判斷特 性。透過對判斷者背景的控制與整合,本測 試集的相關判斷結果應是較為可信與客觀 的。 本研究在相關層面的考量以主題相關 為主,重視文件與查詢主題之間較為具體、 可形諸文字的主題關係。在這樣的概念基礎 上,判斷者應客觀地將查詢主題與文件內容 作相關性連結,也因此我們在研究中以不同 次判斷者進行的相關判斷工作,其間的信度 與一致性應不致過低。在判斷的決策層級方 面,由於測試集中文件與查詢問題的相關程度必須有較為客觀而明確的定義,採用排序 或連續尺度是較困難的,而若單純區分為相 關與不相關二類,又較不實際。因此本研究 採用多元式類別測量尺度,將相關程度分為 非常相關、相關、部分相關與不相關四個等 級。雖然它們嚴格來說是屬於類別尺度,但 就相關的程度來說,它們仍隱含順序的概 念,即非常相關>相關>部分相關>不相 關,因此我們亦根據其相關的程度分別給予 4 至 0 的相關分數。 2. 相關文件候選集之建立 由於相關判斷非常耗費人力與時間,而 文件集的文件數量眾多,要逐一對每篇文件 進行判斷是不太可能的。在儘可能兼顧相關 判斷可行性與完整性的考量前提下,本研究 利用查詢主題各欄位間主題涵蓋面相互隸 屬的特性,對每個查詢主題建立一相關文件 候選集(文件數量介與 30 篇與 200 篇之 間),再針對候選集中的每篇文件以人工進 行相關判斷。進行方式是利用「龍捲風」全 文檢索軟體,根據查詢主題中主題意義最廣 的欄位進行檢索,並配合使用各種檢索技巧 與策略(如詞彙擴展),期能儘量完整地蒐 羅所有可能相關的文件。運用此法要達到基 本的信度與效度,必須建立在二個重要假定 之上:(1)查詢標題所提供之資訊,在主題 意義上能完全涵蓋該查詢主題中對資訊需 求的所有陳述;(2)檢索系統或檢索者具有 優良的檢索能力,能找出文件集所有可能與 所依據之欄位內容相關的文件。建構產生的 50 個相關文件候選集,平均約有 94 篇文 件,如表六所示。 3. 相關判斷之實施 在進行相關判斷時,每位判斷者必須詳 細閱讀並了解查詢主題,並以<question>欄 位作為主要的判斷依據,逐一檢視候選文件 集中每篇文件的內容,將其指派到判斷者認 為適當的相關類別。判斷者必須在一段連續 的時間內完成一個查詢主題的判斷工作,以 儘量確保判斷標準前後的一致性。同一集合 中文件的呈現順序,則依據文件識別碼排 列。實驗中,18 位判斷者共秏費約 230 小 時進行了近 15,000 次的相關判斷工作。(註 59) 表六 相關文件候選集數量統計 文件數 頻率 (查詢主題數) 31-50 14 平均數 93.82 51-100 15 最大值 198 101-150 12 最小值 30 151-200 9 標準差 47.137 總計 50 總數 4691 4. 相關分數之結合 測試集必須建立一個查詢主題與文件 相關程度的表列,即俗稱的「標準答案」, 使系統能在同一基準上進行效益的比較與 評估。因此,相關判斷工作實施完畢之後, 尚必須結合各判斷者的判斷結果,為每篇文 件建立標準統一的相關分數,再決定如何解 釋此分數的意義,以及如何應用其進行系統 評估。本研究以較直觀的想法結合多個判斷 結果,主要有下列基本原則:(1)每個判斷 者對於整體相關分數有相等的貢獻;(2)每 個相關類別對相關判斷決策具有等同的地 位,因此單純以前述給定的相關分數進行計 算,不另作加權;(3)個別判斷結果是獨立 的,結合時不因其分布狀況的不同而有不同 的計算方式。 依據上述想法,本研究將三位判斷者對 同一篇文件所做的判斷結果,以下列公式結 合,計算其與該查詢主題的相關程度值: 3 3 ) (XA XB XC R= + + 其中X為各判斷者對文件所給的類別 等級,A,B,C 則為三位判斷者之代號,若所 得的值愈接近 1,表示二者愈相關,反之則 愈不相關。 就系統評估功能的觀點,在獲得每一文件 的相關度之後,還必須對這些值賦予意義,以 配合使用一些效益評估準則。以目前最常用的
求全率與求準率為例,進行效益計算時必須將 文件劃分為相關與不相關二類,因此本研究亦 將測試集中的相關判斷結果進一步作二元化 的區分,取得一個合理可靠的相關度門檻值, 將具有某個相關度以上的文件定義為相關文 件。實際作法為利用 Kappa 一致性係數(註60) 分析此二不同的相關區分方式在判斷結果中 的一致性表現。若判斷者對於相關與不相關的 認知具有較高的一致性,即表示此區分方法是 較適當的,因此我們可依據其決定一個相關度 門檻值,將相關度大於等於此值之文件視為相 關,反之則視為不相關。經實驗檢測後,本研 究將相關度門檻值訂為 0.556,50 個查詢主題 平均有 16.34 篇相關文件,佔候選文件集的 17.4%,如表七所示。就 TREC 的二元式相關 判斷標準來看,其作法是只要文件與查詢主題 有部分相關即視為相關之文件,相較之下本研 究的二元式相關劃分是較為嚴格的。若使用類 似 TREC 的基準,本研究相關度門檻值應降為 0.333,平均相關文件則會提升到 25.22 篇,佔 候選文件集的 26.9%。 表七 二元式相關劃分 相關度門檻值 0.556 0.333 相關文件數 頻率(查詢主題數) 0-10 12 6 11-20 23 15 21-30 11 12 31-40 4 11 41-50 0 3 51-60 0 1 61-70 0 2 相關文件數總和 817 (17. 4%) 1261 (26.9%) 平均值 16.34 25.22 最大值 39 68 最小值 3 4 標準差 8.442 14.403 標準差/平均值 0.517 0.571 測試集中查詢主題相關文件數量的多寡 會受到許多因素的影響,包括文件集的範圍與 數量、查詢主題的訂定、以及相關判斷的標準 等等,而評估測試的目的與規範亦是重要的考 量點。由於本研究並無涉及評比機制的設計, 因此若單與現行的測試集比較,就此規模大小 初步來看,這樣的相關文件量尚屬恰當,而相 關文 件 數在 候 選文 件 集中 所佔 的 比例 亦與 TREC 頗為接近(請參見表一之數據資料)。 但是,細部觀察各查詢主題的相關文件數發 現,它們的分布並非十分集中,在候選文件集 中所佔的比例亦有不同,如此在依測試時不同 的需求,各查詢主題應能發揮其不同的功能特 性。 影響相關判斷的因素非常多,不同的判斷 者在個人知識、智力、認知狀態、判斷經驗等 的背景下,會產生不同的相關判斷結果是十分 正常的。但也由於牽涉到的因素如此複雜、不 確定,在本研究的相關判斷實驗中,並無法對 各種變因做很嚴格的控制,相關判斷結果完全 一致的比例(即三位判斷者均將文件指派到同 一個類別的情形)並不是很高,僅佔所有判斷 情形的 7%左右。然而,為了使測試集能夠客 觀地測試資訊檢索系統的效益,相關判斷仍必 須有某種程度以上的一致性,才足以顯示判斷 結果是具有可信度、沒有偏頗的。因此,本研 究利用三種不同的統計量對相關判斷結果進 行檢測與驗證:包括前述之 Kappa 一致性係數 (K)、Kendall 一致性係數 (W)(註61)、以及考 慮兩兩相關分數間距離的一致度 (C)(註62)。 圖四為 50 個查詢主題在三種統計量之下 的表現與分布狀況。雖然它們計算一致性的統 計原理不盡相同,但圖中曲線大致上的起伏情 形仍頗為相似,W 值與 C 值大致上均在 0.7 以 上,平均值也達到 0.8,變異數則不到 0.1,由 這樣的結果可推測判斷不同的現象應大多出 現在相鄰的二個類別,判斷者對於相關等級的 認知也多具有一定程度的共識。另外,本研究 亦進一步利用統計公式計算 Kendall (W) 與 Kappa (K) 的顯著性,結果發現兩者的表現均 低於顯著水準 (α),顯示三位判斷判斷結果 的一致性已具有顯著意義,可初步研判本研究 相關判斷的施行具有一定的信度,足以作為系 統評估依循之客觀基準。
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 查詢主題 一 致 性 係 數 K C W 圖四 相關判斷一致性分析
六、結論與建議
六、結論與建議
六、結論與建議
六、結論與建議
本研究已實際完成一組包含文件集、查詢 問題以及相關判斷的測試集,也初步驗證了其 建構程序是可行的。與其他測試集相較,本測 試集的規模在中等以上,文件集與查詢主題均 盡量接近真實之檢索環境,而相關判斷亦結合 多位判斷者進行,減低了判斷結果可能出現的 偏差情形。在各界急於研發中文資訊檢索系統 的今日,預期此測試集之出現,應能解除國內 無從取得中文測試資料的現狀,使檢索系統的 發展能有更高的可行性,也期望它能成為後續 相關研究的基礎。 資訊檢索評估所涉及的層面相當廣泛且 多元,而建立一個合適有效之測試集的困難 點,除了在具體實施時必須耗費大量的時間與 人力之外,測試集實際應用的效能與可行性, 及其是否能兼顧反映真實檢索情境與系統評 估的客觀性等需求,均是目前爭議性頗高、有 待進一步探討的複雜課題。因此,未來測試集 的建構與應用仍有很大的發展空間,在此就以 下方面提供幾點淺見,作為進一步研究之參 考: (一) 測試集之改進與擴展 在文件集方面,若能進一步擴展文件集規 模,將會增進測試集之效度。此外,亦可透過 蒐集更多不同性質與類型的文件,使文件集的 適用範圍與測試功能更能符合多樣化的檢索 環境與檢索需求。 在查詢主題方面,可加入非主題式的陳 述,如查詢需求形成的原因、背景、特殊需求 情境等方面,使其能成為以使用者為出發點的 測試機制,並更接近真實檢索環境的使用者需 求。若能深入分析各查詢主題具有的評估功能 並加以標示,系統可依據這樣的資訊,判斷處 理該查詢主題所需採用的檢索技術,或根據個 別需求挑選具有特定功能的查詢主題進行訓 練測試,如此可將各種影響變因作較佳的控制 以擴展測試集的評估效能。(註63)另外,由 於查詢主題的難易度將直接影響系統效益測 量的結果,它常是研究者十分希望獲知的訊 息。難易度本身是較為模糊且主觀的概念,影 響它的因素亦相當多,訂定一個準確的難易度 指標是相當困難的,但吾人仍可經由查詢主題 的功能特性、整體相關判斷結果的不一致程 度、各參與測試的系統檢索結果的差異情形、 文件候選集中相關與不相關文件使用詞彙的差異程度等各方面加以推斷。 在相關判斷準則方面,目前所使用的測量 尺度大多採用類別式尺度,主要原因在於其與 連續性或順序性尺度相比,較能展現其客觀的 意義以及明確性。然而不論相關類別的多寡, 判斷 者 在將 文 件歸 類 時往 往有 不 確定 的想 法,尤其在選擇相鄰類別時,猶豫情形是十分 常見的。所以若僅單純將文件指派給某單一類 別,判斷者對決策的確定程度便隱含於其中, 這將使判斷結果有所偏差,無法完全反映判斷 者對 文 件與 查 詢問 題 間關 聯程 度 的真 正認 知。為此,可讓判斷者加入判斷的信心值(即 將文件指派於特定類別的確定程度),或允許 其同時指派多個相關類別,如此應能反映更詳 盡、更可信的相關認知結果,亦可稍微彌補類 別尺度方式在表現連續性相關概念時的不足 之處。另一方面,利用團體決策的方式進行測 試集的相關判斷亦是一個值得嘗試的方案,若 能透過共同討論的過程達成認知的一致性,可 使判斷的考慮較為周詳客觀,並能減少個人對 查詢主題可能產生錯誤或偏差認知的機會。另 外,利用本研究實施相關判斷所產生的各項實 驗數據,應能獲得一些有價值之資訊:例如可 研究判斷者的背景特性是否會使其與其他判 斷結果間造成顯著的差異情形,或是進一步探 討判斷者對查詢主題的認知是否有所不同,這 些訊息,均可作為再次選擇判斷者時的參考。 測試集設計建置的最終目的,無非是希望 它能具有高度評估效能,因此亟待進行的下一 步工作,即是實際運用它進行系統測試,檢驗 其評比的功能與效度。進行驗證的重點可包括 以下部分:(1)依據測試集所進行的評估結 果,是否容易顯現系統間應有的差異?(2) 與其他測試集相較,依據本測試集所計算之系 統效益評估值(如求準率與求全率)之結果分 布,是否類似於一般狀況,不致過高或過低? (3)進行實驗測試不同的相關判斷結果,是 否影響系統效益的排序狀況? (二) 檢索系統評估之探討 測 試 集 必 須 配 合 使 用 一 套 效 益 測 量 方 法,始能對系統進行測試與評估。目前系統評 估大多以計算求全率與求準率為主,此測量準 則已行之有年,成為系統間相互比較的標準。 但是,其所考量的因素仍然有限,其效益計算 方式的本質上也存在著一些重要的缺失。例 如,它們僅將文件劃分為相關與不相關二類, 就相關判斷的連續性本質來說,這樣的二分法 其實是很不合乎實際情況的。因此,若能考慮 相關高低程度之差異,應較符合真實情境中使 用者對相關的認定方式。本文基於對每篇文件 計算之相關度 (R),並參考 Reid 等人的想法 (註64),建議可採用加權式(Weighted)的 效益計算方法: 檢索所得文件之相關度總和 求準率 = 檢索所得文件之潛在相關度總和 檢索所得文件之相關度總和 求全率 = 文件集所有文件之相關度總和 此公式主要仍依循求全率與求準率原始 精神,但以文件相關度作為主要的運算單位。 在求準率公式中,分母「檢索所得文件之潛在 相關度總和」可視為系統對檢索所得文件自行 給定的相關分數,其值必須與本測試集所定義 的相關度(R)一樣介於 0 和 1 之間。若系統並 無區分檢索所得文件的相關程度,則可將所有 文件均看作是完全相關的(給定相關值為 1), 在此情況下,求準率的分母則可看作是檢索到 的總文件數。 除了系統效益計算方法的改進之外,未來 對整個評估模式、評估程序、評估項目的設 計,也應以多元化的層面考量。例如,近年來 許多研究者均倡導互動式系統的評估,以反映 真實的檢索現況。由於資訊檢索評估方法對資 訊檢 索 系統 之 設計 與 發展 方向 影 響十 分深 遠,建構一符合現實情況與需求的評估標準, 實為目前的當務之急。 (三)建置一致性的評比環境 多個不同的檢索系統的評估若能在標準 的條件與環境之下,運用一致的測試集與效益 測量準則進行,將會使評估結果更具意義。例 如 TREC 每年所舉行的評估會議,不僅提供了
一個以測試集為基礎的評估環境,更為資訊檢 索研究者開發一個可供相互討論、經驗交流的 開放式論壇,歷年來實施的成果,也確實對檢 索系統的發展帶來了深遠的影響。 因此,在目前中文測試集已可獲取的情況 下,若能植基於此,進一步建立系統評比的標 準環境,並由專職單位統籌規劃相關事宜,使 其成為推動系統評估的常設機制,相信中文資 訊檢 索 系統 測 試評 比 的風 氣能 有 顯著 的提 升,並能加速檢索技術之發展與改進。
註 1: 黃慕萱,「檢索系統評估之發展—理論與實務」,中國圖書館學會學報 59 期 (民國 86 年 12 月),頁 109。
註 2: Cyril W. Cleverdon, “The Cranfield Tests on Index Language Devices,” Aslib Proceedings 19, no. 6 (1967): 173-194.
註 3: Donna K. Harman, “Evaluation Issues in Information Retrieval,” Information Processing and Management 28, no. 4 (1992): 439.
註 4: Donna K. Harman, “The First Text REtrieval Conference (TREC-1),” Information Processing and Management 29, no. 4 (1993): 411-414.
註 5: K. Kageura and others, eds., “NACSIS Corpus Project for IR and Terminological Research,” In Natural Language Processing Pacific Rim Symposium '97, Phuket, Thailand, December 2-5, 1997, 493.
註 6: “IREX (Information Retrieval and Extraction Exercise) Homepage,” <http://cs.nyu.edu/cs/projects/proteus/irex/index-e.html> (Oct. 31, 1998)
註 7: Alan F. Smeaton and Donna K. Harman, “The TREC Experiments and Their Impact on Europe,” Journal of Information Science 23, no. 2 (1997): 173.
註 8: Ellen M. Voorhees and Donna K. Harman, “Overview of the Fifth Text REtrieval Conference (TREC-5),” In The Fifth Text REtrieval Conference (TREC-5), Gaithersburg, Maryland, November 20-22, 1996, ed. Ellen M. Voorhees and Donna. K. Harman, <http://trec.nist.gov/pubs/trec5/papers/overview.ps> (Aug. 26, 1998) 註 9: TREC 的中文語料主要是以大陸地區新華社與人民日報的新聞文件為主。 註 10: 本文論及查詢問題、查詢問句與查詢主題此三個在字面上十分相似的詞彙,但其實質 含義是有所不同的。查詢問題(Question)所指的是使用者根據其資訊需求(Information Needs or Request)所作出的問題陳述。大部分的測試集均會建構或蒐集一些查詢問題, 並以自然語言的方式呈現。所謂的查詢問句(Query)是依據使用者的查詢問題,經由 思考、分析、處理後所輸入檢索系統之詞彙或語句。檢索系統在實施測試時,通常會 自測試集所提供的查詢問題中,以人工或自動的方法抽取查詢問句進行檢索。查詢主 題(Topic)則是 TREC 首先提出之特殊用語,用以表示測試集中的查詢問題,與其他 測試集的不同點在於它是以多欄位的方陳述各種不同層次的查詢需求。查詢問題與查 詢主題常被混用,但一般通常會形式類似 TREC 的資訊需求陳述稱為查詢主題。 註 11: Justin Zobel, “How Reliable are the Results of Large-Scale Information Retrieval
Experiments?” In Proceedings of the 21st Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, Melbourne, Australia, August 24-28, 1998, 397.
註12: Donna K. Harman, “Panel : Building and Using Test Collections,” In Proceedings of the 19th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, Zurich, Switzerland, August 18-22, 1996, 337.
註13: Karan Sparck Jones and C. J. van Rijsbergen, “Information Retrieval Test Collections,” Journal of Documentation 32 (1976): 63-73.
註14: Gerard Salton, “A New Comparison between Conventional Indexing (MEDLARS) and Automatic Text Processing (SMART),” Journal of the American Society for Information Science 23, no. 1 (1972): 75-84.
註15: Edward A. Fox, “Characteristics of Two New Experimental Collections in Computer and Information Science Containing Textual and Bibliographic Concepts,” (Technical Report TR 83-561, Cornell University: Computing Science Department, 1983), <http://cs-tr.cs.cornell.edu:80/Dienst/UI/1.0/Display/ncstrl.cornell/TR83-561> (Nov. 30, 1998)
註16: William M. Shaw, Robert Burgin, and Patrick Howell, “Performance Standards and Evaluations in IR Test Collections: Vector-Space and Other Retrieval Models,” Information Processing and Management 33, no. 1 (1997): 15-36. <http://ruby.ils.unc.edu/~howep/perform/hypergeom.html> (Dec. 3, 1998)
註17: 同註 2。
註18: 與測試集有關的效度概念包括樣本效度(Sampling Validity)、內在效度(Internal Validity)、及外在效度(External Validity)。樣本效度所指的樣本足以代表母群體的程 度,就文件集來說,可由樣本與母群體二者之間結構的相似性以及母體比例來決定樣 本效度的高低。內在效度的意義為研究處理過程中影響應變項的程度,應用在本研究 中,即測試集測試結果是否能反映不同系統效益的優劣。外在效度所指的則是研究發 現代表真正現象的程度,在此意謂著測試的結果是否能成功地預測及推論到其他情境 中。
註19: David Bawden, User-oriented Evaluation of Information Systems and Services. (Aldershot : Gower, 1990), 87-88.
註20: William Hersh, “OHSUMED: An Interactive Evaluation and New Large Test Collection for Research,” In Proceedings of the 17th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, Dublin, Ireland, July 3-6, 1994, 192-201.
註21: William M. Shaw, Judith B. Wood, Robert E. Wood, and Helen R. Tibbo, “The Cystic Fibrosis Database: Content and Research Opportunities,” Library and Information Science Research 13 (1991): 347-366.
註22: Tsuyoshi Kitani and others, eds., “BMIR-J2: A Test Collection for Evaluation of Japanese Information Retrieval Systems,” In Proceedings of IPSJ SIG Notes, DBS-114-3, 1998, 15-22.
註23: Karan Sparck Jones, “The Cranfield Tests,” In Information Retrieval Experiment, ed. Karan Sparck Jones (London; Boston: Butterworths, 1981), 276.
註24: Gerard Salton, “The State of Retrieval System Evaluation,” Information Processing & Management 28:4 (1992): 446.
註25: 同註 13,頁 67。
註26: Ellen M. Voorhees and Donna K. Harman, “Overview of the Seventh Text REtrieval Conference (TREC-7),” In The Seventh Text REtrieval Conference (TREC-7), Gaithersburg, Maryland, November 9-11, 1998, edited by Ellen M. Voorhees and Donna K. Harman, <http://trec.nist.gov/pubs/trec7/papers/overview_7.ps> (June. 6, 1999)
註27: Tsuyoshi Kitani and others, eds., “Lessons form BMIR-J2: A Test Collection for Japanese IR Systems,” In Proceedings of the 21st ACM-SIGIR International Conference on Research and Development in Information Retrieval, Melbourne, Australia, 24-28 August 1998, 345-346. 註28: AMARYLLIS 參考各系統送回的檢索結果,對先前建立的相關判斷進行修正。若某文 件在原始相關判斷中雖不被視相關,但在測試時被一半以上的系統檢索出來,或是在 每個系統送回的前 10 篇文件之中,則將其修正為相關文件;若某文件在原始相關判斷 中被視為相關,但在各系統送回的檢索結果中均未出現,則修正為不相關文件。 註29: 此表參考相關文獻彙整分析而成,但由於各文獻所載之數據資料稍有出入,表中所列 僅為其近似值。字數的計算在英文及法文中是詞(Term)為單位,在日文中則以字元 (Character)為單位。另外,在查詢問題的平均相關文件數部分,有些測試集因相關判斷 尺度的不同而有多個數值。表中的 N/A (Not Available)表示該項資料未能獲取。 註30: 同註 19。
註31: 同註 13,頁 60-61。
註32: Justin Zobel, “How Reliable are the Results of Large-Scale Information Retrieval Experiments?” In Proceedings of the 21st Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, Melbourne, Australia, August 24-28, 1998, 397.
註33: Karen Sparck Jones, “Reflections on TREC,” Information Processing and Managements 31, no. 3 (1995): 310。
註34: Pia Borlund and Peter Ingwersen, “The Development of a Method for the Evaluation of Interactive Information Retrieval Systems,” Journal of Documentation 53, no. 3 (1997): 226. 註35: Gerard Salton, “The State of Retrieval System Evaluation,” Information Processing &
Management 28:4 (1992): 443. 註36: 同註 34。
註37: Robert N. Oddy, “Laboratory Tests: Automatic Systems,” In Information Retrieval Experiment, ed. Karan Sparck Jones (London; Boston: Butterworths, 1981), 161.
註38: Don R.Swanson, “Historical Note: Information Retrieval and the Future of an Illusion,” Journal of the American Society for Information Science 39, no. 2 (1988): 95.
註39: 例如 Borlund 與 Ingwersen 建構包含需求情境的查詢主題以測試互動式的檢索系統, NTCIR 的查詢主題中亦納入了一些如檢索目的、檢索背景等項目,使系統測試能考量
更多的層面,更符合真實的檢索情況。
註40: Michael B. Eisenberg and X Hu, “Dichotomous Relevance Judgments and the Evaluation of Information Systems,” In Proceedings of the 50th Annual Meeting of the American Society for Information Science, 24, 1987, 66-70.
註41: Joseph W. Janes, “The Binary Nature of Continuous Relevance Judgements: A Study of Users’ Perceptions,” Journal of the American Society for Information Science 42, no. 10 (1991): 754-756.
註42: Tefko Saracevic, “The Concept of ‘Relevance’ in Information Science: A Historical Review,” In Introduction to Information Science, ed. Tefko Saracevic (N. Y.: Bowker, 1970), 120. 註43: Jane Reid and Stefano Mizzaro, “On the Consensus between Relevance Judges in a
Multi-media Context,” In Proceedings of the 6th Mira Workshop, Dublin, October 28-30,
1998, <http://www.dcs.gla.ac.uk/mira/workshops/dublin/procs/mr.pdf> (Nov. 5, 1998) 註44: Tefko Saracevic, “Relevance: A Review of and a Framwork for the Thinking on the Notion
in Information Science,” Journal of the American Society for Information Science 26 (1975): 341-342.
註45: 同註 43。
註46: Ellen M. Voorhees, “Variations in Relevance Judgments and the Measurement of Retrieval Effectiveness,” In Proceedings of the 21st ACM-SIGIR International Conference on Research and Development in Information Retrieval, Melbourne, Australia, 24-28 August 1998, 315-323.
註47: Robert Burgin, “Variations in Relevance Judgments and the Evaluation of Retrieval Performance,” Information Processing and Management 28, no. 5 (1992): 619-627.
註48: Stephen P. Harter, “Variations in Relevance Assessments and the Measurement of Retrieval Effectiveness,” Journal of American Society for Information Science 47, no. 1 (1996): 40. 註49: 同上註,頁 37-49。 註50: Precision 與 Recall 在轉譯為中文的用詞上,一直頗為紛雜,沒有適當且統一的選擇, 如 Recall 譯為回現率、回收率、再現率,Precision 譯為精確率、準確率等。大陸學者 王崇德先生將其譯為「查全率」與「查準率」,在字面上能頗為適當地反映 Precision 與 Recall 所代表的意涵。然而,「查」字意指文件的檢索,使得它在其他方面的應用性較 為侷限(如在中文斷詞結果的評估中便不能使用)。故在此建議以「求準率」及「求全 率」表示 Precision 與 Recall。 註51: 在統計的意義上,可信度是指實驗結果的一致性(Consistencies)或穩定性(Stability), 亦可稱為可靠性(Trustworthiness)。
註52: Peter Wallis and James A. Thom, “Relevance Judgements for Assessing Recall,” Information Processing and Management 32, no. 3 (1996): 273-286.
註53: 早期 Cranfield II 實驗採用逐一比對的方式進行了十分詳盡的相關判斷,經 Harter 的再 次檢驗後,推斷它仍可能遺漏了七千多篇相關文件。TREC 曾對其相關判斷的完整性作 了一個實驗性評估,發現若將 Pool 之大小設為 100,平均每個查詢主題會遺漏約 1 篇
真正相關的文件。 註54: 同註 32,頁 307-314。 註55: 本研究文件下載的工作自 1998 年 5 月 11 日至 1999 年 5 月 10 日止,共約一年的時間, 註56: 李卓偉,統計學 (台北市:智勝文化,民國 82 年),頁 6-59~6-60。 註57: 木本木木木木,「情報木索木木木木評木用木木木木木木木木構木木提案」。情木研報 FI-32-1 (1993):4。 註58: 假設樣本數量為 n,某一查詢主題的相關文件數量與母體之比例為 p,就區間估計的概 念,若欲使估計之 p 值與真實 p 值之誤差不大於 b,且有 (1-α) 的信賴水準,則應取 樣本數 2 2 ) 1 ( )] 2 / ( [ b p p n≈ Ζα ⋅ − 。但是,由於我們並無法得知 p 的先驗預估值,則由不 等 式 4 1 4 1 ) 2 1 ( ) 1 ( −p =−p2 +p=− p− 2 + ≤ p 可 得 出 一 個 比 較 保 守 的 應 取 樣 本 數 2 2 4 )] 2 / ( [ b n≅ Ζα 。 註59: 相關文件候選集之數量共有近 5,000 篇,而每篇文件被判斷 3 次,因此相關判斷的總次 數約為 15,000 次。
註60: Kappa 一致性係數(Kappa Coefficient of Agreement, K)是屬於無母數統計的範疇,適 用於類別尺度變數,主要目的是探討不同測量者對一組不同物件分類結果的一致狀 況。應用在本研究中,即為判斷者在同一查詢主題的候選文件集中相關判斷結果之一 致性。Kappa 一致性統計量的形成有一基本假設:判斷者在有意識的情況下所進行的判 斷,其一致性不應低於隨機指派的結果。公式主要是計算判斷者實際判斷一致的次數 比例 P (A),與判斷者可能達成的最大一致比例(定義為 1)之間的比值,其中並以預 期在隨機指派可能形成的一致比例 P (E) 進行校正: ) ( 1 ) ( ) ( E P E P A P K − − = 。若文件數量較 大,隨機指派所得到的 K 值應會接近標準常態分布,因此透過 K 之變異數,我們可以 算出常態分布之統計值 z( ) var(K K z= ),進一步檢測其顯著之一致性。
註61: Kendall 一致性係數(The Kendall Coefficient of Concordance, W)是一種衡量多種關聯 變數之間一致性的度量方法,它主要考慮的是變數之間順序關係的強度,亦即檢定不 同判斷者判斷結果之間是否具有某一順序的關聯性,其統計量以 W 表示。此檢定屬於 無母數統計的範疇,適用於順序尺度以上的資料。進行 Kendall 檢定必須先將判斷結果 加以排序,並給予等級。就本研究來說,雖然判斷者並非對所有文件的相關程度進行 排序,但由於這些類別隱含著順序尺度的意義,我們可將判斷者給予每篇文件的相關 分數加以排序,產生候選文件集中的等級變數,但基本前提是同一判斷者對相關分數 的給定標準必須前後一致,如此形成的順序等級才是具有意義的。Kendall 檢定的統計 原理是,若不同判斷者的判斷結果彼此之間並無關聯,那麼其等級應具隨機性,其總 和應是接近的;反之,若彼此之間有關聯,其總和則會有明顯的區別。換句話說 Kendall 統計量主要是定義 k 種實際等級總和之變異,與完全具一致性時之等級總和之變異的
比值(在本研究中 k=3),計算公式為: k T N N N N R W j i
∑
∑
− − + − = ) ( ) 1 ( ) 1 ( 3 12 2 2 2 , Ri為等級變數, N 為排序物件的個數。計算出的 W 值介於 0 於 1 之間,若 W 愈趨近 1,表示不同判斷結 果的一致性愈高,愈趨近於 0 則表示一致性愈低。此外,我們尚可求出自由度為 N-1 之卡方值χ2 = k ( N - 1 ) W,檢測此統計量的顯著性。 註62: 一致度 (C )主要是考量判斷結果在相關意義上的接近程度。根據此想法,我們計算每 一文件兩兩判斷結果間相關分數距離的總和,並除以可能的最大距離(在本研究中此 值為 6),表示其不一致度,最後的一致度 (C) 則以 1 減去不一致度,計算公式為: 6 1 XA XB XB XC XC XA C= − − + − + − 註63: 日本近年來發展的 BMIR-J1 及 J2 測試集,在查詢主題中標示基本、數字範圍、語法、 語意及詞彙知識五種類別,即初步揭示了查詢主題所具備的測試功能。註64: Jane Reid and Stefano Mizzaro, “On the Consensus between Relevance Judges in a Multi-media Context,” In Proceedings of the 6th Mira Workshop, Dublin, October 28-30, 1998, <http://www.dcs.gla.ac.uk/mira/workshops/dublin/procs/mr.pdf> (Nov. 5, 1998)