• 沒有找到結果。

文件剖析方法對提升資訊檢索精確率影響之研究

N/A
N/A
Protected

Academic year: 2021

Share "文件剖析方法對提升資訊檢索精確率影響之研究"

Copied!
12
0
0

加載中.... (立即查看全文)

全文

(1)文件剖析方法對提升資訊檢索精確率影響之研究 張錫正. 徐俊傑. 殷欣靖. 私立華夏工商專科學校. 台灣科技大學資訊管理研究所. 台灣科技大學資訊工程研究所. 台北縣中和市華新街 111 號. 台北市基隆路四段 43 號. 台北市基隆路四段 43 號. 台灣科技大學資訊管理研究所. [email protected]. [email protected]. [email protected]. 摘 要 網際網路技術的快速進步及普及,網路上 電子式文件(electric documents)資料亦巨幅成 長 , 綱 路 形 成 一 個 巨 大 的 資 料 倉 儲 ( data warehouse) 。搜尋引擎(search engine)是目前 綱路上文件資料搜尋的主要工具,由於現有的 搜尋引擎大多使用關鍵詞彙為基礎(keyword based)的查詢方式,此種查詢方式一般使用者 所輸入的查詢詞彙個數有限,加上語言學上的 「一字多義」與「一義多詞」的問題,易導致 查詢主題模糊難於確認,在面對網路如此巨大 的資料量時,常會找到太多不相關的資料,使 真正的資料隱沒其中。另一方面,由於綱路資 料的動態變化性、資料格式的多樣性及資料的 快速巨幅增長,使得搜尋引擎搜尋結果之精確 率已大幅降低到其實用性受到嚴重考驗。 為解決上述問題,除了更新搜尋引擎所用 之檢索技術外,如何協助及早確定使用者查詢 主題,精確且有效地描述出查詢者的查詢意 向,有效且大幅地過濾掉不相關的搜詢結果, 無外乎是提高搜尋結果之精確率的最有效方 法。本論文提出:(一)詞彙群組剖析(二) 反查式搜尋剖析(三)段落式文件剖析(四) 文件段落比對剖析及(五)相關性回饋調適等 五種方法來協助及早確認使用者查詢主題與 過濾掉不相關的搜詢結果,經由實驗結果來評 估這四種文件剖析方式對於查詢結果之精確 率的影響。另根據使用者搜尋紀錄與閱讀行為 找出適當的回饋文件,使查詢主題更精確進而 獲得最佳的查詢效能。 關鍵字:資訊檢索、文件剖析、查詢主題、相 關回饋。. 壹、. 緒論. 隨著網際網路的快速成長,網路上的資訊 與日暴增,舉凡科技研究、商業經濟、政府的 行政策施及人們日常生活的食、衣、住、行等, 無不大量利用網路的方便性來完成。如何在這 巨大浩瀚的網路中找尋有效的資訊,是目前使. 用網路所面臨的一個重要且日愈嚴重的問題。 網路搜尋引擎無外乎是目前解決此問題的有 效方法之一。然而由於網路上資訊格式的多變 性, 資訊的動態變化性及目前所使用之資訊 檢索(information retrieval)技術的問題,使得由 搜尋引擎所搜得之資料的量之多與精確性之 低,已大大地降低了其實用性。目前大家使用 搜尋引擎所面臨的問題是,搜尋結果之資訊量 過大,精確率過低,因而無法獲得自己真正想 要的資料。 此一事實是目前從事資訊檢索技術研究 者所急欲克服解決的問題,目前的資訊檢索系 統, 大部分都是使用關鍵詞彙為基礎的方式 查詢,面對巨大的資訊量這種資訊檢索系統在 系統建構上較為簡易、快速。但這種技術在建 構文件索引時,已徹底破壞了文件資料原有的 文法結構、文句意涵、文件內文前後文修辭關 係,使詞彙所代表的原意涵模糊了,當查詢系 統在面對使用者所下達的有限個查詢關鍵詞 彙(query keyword)時,對於在語言學上的「一 字多義」與「一義多詞」的問題將全然無解, 因而大大地降低了查詢結果的精確率。另一方 面,當使用者對於自己所欲搜尋之資料概念模 糊、對欲搜尋之資訊所屬的領域不甚熟悉、所 下達的查詢條件不足、關鍵字使用不恰當亦或 是語意模糊等,都將使問題更為嚴重最後終將 無法找到自己真正想要的資料。 搜詢引擎是目前網際網路資料搜尋的重 要工具之一,現有的網路中文資訊搜尋系統如 openfind,google,yahoo 等,都是經由使用者 下達查詢關鍵詞彙(query word)的方式來與系 統事前建立的文件全文索引(full text indexing) 關鍵詞資料庫進行比對,並以查詢關鍵詞彙出 現在文件中的頻率,經一文件相似度計算機制 來計算文件與查詢關鍵詞彙的相關度,然後依 此相關度的大小依序將查詢結果排列顯示。這 種簡單直覺且快速的作法,是完全以詞彙出現 與否及出現頻率來作判斷,這種作法有下列幾 個因素會直接影響到查詢結果的精確率 (precision rate)[1]: 1. 使用者對查詢主題所屬領域的熟悉度: 當使用者對於他所欲搜尋之資料所屬的.

(2) 領域十分瞭解時,則他便可適切地使用足以 代表該查詢主題的關鍵詞彙來搜尋資料。反 之、若對其查詢主題所屬領域不甚熟悉時, 則使用者可能因無法使用適當的詞彙而必需 花費許多的時間,反覆下達不同的查詢詞彙 來進行資料搜尋,如此將嚴重考驗使用者的 耐心也造成網路使用的浪費,而且不保證找 到所要資料。 2. 使用者所給予之查詢詞彙的多寡: 研究顯示,當使用者從網路上搜尋文件資 料時,系統若能從使用者所給的查詢詞彙挖掘 到越多的資訊,就越能夠找到相關的資料。但 根據[2]實際統計數值顯示,一般網路使用者在 網路上找尋資料時所下達的查詢詞彙的個數 平均值為 2.48 個。當系統面臨查詢詞彙所能提 供的資訊不足時,便無法掌握查詢主題,則所 能挖掘到的資訊就會變少且不相關,所導致的 結果就是查詢的召回率(recall rate)下降。 3. 檢索系統對於使用者查詢意向的掌握度: 每個使用者都有其感興趣的領域,單單計 算使用者所下達的關鍵詞彙與文件索引詞彙 的相關度來作為文件相關與否的判斷並不十 分可靠,因為相同的詞彙使用在不同的領域可 能具有完全相反的意義,在查詢時是否能掌握 住查詢詞彙所要表現的真正意涵,使其真正代 表每一位使用者的興趣方向,亦是影響搜尋結 果的重要因素之一。 本研究既針對上述三項嚴重影響查詢結 果精確率之要素尋求有效解決方法,系統依據 使用者搜尋紀錄與閱讀行為模式來找出適當 的查詢詞彙組與相關性回饋文件,經由詞彙群 聚性剖析與文件內容剖析來找出最有效最經 精緻的查詢詞彙組,以獲取最佳的查詢效能。 經實驗測試證實,不同的文件內容剖析對不同 的文件格式具有不同的效果,但綜合使用所有 剖析方法確實對整體查詢結果有顯著的效果。. 貳、. 相關研究. 解決因查詢關鍵詞彙不足所產生之查詢 結果不精確之問題的有效方法之一既使用相 關性回饋(relevance feedback)技術。首先,使用 者下達關鍵詞彙來查詢資料,初步的查詢結果 經使用者流覽過濾後並回饋相關文件給查詢 系統,系統從此相關文件中萃取出更多的有效 詞彙來補充原查詢詞彙之不足,然後再次進行 查詢,如此重複進行以提高查詢結果的精確 率。相關性回饋技術的研究如 Chia-Hui Chang 及 Ching-Chi Hsu[3]曾提出以查詢主題相關性 回饋法(concept-relevance based feedback) ,來 輔助查詢關鍵字的不足,以改善查詢結果的精 確率。 Chuan-Chuan Lin、Shou-Yi Tseng 與 Pei-Min Chen[4]提出以建構概念網路(concept. network)的方式,透過概念矩陣(concept matrix) 的運算,先找出文件的分類,然後再依照查詢 所形成的概念向量與概念矩陣的比對運算,以 找出相關文件,研究中並結合了模糊集合模型 (fuzzy set model)與潛在語意索引模型(Latent Semantic Indexing Model)的運用。 另一類的作法則是針對已知的文件格 式,作特徵詞彙的擷取,如 Steve Lawrence、 Kurt Bollacker 與 C. Lee Giles[5,6,7]曾針對科 技類文章作處理,找出該類文章的結構特性來 解決文件查詢的問題。而 Jong P. Yoon 及 Sungrim Kim[8]則以 XML 格式文件作為處理 對象。這些研究的目標都是放在解決特定文件 格式查詢的方法上。但在面對非特定結構文件 時,其查詢結果的精確率則有待改善。 Jinxi Xu 與 W.B. Croft [9] 曾研究探討 「錯誤比對」 (mismatch)在資訊擷取中所產生 的問題,研究發現使用者搜尋資料時所用的關 鍵詞彙(keyword)經常與文件作者所使用的詞 彙不同,所以系統在查詢時會因為在文件中找 不到相同的查詢詞彙,而錯失原本是使用者所 要的相關的文件。然而對於使用者而言,當他 對所要搜尋之資料的主題在心中無法形成一 個很清楚的概念時,則在他所下達查詢關鍵詞 彙時,通常會很短或是使用了不適當的查詢關 鍵詞彙,因而造成查詢結果的偏差。基於上述 的問題,實有必要研究一個輔助機制來幫助使 用者找出正確範圍的查詢詞彙。 有許多研究致力於改善此一問題,如 Jinxi Xu 與 W.B. Croft [9]就曾研究並提出從查詢出 的文件中找出權重值較高的幾篇文件,分析文 件中詞彙與查詢詞彙的關係,找出相關度高的 詞 彙 來 擴 充 查 詢 詞 彙 。 A. M. Tjoa 、 M. Hofferer、G. Ehrentraut 與 P. Untersmeyer [10] 則提出使用基因演算法(genetic algorithm),去 尋找與查詢詞彙最接近的文件,由該文件中的 詞彙來擴充查詢詞彙,反覆計算以趨近使用者 所要查詢的方向。M. Mitra、A. Singhal 及 C. Buckley[11]則提出利用模糊理論(fuzzy theory) 的方式來過濾文件,由過濾出的文件中找出詞 彙來擴充查詢詞彙。C. Buckley 、M. Mitra.、 J. Walz 與 C. Cardie[12]提出將搜尋到的文件 進行文件分群(cluster),由查詢詞彙與各個文 件分群進行比對,找出最接近的文件分群,再 由該文件分群中挑出詞彙來擴充。 使用相關性回饋(relevance feedback)技術 雖可改善查詢關鍵詞彙不足的問題,但也不可 以無限制地使用,若使用過當也容易造成查詢 主題發散,使最後的查詢結果越變越差。事實 上,使用相關性回饋技術,是在使用者下達查 詢指令查詢後,再經由初步結果來修正的技 術,這種事後的補正工作,可以使最後結果便 佳。但若使用者首次下達的查詢關鍵詞既有偏.

(3) 差,會因修正回饋次數過多,讓使用者失去耐 心,最後終將達不到預期之效果。事實上,前 述的所有研究與努力無外乎是要及早確定出 使用者心中所欲。使用者的查詢主題一經確 立,查詢系統便能有高精確查詢結果輸出。 在日常生活中我們經常遇到,在閱讀完一 篇文件後,很想再尋找與其類似或有關的文件 來作為輔佐與參考。如果利用現有的搜尋引擎 作為查詢的工具,則使用者必需自行由文件中 挖掘出查詢資訊再輸入搜尋引擎進行搜尋。幸 運的話,可能很快就能再次找到所需要的文 件。反之,則可能需要經過多次反覆更改查詢 詞彙才能查得。也有可能因所下達的查詢關鍵 詞彙焦點不集中,而搜尋到太多根本不相關的 資料,而失去找尋的耐心。所以如何能由文件 自動去找尋相關的文件,是值得加以研究的課 題。 欲及早確立查詢者的查詢主題,以文件為 基礎的查詢(document-based query)不外乎是 一種最有效的方法。基於這些考量,我們提出 一個以文件為基礎的查詢系統,由使用者任意 給定一查詢文件,系統直接進入文件內容自動 剖析,挑出最足以代表該篇文章主題的重要關 鍵詞句來進行相關文件搜尋。此外我們也將提 出一個有別於一般相關回性饋的作法,系統會 依個人的查詢行為模式作為量測依據,來加速 確立使用者的搜尋目標,使得文件搜尋範圍趨 近使用者所要尋找的方向,以求提高查詢速度 與查詢的精確度。在本研究中希望在完成這整 個系統的建構後,能夠達到以下的目的: 1. 提供個人化的查詢協助,幫助使用者查詢 相關的文件。 2. 減輕使用者查詢時的負擔,達到較佳的查 詢效能。 3. 增強與使用者的互動關係,建立有效的回 饋機制。. 參、. 實作方法. 如何從文件集與查詢文件中找出最適當 的代表性詞彙來代表該文件是檢索系統首要 面對的問題,經由個自之代表性詞彙的比對運 算,以找出與查詢詞句相似程度最高的文件 來,這看似乎簡單,其實是檢索系統最大的問 題所在。這是因為文件是作者的思維表現,作 者個人用字遣詞習慣不同文章的結構也不具 一定的規則性,所以現有的詞彙比對技術僅能 尋找一些較為合宜的數學模型,輔以一些經驗 法則,來決定文件的相關與否。 本研究的整個系統架構如圖 1 所示,分為 中文斷詞與關鍵詞辨識、文件索引、主題確認 與關鍵詞萃取、查詢系統及相關性回饋五個子 系統。前二者屬前置處理系統,後三個則為線. 上即時處理系統。所有蒐集到的文件都會先經 由中文斷詞與關鍵詞辨識子系統找出有效的 代表性詞彙,然後再將文件集建構成反向索引 檔(inverted file)。線上即時處理系統則分為查 詢主題確認與關鍵詞萃取,使用者查詢介面與 相關性回饋機制,以下將分別詳述其作法。其 中針對文件剖析的方式,在此將提出四種剖析 方法並探討其有效性。 中文斷詞與 關鍵詞辨識. 查詢 查詢 文件 文件. 文件 集 文件索引. 主題確認與 關鍵詞萃取. 查詢系統 相關性回饋. 輸出 文件. 圖 1: 系統架構圖 一、詞彙群組剖析( Term Set Analysis) 依一般文章觀察研究結果,不同的作者在 闡述某一相同主題時,會以個人所熟悉的詞彙 來描述之,描述該主題事件的相關用語相對地 也會重複出現。依據這個觀察事實,欲從查詢 文件內容挑出足以代表該文件的關鍵詞彙。首 先必需從查詢文件中的眾多詞彙挑出重要性 較高的詞彙,依 Luhn[13]研究,指出統計一篇 文件每個字出現的頻率,能夠初步有效地判斷 一篇文件的關鍵詞彙。研究指出發生頻率越高 的詞彙越能代表該文件,且可以作為該文件的 索引詞彙。此外 Luhn 的研究也發現,通常文 件中出現頻率最高的詞彙及出現頻率最低的 詞彙,並不適用於代表該文件。原因是研究發 現,出現頻率最多的詞彙通常是一些功能詞彙 (stopword),而出現最少的詞彙則為文件作者所 使用的冷門詞彙,其他作者不一定會一樣使用 此詞彙,這些詞彙對於相關文件查詢並無太大 的助益。基本上這些出現頻率高的詞彙及出現 頻率低的詞彙並不能有效的表達出該篇文章 的闡述主題。所以依此研究結果,我們可將每 一 文 章 中 的 這 類 詞 彙 濾 除 到 。 根 據 Zipf’s Low[13],文章初步去除這些功能字後我們約 能降低文章的檔案大小約 20%~50%。 雖然 Luhn 與 Zipf 所研究的環境為英文, 但在中文環境實質上亦有相同情形。依據由所 蒐集到之文件的統計值,系統找出超過上限值 的高頻率的詞彙共 498 個功能詞彙。 在去除功能詞彙後,我們依照 Luhn 的立 論計算每個詞彙 i 在文件 j 中出現的頻率:.

(4) f i, j =. freqi , j max l freql , j. 其中,freqi,j 為詞彙 i 出現在文件 j 的頻率,maxl freql,j 表示文件 j 中出現頻率最高的詞彙 l。 依 fi,j 的大小對每個詞彙排序,我們設定兩 個 變 動 的 門 檻 值 , 分 別 為 threshold1 及 threshold2( 可 由 使 用 者 視 查 詢 狀 況 更 動 , threshold1>threshold2) , 依 序 挑 出 頻 率 大 於 threshold1 的詞彙,並在查詢文件中找尋與該 詞彙相鄰距離為 n (可由使用者視查詢狀況調 整)且頻率大於 threshold2 的詞彙,經由這些步 驟可以挑出不同的詞彙群組 TermSeti。然後再 使用布林運算模式將 TermSeti 內的 termi,j 及 TermSetj 之間關係組合起來,即:. (term1,1 ∩ term1, 2 ∩ ...... ∩ term1, n1 ) ∪ .... ... ∪ (term m ,1 ∩ term m , 2 ∩ ...... ∩ term m ,n m ) 作為查詢到先前所建立的反轉置檔案索 引中找尋相關文件,每一篇搜尋到的文件. Dt , 是 經 由 計 算 TermSeti 與 Dt 的 相 似 度 SimilarityScore(Dt)作為相關度排序的依據。相 似度計算方式如下所示: Similarity Score ( Dt ) = m. ni. Max (∑ ( freq (termi , j , Q ) × freq (termi , j , Dt ) × log i =1. j =1. N ) / ni )) Docfreqi , j. 其中,freq(termi,j,Q)表示詞彙 termi,j 出現在查詢 文件 Q 中的頻率,freq(termi,j,Dt)表示詞彙 termi,j 出現在文件 Dt 的頻率,N 表示文件集的總篇 數,DocFreqi,j 表示詞彙 termi,j 出現在文件集中 的篇數,ni 表示 TermSeti 中 termi,j 的個數,m 表示 TermSeti 的個數。. 二、反查式搜尋剖析( Term Set Track Analysis) 單考慮找尋詞彙群組作為搜尋運算尚嫌 不夠周延,因為系統在建立反向索引檔前,會 先分析所有文件,接著萃取每篇文件中的重要 詞彙來代表該文件,然後再建成詞彙-文件索 引形式,既詞彙共出現在那些文件中。所以當 使用者給予一查詢文件時,系統既可查出查詢 文件內之重要詞彙包含於哪幾篇文件中,及該 詞彙在文件中的重要性(權重值)。使用反向索 引檔式資料結構,我們很難反過來查知,被查 出的相關文件中所包含的所有詞彙資訊,所以 很難再進一步確認該文件的相關程度。當使用 詞彙群組來作查詢時,我們所分析的詞彙群組 是根據文件中相鄰近且出現頻率高的詞彙,在 用於查詢時並不能保證所查詢到的相關文件 中的詞彙,也是同於查詢文件中詞彙叢聚的情 況分佈。例如文件範例 1,我們得到詞彙群組 {“升高”,”氣象局”,”明天”},這組詞彙群組中的 各個詞彙可能散佈在被查詢到之相關文件中. 的各個不同段落中而無群聚的現象,雖然這三 個詞彙都存在於文件中,但是並不像文件範例 1 的文件一樣,是三個詞彙叢聚在一起。這當 文章各段落所描繪的主題不相同,但確有以上 這三個詞彙出現且出現頻率也不小時,就會有 查詢結果錯誤情形產生。為了要解決這個問 題,我們使用一反查式搜尋剖析法來克服此一 問題。作法是在求得查詢到的文件之 SimilarityScore(Dt)時,再逐一反查各個文件詞 彙群組叢聚的頻率。所使用的公式為: SimilarityScore( Dt ) = m. ni. Max(∑ ( freq(termi , j , Q) × freq(termi , j , Dt ) × log i =1. j =1. N ) / ni )) Docfreqi , j. ni. + ∑ freq(TermSeti , Dt ) i =1. 其中,freq(termi,j,Q)表示詞彙 termi,j 出現在查詢 文件 Q 中的頻率,freq(termi,j ,Dt)表示詞彙 termi,j 出現在文件 Dt 的頻率,N 表示文件集的總篇 數,Docfreqi,j 表示詞彙 termi,j 出現在文件集中 的篇數,ni 表示 TermSeti 中 termi,j 的個數,m 表示 TermSeti 的個數,freq(TermSeti ,Dt)表示詞 彙群組 TermSeti 出現在文件 Dt 中的頻率。. 三 、 段 落 式 文 件 剖 析 法 ( Paragraph Query Set Analysis) 在 一篇 文章內 容長 度中等 或是 長文章 中,其內容所討論的主題經常不是唯一,例如 一篇名為「人工智慧於網際網路資訊檢索系統 上的應用」之文章,其內容可能分段討論人工 智慧技術(模糊理論,類神經網路,基因演算 法 …等)網際網路技術及資訊檢索技術等。 文章內容包含眾多主題,若將整篇文章整體看 待,則在進行關鍵詞彙挑選時,所挑出用來代 表該文章內涵之關鍵詞彙將易發散主題不集 中。相對地,終將導致查詢結果不精確亦或是 查詢結果之文件非常多但相關度都不高的情 形。 paragraph 1. paragraph 2. paragraph 3. Query Document. Document 1. Document N. Document 2. .................. 圖 2: 查詢文件與文件間段落之關聯狀況 前述兩節中所敘述作法一及作法二是在.

(5) 查詢文件中找出詞彙群組 TermSet,並以(term1,1 ∩ term1,2 …. ∩ term1,n1) ∪ …. ∪ (termm,1 ∩ termm,2 …. ∩ termm,nm) 的模式進行查詢,此二 作法尚未考慮到當詞彙群組中的詞彙是跨越 文件的兩個段落的狀行。但由上述顯然可知, 一篇文件所描述的主題事件不一是唯一情形 是常有的事,也就是說極有可能上一個文件段 落描述的是有 A 主題事件,下一個文件段落所 描述的卻是 B 主題事件,而 A 主題事件與 B 主題事件兩者可能是南轅北徹的,所以當詞彙 群組發生在這種情形時,其於查詢文件的代表 性就有待考量且必須加以調整。對於這個狀況 我們所提出的方法是,加入文件段落結構的因 素考量,查詢文件的剖析不再是以文件整體為 單位,而是以文件段落為剖析單位。我們分別 以文件各個段落所決定的詞彙群組去作查詢 運算,累計各篇查詢到的文件與查詢文件的相 似度關係來決定文件相關程度。 如圖 2 所示,假設每一個箭頭代表文件段 落與文件的關係,且設定每個關係的權重值皆 為 1,我們可以看到 Document 1 與 Query Document 的 三 個 段 落 都 有 關 係 , 所 以 說 Document 1 與 Query Document 的相似程度因 該很大才對。不管 Query Document 的三個段 落所描繪的事件是否唯一,儘管三個段落分別 描繪三個獨立的事件,那也表示 Document 1 的內容應該與這三個事件有密切關係,否則不 該有箭頭指向文件。 我們一樣先去除功能詞彙,並統計在查詢 文件 Q 中的各個詞彙的 freq(termi,j ,Q),之後分 別找出各個段落的查詢詞彙 QueryTermSeti,由 QueryTermSeti 去查詢相關文件,計算查詢文件 Q 與文件 Dt 之 SimilarityScore(Dt),公式表示如 下: Similarity Score(Dt ) = nseg. ns. s. ∑ρ (∑ ( freq(term ,Q) × n i =1. i. j =1. i, j. Q. N × freq(termi, j , Dt ) × log ) / ns )) Docfreq i, j. 其中,freq(termi,j ,Q)表示詞彙 termi,j 出現在查 詢文件 Q 中的頻率,freq(termi,j , Dt)表示詞彙 termi,j 出現在文件 Dt 中的頻率,nseg 表示 termi,j 在第 i 個段落中出現的次數,nQ 表示 termi,j 在 查詢文件 Q 中出現的次數,N 表示文件集的總 篇數,DocFreqi,j 表示詞彙 termi,j 出現在文件集 中的篇數,ns 表示 QueryTermSeti 中 term 的個 數,m 表示查詢文件 Q 段落的數目,ρ j 表示各 個段落的權重值。. 四 、 文 件 段 落 比 對 分 析 ( Paragraph Match Analysis) 在上一節的作述的作法中,我們把原本 以全文為單位的查詢,切成一個個以段落為單 位的查詢,經由這些以段落為單位的查詢去累 計文件 Dt 之 SimilarityScore(Dt)。此法在統計相. 似度上,對於被查詢到之文件而言並不是以段 落來作為衡量,仍是以詞彙在 Dt 全文中出現的 TFIDF 來作為計算依據,為此我們設計完全以 段落為考量的比對方法來作為和上一節中的 作法之對照比較。 在這裡我們作法除了將查詢文件作段落 切割外,也把被查詢文件作段落分割,查詢文 件與被查詢文件中的段落兩兩進行相似度比 對,而以段落之間的相似程度來決定文件的相 關度。首先找出被查詢文件 Dt 中各個段落與查 詢文件 Q 最為相關的段落,累加這些這些段落 的相似值作為該文件 Dt 與查詢文件 Q 的相關 聯 程 度 。 此 時 用 於 計 算 相 似 程 度 SimilarityScore(Dt)的公式為: SimilarityScore( Dt ) =. m n m × (∑ Max( Similarity( Pi , Dt , Pj ,Q )) j =1 n i =1. 其中 Similarity(Pi,Dt ,Pj,Q)表示在文件 Dt 中的段 落 Pi 與查詢文件 Q 中的段落 Pj 的相似度值,m 表示文件 Dt 的段落數,n 表示查詢文件 Q 的段 落數。 在計算查詢文件段落 Pj 與經由查詢得到 的文件 Pi 之間相似關係 Similarity(Pi,Dt ,Pj,Q), 最簡單的方式為Pj ∩ Pi,測量 Pj 和 Pi 的交 集程度,不過使用這個方式僅能滿足一般性的 檢測工作。在本研究中是採用 cosine coefficient 相似度量測法來計算文件之相似程度,其計算 公式如下所示: n. cosine (X i , Y j ) =. ∑ (X i =1 n. i. × Yi ) n. ∑X ×∑Y i =1. 2 i. i =1. 2 i. 其中 X i 和 Yi 分別表示為從文件 Q 及文件 Dt 中所挑選出的詞彙 TFIDF 值。 如圖 3 所示,假設被查詢文件 Document 1 中段落 e、h 分別與查詢文件的段落 a 有最大的 關聯值 0.5 及 0.3,段落 f 與段落 d 有最大的關 聯值 0.6,段落 g 與段落 b 有最大的關聯值 0.7 ,因此我們可以計算出 Document 1 與 Query Document 的 相 似 程 度 為 (4/4)*(0.5+0.6+0.7+0.3) =2.1。.

(6) D ocum ent 1 e 0.5. a. e. h. b. f. D ocum ent 2 i. c. g. f g. a. 0.3 0.7. 0.6. b. j. c. k. d. l. D. Q. 圖 4: 查詢文件段落重心找尋 D ocum ent N m. n o p. 圖 3: 段落比對分析. 五、相關性回饋機制 本研究所用的查詢方法,是由剖析文件去 找出相關的文件,所以在查詢詞彙資訊方面要 比由使用者下達查詢詞彙要多得多,相對地所 要面臨的問題是如何從查詢文件內眾多的詞 彙中挑選出適合的詞彙作為查詢詞彙,基本上 我們並不以分析查詢詞彙與相關文件的相似 度,找出擴充的詞彙。因為研究發現在一篇查 詢文件中,所描述不只為單一事件,內容越長 的文件可能描述的事件越多,針對不同的使用 者在查詢時所專注的事件可能不盡相同,是故 以全文作為查詢,可能會找出與該查詢文件相 關的文件,但內容卻不是使用者所關心的事件 描述。所以在製作輔助的機制時,為針對使用 者個人閱讀興趣選擇,強調在找尋使用者的閱 讀重心,由閱讀重心去擴充查詢資訊,而不是 完全比照關鍵字查詢時,所用的擴充查詢詞彙 的作法。 在此我們將加入時間參數的考量,主要目 的是去偵測使用者瀏覽被查詢到之文件的行 為,統計使用者在閱讀文件的時間,來界定使 用者對於該文件的重視程度。所用的時間參數 定義如下: Timeread ( Dt ) TimeFunction( Dt ) = # words of document Dt 其中 Timeread ( Dt ) 表示使用者閱讀文件 Dt 所 需的時間。 經由時間參數挑出使用者較重視的文件 後,即可分析這些使用者所重視的文件與查詢 文件之間的關係,藉由這些關係的分析,設法 從中找尋使用者的查詢重心,剖析重心落於查 詢文件那個段落之中,以更新查詢文件各段落 的權重,而進一步趨近使用者所希望的查詢領 域。. 在經由段落的相關資訊求得之後,我們可從中 找出調整查詢文件各段落的權重比例,如同圖 4 所示,假設有查詢文件 Q 與經查詢後,經由 時間參數找到使用者認定極具相關聯的文件 D 時。則可以經由段落比對方式,從文件 D 中計 算出 e、f、g 段落分別與文件 Q 中的 a、b 段 落有極高相關程度,由這些段落相關聯度關 係,可以得知在文件 Q 中的三個段落,a 與 b 應該是屬於使用者較感興趣的兩個段落,是故 在進行更進一步的查詢時查詢時,我們可以特 別針對這兩個段落加重其權值,讓查詢重心落 於這兩個段落中,經由這個方法在經過多次比 對淬煉之後,可以更趨近使用者的瀏覽方向, 讓查詢結果更為精確。. 肆、. 實驗分析. 我們由新聞網站上所收集的 1200 篇的新 聞文件作為測試文件,在以下的實驗中將一一 分析系統在查詢相關文件的精確度。. 實驗一: 在我們的詞彙群組式剖析法中需對三個 參數進行設定,如表 4-1 所示(見附錄),分別 是 threshold1 、threshold2 與 distance(在表 1 中分別以α、β、γ表示) 。我們共挑選出 21 組較為有效的參數設定,由我們所蒐集的 1200 篇文件中任選 10 篇文件進行查詢分析,並從 實驗數據中找出較佳的參數設定。評估表 1 的 實驗結果,我們發現有兩組較好的實驗數據分 別是(0.8,0.5,9)及(0.9,0.5,9)。而這兩組的數據雖 然都相差不大,但在(0.8,0.5,9)這組數據中,其 值大都在 60%之前大於(0.9,0.5,9)這組數據的 值,如圖 5 所示。 這表示以(0.8,0.9,9)為參數在進行文件查 詢時,所查詢到的相關文件都集中在前面出 現。因為我們的系統是一文件相關度的大小來 排列,所以排列在前面的文件,其相關程度一 定最大,所以出現在愈前面且確認為相關的文 件,表示所得到的查詢結果愈為精確。因此我. 精確度. Q uery D ocum ent.

(7) 們在詞彙式剖析法中將 threshold1 設為 0.8, threshold2 設為 0.5,distance 設為 9。. 精確度. 0.8 0.7 0.6 0.5. (0.8,0.5,9) (0.9,0.5,9). 0.4 0.3. 1. threshold= 0.4. 0.8. threshold= 0.5. 0.6. threshold= 0.6. 0.4. 0.2 0.1. threshold= 0.7. 0.2 90%. 70%. 50%. 0 30%. 相關文件百分比. 10%. 90 %. 70 %. 50 %. 30 %. 0 10 %. 況,從這六組的實驗數據中找出較佳的參數設 定,實驗結果數據如表 3 所示。評估表 3 的實 驗數據,我們發現將參數設為 0.4 所得到的查 詢精確率最高,如同圖 7 的數線分佈所示。. 相關文件百分比. 圖 5 數值比較折線圖. threshold= 0.8 threshold= 0.9. 圖 7: 段落式文件剖析法在不同參數下的數值 比較折線. 實驗二: 我們由詞彙群組式分析法與反查式搜尋 剖析中各挑出五組實驗數據,來比對這兩種方 法的數值變化,如表 2 所示。 由這五組實驗數據,我們發現在各組之間 的數值及每一組實驗數據在各個百分比的數 值變化上,反查式搜尋剖析都與詞彙群組式分 析法的變化分佈大致上相同,如同圖 6 所示。 這是因為反查式搜尋剖析是建構在詞彙群組 式分析法之上,所以在各個數值的變化上大致 上應該會詞彙群組式分析法相當。因此在反查 式搜尋剖析上我們挑選與詞彙群組式分析法 相同的參數設定。 精確度. 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0% 10 20 30 40 50 60 70 80 90 100 % % % % % % % % % %. 相關文件百分比 圖 6: 詞彙群組式分析法與反查式搜尋剖析五 組實驗的分佈情形 其中▲代表詞彙群組式分析法,●表 示反查式搜尋剖析. 實驗三: 在我們的段落式文件剖析法中需對一個 參數進行設定,因此在這個實驗中,由我們所 蒐集的 1200 篇文件中任選 10 篇文件進行查詢 分析,把參數值的設定為 0.4 到 0.9 這六種情. 實驗四: 在這個實驗中將列出系統四種查詢相關 文件方法的實驗數據比較,我們以之前三個實 驗中所挑選出較好的參數設定值,所實驗出的 數據來比較這四種方法的查詢效能。在第四個 方法:文件段落比對分析,因為它的挑選關鍵 詞彙的方式與方法三:段落式文件剖析法類 似,所以在參數的設定上與方法三的參數設定 值相同,一樣都設為 0.4。 表 4 列出詞彙群組式剖析法、反查式剖析 法、段落式文件剖析法及文件段落比對分析這 四種方法,在下達 20 篇查詢文件所得到的相 關文件之平均精確度值。 我們可以從圖 8 中看出這四種方法的評 估結果,發現以段落式文件剖析法的查詢效能 最佳,文件段落比對分析最差,而詞彙群組式 剖析法與反查式剖析法則是差不多。但是相關 文件百分比在 50%時反查式剖析法的查詢效 果比詞彙群組式剖析法還好,這表示雖然這兩 個方法所找到的相關文件篇數都相同。但是反 查式剖析法能夠將較為相關的文件排在前 面,這使得使用者可以在閱讀較少的文件的情 況下,找到自己所想要的文件。 因為段落式文件剖析法只將查詢文件作 段落區分,並從各段落中萃取代表文件的關鍵 詞彙,但對於被查詢文件並沒有進行段落區 分,所以我們設計文件段落比對分析這個方法 來作為段落式文件剖析法的對照比較。由實驗 數據可以看見文件段落比對分的查詢效能並 不是很好,這是因為單純以文件的段落以相似 性比對來決定文件的相關聯性。可能會發生某 一關鍵詞彙因不同用法而有不同的詞義,這會 使得原本與查詢文件不相關的文件,因為包含 有這一關鍵詞彙而列為極相關的文件。例如 ”.

(8) 錦繡山河 ”這個關鍵詞彙可能會出現在地理 類的文件中,也可能會出現在食譜的介紹的文 件中。此外由於不同的作者雖然描述同一件事 實,但是它們在文件中各段落的遣詞用句可能 大不相同,所以單純以段落來進行比對極可能 會因為這些因素而導致查詢效能的降低。. 段落比對. 90 %. 70 %. 50 %. 段落式 30 %. 10 %. 精確度. 詞彙群組 式 反查式. 1 0.8 0.6 0.4 0.2 0. 相關文件百分比 圖 8: 四種查詢方法,以 20 篇文件作查詢之 效能比較折線圖. 實驗五: 在這個實驗中主要為找出自動回饋機制 對整個查詢系統效能的提升情形,由於要模擬 使用者查詢的行為,且要由每一個查詢行為去 偵測回饋資訊,並不是那麼的容易。因此我們 改以另一種方式來進行實驗,在每一次查詢時 中我們標定幾篇文件,在經由回饋之後,再一 次的查詢使得這些標定的文件在相關度排序 上提升與降低了多少,而以這兩個數值的差值 來決定系統效能的提升與否。 我們在文件集中任選十篇文件作為查詢 的文件,在獲得查詢結果後,考慮排序在前面 的十篇文件。由前一個實驗的結果,發現以段 落式文件剖析法查詢相關文件,相關文件大多 出現在所查詢到的文件的前 40%。所以我們在 挑選回饋上,前四篇文件不作為標定考慮,而 以後面六篇文件作為回饋的文件。我們假設每 一次以一篇標定的文件作為自動回饋機制的 選擇,然後依回饋之後的再一次的查詢,來觀 察該標定文件的排序位置是否有所提升或下 降。如此每一篇查詢文件我們假設六次的回 饋,考慮任選的十篇查詢文件在回饋之後的效 能上有何改變。 我們經由表 5 中列出這十篇查詢文件的實 驗結果,得到十篇文件的平均提升率為 0.416, 而下降率則為 0.35,所以在整體上系統在使用 自動回饋機制後,平均約讓查詢結果的效能提 升了 6.6%。. 伍、. 結論. 綜合以上的實驗,使用段落式文件剖析法 來查詢相關文件,平均約比詞彙群組式剖析法. 提升了 14%。且對於查詢而言,所查詢到的相 關文件大約都集中於文件排列的前面,對於查 詢到不相關文件的比例也比其它方法來得 少,因此所統計出的的精確度可以高於其它方 法許多。 而與之作為實驗對照比較的文件段落比 對分析法約比詞彙群組式剖析法降低了 34 %。雖然同樣以段落為單位萃取關鍵詞彙,但 是不同的是單純以段落的比對來決定相關程 度,需要作比對的兩個段落內有相同的關鍵詞 彙,且這些關鍵詞彙的 TFIDF 值還需高於設定 的門檻值。這對於查詢文件與被查詢文件都以 段落作為剖析,會造成計算每一個關鍵詞彙的 TFIDF 值低於門檻值,因此即使擁有相同的關 鍵詞彙,卻因達不到門檻值而不列為比對統 計。所以一些較為重要的關鍵詞彙可能會因此 而被過濾掉或是 TFIDF 值過低,使得相關文件 雖被查詢到,但排列在很後面的情形發生,也 因此造成比對上的不精確。 除此之外以單純段落的比對,亦有可能會 因其它不相關的文件段落因與查詢文件段落 有共同的關鍵詞彙,且該關鍵詞彙所統計出的 TFIDF 值非常高,而使得不相關的文件被查詢 出來,這也是文件段落比對分析法在查詢時所 得到不相關的文件在平均上比使用其它方法 多的原因之一。 對於反查式搜尋剖析法的查詢效能,僅高 於詞彙群組式剖析法不到 1%的原因,可能是 關鍵詞彙在查詢文件與被查詢文件內的分佈 情形不同。也就是說查詢詞彙群組在查詢文件 中是叢聚的情形,但是在被查詢文件中並不是 呈叢聚的的分佈,所以再進行反向查詢詞彙群 組叢聚在被查詢文件的比率時,效果並不是那 麼的顯著。 而且對於詞彙群組式剖析法在挑選足以 代表文件的詞彙群組時,有可能會摻雜一些不 具代表性的詞彙群組,或是一些會模糊查詢主 題的詞彙群組,使得在進行查詢時,具關聯性 文件因這些雜訊而無法被排序到前面,或是有 原本不相關的文件,因包含這些雜訊且權值所 佔的比率極高,而被提升到排序的前面,而使 得一些查詢的精確度沒有增加反而降低,因而 造成整體的查詢效能沒有顯著地提升。 在自動回饋機制方面,由於我們基於時間 與人力上的考量,無法全面模擬使用者的回饋 情況。僅在下達查詢文件後,依其查詢結果標 定回饋的文件,視所標定的回饋文件,再經一 次的查詢後其排序的位置是否有所提升或下 降,來瞭解回饋機制對於系統增進多少的效 能,經過實驗五發現提升了 6.6%。雖然這個 數值無法完全代表實際的查詢情況,但是由提 升的數據顯示,我們所採用的這個回饋機制還 是有增進一些查詢的效能。.

(9) 參考文獻 [1] [2]. [3]. [4]. [5]. [6]. Ricaardo Baeza-Yates and Berthier Riberiro-Neto, Modern Information Rertierval, Addison- Wesley, 1999. Bernard J. Jansen, Amanda Spink and Tefko Saracevic, “Real life, real users, and real needs: a study and analysis of user queries on the web,” Information Processing and Management, pp. 207-227, 2000. Chia-Hui Chang and Ching-Chi Hsu, “Enabling concept-based relevance feedback for information retrieval on the WWW,” IEEE Transactions on Knowledge and Data Engineering, Vol. 11, No. 4, pp. 595-609, 1999. Chuan Chuan Lin, Shou Yi Tseng and Pei Min Chen, “A fuzzy document retrieval system based on concept network and cluster analysis,” Soochow Journal of Economics and Business, pp. 39-60, 1999. Kurt Bollacker, Steve Lawrence and C.Lee Giles , “CiteSeer: An autonomous web agent for automatic retrieval and identification of interesting publications,” In Katia P. Sycara and Michael Wooldidridge, editors, Proceedings of the Second International Conference on Autonomous Agents, pp. 116-123, 1998. Kurt Bollacker, Steve Lawrence and C.Lee Giles, “A system for automatic personalized tracking of scientific literature on the web,” In Digital Libraries 99 –The Fourth ACM Conference on Digital Libraries, pp. 105-113, 1999.. [7] Steve Lawrence , Kurt Bollacker and C. Lee Giles, “Indexing and Retrieval of Scientific Literature,” CIKM’99 of ACM ,11/99 Kansas City, MO, USA, pp. 139-146, 1999. [8] J.P. Yoon and Sungrim Kim, ” Schema extraction for multimedia XML document retrieval,” Web Information Systems Engineering, Proceedings of the First International Conference, pp. 113-120, 2000. [9] Jinxi Xu and W. Burce Croft, “Improving the effectiveness of information retrieval with local context analysis,” ACM Transactions on Information Systems, Vol. 18, No. 1, pp. 79-112, 2000. [10] A. M. Tjoa, M. Hofferer, G. Ehrentraut and P. Untersmeyer, “Applying evolutionary algorithms to the problem of information filtering,” Database and expert systems applications,”Proceedings, Eighth International Workshop on 1997, pp. 450-458, 1997. [11] M. Mitra, A. Singhal and C. Buckey, ”Improving automatic query expansion,” In Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 206-214, 1998. [12] C. Buckley, M. Mitra, J. Walz, and C. Cardie, “Using clustering and superconcepts within SMART,” In Proceedings of the 6th Text Retrieval Conference(TREC-6), E. Voorhess, Ed. pp. 107-124, 1998. [13] C.J. van Risberrgen, “Information Retrieval,” The URL of this paper can be found at http://www.dcs.gla.ac.uk/Keith/Preface.html.

(10) 附錄: 表 1: 10 篇查詢文件在不同參數值下的平均精確度 以 10 篇文件查詢的平均精確度 (α,β,γ). 10%. 20%. 30%. 40%. 50%. 60%. 70%. 80%. 90%. 100%. (0.8,0.5,1). 0.582. 0.454. 0.415. 0.34. 0.341. 0.323. 0.304 0.2735 0.2574 0.2046. (0.8,0.5,3). 0.686. 0.456. 0.417. 0.374. 0.367. 0.349. (0.8,0.5,5). 0.757. 0.542. 0.487. 0.438. 0.416. 0.394. 0.342 0.3055 0.2858 0.2292. (0.8,0.5,7). 0.757. 0.61. 0.59. 0.438. 0.416. 0.394. 0.342 0.3055 0.2858 0.2292. (0.8,0.5,9). 0.757. 0.675. 0.617. 0.558. 0.541. 0.519. 0.482 0.4555 0.4438 0.3922. (0.8,0.6,3). 0.538. 0.454. 0.415. 0.373. 0.366. 0.348. 0.305 0.2737 0.2576 0.2047. (0.8,0.6,5). 0.657. 0.542. 0.487. 0.438. 0.416. 0.389. 0.339 0.3035 0.2838 0.2282. (0.8,0.6,7). 0.657. 0.508. 0.487. 0.438. 0.416. 0.394. 0.342 0.3055 0.2858 0.2292. (0.8,0.6,9). 0.657. 0.608. 0.537. 0.472. 0.441. 0.419. 0.382 0.3555 0.3438 0.2922. (0.9,0.5,3). 0.642. 0.492. 0.424. 0.427. 0.417. 0.401 0.3646 0.3435 0.3169 0.2523. (0.9,0.5,5). 0.742. 0.492. 0.457. 0.417. 0.417. 0.386 0.3596 0.3375 0.3119 0.2473. (0.9,0.5,7). 0.742. 0.492. 0.457. 0.417. 0.407. 0.394 0.3666 0.3435 0.3159 0.2503. (0.9,0.5,9). 0.742. 0.692. 0.607. 0.551. 0.532. 0.519 0.5066 0.4935 0.4739 0.4133. (0.9,0.6,3). 0.557. 0.492. 0.424. 0.427. 0.417. 0.401. 0.364. 0.344. 0.317. 0.252. (0.9,0.6,5). 0.657. 0.492. 0.424. 0.417. 0.417. 0.401. 0.359. 0.338. 0.312. 0.247. (0.9,0.6,7). 0.657. 0.492. 0.457. 0.417. 0.407. 0.394. 0.366. 0.344. 0.316. 0.25. (0.9,0.6,9). 0.657. 0.592. 0.507. 0.451. 0.432. 0.419. 0.406. 0.394. 0.374. 0.313. (0.9,0.7,3). 0.557. 0.482. 0.416. 0.407. 0.405. 0.375. 0.336. 0.317. 0.292. 0.232. (0.9,0.7,5). 0.607. 0.492. 0.448. 0.398. 0.384. 0.364. 0.318. 0.286. 0.268. 0.213. (0.9,0.7,7). 0.59. 0.508. 0.451. 0.408. 0.392. 0.37. 0.323. 0.291. 0.272. 0.217. (0.9,0.7,9). 0.59. 0.608. 0.501. 0.442. 0.417. 0.395. 0.363. 0.41. 0.33. 0.28. 0.31. 0.27. 0.25. 0.21. 表 2:詞彙群組式分析法與反查式搜尋剖析平均精確度比對 以 10 篇文件查詢的平均精確度(α=0.9,β=0.5,γ=1) 10%. 20%. 30%. 詞彙群組. 0.582. 0.454. 0.415. 反查式. 0.568. 0.554. 0.465. 40% 0.34. 50%. 60%. 70%. 80%. 90%. 100%. 0.341. 0.323. 0.304. 0.2735. 0.2574. 0.2046. 0.398 0.3048. 0.323. 0.2844. 0.274. 0.257. 0.205. (a) 第一組實驗數據.

(11) 以 10 篇文件查詢的平均精確度(α=0.9,β=0.5,γ=3) 10%. 20%. 30% 0.417. 40%. 50%. 0.374. 60%. 0.367. 70%. 80%. 90%. 100%. 詞彙群組. 0.686. 0.456. 0.349. 0.31. 0.27. 0.25. 0.21. 反查式. 0.666. 0.556 0.4666 0.3992 0.3417 0.3238. 0.3051. 0.274. 0.258. 0.205. (b) 第二組實驗數據. 以 10 篇文件查詢的平均精確度(α=0.9,β=0.5,γ=5) 10%. 20%. 30%. 40%. 50%. 60%. 70%. 80%. 90%. 100%. 詞彙群組. 0.757. 0.542. 0.487. 0.438. 0.416. 0.394. 0.342. 0.3055. 0.2858. 0.2292. 反查式. 0.743. 0.608. 0.537. 0.449. 0.391. 0.369. 0.342. 0.306. 0.0.286. 0.229. (c) 第三組實驗數據. 以 10 篇文件查詢的平均精確度(α=0.9,β=0.5,γ=7) 10%. 20%. 30%. 40%. 50%. 60%. 70%. 80%. 90%. 100%. 詞彙群組. 0.757. 0.61. 0.59. 0.438. 0.416. 0.394. 0.342. 0.3055. 0.2858. 0.2292. 反查式. 0.743. 0.708. 0.637. 0.449. 0.391. 0.369. 0.342. 0.306. 0.0.286. 0.229. (d) 第四組實驗數據. 以 10 篇文件查詢的平均精確度(α=0.9,β=0.5,γ=9) 10%. 20%. 30%. 40%. 50%. 60%. 70%. 80%. 90%. 100%. 詞彙群組. 0.757. 0.675. 0.617. 0.558. 0.541. 0.519. 0.482. 0.4555. 0.4438. 0.3922. 反查式. 0.743. 0.708. 0.617. 0.583. 0.541. 0.519. 0.482. 0.456. 0.444. 0.392. (e) 第五組實驗數據. 表 3 段落式文件剖析法在不同參數下的平均精確度 以 10 篇文件查詢的平均精確度 threshold. 10%. 20%. 30%. 40%. 50%. 60%. 0.4. 0.993. 0.749. 0.704. 0.678. 0.671. 0.6685. 0.5. 0.993. 0.732. 0.654. 0.622. 0.6013. 0.6. 0.933. 0.642. 0.566. 0.537. 0.7. 0.933. 0.642. 0.566. 0.8. 0.676. 0.654. 0.9. 0.65. 0.381. 70%. 80%. 90%. 100%. 0.659. 0.617. 0.611. 0.555. 0.5915. 0.587. 0.575. 0.567. 0.523. 0.507. 0.4845. 0.452. 0.446. 0.423. 0.371. 0.537. 0.507. 0.4845. 0.452. 0.446. 0.423. 0.371. 0.605. 0.5634. 0.5091. 0.4648. 0.4372. 0.395. 0.368. 0.311. 0.639. 0.597. 0.542. 0.4935. 0.4612. 0.416. 0.387. 0.327.

(12) 表 4: 四種查詢方法在下達 20 篇查詢文件所得到的平均精確度 以 20 篇文件查詢的平均精確度. 分析方法 詞彙群組式. 反查式. 段落式. 段落比對. 10%. 20%. 30%. 40%. 50%. 60%. 70%. 80%. 90%. 100%. 0.83. 0.77. 0.72. 0.68. 0.65. 0.62. 0.58. 0.55. 0.53. 0.47. (+0). (+0). (+0). (+0). (+0). (+0). (+0). (+0). (+0). (+0). 0.82. 0.78. 0.72. 0.69. 0.66. 0.63. 0.59. 0.56. 0.54. 0.47. (-0.01) (+0.01) 0.95. (+0). 0.82. 0.8. (+0.01) (+0.01) (+0.01) (+0.01) (+0.01) (+0.01) 0.78. 0.78. 0.78. 0.76. 0.74. 0.73. (+0) 0.69. (+0.12) (+0.05) (+0.08) (+0.1) (+0.13) (+0.16) (+0.18) (+0.19) (+0.2) (+0.22) 0.3. 0.26. 0.28. 0.32. 0.31. 0.31. 0.3. 0.29. 0.29. 0.28. (-0.53) (-0.51) (-0.44) (-0.36) (-0.34) (-0.31) (-0.28) (-0.26) (-0.24) (-0.19). 表 5: 以 10 篇查詢文件作自動回饋之實驗結果 10 篇查詢文件各以六次回饋所得之查詢比較. 文件編號. 提升率. 下降率. 1187. 0.83. 0. 1236. 0.17. 0.67. 1386. 0.33. 0.17. 1456. 0.17. 0.5. 1521. 0.5. 0.5. 1621. 0.67. 0.17. 1723. 0. 0.333. 1725. 0.33. 0.5. 1831. 1. 0. 1921. 0.17. 0.67. 平均. 0.416. 0.35.

(13)

數據

表 4:  四種查詢方法在下達 20 篇查詢文件所得到的平均精確度  以 20 篇文件查詢的平均精確度  分析方法 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 0.83 0.77 0.72 0.68 0.65 0.62 0.58 0.55 0.53 0.47 詞彙群組式  (+0) (+0) (+0) (+0) (+0) (+0) (+0) (+0) (+0) (+0)  0.82 0.78 0.72 0.69 0.66 0.63 0.59 0.56 0.54 0.47

參考文獻

相關文件

國中國小組 J-8 高中高職組 J-9 大專院校組 J-10 國中國小組 J-11 高中高職組 J-12 大專院校組 J-13

當頻率愈高時, 牽涉到的測量雜音干擾 愈大。 像圖 四十四中所示實驗做於 1987 年, 當時用最先進的富氏分析器及感應器, 僅可 測出十幾個特徵頻率。 近幾年, 在精密儀器的

三階導數也就是加速度的變化率 s′′′ = (s′′)′ = a′ ,也常被稱為 jerk (“猛推”,中文並不常用這類的字,僅以英文敘述). 此時這個 jerk

共集放大器 MATLAB 分析. CC

或改變現有輻射源之曝露途徑,從而使人們受到之曝露,或受到曝露

另外,語文科高中的寫作活動也很多元化,題材亦很生活化,有助提高學生對創作 的興趣。 (高中語文寫作題目舉隅,見附件三 附件三 附件三。 附件三 。 。) 。 ) ) ).. 附件三

Segmented Bushy Path 分為兩個步驟,第一個步驟是文件結構的切割 (Text Segmentation),也就是分析文件內容並將文件內容切割成幾個具有代 表的結構。Text Segmentation

除調整段落 內 的行距之 外 , 也可以 調整段落前 與段落後的 行距..