單語言資訊檢索系統

第三章跨語言資訊檢索系統之設計

第四節單語言資訊檢索系統

本節介紹本論文的單語言資訊檢索系統，總共有四個步驟，3.4.1 說明取動詞和名詞原形；3.4.2 建立向量空間模型；3.4.3 定義向量的相似程度；3.4.4 定義使用者相關度回饋。

3.4.1 取名詞及動詞原形

英文的名詞有複數形，動詞有現在進行式、過去式、過去完成式等等時式變化，字的外觀不同但意思相同。例如Man 和 Men 不能視為兩個不同的意思，

Get 和 Got 也不該視為不同的意思。將名詞和動詞轉換為原形(Stemming)再做索引可以解決這種問題。

本論文混合Porter’s Stemming Algorithm [Porter80]，以及字典查詢兩個方法。Porter 的方法使用語言學家的經驗法則取原形，速度快但是會有錯誤，例

如去掉ity 的規則會讓 City 變成 C，University 變成 Univers，造成錯誤。為了避免錯誤，本論文先用Porter 的方法取原形，再查詢字典確定原形是合法存在的英文字，如果是才取這個結果，若不存在就取這個字的原始形式。

3.4.2 建立向量空間模型

本論文的單語言資訊檢索系統採用向量空間模型(Vector Space Model) [Salton 83]來表示檢索問句與文件集。該模型將文件和檢索問句表示為向量空間的向量，兩個向量在空間之中會有夾角，夾角越大表示兩個向量相似程度越小，

反之則越相似。檢索問句可以用向量空間的一個向量表示，計算檢索問句向量和所有文件向量的夾角就可算出檢索問句和所以文件的相似程度，再依照此相似度排序作為檢索結果。

1) 文件向量表示法

本論文採用三種特徵值來表示ImageCLEF2004 文件集中的文件向量，包括關鍵字(Term)、文件所屬分類(Category)以及時間特徵(Temporal Feature)。如公式 16 所示，d_j 是文件集中，第 j 個文件的向量表示法，向量前 n 個元素代 表該文件包含的關鍵字；第 n+1 到第 n+m 個元素代表文件所在的分類；第

n+m+1 到第 n+m+k 個元素代表文件所在的年代。每個關鍵字在文件向量d_j 的

權重使用 TF*IDF[Salton83]權重定義如公式 13 所示，tf 是文件 j 中，詞鍵 i 出現的次數；N 是文件集中的文件總數；是包含詞鍵 i 的文件總數。

j i,

i j

i j i j

i n

N tf

W tf log

max _,

, = ×

公式 13: 詞鍵對文件向量的權重公式[Salton83]

文件所屬類別在文件向量d_j 的權重使用布林權重定義如公式 14，當文件 j 屬 category to

belong t doesn' j document if

, 0

i category to

belongs j

document if document if document if

Terms Categories Temporal Feature

公式 16: 單語言檢索系統中文件的向量表示法

的權重使用布林權重；檢索問句的年代權重亦使用布林權重，並且定義了三種運算(Operation)：某年之前(Before)、某年之中(In)以及某年之後(After)。例如表 10 中 d 的出版年代是 1901 年，₁ d₂ 則是1898 年。當使用者想找 1900 年之前

Terms Categories Temporal Feature

公式 17: 單語言檢索系統中，檢索問句的向量表示法

1897 1898 1899 1900 1901 1902 1903 …

0 1 0 0 0 0 0 ...

似程度定義如公式 19 所示，相似程度越高代表檢索問句和文件越相關，排序

使用者相關度回饋(User Relevance Feedback) 是使用者對於檢索結果的回應，可以引導系統的檢索方向，進而提高檢索效能。例如，使用者可以根據檢

在文檔中利用Ontological Chain解決跨語言資訊檢索系統中的翻譯歧義性問題 (頁 44-49)

第三章 跨語言資訊檢索系統之設計

第四節 單語言資訊檢索系統