• 沒有找到結果。

第三章 跨語言資訊檢索系統之設計

第四節 單語言資訊檢索系統

本節介紹本論文的單語言資訊檢索系統,總共有四個步驟,3.4.1 說明取動 詞和名詞原形;3.4.2 建立向量空間模型;3.4.3 定義向量的相似程度;3.4.4 定 義使用者相關度回饋。

3.4.1 取名詞及動詞原形

英文的名詞有複數形,動詞有現在進行式、過去式、過去完成式等等時式 變化,字的外觀不同但意思相同。例如Man 和 Men 不能視為兩個不同的意思,

Get 和 Got 也不該視為不同的意思。將名詞和動詞轉換為原形(Stemming)再做索 引可以解決這種問題。

本論文混合Porter’s Stemming Algorithm [Porter80],以及字典查詢兩個方 法。Porter 的方法使用語言學家的經驗法則取原形,速度快但是會有錯誤,例

如去掉ity 的規則會讓 City 變成 C,University 變成 Univers,造成錯誤。為了 避免錯誤,本論文先用Porter 的方法取原形,再查詢字典確定原形是合法存在 的英文字,如果是才取這個結果,若不存在就取這個字的原始形式。

3.4.2 建立向量空間模型

本論文的單語言資訊檢索系統採用向量空間模型(Vector Space Model) [Salton 83]來表示檢索問句與文件集。該模型將文件和檢索問句表示為向量空間 的向量,兩個向量在空間之中會有夾角,夾角越大表示兩個向量相似程度越小,

反之則越相似。檢索問句可以用向量空間的一個向量表示,計算檢索問句向量和 所有文件向量的夾角就可算出檢索問句和所以文件的相似程度,再依照此相似度 排序作為檢索結果。

1) 文件向量表示法

本論文採用三種特徵值來表示ImageCLEF2004 文件集中的文件向量,包括 關鍵字(Term)、文件所屬分類(Category)以及時間特徵(Temporal Feature)。如 公式 16 所示,dj 是文件集中,第 j 個文件的向量表示法,向量前 n 個元素代 表該文件包含的關鍵字;第 n+1 到第 n+m 個元素代表文件所在的分類;第

n+m+1 到第 n+m+k 個元素代表文件所在的年代。每個關鍵字在文件向量dj

權重使用 TF*IDF[Salton83]權重定義如公式 13 所示,tf 是文件 j 中,詞鍵 i 出現的次數;N 是文件集中的文件總數; 是包含詞鍵 i 的文件總數。

j i,

ni

i j

i j i j

i n

N tf

W tf log

max ,

,

, = ×

公式 13: 詞鍵對文件向量的權重公式[Salton83]

文件所屬類別在文件向量dj 的權重使用布林權重定義如公式 14,當文件 j 屬 category to

belong t doesn' j document if

, 0

i category to

belongs j

document if document if document if

Terms Categories Temporal Feature

公式 16: 單語言檢索系統中文件的向量表示法

的權重使用布林權重;檢索問句的年代權重亦使用布林權重,並且定義了三種 運算(Operation):某年之前(Before)、某年之中(In)以及某年之後(After)。例如表 10 中 d 的出版年代是 1901 年,1 d2 則是1898 年。當使用者想找 1900 年之前

Terms Categories Temporal Feature

公式 17: 單語言檢索系統中,檢索問句的向量表示法

1897 1898 1899 1900 1901 1902 1903 …

0 1 0 0 0 0 0 ...

似程度定義如公式 19 所示,相似程度越高代表檢索問句和文件越相關,排序

使用者相關度回饋(User Relevance Feedback) 是使用者對於檢索結果的回 應,可以引導系統的檢索方向,進而提高檢索效能。例如,使用者可以根據檢