• 沒有找到結果。

第三章 跨語言資訊檢索系統之設計

第三節 系統架構

第三節 系統架構

Chinese

Query Query

Translation

Semantic Distance in Ontology

Relevant

Vector Space Model

Similarity

Reformulation

Indexing

Features: term, category, date

Features: term, category, date

圖 13: 本論文系統架構圖

本論文提出的跨語言資訊檢索系統如 圖 13所示,包括三個模組:

1. 翻譯檢索問句(Query Translation):將使用者的中文檢索問句翻譯為英

文檢索問句,取所有可能的英文翻譯,以及其同義詞,上位詞,下位 詞。

2. 解析翻譯歧義性(Resolving Translation Ambiguity):查詢知識本體,找 出和檢索問句最相關的節點來建立知識本體鏈,利用此知識本體鏈對 於每個中文查詢詞,取出最適當的英文翻譯。

3. 單語言資訊檢索系統(Monolingual Information Retrieval System):將解 析過後的英文查詢輸入英文單語言資訊檢索系統中,找出最相似的文 件。

第二節 翻譯檢索問句

翻譯檢索問句主要有三個步驟,首先將中文檢索問句作中文斷詞(Chinese Word Segmentation),找出最小有意義單元;其次使用雙語字典翻譯檢索問句中 的所有詞鍵(Query Translation);最後利用 WordNet 擴展查詢詞(Query

Expansion)。經過這三個步驟,中文的檢索問句將會被翻譯成英文檢索問句,

但是這個英文檢索問句包含了所有的可能翻譯和所有相關英文詞,所以是語意 模糊的。

3.2.1 中文斷詞

字(Word)在英文語言裡面是最小有意義單元,而字的邊界可以用空白字元 或標點符號來判斷,也就是每個英文字都是用空白或標點符號隔開。但是在中 文語言裡,詞(Phrase)才是最小有意義單元,字並無法包含正確的語意,例如

「羅馬」這個詞,如果分成單獨的字「羅」或是「馬」,並無法代表「羅馬」的 語意,所以字並不是中文最小有意義單元,必須從檢索問句中準確找出中文詞 的邊界才可得知使用者的意圖。

本論文混合使用雙語字典以及語料庫作為中文斷詞的依據,首先針對一個

句子產生二字詞以及三字詞的所有可能組合,從雙語字典中查詢每個詞,如果 該詞可以翻譯成為英文,則取該詞為斷詞結果。

3.2.2 翻譯查詢詞

使用兩個中英翻譯軟體的字典檔案,包括Linux 的開放原始碼字典軟體 pyDict 以及遠東 21 世紀字典。一個中文字可能會有一個或以上的英文翻譯,要 判斷檢索問句的正確翻譯方式必須考慮檢索問句的語境(Context),以及文件集 的語境。在這個步驟無法判斷兩者的語境,所以無法找出適當的翻譯,而是選 擇所有可能的翻譯。

3.2.3 查詢自動擴展

使用者的中文翻譯問句可以使用雙語字典翻譯成英文問句,再使用

WordNet 將英文查詢詞的同義詞,上位詞以及下位詞作查詢擴展。一個英文詞 有許多意思,如果只用關鍵字比對,會無法找到相關的字詞。如

14,使用者想找「fish」相關的文件,如果只用「fish」作為關鍵字,只 會找到「feeding fish」的文件。但是透過 WordNet 可以得知「fish」有五個意思:

1. 「魚」:上位詞是動物,下位詞有青魚 (Herring) 和鮭魚 (Salmon) 等等。

2. 「魚肉」:上位詞是食物,下位詞是可以在盤中煎的魚 (Panfish) 3. 「雙魚座」:上位詞是人 (Person)。

4. 「找尋」: 上位詞是搜尋 (Search)。

5. 「釣魚」: 上位詞是補捉 (Catch)。

利用WordNet 做查詢擴展可以得到「salmon」、「herring」、「catching fish」

等等和「fish」相關的文件,若純粹關鍵字比對則無法達成這種效果。

Used as food fishing

Pisces Seek indirectly fish

herring salmon

catching fish

fish

Hypernym: food Hyponym: panfish

Hypernym: person Hypernym: search Hypernym: animal

Hyponym: salmon, herring

Hypernym: catch

feeding fish

圖 14: fish 的同義詞、上位詞、下位詞

deal

4 synonyms:

fish (1/4), Pisces (1/4), … 23 hypernyms:

food (1/23), animal (1/23), … 56 hyponyms:

salmon(1/56) , herring (1/56)

圖 15: 翻譯歧義性問題例子