• 沒有找到結果。

第一章 簡介

第一節 跨語言資訊檢索系統

第一節 跨語言資訊檢索系統

近年來,網際網路的普及,使得數位資訊的傳播跨越國度的限制;持續累 積的多樣化資訊,儼然已成為一個巨大、分散且資訊豐富的多語言資料庫。各 種語言寫成的文件都可能包含使用者需要的資訊。因此,除了母語之外,使用 者也有檢索外語文件的需求。然而,傳統的搜尋引擎(Search Engine)與資訊檢索 系統(Information Retrieval System)僅就單一語言的文件作考量;亦即,檢索問 句(Query)與文件皆須使用相同的語言來表達,並沒有考慮到檢索問句與文件分 屬不同語言的可能性。因此如何跨越語言的障礙,以達到跨語言資訊檢索的目 的,顯然是個迫切需要解決的重要課題。

語言的差異,使得資訊的取得多了一道障礙。使用者往往不知道檢索問句 在另一個語言中的正確翻譯,或是在某領域的適當翻譯。例如,「男人」在雙語 字典中有許多翻譯,如man、male、gentleman 等等,要檢索穿著十九世紀愛德 華風格服裝(Edwardian Dress)的男人,比較適合的英文翻譯是 gentleman,但是 想檢索正在處理魚的男人,適合的翻譯則是 fisherman 或是 man。使用者由於 語言、文化以及背景知識的差異,往往無法下達最適合的檢索問句。

網際網路上的資訊使用各種不同語言寫成,依據ETHNOLOGUE1目錄上的 統計(圖 1),語言使用人口數的前幾名,依次為中文、英文、印度文及西班牙 文等等。然而,根據2001 年的估算(圖 2),網頁使用語言的前幾名,依次為英 文、日文、德文等等。由此可知,網際網路上約有80%的網站為英文網站,卻 有將近40%的網際網路使用者並非以英文為母語。

1

Speakers (millions)

Chinese English Hindi-Urdu Spanish Portuguese Bengali Russian Arabic Japanese

圖 1: 2001 年網際網路上主要語言的使用人口數統計

Internet Hosts

English Japanese German French Dutch Finnish Spanish Chinese Swedish

圖 2: 2001 年網際網路上網頁使用的語言統計

跨語言資訊檢索(Cross-Language Information Retrieval, 簡稱 CLIR)的目的 即是消除語言的差異,使得使用者可以利用本身熟悉的語言,檢索其他語言的 文件。CLIR 的應用相當廣泛。舉例來說,跨國犯罪常需要各國協同作業,然 而 語 言 的 差 異 使 得 各 國 間 犯 罪 資 訊 取 得 困 難 。 歐 洲 各 國 因 此 而 發 展 一 套 AVENTINUS2 (Advanced Information System for Multilingual Drug Enforcement)

系統,以協助警方取得相關的緝毒與執法資訊。此系統中收集歐洲各國有關毒 品、犯罪和嫌疑犯的多語言資料,並可以使用歐盟任何一種語言進行檢索。CLIR 系統亦可應用於數位典藏,例如,數位圖書館或數位博物館皆收藏大量的外語 數位館藏,應用 CLIR 系統可以提供使用者使用熟悉的語言來查詢外語文件。

除此之外,若將跨語言資訊檢索技術應用於搜索引擎(Search Engine),便可容許 使用者以其最熟悉的語言文字表達本身的資訊需求,並提供由各種語言所描述 的相關資訊。

本論文以ImageCLEF2004 [ImageCLEF04]資料集為例,實作一個可以實際 應用於數位圖書館館藏檢索的跨語言資訊檢索系統,提供使用者以中文查詢條 件檢索英文館藏資料。舉例來說,若使用者想查詢早期英國農耕的方式,然而 受限於自身的外語能力無法精確地利用英文描述檢索問句時,跨語言資訊檢索 系統便可幫助使用者達到檢索的目的。圖 3 為使用「犁」與「耕種」作為檢索 問句所得到的結果。使用者不需具備相關的外語知識,即可查詢到蘇格蘭地區 以馬耕種的相關圖片及敘述。由此可知,如何讓使用中文的使用者方便且快速 檢索英文文件乃是本論文要探討的問題。

說明:

Man standing in just-opened furrow; single horse harnessed to plough; wire fence bounding field extends into centre distance.

圖 3: 使用「犁」及「耕種」跨語言檢索所得到的英國耕作相關文件

既然牽涉兩種以上的語言,因此檢索問句或者文件集兩者之一必須進行翻 譯,如此檢索問句與文件集就屬於同一種語言,之後的處理方式和單語言資訊 檢索相同。目前用於處理跨語言資訊檢索的相關技術主要可分為翻譯檢索問句 (Query Translation)與翻譯文件集(Document Translation)兩類。翻譯文件的作法所

需的處理時間隨文件的不同而有極大的差異,而且計算量過於龐大,極少有系 統採用這種作法,比較實際而且主流的作法是遵循翻譯檢索問句的研究。