多國語言文件的探勘觀點

第二章相關文獻探討與回顧

2.2. 多國語言文件探勘(Multilingual Text Mining)

2.2.1. 多語文件探勘的特點

2.2.1.2. 多國語言文件的探勘觀點

從多國語言文件的探勘觀點出發，兩個或多個不同語系的詞彙或片語該如何建立起關連，將主宰著多國語言文件探勘的效能表現。不論是以文件分類技術(Text Categorization)或是文件群聚技術(Text Clustering)來進行文件探勘工作，大致上可分成兩種方法，第一種稱做以語料庫為基礎 (Corpus-Based)的方法；第二種稱做以知識為基礎(Knowledge-Based)的方法。

2.2.1.2.1. 以語料庫為基礎

以語料庫為基礎的文件探勘技術係指針對不同的語料庫集合建立一個以領域導向(domain-specific)為基礎的的文件向量，換言之，以同樣的

詞彙所建構的文件將會根據不同領域語料庫的選擇將會對文件向量產生不一樣的詮釋，也就是說“多國語言詞彙之間的關聯性並非是絕對的”，例如：

computer 和 calculator 在金融領域可能相似度很高，因為它們都是拿來做數值計算，但是在電腦科學就有可能將它視為是不一樣的物件。一般來說，

單一語言的語料庫取得容易，可從各大入口網站(Yahoo!、MSN 或 Sina)的新聞取得，但是針對探討同一主題的多國語言平行語料庫取得就比較困難些，例如：科學人雜誌，時代雜誌以及光華雜誌等等。大致上被應用於多國語言探勘的語料庫可分成三種：

(1)平行語料庫(Parallel Corpora)

平行語料庫是將一定數量的文件經由專家對該文件進行多種語言翻譯所組成的集合，其中文件向量是由多種語系的詞彙所組成的，例如：

中英文平行語料庫內有 10 個中文詞彙，同樣的該篇文件會有 10 個英文相對應的詞彙，由於他們大多數都是多語對照，故稱做平行語料庫。針對平行語料庫對齊的型態，大致上可分成三種，文件對齊式(Document -aligned)、

句對齊式(Sentence-aligned)以及詞彙對齊式(Term-aligned)，至於更加詳細的還有細分成：段落對齊式(Paragraph-aligned)、區段對齊式(Segment-aligned) 以及字元對齊式(Character-aligned)。一般較常見的對齊方法是句對齊式。

(2)可比較的語料庫(Comparable Corpora)

由於一般的平行語料庫取得較不容易，且文章的來源可能只侷限於某個特定領域(人文、科學)，導致其應用將可能受到了限制，透過可比較的語料庫替代了平行語料庫可進一步改善上述的缺失。何謂可比較的語料庫？其定義如下：

【一群探討同一個主題但卻使用不同語言做描述的文章集合，稱為可比較的語料庫】

舉例來說：震撼全球的恐怖攻擊活動 911，在當下全球不同的新聞社使用不同的語言描述了美國世界貿易大樓遭被恐怖份子挾持的飛機迎面而撞上的新聞，這就是一個很典型的多國語言可比較的語料庫。由於可比較的語料庫在文章的對齊上並沒有直接對照的關係，所以應用在文件探勘

時效能往往會比平行語料庫低一點。

(3)單一語言語料庫(Monolingual Corpora)

單一語言語料庫替代了上述的兩個語料庫，單一語言語料庫是由多個單一語言語料庫所組成的。由於散佈在世界各地的文章大多數只探討著本地的社會現象、教育發展與科學研究等等，所以往往無法提供一個跨地域性相同主題的文章，因而只應用於單語文件探勘的領域內。為了使得這些文章能夠被應用於多國語言文件探勘的領域，可透過一個半監督式學習將文章根據其預先記載的資訊給予一個語言中立(Language-Neutral)標記，

進而可以達到多國語言資料探勘的目的。

2.2.1.2.2. 以知識庫為基礎

以知識為基礎的多國語言文件探勘是利用現有的多語知識庫— 例如“雙語辭典”以及“雙語百科全書”等等來解決多國語言文章的翻譯問題，由於透過翻譯的方式來解決語言之間的障礙，所以可採用一般單一語言文件探勘的方法來進行多國語言文件探勘。其中以知識為基礎的方法又可分做：以字典為基礎 (Dictionary-Based) 的方法以及以百科全書為基礎 (Thesaurus-Based)的方法

(1) 以字典為基礎

以字典為基礎的多國語言文件探勘方法是轉換多種不同的語言至單一型態的語言來進行探勘，而通常轉換的對象多半是詞彙對詞彙(term by term)的翻譯。因為詞彙之間往往存在著一詞多義或同義詞的問題，所以在翻譯的過程中可能會出現一些文不切題的情況出現，如何克服因翻譯過程而產生的不相關詞彙的問題，很多研究也朝著這個方面努力。我們將以字典為基礎所可能遇到的問題分成兩類：

《1》一詞多義與同義詞的問題：

一詞多義和同義詞不管在資訊檢索或文件分類都是影響效能展現的重要因子。由於一詞多義在文件分類會使得由同型異義不相關的詞彙所組成的文件被分類為相關，導致系統的精確度(precision)降低；另外，同義

詞可能因為使用不同字彙描述相同主題使得系統無法正確辨識該兩篇文件為彼此相關，致使系統的召回率(recall)下降。

《2》缺少具有正確翻譯的機制：

一般的多語辭典並沒有辦法涵蓋所有領域的專有名詞，使得在文件翻譯的時候找不到適當的對照詞；同樣地，因個人書寫文章的方式不同，

在慣用俚語與縮寫的使用將會造成雙語字典無法正確的翻譯。由於兩個因素將會降低整個探勘的效能結果。

(2) 以百科全書為基礎

不同於一般以詞彙為基礎的文件探勘，使用百科全書進行文件探勘所獲得的是一個以概念為基礎的輸出，透過概念可有效地減少因詞彙所導致一詞多義與同義詞的問題。一般典型的以百科全書為基礎的方法就是 WordNet。

《1》WordNet:

WordNet 1.5 是一個由英文詞彙資料庫所組成的線上詞彙參照系統 (Online Lexical Reference System)，當中記載著英文辭彙之間的語意相關性 (semantic relation)，並且將相關的字彙建立連結。其中 WordNet 只處理四種詞彙類別：名詞(nouns)、動詞(verbs)、形容詞(adjectives)以及副詞(adverbs)，

並將詞彙之間的連結分成了四種型態：

一、同義詞(Synonymy)：由多個相同意義的詞彙所組成，在 WordNet 裡面我們稱他叫做同義集合(synset)。

二、上義詞/下義詞(Hypernymy/Hyponymy)：上義詞為該詞彙更為廣泛的詞彙，例如：Tree is a kind of woody plant；下義詞為該詞彙更為細分的詞彙，例如：Maple is a kind of tree。一般而言，下義詞擁有上義詞的所有特性，並且會加入至少一個可以辨認的特徵來識別下義詞的詞意。

三、完全/附屬關係(Holonym/Meronym)：完全關係(is a part of)就是該詞彙屬於完全關係詞彙的一部分，例如：tree is a part of forest；附屬關係則是附屬詞彙是該詞彙的一部分，例如：tree truck is part of tree。

四、反義詞(Antonym)：反義詞為該詞彙相反意義的詞彙，例如：

Love is antonym of hate。

此外在歐洲已經有一群學者發展了一個多國語言的 WordNet，稱作 EuroWordNet，當中包含了四種語系的詞彙資料庫分別為 Dutch(荷蘭文)、

Italian(義大利文)、Spanish(西班牙文)以及 English(英文)。

Corpus-Based 與 Knowledge-Based 方法的主要差異在於 Corpus-Based 多國語言文件特徵是需要透過額外的語料庫分析與統計方可建立起詞彙之間關係；相反的，Knowledge-Based 則是透過類似多語辭典或百科全書的方法將所有不同語言的詞彙轉換至單一語言的詞彙，進一步建立起詞彙之間的關係。

在文檔中一個監督式學習與非監督式學習技術應用於多國語言文件探勘之比較研究 (頁 26-30)

第二章 相關文獻探討與回顧

2.2. 多國語言文件探勘(Multilingual Text Mining)

2.2.1. 多語文件探勘的特點

2.2.1.2. 多國語言文件的探勘觀點

第二章相關文獻探討與回顧