機器學習(Machine Learning)是泛指電腦透過適當地學習進一步取代傳 統人工的處理工作的相關技術。一般而言,常見的機器學習根據學習方式 的不同可分為兩種,分別為監督式學習(Supervised Learning)以及非監督式 學習(Unsupervised Learning),顧名思義,監督式學習需要受到額外的監督 機制來輔助學習的過程,也就是需要額外的資訊輔助;而非監督式學習則 不需要。機器學習由於學習模式與特性的不同,所延伸出的應用也有所不 同,譬如:常見的監督式學習演算法多半是應用在分類的工作上,而非監 督式學習則是應用在分群的工作上。以文件探勘為例,自 90 年代起機器學 習 已 經 廣 泛 地 被 應 用 於 文 件 分 類 (Text Categorization) 與 文 件 分 群 (Text Clustering)上,更於 2003 年延伸到跨語言文件分類(Cross Lingual Text Categorization)(CLTC)與多國語言文件探勘(Multilingual Text Mining)上。由 於多語文件探勘發展較為後期,不同機器學習的方法在效能比較上的相關 文獻探討可說是相當的少,故本研究將針對監督式學習方法以及非監督式 學習方法應用於多國語言文件探勘做比較研究,以找尋出適合於多國語言 文件分類的機器學習方法。
1.1. 研究背景
隨著電子化時代的來臨,數位化文件也同樣地快速增加,如電子書、電 子郵件訊息、電子化新聞以及網頁,隨著數位化資料不斷地充斥於網際網 路當中,使用者面對這茫茫的資料網路中也就開始感到資訊過載,如何從 大量的文件中萃取出使用者有興趣的資訊與知識也就成了一個相當大的挑 戰。因此,在這種情況下必須藉由合適的機器處理方式才能夠有效加速資 料處理的速度,而以機器學習為主的文件探勘技術也就是針對上述問題所 被發展出來的相關技術。
在眾多的機器學習方式中如何選取出切合功能需求的文件探勘技術則 須視探勘目的使用不同的機器學習方法,譬如在文件分類上,由於分類的
目的是將文件根據預先定義的類別來進行分類,其過程偏向於監督性的動 作,所以在文件分類上大多數是採用監督式學習的方法;而文件分群上,
由於分群的精神是在於將相似的文件群聚在一起,因此往往是透過比較文 件內的特徵,其過程偏向於非監督式的動作,所以在文件分群上大多數是 採用非監督式學習的方法。常見的監督式學習有貝氏分類器(Naïve Bayesian Classifier) 、 k- 最 近 鄰 居 法 (k-Nearest Neighbor) 以 及 支 撐 向 量 機 (Support Vector Machines);而非監督式學習有產生樹狀結構的階層式分裂演算法和 階 層 式 聚 合 演 算 法 、 K 個 樣 本 中 心 法 (K-Means) 以 及 自 我 組 織 映 射 法 (Self-Organizing Maps)。透過機器學習的方式應用在文件探勘的技術中,監 督式學習與非監督式學習有時候是可以交互使用。例如:非監督式學習的 SOM 透過在群聚的過程中將訓練文件的類別標籤標記於映射圖上就可以應 用在文件分類上,還有非監督式學習的 LSI 透過估算測試文件與訓練文件 的相似程度進一步可應用於文件分類上。如上所述,許多非監督式學習方 法將可應用於分類的工作上。在這種情況下,機器學習則必須透過比較的 方式才能夠有效的評估監督式學習與非監督式學習在分類上的效能差異。
近年來由於網際網路技術發展成熟,使用網際網路的人口也日漸普及。
因此散佈於網際網路上的文字文件已經不再侷限於特定的語言種類,長久 以來由於西方資訊處理技術發展較早,故英文文件在網際網路上一直扮演 著最主要資料來源的語種。然而隨著時代的變遷以及世界潮流的影響,英 文已經不再是唯一的資訊來源,其他語言的使用(如:中文、日文、德文等 等)也逐漸受到了重視。隨之而來的多國語言資料管理也就愈趨困難,因此 有效的多國語言文件組織機制也因此受到了重視,多國語言文件的檢索與 探勘技術的需求也就是在這種環境下孕育而生。不同於單語文件探勘,多 語文件探勘是一個探討複合式文件特徵的研究領域,由於複合式文件特徵 在分類與分群上較單語文件特徵來的複雜且困難,所以必須結合一些解決 語 言 障 礙 的 方 法 , 例 如 Corpus-Based Approach 或 Knowledge-Based Approach 才能有效透過不同機器學習的方法來完成多語文件探勘的工作。
多國語言文件探勘泛指利用不同文件探勘技術於多國語言文件上進行 有效的知識發掘,一般而言,最常見到的多國語言文件探勘為「跨語言文 件分類」,透過跨語言訓練的資料針對多種語言特徵進行學習,在分類時 可將兩個不同語言但卻是相同主題的文件歸類到單一語系的同一個類別 中,以及多國語言文件分類(Multilingual Text Categorization-MLTC),將多
種語言的文件透過單一個文件分類系統將具有相關主題的文件分類在一 起。比較兩種不同的多語文件探勘, CLTC 發展在 2003 年,其技術大多基 於 Cross-Lingual Information Retrieval 的方法而進一步延伸,而在多語文件 分類則是屬於一個新的研究領域。
1.2. 研究動機
近年來,機器學習普遍地被應用於文件探勘與資訊檢索上,如 SVMs 應 用於文件自動分類與語意相關性量測、SOMs 應用於相似文件群聚以及 LSI 應用於解決詞彙問題的檢索系統上等等,但隨之而來也將影響不同類型的 機器學習方法限定在特定的應用領域上,降低了機器學習方法的彈性。在 群聚研究上具有較好效能的 SOMs,由於透過模擬大腦神經元的分佈能將功 能相近的神經元聚集在某個區域上,致使在進行文件分群的時候會有較好 的效能呈現。而在檢索研究上具有不錯成果的 LSI,由於處理影響檢索效能 的“一詞多義”以及“同義詞”的問題有顯著的效能改善,致使在文件檢索的過 程中能有效地命中相關的文件。如上所述,如果能夠有效地將不同種類的 機器學習演算法應用到其他相關領域當中將有可能產生意想不到的實驗成 果。
在許多應用監督式學習或是非監督式學習於文件探勘的文獻當中,常常 能夠發現實驗在數據的部份往往是針對同一類型的機器學習方法來相互比 較,很少發現會有透過不同機器學習的方法來比較,這可能是因為要保留 演算法的原生性(Native)所導致的結果。然而這種比較往往是必要,由於文 件在處理的過程當中,常常會依據文件自我的特徵或外在給予的標籤來適 應不同環境的需求,也因此在文件探勘的時候常常會交互使用不同類型的 演算法來評量其優異性。譬如在資訊過濾中為了找尋一個適合的資訊過濾 方法,我們必須從分類方法與分群方法下做個抉擇,還有在圖書系統上管 理歸類與未歸類的文件都必須透過不同類型學習演算法的比較來找出適當 的方法等等都是相當典型的例子。
由 於 目 前 多 國 語 言 文件 探 勘 的 重 點 幾 乎 是著 重 多 國 語 言 文 件 分類 [4][1][8][5][28],以致於非監督式學習的方法很少拿來應用在多國語言文件
探勘[14][18],如此一來容易使得多國語言文件探勘的發展大多傾向於監督 式學習的方式,導致文件探勘的不平衡發展。在文件探勘的觀點上,不一 樣的機器學習方法其最終目的都是同一個,那就是對文件組織提供一個有 效的解決方式或演算法,如此有效地改良學習方法來因應不同文件探勘領 域將有可能會是未來多國語言文件探勘發展的重心與主軸。
1.3. 問題領域
傳 統 的 多 國 語 言 文 件 探 勘 的 方 法 , 由 於 現 有 知 識 庫 輔 助 技 術 (e.g.
EuroWordNet, WordNet) 的 發 展 已 經 漸 臻 成 熟 , 使 得 以 知 識 為 基 礎 (Knowledge-Based)的方法來進行多國語言文件探勘已經十分常見,但隨之 而來所要面對的問題亦隨之衍生,其中詞彙之間的一詞多義(synonmny)以及 同義詞(polysemy)問題就是一個非常典型的例子,由於單一詞彙的意義不確 定性將會導致知識庫在翻譯的解讀上將可能導致錯誤的多語詞彙對應,例 如:英文中學校內的班級(class),將可能被翻譯為類別等等問題,使得文件 探勘的效能降低。此外由於大部分的知識庫取得較不容易且操作較為複 雜,所以很難有效的轉移到一些文件探勘的方法之中,如此一來又增加了 以知識為基礎的多國語言文件探勘的困難度。
取代了以知識為基礎的方法,以語料庫為基礎(Corpus-Based)的多國語言 文件探勘方法可有效改善上述詞彙的問題,由於以語料庫為基礎的方法是 基於不同領域的語料庫透過數學中的統計理論(statistics theory)或代數理論 (algebra theory)來針對語料庫進行分析,也因此詞彙之間的關係將會是根據 語 料 庫 中 詞 彙 出 現 的 次 數 (term frequency) 以 及 其 高 階 關 係 (high order relation)所主宰著,不再是透過既有的多語知識庫進行呆板的轉換或是翻 譯,因而可有效的解決詞彙之間的問題。
然而面對到與以知識為基礎的文件探勘方法所同樣遭受到的“知識庫(平 行語料庫)取得不易問題”,將使得缺乏多國語言平行語料庫成為以語料庫為 基礎的致命傷。所以如何有效地透過其他的方法來改良缺乏平行語料庫的 闕失,將可解決多語知識共享困難的問題。
綜合上述,我們將多國語言文件探勘的困難與問題歸納如下
(1)對母語的依賴性:
對於大部分的使用者而言多半只熟悉自己的母語(native language),而在 其他的語言方面則無法像自己的母語那麼的熟悉。這種情況將使得在不同
對於大部分的使用者而言多半只熟悉自己的母語(native language),而在 其他的語言方面則無法像自己的母語那麼的熟悉。這種情況將使得在不同