第二章 相關文獻探討與回顧
2.2. 多國語言文件探勘(Multilingual Text Mining)
2.2.2. 監督式與非監督式學習技術應用於文件探勘上之相關文獻探討
(1)非監督式學習應用於多(跨)國語言文件檢索文獻探討
檢索理論最早起源於 1957 年 Fredrick Jonker 的研究,之後於 1975 年 Salton[39]進一步提出了文件索引向量。到了 90 年代,Dumais, Littleman 以 及 Landauer 等人開始將資訊檢索擴大到多國語言資訊檢索的領域,較著名 的研究也就是 CL-LSI[6],往後許多研究[27] [20] [21]都是基於 CL-LSI 所衍 生出來。
Dumais, Littleman 以及 Landauer 於 1996 提出了將 LSI 技術應用到多國 語 言 ( 英 語 與 法 語 ) 的 方 法 , 稱 作 Cross-Language Latent Semantic Indexing(CL-LSI),此方法利用 Latent Semantic Analysis(LSA)的分析方法,
將平行語料庫的向量空間模型透過奇異值分解後獲得一個語言中立的語意 表示法,任何文章與詞彙都可透過語意空間的映射進而可量測出彼此之間 的語意相關性。圖 2.3 為原始以詞彙為基礎的向量空間與 LSI 語意向量空間 詞彙與文件的分布圖,圖 2.4 為在雙語 LSI 語意空間詞彙與文件的分布圖 (EFDoc 訓練的雙語文件向量,)。
圖 2. 3 標準向量空間與 LSI 語意向量空間的詞彙的分布圖[6]
圖 2. 4 雙語 LSI 語意向量空間文章與詞彙的分布圖[6]
Rehder 與 Dumais[27]等人隔年將原本使用兩種語言的平行語料庫延伸至 三種語言(英文、法文與德文)的平行語料庫,透過實驗數據的展現,同樣地 也獲得很好的效能。
Mori[20][21]針對 LSI 處理因矩陣過大而無法計算的特性,發展了一個切 割式 LSI(Segmented-LSI)專門處理龐大資料量的多國語言平行語料庫。Mori 在進行 SVD 分解前,先將龐大的多語平行語料庫切割成 N 個子集合,之後 分別進行 CL-LSI 分解產生 N 個語意空間。當 Query 進行檢索時,透過 SVD 的 fold-in 方法,將 Query 送至這 N 個語意空間進行映射,最後選取擁有相 似 性 最 高 的 子 集 合 的 文 件 集 合 進 行 Relevant Feedback 。 圖 2.5 為 Segmented-LSI 的示意圖。
圖 2. 5 Segmented-LSI 示意圖[21]
Nie[22]在 SIGIR’99 會議中提出了另外一個思維,由於透過機器翻譯與 雙語字典(bilingual dictionary)的方法將有可能因為一詞多義的問題導致錯 誤的翻譯,所以 Nie 提出一個以 Corpus-based 的方法取代 Knowledge-Based 的方法,Nie 透過機率翻譯模型(probabilistic translation model)去估算在平行 語料庫中可能的跨語言配對文章(cross-language mate),並加以將此方法延伸 到在 Web 上的自動平行語料庫挖掘(automatic mining of parallel text)。
Ampazis[3]提出一個方法利用單語文件檢索中常用的 LSISOM,並將其延伸 到多國語言的領域,透過結合 LSISOM 與平行語料庫,發展了一個相較於 CL-LSI 更為傑出的技術 CL-LSISOM。
Gilarranz[7]提出了一個基於 EuroWordNet 詞彙資料庫的概念性文件檢索 方法;Wim[35]透過叢集演算法將多國語言的 EuroWordNet 根據不同的概念 作分群的動作;Steinberger[29]使用受控制的詞彙集合來編碼文件並結合 Eurovoc 百科全書將多國語言文件集合完成自動索引的動作。
(2)非監督式學習應用於多國語言文件分類文獻探討
Bel、Koster 以及 Villegas[4]在 2003 年 ECDL 會議上提出了一個不同於 多 ( 跨 ) 語 言 資 訊 檢 索 技 術 的 跨 語 言 文 件 分 類 (Cross-Lingual Text Categorization)技術,簡稱 CLTC,當中 Bel 提出了在 CLTC 中針對不同的 訓練策略將會影響文件分類的效能的兩個實例,分別為多種語言訓練策略 (Poly-lingual training)以及跨語言訓練策略(Cross-Lingual training);多種語言 訓練策略是使用超過一種的語言的文件集合做為分類器訓練文件的來源,
在測試時可同時分類多種語言文件透過單一個分類器,然而跨語言訓練策 略是透過單一語言的文件作為分類器的訓練資料源,在測試時,其他語系 的文件必須先由機器翻譯(MT)的方法將測試文件轉換至訓練文件的語言之 後再透過分類器完成分類的工作。Bel 在此篇論文中,使用了 Rocchio 分類 器與 Winnow 分類器作為此實驗的主要分類技術,並比較兩種分類器的效 能展現。在語料庫來源則由國際勞工組織(International Labour Organisation) 提供,其中包含了三種語言的文件,分別為英文,西班牙以及法文,其主 要內容是在談論有關大會的組織、批閱的資訊、專家委員會的意見等相關
文章。Chau[5]提出了一個使用類神經網路模型的方法進行階層式多國語言 文件分類。Chau 為了避免 MT 所產生的雜訊,將平行語料庫中的詞彙使用 自我組織映射的方法進行詞彙群聚的動作,將多語相關的詞彙群聚在一 起,並由概念來表示相關的多語詞彙,之後將文件使用這些概念重新編碼,
產生了一個語言獨立的文件表示法。為了針對使用者習慣於階層式導覽的 習慣,在分類前會先使用階層式群聚的方法將文章做階層式分類,最後透 過三層前餽式網路將文件完成分類的動作。
(3)監督式學習應用於多國語言文件分類文獻探討
Adeva 與 Calvo[1]為了改善於多語文件分類前須先透過機器翻譯將測試 文件轉換至特定的語言的缺點,設計了一個以 N-Gram 為基礎的語言識別方 法。在測試文件分類前首先必須先辨識語言種類,在根據不同語種的分類 器進行分類。Adeva 在這篇論文中評估了貝氏分類器、kNN 分類器以及 Rocchio 分類器在效能上的展現。Gliozzo 與 Strapparava 針對醫學類與電腦 科學類文章提供一個跨語文件分類的方法,並以可比較的語料庫作文訓練 分類器的來源。由於平行語料庫的來源獲得不易,Gliozzo 透過可比較的語 料庫結合 Support Vector Machine 並引入 Multilingual Domain Kernel 的方式 解決在兩種語文上面分類的困難。Rigutini 與 Maggini[28]為了解決缺乏平行 語料庫而難以建構跨語言文件分類系統的問題,提出一個以 EM-Based 的學 習演算法,並應用在貝氏(Bayesian)分類器。Rigutini 首先將在 L1 語言的訓 練文件轉換至測試文件的 L2 的語言,經過貝氏分類器學習由 L1 轉換至 L2 的訓練文件。透過已學習的貝氏分類器分類 L2 的測試文件集合,由於在機 器翻譯的過程中會產生雜訊(翻譯後意義錯誤),故必須根據分類結果的收斂 狀況選擇性地執行 EM 程序,直到分類的結果收斂為止。其中在特徵選取 的過程中,Rigutini 使用了 Informaiton Gain 的方法選取富有資訊(Rich Informative)詞彙。最後根據類別個數,複製此方法至不同的 N 個類別即可 產生 N 個跨語言文件分類器。
第三章 非監督式學習技術的應用
非監督式學習的主要精神在於機器學習的過程中不需要透過額外的知 識或者人工的介入即可完成。資料群聚就是一個非常典型的非監督式學習 的例子。一般我們將群聚演算法分成三種,分別為分割式分群演算法、階 層式分群演算法以及自我組織映射分群演算法。另外我們在非監督式文件 分類技術額外引入潛在語意索引來探討。