第二章 相關文獻探討與回顧
2.1. 單語文件探勘(Monolingual Text Mining)
在探討多語文件探勘之前,本研究首先針對單語文件探勘做個概略性的 回顧,文件探勘根據學習學習大致上分成下列兩種,分別為監督式學習以 及非監督式學習。監督式學習與非監督式學習的主要差異在於監督式學習 的方法在學習的過程中需要透過額外的文件資訊輔助,例如:類別標籤,
而非監督式學習則不需要。由於在文件探勘中所追求目的的不同,文件探 勘常常被分成兩個領域來討論,分別為“文件分類”與“文件分群”。常見的監 督式學習的方法多半是應用在文件分類上,而在非監督式學習的方法大多 應用在文件分群上。以下我們將針對圖 2.1 來說明並且比較監督式學習與非 監督式學習的原理與差異。
圖 2. 1 監督式學習與非監督式學習的分類圖
2.1.1. 監督式學習應用於文件分類
文件分類,又稱作主題識別(Topic Spotting),是一個使用監督式學習所 構成的研究主題。其目的為針對預先定義的標籤(label)透過已標記的訓練集 合進一步猜測未標記文件的類別可能性。隨著時代的變遷,將機器學習應 用到文件分類上可以在不失分類準確性的情況下取代傳統的人為分類,並 且能夠有效降低時間與經濟成本。文件分類透過數學的表示法可表示為(2.1) 式,
, is assigned to , , is not assigned to
i i
i j
i i
true d c
d c false d c
(2.1)
許多機器學習演算法,例如透過機率模型的貝氏分類器、基於結構風險 最小化的支撐向量機以及 k-最近鄰居法都是被應用在文件分類上。而在不 同分類演算法中,其優異性則是透過準確性(accurary)來評估。準確性根據 Yang 的論文可分成 precision,recall 以及 F-measure,根據不同觀點使用不 同量測方法來檢視效能。上述三個方法的細節將在第六章做討論。
2.1.2. 非監督式學習應用於文件分群
不同於文件分類,文件分群是一個使用非監督式學習所構成的研究主 題,它不需要預先定義好的類別標籤以及已標記的文件。分群的宗旨在於 聚集高相似性的文件(Intra-group similarities are high),並使得群體與群體之 間產生較低的相似度(Inter-group similarity are low)。
常見的文件分群有使用樹狀結構進行文件群聚的聚合式群聚法以及分 裂式群聚法、以 k 個中心點為基礎的 k-Means 演算法以及結合上述兩種的 Bisecting k-Means。一般被用來量測文件分群效能的方法可分成 Overall Similarity、Purity 以及 Entropy。其中,Overall Similarity 是所有群體的群體 內相似度的總值,Purity 為量測同類別的文件分群到同一群體的比例,而 Entropy 則是量測群體之內文件之間的同質性。
2.1.3. 監督式學習與非監督式學習的差異
本研究將兩個不同的機器學習方法的差異歸類如下:
(1) 探勘目的的不同:監督式學習應用於文件分類,非監督式學習應 用於文件分群。分類目的為依據預先定義的類別標籤對未標記文 件作分類,而分群目的為依據文件的特徵進行相似性的群聚。
(2) 資料來源的差異:監督式學習需大量已經被標記過的訓練文件來 完成機器學習。而非監督式學習不需要任何被標記過的訓練文 件,只要是一般的文件即可。
(3) 演算法理論的差異:監督式學習的過程透過特徵向量與標籤來反 覆根據學習函數不斷地學習,以達到使用者預期的目標為止,如 Support Vector Machines。然而非監督式學習屬於自然式學習的方 法,透過代數或統計的方法挖掘出隱藏於資料底下的知識,如 K-Means、SOM 以及被廣泛應用在資訊檢索的 LSI。
(4) 評估效能的差異:在文件分類上效能評估的基準是準確度;而在 文件分群上效能評估的基準則為群體內的相似度。而兩種方法應 用在資訊檢索上時,評估的基準則變成排名的命中率(Rank-N)。
2.1.4. 監督式學習與非監督式學習相關文獻之探討
(1) 非監督式學習應用於文件分群與資訊檢索之文獻探討:
非監督式學習應用於資訊檢索上,較常見的方法就是自我組織映射 以及潛在語意索引(Latent Semantic Indexing),由於自我組織映射是屬於一 個分群演算法,它可以有效將相似的文件群聚在一起以幫助文件在檢索的 時候縮小文件搜尋的範圍。如 Kohonen[13]提出的 SOMs 以及 LVQ,以及 Honkela[9]以及 Kaski[12]在後來所提出的變形 SOMs─“WEBSOM” 都是被 廣泛應用在資訊檢索上。WEBSOM 不同於傳統的 SOM 的地方在於,
WEBSOM 透過兩階的 SOMs 來完成文件分群的動作,其中第一個分群為詞 彙群聚,將原來文件向量的元素由詞彙改為以映射圖為基礎的概念來進行 第二個分群,也就是文件群聚。而近幾年還有 Ampazis 所提出將 LSI 技術 導入 SOMs 的 LSISOM 以及導入多語文件探勘的 CL-LSISOM[2]。
(2) 非監督式學習應用於文件分類之文獻探討:
非監督式學習應用於文件分類上必須透過額外的改良才能夠有效 的被應用。例如 SOM 應用於文件分類上的變形;SOM 是一個將相似文件 群聚在一起的演算法,透過在映射圖產生的過程中將原來的訓練文件替換 成已經標記的訓練文件,因此在映射圖上的每個座標點將會被多個類別所 標記,在一個座標點一個類別標籤的情況下,主宰該點的類別將是訓練樣 本點個數為最多的類別,如 Wermter[34]所提出的自我組織分類。另外 LSI 應用於文件分類上,首先必須將測試樣本與每個類別的所有訓練樣本作相 似性的評估,而獲得最高相似度的類別將指定給測試文件。將 LSI 應用於 文件分類的文獻有 Liu[17]的 Local LSI 方法、Zelikovitz[37]的結合背景知識 的 LSI 以及 Sun[30]的監督式 LSI 等等。
(3) 監督式學習應用於文件分類之文獻探討:
監督式學習,如同 2.1.1 所描述的,是一個被使用在文件分類上的 學習方法,而 k-NN[19]、貝氏分類器[19]以及 SVM[10][31][32][33]都是常 常被拿來做比較的對象,當然其文獻的記載也是相當多的。其中,三個方 法主要差異為,k-NN 是一個以樣本空間為基礎的分類方法、貝氏分類器則 是一個以機率模型為基礎的分類方法而 SVMs 則是基於結構風險最小化的 類神經模型。