第二章 文獻探討
第二節 分類問題研究
分類問題在各個領域中皆有所應用,如在生物學領域中利用物種的特徵作物 種的分類,醫學領域中利用不同症狀的特徵進行疾病診斷的區分,工程領域如人 臉辨識、語音辨識等系統,在資訊檢索領域中利用文本特徵進行新聞或者垃圾郵 件的分類。然而本研究所探討的可讀性問題屬資訊擷取領域中的文本分類領域,
而過去研究在不同的文本分類問題上採用許多分類方式,以下整理過去研究者針 對不同分類問題依照資料特性進行分類的結果,並討論幾種常見的文本分類方 法。
一、文本分類實例
Androutsopoulos 等人(2000)使用 KNN 及簡單貝氏分類的方法進行垃圾郵件 的過濾,他們使用的語料庫包含 2893 個郵件,其中有 481 個是垃圾郵件。在兩 種分類的過程中,皆是以文本中的詞彙為特徵參數,再利用 KNN 和簡單貝氏分 類的方法進行分類。結果顯示兩種分類方法皆可以有效的對垃圾郵件進行過濾,
在準確率上不相上下,但是他們也發現 KNN 的參數配置與準確率有相當大的關 係。
Zhijie 等人(2010)曾探討不同分類方法(SVM、KNN、簡單貝氏分類)在分四 種主題文本(自然環境、運動、政治、藝術)的準確率為何,他們以文本中的詞彙 為特徵參數,對一個 7400 篇文本的語料庫進行分析,分類的結果顯示三種分類 方法皆有不錯的效果,其中 SVM 的分類方法效果優於另外兩種分類方法。
Yang 和 Liu(1999)也曾對不同的分類方法進行比較,他們用線性最小平方 (Linear Least Squares Fit, LLSF)、簡單貝氏分類、ANN、SVM、KNN,針對路透 社的 Reuters-21578 新聞語料進行分析,最後他們發現 SVM、KNN、LLSF 在每 一種類別的訓練樣本低於 10 篇的情況時,分類準確率顯著優於 ANN 與簡單貝 氏分類,若是每一種類別的訓練樣本 300 篇,這五種方法沒有顯著的差異。
Si 和 Callan(2001)將可讀性問題視為文本分類問題,他們利用統計語言模型
結合表面特徵中的句長資訊分析網路上的自然科學文本,並和傳統使用表面特徵 的線性公式 Flesch-Kincaid 進行比較,他們對網路上的自然科學文本進行高、中、
低三個程度的分類,訓練資料共計 30 篇,每一種分類底下皆有 10 篇資料,以此 建立分類模型,測試資料為網路上的文本共計 61 篇,結果發現統計語言模型分 類與表面特徵結合的分類結果準確率達 75.4%,比以往使用表面特徵資訊的線性 公式 Flesch-Kincaid 的分類準確率(21.3%)還要好。
Liu 等人(2004)也將可讀性問題是為文本分類問題,他們利用 SVM,以詞彙 資訊分析讀者透過搜尋引擎找到的文本,意圖幫助讀者找到屬於他們閱讀程度的 資料,他們僅針對這些文本進行兩種粗略的分類,第一種是分三類,為國小、國 中、高中三類,第二種是分兩類,為在學、非在學兩類,結果顯示兩種分類的準 確率皆可以達到 80%以上,雖然在類別的選取上不夠細緻,但是該研究也證實了 利用非表面特徵的詞彙資訊對文本進行分類,在分類上的效果也是不錯的。
二、文本分類模型
以下整理上述分類實例中常見的文本分類模型,並且探討其優缺點。
1. 向量空間模型
向量空間模型(Vector Space Model, VSM)最早由 Gerard 於 1975 年提出。在 此模型中,任何一個文本被描述成「由一系列關鍵詞組成的向量」,而關鍵詞的 單位可以是字、詞,甚至是句子。如果今天關鍵詞單位為詞,那在辭典中任何一 個詞都被定義為向量空間中的一維,因此一任何一個文本都可以被定義成一個多 維的向量。
透過上述的作法,任何一個文本都可定義一為一個向量值,便可利用此特性 計算兩文本向量夾角的餘弦值,得到兩文本的相似度。今天若是有一篇未分類的 文本向量,就可以透過計算與已分類文本的向量求得未分類文本的所屬類別。假 設𝐷⃑⃑ 為已分類文本向量,𝑄⃑ 為未分類的文本向量,則兩文本的相關性可以透過以 下式子計算兩向量餘弦值:
𝑠𝑖𝑚(𝐷⃑⃑ , 𝑄⃑ ) = 𝑐𝑜𝑠𝑖𝑛𝑒(𝐷⃑⃑ , 𝑄⃑ ) = 𝐷⃑⃑ ∙ 𝑄⃑
|𝐷⃑⃑ ||𝑄⃑ |
傳統向量空間模型由於各個維度之間缺乏相關性,因此如果文章中出現許多 同義詞或者是一詞多義的狀況,會嚴重影響文本分類的結果,例如文章中若是使 用許多同義詞,則計算相似度時縱使文章的意義相同,也會因為使用不同的詞彙 而造成相似度低估的情況發生,反觀若是文章中使用許多多義詞,在計算相似度 時縱使文章的意義不同,也會因為使用相同的詞彙而造成相似度高估的情況發生。
從廣義來看此種分類方式僅僅是以關鍵詞出現的資訊來進行分類,在分類的效果 上並不理想。
2. 支援向量機
支援向量機(Support Vector Machine)是一種分類方法,由波蘭數學家 Vapnik 根據統計學習理論所提出的一種機器學習方法。SVM 的主要概念是擷取資料特 徵參數,並在高維特徵空間中尋找類別間的超平面(hyperplane),以進行類別的 分類。
以下圖 2-1 之二維特徵空間為例,SVM 試圖找到一條線能夠將白點與黑點 兩類的資料分開,且兩個類別界線間的空間越大越好,在高維模式下,H1 與 H2 稱為區分超平面(separating hyperplane),而與兩區分超平面的邊界(margin)距離最 的的平面則稱為目標區分超平面(optimal separating hyperplane),SVM 的目標就 是求得具有最大邊界區間的超平面。
圖 2-1 超平面示意圖
然而,由於 SVM 必須事先擷取資料的特徵參數,導致 SVM 的準確率會受 到特徵參數選擇的影響,當資料量大時計算的時間非常耗時。此外 SVM 也無法 直接解釋特徵參數與分類結果的關係。
3. K 個最近鄰居法
K 個最近鄰居法(K-Nearest Neighbor, KNN)採用向量空間模型來進行分類,
將已知分類的大量文本當做訓練資料集,在進行分類預測時,會先計算未知類別 文本與以訓練資料集中所有文本的相似度,並設定一個相似度門檻值,留下高於 相似度門檻值的結果,並且統計剩下結果中各類別的文本數,依多數決判定未知 文本的所屬類別。今已知類別訓練資料集 D 中包含 k 個已知 NN 類別文本,利 用 KNN 計算未知文本 Q 可能的類別,步驟如下:
(1) 依向量空間模型計算 Q 與𝐷1、𝐷2、𝐷3、…、𝐷𝑘之相似度,得到𝑠𝑖𝑚(𝑄, 𝐷1)、
𝑠𝑖𝑚(𝑄, 𝐷2)、𝑠𝑖𝑚(𝑄, 𝐷3)、…、𝑠𝑖𝑚(𝑄, 𝐷𝑘)。
(2) 將𝑠𝑖𝑚(𝑄, 𝐷1)、𝑠𝑖𝑚(𝑄, 𝐷2)、𝑠𝑖𝑚(𝑄, 𝐷3)、…、𝑠𝑖𝑚(𝑄, 𝐷𝑘)進行排序,若是超 過相似度門檻值則放入各類別集合 NN。
(3) 從各類別集合 NN 中依多數決,判斷未知文本屬於何 NN 類別。
H1:
H2:
optimal separating hyperplane separating hyperplane
separating hyperplane
margin
練資料集中的所有文本進行相似度的計算,在處理時十分耗費資源及時間,因此 不適合處理大量或高維度的資料。
4. 貝氏分類法
貝氏分類法(Bayesian Classifier)最大的特色是利用已知的事件發生之機率來 推測未知資料的類別,是以機率、統計學為基礎的分類方法。貝氏分類法最大的 優點在於其具有漸增性的特色,所謂漸增性就是當分類模型建立好以後,若是新 增了新的訓練資料,貝氏分類法不需要重新建立模型,相較於其他方法如 SVM,
漸增性的優點可以節省模型重建的時間。但是由於貝氏分類法是基於條件機率的 理論進行分類,必須滿足各個變數之間互為獨立的假設,然而文本在各個變數間 的關聯十分緊密,例如字數與詞數皆會影響文章長度的變數,因此難以滿足變數 間互為獨立的條件。
文本分類的技術主要是依據已知類別資料的特徵資訊進行分析,得到個分類 的分類規則後,在將未知類別資料透過分類規則分類。其中依照不同資料的特性,
擷取特徵資訊的方式也有所不同。基於本研究所採用的國小社會科資料在個學期 主題有所不同的特性,本研究使用潛在語意分析擷取社會科的語意特徵資訊,在 透過計算未知文本與已知文本在語意資訊上的相似程度,來對文本進行分類。