• 沒有找到結果。

第二章 文獻探討

第五節 文字探勘

2.5.4 分類與分群技術

立 政 治 大 學

Na tiona

l Ch engchi University

量,以避免文件長短不一所造成的誤差。當文件數量增加時,可利用「詞彙

─文件矩陣」表達詞彙與文件間的關係。如下圖 2.3 為例,文件集選出 i 個 特徵字,而每一列則代表一篇文章中各個特徵字的權重值(歐智民,2011)。

圖 2.3 詞彙─文件矩陣 (資料來源:Salton & Gill, 1983)

將文件予以向量化後,各篇文件皆有其相同的比較單位,於向量空間中 可以進行不同文件的相似度計算,以實現分類或分群。相似度計算尤以餘弦 相似度計算(Cosine Coefficient)較常見,當兩互相向量平行,則其夾角為 0,

兩向量的餘弦係數為 1,代表著這兩文件有極高的相似度;若當兩文件的維 度比例不盡相同時,餘弦係數將降低,代表著兩文件並不相似。

2.5.4 分類與分群技術

文字探勘的過程中,使用者能針對資料的範圍和類型,選擇適當的演算 法做分析,因此所採用的演算法成為知識挖掘的關鍵因素。常見的演算法包 括分類分析及分群分析。

14

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

1. 分類分析(Classification Analysis):

分類就是將每一個類別特徵清楚定義,並透過訓練資料,建立出模型,

將未歸類的資料分門別類(Berry&Linoff,1997),因此分類可以說是一種監 督式學習法(supervised learning)。分類技術包含簡單貝氏分類(Naïve BayesClassification)、kNN(k-Nearest Neighbor)、支援向量機(Support Vector Machine,SVM)等。而 Joachims(1998)將此三種分類器與最小平方誤差法

(LLSF)及類神經分類(ANN)以統計方法比較效率與分類結果,優異程 度為:{kNN、SVM}>LLSF>ANN>NB(歐智民,2011)。

貝氏分類法是一種以機率、統計學為基礎的分類法,且因為貝氏分類法 利用事件發生的機率來推測為之資料的類別,在新資料加入時只需局部調整 某些機率值,即可得到新的分類模型,因此,在資料不斷增加的情況下,可 以得到較好的分類效果(曾憲雄等,2005)。

kNN 則是另一種常見且使用簡單的分類器,透過局部資訊來確定類別 邊界,將與測試資料最近的 k 篇資料所屬的主類別指定為測試資料之類別,

其基本依據在於,根據鄰近假設,一篇測試資料將與其鄰域中的訓練資料具 有相同的類別(Christopher et al.,2008)。

使用 kNN 進行分類時必須將資料以向量空間模型表示,並取出前 k 份 與新文件相似度最高之資料,並將此 k 份資料之類別則記為候選類別。將資 料與新資料之相似度以類別為基礎做加總,分數最高之類別則為新資料之所 屬類別,如下圖 2.4 所示,當 k 為 3 時,新進資料會與最鄰近的兩個黑色類 別資料點和一個白色類別資料點做以類別為基礎的相似度計算加總,如黑色 類別的數值較高,則新加入的資料分為黑色類別。

15

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

圖 2.4 kNN 分類器示意圖 (資料來源:L da F Costa et al.,2010)

2. 分群分析(Cluster Analysis):

分群分析又稱為非監督式分類(unsupervised classification),透過演算法 計算每筆資料的相似程度,將擁有相似特徵的資料組成一個群集(Ham &

Kamber,2001),因此該群集內的資料會有很高的相似度,而與其他群集內 的資料會很不相似(Ham & Kamber,2003)。一個好的群集方法可以產生高 品質的群集,以確保群集間(inter-clustering)的資料相似度是最低的,而群集 內(intra-clustering)的資料相似度式最高的(陳鴻基、嚴紀中,2004)。Han &

Kamber(2006)將分群法分成五大類:分隔式分群(Partitioned)、階層式 分群(Hierarchical)、密度基礎分群(Density-based)、網格式分群(Grid-based)

與類神經網路分群(Neural network),常見的方法包括分隔式分群的 K-means 和階層式分群的凝集群法(agglomeration)。

另外 kNN 技術也可應用於分群分析上,經過改良的 2-way kNN(戴尚學,

2003 ; Yang et al., 2000 ; Yang et al., 1999)針對每個候選事件獨立判斷是否應 該被歸類在其中。在 2-waykNN 中,比較的對象可分為目標群集及其他群集。

16

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

對於新進文件與件群集計算兩者的相關分數,若相關分數大於一設定的門檻 值,則判斷新進文件屬於此候選群集。

相關文件