• 沒有找到結果。

第二章  文獻探討

第三節  k-最鄰近演算法 (k-Nearest Neighbor, kNN)

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2.2.6

分群技術

分群是依照文件的相異性或相似性,將相異性較低或相似性較高的文件群聚 起來,目標是使得群集內每個文件彼此擁有極高的相似度,但每個群集間的相似 程度則是越低越好。分群不像分類需要利用已知的資料訓練並指定類別,事先也 並不知道分出來的群集數,屬於非監督式(Unsupervised Learning)學習。

Jiawei Han and Micheline Kamber(2006)將分群法依其性質分成五大類,分別 是:分隔式分群(Partitioned)、階層式分群(Hierarchical)、密度基礎分群

(Density-based)、網格式分群(Grid-based)與類神經網路分群(Neural network),其 中又以分割式演算法中的k-means 最廣為人知。k-mean 由 J. B. MacQueen 於 1967 年所提出,分群前必須先設定群集數量K,利用反覆式的計算叢集重心來使各群 集重心趨於穩定。但k-means 缺點在於重心的概念容易受到資料的離散程度影響,

且事先設定的群集數量亦未必正確,若資料量龐大易造成整體效率低落。

值得一提的是,kNN 雖然被歸類於分類演算法中,但在實作上亦可不用事 先設定類別與給予訓練資料,如Yang et al.(1999)利用 KNN 於「類別數未知」的 新聞事件的偵測追蹤,即可視為於分群的運用。

第三節 k-最鄰近演算法 (k-Nearest Neighbor, kNN)

2.3.1 kNN分類演算法於文字探勘

T.M. Cover and P.E. Hart 於 1967 年提出 k-最近鄰演算法,至今仍為常用的分 類方法之一。理論上,在文字探勘中,資料就是因為擁有某些共同的相似特徵而

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

被歸類在同一類別。所以kNN 的概念為:未知類別的資料與「同類型資料的相 似度」應該要比「不同類型資料的相似度」高。kNN 分類法採用向量空間模型 來分類,在對文件分類前必須將文件轉換為向量空間模型,再藉由計算與已知類 別內文件的相似度,來評估未知類別文件的可能類別。換言之,即是透過未知類 別資料與各類別內的文件比較相似度,來判斷所屬的類別,其中k 為取樣文件數,

代表了要取與未知類別文件前k 個最相似的已知類別文件,藉以判斷未知類別文 件應該被歸類至何處。而文件的相似度在文字探勘中一般採用cosine 相似度計算。

kNN 分類步驟如下:

1. 將新進文件轉換為向量表示。

2. 將新進文件與文件集內所有文件比較相似度,取出前k份最相似的文件。

3. 將這k份文件所屬的事件當成候選的事件類別。

4. 將這 k 份文件與新文件的相似度依照所屬的事件個別加總,相加結果數 值最高的類別即為新文件所屬類別 (但相加結果亦須大於所訂的門檻 值)。

2.3.2 kNN運用於新聞事件的偵測與追蹤

新聞代表了讀者與新聞界共同感興趣的新事件或新觀念,而新聞事件(Event) 可以視為描述著同一個「主題」的新聞群集,通常都會有數篇不同來源或角度的 新聞集合而成,並且僅存在一個特定的時間區間中,也因此可被定義成「在特定 的時間及地點所發生的相關事物之集合」;而新聞事件的追蹤則可被定義為「發 現包含在連續的新聞串流中有關新的或之前未發現的事件」(Allan et al, 1998)。

在美國國防部高等研究計畫局所主導的「主題偵測與追蹤(Topic Detection and Tracking, TDT)」計畫中,「新聞事件的追蹤與偵測」即為其中的一個子項目,

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

該計畫的研究目的為「從各種管道的新聞串流中找出或追蹤事件」。參與TDT 的 先導性計畫含卡內基美隆大學(Carnegie Mellon University, CMU)與麻州大學 (University of Massachusetts, UMass) (Yang et al., 1999)兩校。在 CMU 的「新聞事 件的偵測與追蹤」研究中,將已存在的事件皆透過事件內所有新聞文件計算出質 心(Centroid)作為代表。新進的文件則先透過時間篩選出候選事件,並找出新進 文件與候選事件中最相似事件的相似度,若結果小於一門檻值(Threshold)(此門檻 值通常介於0.15 至 0.23 間)(戴尚學,2003 ; Yang et al., 2000 ; Yang et al., 1999),

則判斷為不屬於已存在的事件,反之,則再繼續透過事件追蹤來判斷其所屬事 件。

經事件偵測判定為「非新事件」的新聞將交由事件追蹤處理,事件追蹤的目 的在於將新進新聞文件正確的歸類至已存在的事件(新聞群集)中,歸類的方式採 用Single-Pass Clustering 流程,即對於現有的群集中,透過分類的方法判斷是否 被歸類在這些群集內。在分類的部分,CMU 使用 kNN 進行群集的指派,其評估 了TDT 的需求(每個事件都要能獨立的追蹤,而事件中不含其他事件的分類知識),

將kNN 改為 2-way kNN(戴尚學,2003 ; Yang et al., 2000 ; Yang et al., 1999)。最大 的差異在於原本的kNN 僅會被加入於相似度最高的事件群集,不符合 TDT 每個 事件都要能夠獨立的被追蹤,因此2-way kNN 針對每個候選事件獨立判斷是否 應該被歸類在其中。在2-way kNN 中,比較的對象可分為兩組:「目標群集」 (要 判斷新文件是否屬於此群集,內含文件稱為Positive Document)以及「其他群集」

(目標事件群集以外的文件,稱為 Negative Document)。對於新進文件與候選事件 群集計算兩者的相關分數,若相關分數大於一設定的門檻值(如 0.15),則判斷新 進文件屬於此候選群集。相關分數為在新進文件與前k 個最近鄰中的相似度中,

屬於Positive D ocument 的總和減去屬於 Negative Document 的總和。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

在上述的方法中,由於Positive Document 通常遠低於 Negative Document,

若k 數太大,可能造成太多 Negative Document 被選到,因此即使每篇 Negative Document 與新進文件的相似度都很低,相加起來仍可能比新進文件與 Positive Document 的相似度加總還高;相反的,若 k 取太小,則容易取到都是 Negative Document,造成了 k 值的大小很容易影響判斷的結果(戴尚學,2003) 。為了避 免上述情況對於判斷結果所造成誤差,CMU 也提出了兩個改良公式,一個為在 原本的2-way kNN 加入了平均的概念,將新進文件與 Positive Document (Negative Document)的相似度加總除以在 Positive Document (Negative Document)取到的文 件數(一共取 k 個)。另一個則是 Positive Document 與 Negative Document 各取 k 個最近鄰,可以保證當k 值設小時兩個群集都仍會被抽樣到。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

相關文件