k-最鄰近演算法 (k-Nearest Neighbor, kNN)

第二章文獻探討

第三節 k-最鄰近演算法 (k-Nearest Neighbor, kNN)

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

2.2.6

分群技術

分群是依照文件的相異性或相似性，將相異性較低或相似性較高的文件群聚起來，目標是使得群集內每個文件彼此擁有極高的相似度，但每個群集間的相似程度則是越低越好。分群不像分類需要利用已知的資料訓練並指定類別，事先也並不知道分出來的群集數，屬於非監督式(Unsupervised Learning)學習。

Jiawei Han and Micheline Kamber(2006)將分群法依其性質分成五大類，分別是：分隔式分群(Partitioned)、階層式分群(Hierarchical)、密度基礎分群

(Density-based)、網格式分群(Grid-based)與類神經網路分群(Neural network)，其中又以分割式演算法中的k-means 最廣為人知。k-mean 由 J. B. MacQueen 於 1967 年所提出，分群前必須先設定群集數量K，利用反覆式的計算叢集重心來使各群集重心趨於穩定。但k-means 缺點在於重心的概念容易受到資料的離散程度影響，

且事先設定的群集數量亦未必正確，若資料量龐大易造成整體效率低落。

值得一提的是，kNN 雖然被歸類於分類演算法中，但在實作上亦可不用事先設定類別與給予訓練資料，如Yang et al.(1999)利用 KNN 於「類別數未知」的新聞事件的偵測追蹤，即可視為於分群的運用。

第三節 k-最鄰近演算法 (k-Nearest Neighbor, kNN)

2.3.1 kNN分類演算法於文字探勘

T.M. Cover and P.E. Hart 於 1967 年提出 k-最近鄰演算法，至今仍為常用的分類方法之一。理論上，在文字探勘中，資料就是因為擁有某些共同的相似特徵而

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

被歸類在同一類別。所以kNN 的概念為：未知類別的資料與「同類型資料的相似度」應該要比「不同類型資料的相似度」高。kNN 分類法採用向量空間模型來分類，在對文件分類前必須將文件轉換為向量空間模型，再藉由計算與已知類別內文件的相似度，來評估未知類別文件的可能類別。換言之，即是透過未知類別資料與各類別內的文件比較相似度，來判斷所屬的類別，其中k 為取樣文件數，

代表了要取與未知類別文件前k 個最相似的已知類別文件，藉以判斷未知類別文件應該被歸類至何處。而文件的相似度在文字探勘中一般採用cosine 相似度計算。

kNN 分類步驟如下：

1. 將新進文件轉換為向量表示。

2. 將新進文件與文件集內所有文件比較相似度，取出前k份最相似的文件。

3. 將這k份文件所屬的事件當成候選的事件類別。

4. 將這 k 份文件與新文件的相似度依照所屬的事件個別加總，相加結果數值最高的類別即為新文件所屬類別 (但相加結果亦須大於所訂的門檻值)。

2.3.2 kNN運用於新聞事件的偵測與追蹤

新聞代表了讀者與新聞界共同感興趣的新事件或新觀念，而新聞事件(Event) 可以視為描述著同一個「主題」的新聞群集，通常都會有數篇不同來源或角度的新聞集合而成，並且僅存在一個特定的時間區間中，也因此可被定義成「在特定的時間及地點所發生的相關事物之集合」；而新聞事件的追蹤則可被定義為「發現包含在連續的新聞串流中有關新的或之前未發現的事件」(Allan et al, 1998)。

在美國國防部高等研究計畫局所主導的「主題偵測與追蹤(Topic Detection and Tracking, TDT)」計畫中，「新聞事件的追蹤與偵測」即為其中的一個子項目，

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

該計畫的研究目的為「從各種管道的新聞串流中找出或追蹤事件」。參與TDT 的先導性計畫含卡內基美隆大學(Carnegie Mellon University, CMU)與麻州大學 (University of Massachusetts, UMass) (Yang et al., 1999)兩校。在 CMU 的「新聞事件的偵測與追蹤」研究中，將已存在的事件皆透過事件內所有新聞文件計算出質心(Centroid)作為代表。新進的文件則先透過時間篩選出候選事件，並找出新進文件與候選事件中最相似事件的相似度，若結果小於一門檻值(Threshold)(此門檻值通常介於0.15 至 0.23 間)(戴尚學，2003 ; Yang et al., 2000 ; Yang et al., 1999)，

則判斷為不屬於已存在的事件，反之，則再繼續透過事件追蹤來判斷其所屬事件。

經事件偵測判定為「非新事件」的新聞將交由事件追蹤處理，事件追蹤的目的在於將新進新聞文件正確的歸類至已存在的事件(新聞群集)中，歸類的方式採用Single-Pass Clustering 流程，即對於現有的群集中，透過分類的方法判斷是否被歸類在這些群集內。在分類的部分，CMU 使用 kNN 進行群集的指派，其評估了TDT 的需求(每個事件都要能獨立的追蹤，而事件中不含其他事件的分類知識)，

將kNN 改為 2-way kNN(戴尚學，2003 ; Yang et al., 2000 ; Yang et al., 1999)。最大的差異在於原本的kNN 僅會被加入於相似度最高的事件群集，不符合 TDT 每個事件都要能夠獨立的被追蹤，因此2-way kNN 針對每個候選事件獨立判斷是否應該被歸類在其中。在2-way kNN 中，比較的對象可分為兩組：「目標群集」 (要判斷新文件是否屬於此群集，內含文件稱為Positive Document)以及「其他群集」

(目標事件群集以外的文件，稱為 Negative Document)。對於新進文件與候選事件群集計算兩者的相關分數，若相關分數大於一設定的門檻值(如 0.15)，則判斷新進文件屬於此候選群集。相關分數為在新進文件與前k 個最近鄰中的相似度中，

屬於Positive D ocument 的總和減去屬於 Negative Document 的總和。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在上述的方法中，由於Positive Document 通常遠低於 Negative Document，

若k 數太大，可能造成太多 Negative Document 被選到，因此即使每篇 Negative Document 與新進文件的相似度都很低，相加起來仍可能比新進文件與 Positive Document 的相似度加總還高；相反的，若 k 取太小，則容易取到都是 Negative Document，造成了 k 值的大小很容易影響判斷的結果(戴尚學，2003) 。為了避免上述情況對於判斷結果所造成誤差，CMU 也提出了兩個改良公式，一個為在原本的2-way kNN 加入了平均的概念，將新進文件與 Positive Document (Negative Document)的相似度加總除以在 Positive Document (Negative Document)取到的文件數(一共取 k 個)。另一個則是 Positive Document 與 Negative Document 各取 k 個最近鄰，可以保證當k 值設小時兩個群集都仍會被抽樣到。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中文件距離為基礎kNN分群技術與新聞事件偵測追蹤之研究 - 政大學術集成 (頁 22-26)

k-最鄰近演算法 (k-Nearest Neighbor, kNN)

第二章 文獻探討

第三節 k-最鄰近演算法 (k-Nearest Neighbor, kNN)

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.2.6

2.3.1 kNN分類演算法於文字探勘

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.3.2 kNN運用於新聞事件的偵測與追蹤

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章文獻探討

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學