• 沒有找到結果。

第三章  研究方法與設計

第二節  RTD-based kNN 演算法

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第二節 RTD-based

kNN

演算法

3.2.1 kNN分類法描述

本研究嘗試提出一個改良於kNN 分類的方法- RTD-based kNN。原本的 kNN 在分類時必須找出k 個最近鄰作為判斷標準,以圖 3-3 為例,若欲判斷資料 Data 屬於黑點(A,B,C)或白點(D,E,F),則取與資料(Data)「前 3 相鄰」(設 k = 3)的點(即 A,B,E)判斷。由於這前 3 相鄰點中,屬於黑點的距離平均((1+0.5)/2=0.75)大於屬 於白點的距離平均(0.2/1=0.2),因此將資料歸類於白點中。

圖3-3 kNN 分類圖例資料來源:本研究整理

將kNN 運用於新聞事件的分群時,亦有 2-way kNN 的用法(戴尚學,2003 ; Yang et al., 2000 ; Yang et al., 1999)。最大的差異在於原本的 kNN 僅會被加入於相 似度最高的事件群集,不符合新聞事件分群中每個事件都要能夠獨立的被追蹤,

因此2-way kNN 針對每個候選事件獨立判斷是否應該被歸類在其中。在 2-way kNN 的方法裡,比較的對象可分為兩組:目標事件群集 (要判斷新文件是否屬於 此群集,內含文件稱為Positive Document)以及其他群集 (目標事件群集以外的文 件,稱為Negative Document)。對於新進文件與候選事件群集來說,計算的結果 為兩者的相關分數(Relevance Score),公式如下:

, , ∑ cos , ∑ cos , ··· (公式 5)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

其中 為新進文件的文字向量, ( )為 Positive (Negative) Document 的向量,

D 為整個文件集,k 為與新進文件最近鄰(相似)的文件數, ( )為 k 個最相似的 Positive (Negative) Document 之集合。若 Relevance Score 大於一門檻值,則表示 此文件屬於這個群集。

在上述的方法中,由於Positive Document 通常遠低於 Negative Document,

若k 數太大,可能造成太多 Negative Document 被選到,因此即使每篇 Negative Document 與新進文件的相似度都很低,相加起來還是很有可能比新進文件與 Positive Document 的相似度加總還高;相反的,若 k 取太小,則容易取到都是 Negative Document,造成了 k 值的大小很容易影響判斷的結果 (戴尚學,2003) 。 為了避免上述情況對於判斷結果所造成誤差,Yang et al. (1999)提出了兩個改良 公式:

, , | |∑ cos , | |∑ cos , ··· (公式 6)

, , ,

| |∑ cos ,

| |∑ cos , ··· (公式 7)

其中kp 為 Positive Document 中對於新進文件 x 的 k 個最近鄰,kn 為 Negative Document 中對於新進文件 x 的 k 個最近鄰, 為kp 之集合, 為kn 之集合。

公式6 在原本的 2-way kNN 加入了平均的概念,將新進文件 x 與 Positive Document (Negative Document)的相似度加總除以在 Positive Document (Negative Document)取到的文件數(一共取 k 個)。公式 7 則是 Positive Document 與 Negative Document 各取 k 個最近鄰,可以保證當 k 值設小時兩個群集都仍會被抽樣到。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

3.2.2 kNN問題

前述之kNN中,影響效率最大的關鍵在於找出「k個最近鄰」。在多維的向量 空間裡,目標文件必須與所有文件計算兩兩相似度,並經過排序之後才能找出k 個最近鄰,儘管比較結果可以儲存再利用,但由於文件間彼此的相似度僅相互有 意義,因此可再用性極低。

以分類 n 篇新聞為例,對於每篇新聞來說,在不儲存比較結果的情況下,每 篇需皆須與其他篇新聞比較以取得相似度排序,共要比較n 1 次;若儲存 比較結果,則必須比較 (如表3-1),當資料數量越趨龐大時,即使儲存運算 結果,也會因為數量太多而增加結果的存取時間。因此無論是否儲存相似度比較 結果,整體而言對每篇文件取前k個最近鄰著實造成很大的運算負擔,這也是本 研究欲改善的問題所在。

表3-1 kNN分類相似度比較次數

儲存比較結果 不儲存比較結果

相似度比較次數 1

2 1)

資料來源:本研究整理

3.2.3

參考距離的概念

本研究提出一個修改前述kNN問題的觀念,核心概念是「利用相對的參考距 離來建立與其他文件的遠近關係」。kNN在比較時找的k個「最近鄰」目的僅是建 立出遠近的概念,在所有向量權重皆正規化的前提下,若能在向量空間中建立一 個標的做為參考的基準點(Base),並讓每篇文件都與這個參考點比較距離(參考距

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

離)並紀錄結果(距離參考資料集)。當一文件需要找出與本身相鄰的k個目標時,

可先從距離參考資料集中找參考距離與自身的參考距離相近的文件開始比較相 似度,若相似度大與一門檻值,則判斷為最近鄰之一,重複直到找出k個最近鄰 為止。

如圖3-4,假設於二維的空間中,欲找出資料Data的k個最近鄰,原本kNN的 作法是將Data與所有文件比較距離,進而求出前k個相近點。若能先將所有點與 基準點比較距離,排序儲存於如圖中的「距離參考資料集」,(假設)圖中的Data 與Base的距離為1,可先利用此距離取出前後最相近的n筆(如圖例中取出前後各 兩筆),篩選出A,B,C,D四點進行後,再進行相似度比較。若大於設定之門檻值則 判斷為k個最近鄰點之一;若比較完這四點仍無法取到k個最近鄰,則可加大所選 取的範圍。透過基準點的建立,可以讓在選取k個最近鄰時與先篩選掉許多差距 過遠的點,減少判斷時相似度比較的次數。

圖3-4 基準點的概念示意圖資料來源:本研究整理

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

相關文件