第三章 研究設計
第一節 新聞文件分群與分類
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
22
1.2 新聞文件分群──事件偵測與追蹤
1.2.1. 以 kNN 分群技術實現
新聞的事件具有時效性,且每天不斷更新,事件大小也隨著媒體追蹤程度有 差異,因此新聞的分群並無法事前決定群數,本研究將採用 CMU 的方式,應用 kNN 分群法於新聞事件追蹤上。而執行事件偵測前,需先將文件轉換為向量空 間模型表示,因此需要計算文件字詞之權重值,權重值計算方式採用 TFIDF,如 公式(1),並採用正規化調整權重值大小:
ij = tfij× log (dfN
i) ... 公式(1) 根據 CMU 所提出之事件偵測與追蹤之流程如下:
Step1、計算新進文件之權重值,並與既有事件計算相似度,CMU 在新聞偵測上,
將相似度加入了時間區間(Time Window),避免文件與事件時間間隔太遠仍被 考慮的情況,而計算方式以公式(2)表示(戴尚學,2003;Yang, 1998),若超過 門檻值則表示新進新聞文件可能屬於該事件,將其列入候選事件,並進入 Step2,
否則新進新聞文件不屬於該事件,結束此演算法。
score x = m xci∈window, mk × sim x⃑ , c⃑⃑ - ... 公式(2) i
m x𝑐𝑖∈𝑤𝑖𝑛𝑑𝑜𝑤{𝑠𝑖𝑚 𝑥 , 𝑐⃑⃑ }表示當新文件與已存在的事件作相似度比較的最大𝑖 值,因此𝑠𝑐𝑜𝑟𝑒 𝑥 可視為事件存在的門檻,當𝑠𝑐𝑜𝑟𝑒 𝑥 大於所設定的門檻,則表 示新文件屬於一新事件,反之,表示新文件存在於目前的事件。
‧
Step2、若候選事件採用 2-way kNN 分類法,將候選事件列為目標事件,而非候 選事件則為非目標事件,並以帄均的概念避免 k 值大小所造成分類不正確的問題,
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
24
1.2.2. 以 RTD-based(Relative Text Distance-based,相對文件距離)kNN 分群 技術實現
基於新聞文件無法事前得知群集個數,事件偵測與追蹤將採取 kNN 分群技 術,雖然 kNN 採用非監督式學習,然而 kNN 分群於迭代的過程需要不斷計算不 同文件的相似度,卻難以記錄其演算過程,使複雜度隨著資料量得增長而提高,
效率相對降低。因此本研究欲以特徵字代表文件之單位向量為基礎,嘗詴以文件 間的歐氏幾何距離取代相似度的方式進行新聞事件分群。研究中將使用
RTD-based kNN 取代 kNN 之分群技術提高系統整體效率。下列將敘述如何以文 件距離取代相似度的軌跡。
文件距離取代相似度的方式,本研究採取歐智民、陳柏均(2011)之研究,
取代方法如下:
1. 取第一篇文件做為基準點,因此每篇文件都能儲存與第一篇文件計算後之距 離。
2. 有了基準點後,與新文件之相似度範圍便能改以距離取代,如圖 3.2.1。
圖 3.2.1 文件相似度與距離關係 資料來源:本研究整理
圖 3.2.2 文件相似度轉換為距離關係 資料來源:本研究整理
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
25
3. 由於三角形的角度𝜑恰為弧度θ之圓周角,因此𝜑 =θ2(參考圖 3.2.2),而距 離範圍則可以餘弦公式求之,證明如下:
證明: cosθ2 =x22×x×x1+x12−a2,
其中 a= sin φ = sinθ2(圖 3.2.3)
由餘弦定理知,cosθ2 = x22×x×x+x12−a2
1
得x1 = |2×x×cos
θ 2−√D
2 |
圖 3.2.3 公式轉換圖 資料來源:本研究整理
其中D= × 𝑥2× cosθ2 × 𝑥2 × cos2 θ2+
同理,𝑥2 = |2×𝑥×cos
θ 2+√𝐷
2 |,而D與上式相同。