• 沒有找到結果。

第三章 研究設計

第一節 新聞文件分群與分類

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

22

1.2 新聞文件分群──事件偵測與追蹤

1.2.1. 以 kNN 分群技術實現

新聞的事件具有時效性,且每天不斷更新,事件大小也隨著媒體追蹤程度有 差異,因此新聞的分群並無法事前決定群數,本研究將採用 CMU 的方式,應用 kNN 分群法於新聞事件追蹤上。而執行事件偵測前,需先將文件轉換為向量空 間模型表示,因此需要計算文件字詞之權重值,權重值計算方式採用 TFIDF,如 公式(1),並採用正規化調整權重值大小:

ij = tfij× log (dfN

i) ... 公式(1) 根據 CMU 所提出之事件偵測與追蹤之流程如下:

Step1、計算新進文件之權重值,並與既有事件計算相似度,CMU 在新聞偵測上,

將相似度加入了時間區間(Time Window),避免文件與事件時間間隔太遠仍被 考慮的情況,而計算方式以公式(2)表示(戴尚學,2003;Yang, 1998),若超過 門檻值則表示新進新聞文件可能屬於該事件,將其列入候選事件,並進入 Step2,

否則新進新聞文件不屬於該事件,結束此演算法。

score x = m xci∈window, mk × sim x⃑ , c⃑⃑ - ... 公式(2) i

m x𝑐𝑖∈𝑤𝑖𝑛𝑑𝑜𝑤{𝑠𝑖𝑚 𝑥 , 𝑐⃑⃑ }表示當新文件與已存在的事件作相似度比較的最大𝑖 值,因此𝑠𝑐𝑜𝑟𝑒 𝑥 可視為事件存在的門檻,當𝑠𝑐𝑜𝑟𝑒 𝑥 大於所設定的門檻,則表 示新文件屬於一新事件,反之,表示新文件存在於目前的事件。

Step2、若候選事件採用 2-way kNN 分類法,將候選事件列為目標事件,而非候 選事件則為非目標事件,並以帄均的概念避免 k 值大小所造成分類不正確的問題,

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

24

1.2.2. 以 RTD-based(Relative Text Distance-based,相對文件距離)kNN 分群 技術實現

基於新聞文件無法事前得知群集個數,事件偵測與追蹤將採取 kNN 分群技 術,雖然 kNN 採用非監督式學習,然而 kNN 分群於迭代的過程需要不斷計算不 同文件的相似度,卻難以記錄其演算過程,使複雜度隨著資料量得增長而提高,

效率相對降低。因此本研究欲以特徵字代表文件之單位向量為基礎,嘗詴以文件 間的歐氏幾何距離取代相似度的方式進行新聞事件分群。研究中將使用

RTD-based kNN 取代 kNN 之分群技術提高系統整體效率。下列將敘述如何以文 件距離取代相似度的軌跡。

文件距離取代相似度的方式,本研究採取歐智民、陳柏均(2011)之研究,

取代方法如下:

1. 取第一篇文件做為基準點,因此每篇文件都能儲存與第一篇文件計算後之距 離。

2. 有了基準點後,與新文件之相似度範圍便能改以距離取代,如圖 3.2.1。

圖 3.2.1 文件相似度與距離關係 資料來源:本研究整理

圖 3.2.2 文件相似度轉換為距離關係 資料來源:本研究整理

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

25

3. 由於三角形的角度𝜑恰為弧度θ之圓周角,因此𝜑 =θ2(參考圖 3.2.2),而距 離範圍則可以餘弦公式求之,證明如下:

證明: cosθ2 =x22×x×x1+x12−a2

其中 a= sin φ = sinθ2(圖 3.2.3)

由餘弦定理知,cosθ2 = x22×x×x+x12−a2

1

得x1 = |2×x×cos

θ 2−√D

2 |

圖 3.2.3 公式轉換圖 資料來源:本研究整理

其中D= × 𝑥2× cosθ2 × 𝑥2 × cos2 θ2+

同理,𝑥2 = |2×𝑥×cos

θ 2+√𝐷

2 |,而D與上式相同。

相關文件