新聞文件分群與分類

第三章研究設計

第一節新聞文件分群與分類

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

1.2 新聞文件分群──事件偵測與追蹤

1.2.1. 以 kNN 分群技術實現

新聞的事件具有時效性，且每天不斷更新，事件大小也隨著媒體追蹤程度有差異，因此新聞的分群並無法事前決定群數，本研究將採用 CMU 的方式，應用 kNN 分群法於新聞事件追蹤上。而執行事件偵測前，需先將文件轉換為向量空間模型表示，因此需要計算文件字詞之權重值，權重值計算方式採用 TFIDF，如公式(1)，並採用正規化調整權重值大小：

ij = tf_ij× log (_df^N

i) ... 公式(1) 根據 CMU 所提出之事件偵測與追蹤之流程如下：

Step1、計算新進文件之權重值，並與既有事件計算相似度，CMU 在新聞偵測上，

將相似度加入了時間區間（Time Window），避免文件與事件時間間隔太遠仍被考慮的情況，而計算方式以公式(2)表示（戴尚學，2003；Yang, 1998），若超過門檻值則表示新進新聞文件可能屬於該事件，將其列入候選事件，並進入 Step2，

否則新進新聞文件不屬於該事件，結束此演算法。

score x = m x_c_i_∈window, _m^k × sim x⃑ , c⃑⃑ - ... 公式(2) _i

m x_𝑐_𝑖_{∈𝑤𝑖𝑛𝑑𝑜𝑤}{𝑠𝑖𝑚 𝑥 , 𝑐⃑⃑ }表示當新文件與已存在的事件作相似度比較的最大_𝑖 值，因此𝑠𝑐𝑜𝑟𝑒 𝑥 可視為事件存在的門檻，當𝑠𝑐𝑜𝑟𝑒 𝑥 大於所設定的門檻，則表示新文件屬於一新事件，反之，表示新文件存在於目前的事件。

‧

Step2、若候選事件採用 2-way kNN 分類法，將候選事件列為目標事件，而非候選事件則為非目標事件，並以帄均的概念避免 k 值大小所造成分類不正確的問題，

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

1.2.2. 以 RTD-based（Relative Text Distance-based，相對文件距離）kNN 分群技術實現

基於新聞文件無法事前得知群集個數，事件偵測與追蹤將採取 kNN 分群技術，雖然 kNN 採用非監督式學習，然而 kNN 分群於迭代的過程需要不斷計算不同文件的相似度，卻難以記錄其演算過程，使複雜度隨著資料量得增長而提高，

效率相對降低。因此本研究欲以特徵字代表文件之單位向量為基礎，嘗詴以文件間的歐氏幾何距離取代相似度的方式進行新聞事件分群。研究中將使用

RTD-based kNN 取代 kNN 之分群技術提高系統整體效率。下列將敘述如何以文件距離取代相似度的軌跡。

文件距離取代相似度的方式，本研究採取歐智民、陳柏均（2011）之研究，

取代方法如下：

1. 取第一篇文件做為基準點，因此每篇文件都能儲存與第一篇文件計算後之距離。

2. 有了基準點後，與新文件之相似度範圍便能改以距離取代，如圖 3.2.1。

圖 3.2.1 文件相似度與距離關係資料來源：本研究整理

圖 3.2.2 文件相似度轉換為距離關係資料來源：本研究整理

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

3. 由於三角形的角度𝜑恰為弧度θ之圓周角，因此𝜑 =^θ₂（參考圖 3.2.2），而距離範圍則可以餘弦公式求之，證明如下：

證明： cos^θ₂ =^x²_2×x×x1^+x¹²^−a²，

其中 a= sin φ = sin^θ₂（圖 3.2.3）

由餘弦定理知，cos^θ₂ = ^x²_2×x×x^+x¹²^−a²

得x₁ = |^2×x×cos

θ 2−√D

2 |

圖 3.2.3 公式轉換圖資料來源：本研究整理

其中Ｄ= × 𝑥²× cos^θ₂ × 𝑥² × cos^{2 θ}₂+

同理，𝑥₂ = |^2×𝑥×cos

θ 2+√𝐷

2 |，而Ｄ與上式相同。

‧

在文檔中整合文件探勘與類神經網路預測模型之研究 -以財經事件線索預測台灣股市為例 (頁 30-35)

第三章 研究設計

第一節 新聞文件分群與分類

‧ 國

立 政 治 大 學

‧

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧

第三章研究設計

第一節新聞文件分群與分類

立政治大學

立政治大學

立政治大學