新聞偵測與追蹤模組

第三章研究方法

3.2 研究設計

3.2.3 新聞偵測與追蹤模組

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

17 3. 內容過濾

利用 CKIP 斷完詞之後的詞彙，來做分群以及意見分析的計算。在進行新聞偵測追蹤前，為了節省儲存空間以及提高計算的效率和準確度，需去除不必要的停用字(Stop Words)，例如：她、他、是、、、，將較具有意義的詞彙留下，以便降低運算範圍，增加群集的品質。

在進行新聞偵測與追蹤時，根據新聞文章的特性，新聞事件的名詞(例如：

人、組織、地點)通常會持續的出現在同一新聞事件中(L.-W. Ku, 2000)，所以本研究只考慮名詞(N)、名物化動詞(Nv)兩種詞性的詞彙來進行運算。此外，考慮到如果把動詞以及副詞加入分群分類計算會將同樣的意見傾向分在同一群集，可能造成分群結果意見情感全部倒向同一邊的情況。

而在意見分析時，根據中研院斷詞小組對詞性的分類，其中狀態類不及物動詞(Vi)最能表現出形容詞的概念(陳立, 2010)，此外，本研究認為及物動詞(Vt)也能夠表達出意見情感，所以資料庫保留的詞彙為精簡詞類標記中的不及物動詞 (Vi)、及物動詞(Vt)當作意見詞。

4. 反向意見標記

當某個意見詞予以否定其意見指向，則其意見極性會隨之反向，例如「我喜歡上學」表達出正面的意見，而「我不喜歡上學」則因為前面有否定詞表達出負面的意見。因此本研究自行整理以及參考李啟菁 (2010)整理出的否定詞當作本研究的否定辭庫(附錄二)。在此步驟如果意見詞前面的詞彙內有出現否定辭庫中的詞彙，則在意見詞前標記反向記號，用以表示該意見詞是相反的意見極性。

3.2.3 新聞偵測與追蹤模組

1. 特徵值計算

在執行事件偵測之前，我們需要將每份新聞文件轉換成計算過權重後的形式，

才能自動化的在各篇文章中擷取出足以代表該文件的特徵。本研究使用正規化後

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

的 TF-IDF 作為新聞文件的特徵值。其公式如下：

𝑡𝑓𝑖𝑑𝑓_𝑖,𝑗 = 𝑡𝑓_𝑖,𝑗× 𝑖𝑑𝑓_𝑖 (1)

𝑡𝑓_𝑖,𝑗 = 𝑛_𝑖,𝑗

∑ 𝑛_𝑘 _𝑘,𝑗 (2)

𝑖𝑑𝑓_𝑖 = 𝑙𝑜𝑔⁡( 𝑁

𝑑𝑓_𝑖) (3)

𝑡𝑓𝑖𝑑𝑓_𝑖,𝑗為詞彙 i 在文件 j 的權重值，其值為𝑡𝑓_𝑖,𝑗× 𝑖𝑑𝑓_𝑖。𝑡𝑓_𝑖,𝑗為詞彙 i 在文件 j 中出現的頻率(Term Frequency)，其中𝑛_𝑖,𝑗是詞彙 i 在文件 j 中出現次數，k 為文件 j 的總詞彙數。𝑖𝑑𝑓_𝑖為詞彙 i 的逆向文件頻率(Inverse Document Frequency)，其值 為總文件數目(N)除以含有詞彙 i 的文件數目(𝑑𝑓_𝑖)，再將得到的數值取對數(log)。

為了避免文件長度不一影響文件各字詞權重比較，所以將得到的𝑡𝑓𝑖𝑑𝑓_𝑖,𝑗正規化，其作法是將𝑡𝑓𝑖𝑑𝑓_𝑖,𝑗除以文件向量中所有元素(權重)平方合再開根號，即文件長度‖𝑑⃗⃗⃗ ‖： _𝑗

𝑤_𝑖,𝑗 =𝑡𝑓_𝑖,𝑗× 𝑖𝑑𝑓_𝑖

‖𝑑⃗⃗⃗ ‖_𝑗 (4)

2. 向量空間轉換及相似度計算

在進行文件的相似度計算之前，需要將文件轉換成向量空間模型表示，因此我們能藉由上述特徵值的權重計算，將斷詞後各個詞彙在文章中所佔的權重計算出來，並透過相似度計算來進行分群歸類。本研究採用餘弦相似度 (Cosine Coefficient)來進行相似度的運算，公式如下：

cos(θ) = 𝐴 ∙ 𝐵

‖𝐴‖ ∙ ‖𝐵‖= ∑^𝑛_𝑖=1𝐴_𝑖 × 𝐵_𝑖

√∑^𝑛_𝑖=1(𝐴_𝑖)² × √∑^𝑛_𝑖=1(𝐵_𝑖)² (5)

A 和 B 分別代表兩向量文件，n 表示兩向量文件之維度，其計算結果介於 0

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

至 1 之間，當 A 和 B 向量的角度差距愈小時，結果會愈接近 1，表示兩文件相似度愈高；反之，則愈不相似。

3. 事件偵測

計算完字詞權重並轉換成向量空間表示後，就可以進行事件偵測步驟，本研究沿用 CMU 提出的方法，也就是利用 Single-pass Clustering 加上時間區間(Time Window)的處理來進行新聞事件的偵測。其計算公式如下

score(x) = 1 − max

𝑐_𝑖∈𝑤𝑖𝑛𝑑𝑜𝑤{⁡(1 − 𝑘

𝑚) × 𝑠𝑖𝑚(𝑥⁡⃗⃗⃗ , 𝑐⃗⃗ )⁡} _𝑖 (6)

其中 x 代表新進文件，𝑐_𝑖為時間區間中第 i 個群集之質心，𝑠𝑖𝑚(𝑥⁡⃗⃗⃗ , 𝑐⃗⃗ )為 x 與𝑐_𝑖 _𝑖的相似度，m 為時間區間中所含的新聞文件數目，k 為群集𝑐_𝑖中最新一篇文件收錄時間至新進文件 x 到達的時間之間所增加的文件數目。

可由上述得知 k 值愈大，對新事件的關聯度愈低。當計算出來的分數大於門檻值，則判定為新事件，反之，小於門檻值，則判定為舊有事件，交給事件追蹤步驟進行歸類。之前學者研究發現事件通常至少會持續一星期以上，於是我們參照前人將 m 設為一星期的平均新聞量。

4. 事件追蹤

而在事件追蹤部分，本研究採用了 kNN 分類演算法來進行事件追蹤，以物以類聚的概念，將相似的新聞文件進行歸類，其演算法步驟如下：

1. 將新進文件以向量表示

2. 其後進來的資料與先前資料兩兩比較 3. 擷取相似度最高的前 k 篇

4. 將擷取出的 k 篇中，相同群集內的所有文件與新進文件的相似度加總並除以文件個數，結果數值最高的那群，則歸類成該群

重複 1~4 步驟，直到所有資料完成歸類。其計算公式如下：

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

其中 x 為新進新聞文件之特徵向量，𝑛_𝑗為第 j 群集所包含的文件數量，

𝑠𝑖𝑚(𝑥⁡⃗⃗⃗ , 𝑑⃗⃗⃗⃗ )為向量 x 與文件 i 向量之相似度，𝑦(𝑑_𝑖⁡ ⃗⃗⃗⃗ , 𝐶_𝑖⁡ _𝑗)為類別屬性函數，若d⃗⃗⃗⃗ 屬_i⁡ 於𝐶_𝑗群集，函數值為 1，反之為 0。計算完後結果數值最高的那類別，將新進文件歸類至該類別。

在文檔中新聞輿情與民意偵測追蹤之研究－大資料之研究取向 - 政大學術集成 (頁 27-30)

第三章 研究方法

3.2 研究設計

3.2.3 新聞偵測與追蹤模組

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章研究方法

立政治大學

立政治大學

立政治大學

立政治大學