資料前處理

第三章研究方法與設計

第二節資料前處理

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節資料前處理

新聞資料為一連串的文字屬於非結構化的資料，資料沒有固定的結構性，因此在對新聞資料進行偵測與追蹤前，必須先針對抓取的資料做轉換前處理，以量化的方式來呈現該篇新聞資料，以利後續針對新聞資料進行處理。

3.2.1 CKIP 斷詞

本研究利用中央研究院的中文詞知識庫小組(Chinese Knowledge Information Processing Group, CKIP)開發的中文斷詞服務系統來處理資料。首先將個別抓取到的新聞資料傳至斷詞系統中，待系統處理完畢後，回傳結果會將新聞資料切割成為個別的詞(term)並搭配詞性(part of speech, POS)表示，以下為 CKIP 系統斷詞的前後對照範例：

斷詞前：

斷詞後：

數位影像品牌 Canon 宣布，其 EOS 系列單眼相機全球累計產量在 2 月初已突破 7000 萬台，預估適用於 EOS 系列數位單眼相機的 EF 鏡頭，可望在 2014 年產量突破 1 億大關。

數位(A) 影像(N) 品牌(N) Canon(FW) 宣布(Vt) ，(COMMACATEGORY) 其(DET) EOS(FW) 系列(N) 單眼(A) 相機(N) 全球(N) 累計(Vt) 產量(N) 在

(P) 2 月 (N) 初 (POST) 已 (ADV) 突破 (Vt) 7000 萬 (DET) 台 (M) ，

(COMMACATEGORY) 預估(Vt) 適用(Vt) 於(P) EOS(FW) 系列(N) 數位

(A) 單眼(A) 相機(N) 的(T) EF(FW) 鏡頭(N) ，(COMMACATEGORY) 可

望 (Vt) 在 (P) 2014 年 (N) 產量 (N) 突破 (Vt) 1 億 (DET) 大關 (N) 。 (PERIODCATEGORY)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2.2 詞彙精簡

本研究蒐集數個月的新聞文章就將近約 3 萬多篇，斷詞後的詞彙數量預計將會非常龐大，然後有些詞彙對於該文章的內容較無代表性，為避免日後進行新聞事件處理及情緒運算時過多不必要的資料影響效率及正確性，利用 CKIP 處理過的資料皆具有詞性標記的特性，在處理時一併刪除不必要的屬性。然而文章中名詞具備實體識別(Named entity recognition, NER)之特性，可以代表相關之人事時地物(古倫維, 2000)；而動詞可以藉由動作或是面部表情來表示情緒，副詞可以修飾情緒，具有反映強落程度之特性。故本研究僅保留名詞(N)、名物化動詞(Nv)、

副詞(Adv)、及物動詞(Vt)以及不及物動詞(Vi)這五種詞性之詞彙，並刪除中文停止字，以簡化資料量。

3.2.3 經濟詞彙判定

CKIP 對於擁有較多專有名詞的經濟新聞可能會產生分詞結果不理想的情況發生。舉例來說，景氣領先指標為景氣指標其中的一個因子，對於判斷未來景氣具有一定的參考性，但經由 CKIP 系統處理的結果將會分成”景氣”、”領先”以及”

指標”三個詞，反而喪失了該詞彙原有的意義，對於之後的新聞文章分群及情緒計算也將因為分詞處理的結果不佳，導致後續研究有誤差甚至是錯誤。

本研究由收集網路既有之相關經濟詞彙(http://www.quote123.com/aspnet/usm kt/edu/glossary/glossary.aspx)以及股價指數詞彙(http://www.cybertranslator.idv.tw/c omeco_stockindex.htm)，並以人工方式過濾 CKIP 已可自行斷詞之 2 至 3 字的短詞後，進行統整建立出本研究之經濟詞庫，再將該經濟詞庫與斷詞結果做比對，

如果在連續的斷詞結果中與經濟詞庫的詞彙符合，則將該連續斷詞結果進行合併，

成為新的詞彙並更新斷詞結果，使經濟詞彙能夠正確的被判斷出來。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2.4 特徵詞萃取

在本章節一開始有提到，新聞文章為一連串的文字，屬於非結構化的資料，

為了能進行後續的新聞偵測與追蹤以及應用分類分群的技術，必須擷取出能夠代表各篇新聞文章的特徵，相關學者研究指出，文章中的詞彙若具備高的 TFIDF 值，

則該詞彙對該篇文章就具有較高的代表性(Salton & Buckley, 1988)，故本研究使用 TFIDF 作為新聞文件的特徵值。

TFIDF 為詞頻(Term Frequency, TF)與逆文件頻率(Inverse Document Frequency, IDF)的乘積，其中 TF 代表一個詞彙在該篇文件出現的次數，而 IDF 則是當一個詞彙同時出現於太多文件時，對該篇文章的重要性則相對降低的所進行的修正，

TF 和 IDF 的公式分別如下：

𝑡𝑓_𝑖,𝑗 = ^𝑛^𝑖,𝑗

∑ 𝑛_𝑖,𝑗 (公式 1) 𝑖𝑑𝑓_𝑖 = log^|𝑁|

𝑑𝑓𝑖 (公式 2)

其中𝑛_𝑖,𝑗是詞彙 i 在文件 j 中出現的次數，而∑ 𝑛_𝑖,𝑗為文件 j 中所有詞彙出現的次數總和，而|𝑁|為文件集中全部的文件數，𝑑𝑓_𝑖為詞彙 i 出現在整個文件及的文件數。最後𝑡𝑓𝑖𝑑𝑓_𝑖,𝑗即為𝑡𝑓_𝑖,𝑗和𝑖𝑑𝑓_𝑖的乘積。

然而文件長度可能會影響詞彙出現的次數，為了避免不同文件長度的影響，針對 TFIDF 作正規化處理(Popescu, 2001)，正規化公式如下：

Weight = ^{𝑡𝑓𝑖𝑑𝑓}^𝑖,𝑗

√∑(𝑡𝑓𝑖𝑑𝑓_𝑖,𝑗)²

(公式 3)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2.5 向量空間模型

為了使文件能夠互相進行相似度計算，本研究採用向量空間模型(Salton, Wong, & Yang, 1975)，將每份文件轉化成為向量來表示，向量的組成則為該文件各詞彙的權重值。舉例來說，每份文件就可透過此方式來表示， Doc_i = (W₁, W₂, W₃, … . , W_n)。如圖 3-3 所示。

圖 3-3 向量空間模型 (資料來源：(Salton et al., 1975))

最後可以將每份文件向量組合成一個矩陣，即為詞彙-文件矩陣(Term-Document Matrix)，如圖 3-4。

圖 3-4 詞彙-文件矩陣

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

(資料來源：(Salton & McGill, 1983))

藉由詞彙-文件矩陣可以計算出文章間的相似程度，在這裡採用的是餘弦相似度計算，藉由計算兩文件向量間的夾角來代表兩文件於空間中的距離。根據餘弦函數之特性，角度越小其值越大，相似度也就越高。而餘弦相似度公式如下：

cos 𝜃 = ^{∑ 𝐴}^𝑖^∗𝐵^𝑖

√∑(𝐴_𝑖)²∗√∑(𝐵_𝑖)² (公式 4)

其中 A 與 B 代表兩向量文件，而𝐴_𝑖與𝐵_𝑖則代表 A 與 B 文件中某一向量維度之數值。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中巨量資料環境下之新聞主題暨輿情與股價關係之研究 - 政大學術集成 (頁 25-30)

第三章 研究方法與設計

第二節 資料前處理

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節 資料前處理

3.2.1 CKIP 斷詞

(P) 2 月 (N) 初 (POST) 已 (ADV) 突 破 (Vt) 7000 萬 (DET) 台 (M) ，

(COMMACATEGORY) 預估(Vt) 適用(Vt) 於(P) EOS(FW) 系列(N) 數位

(A) 單眼(A) 相機(N) 的(T) EF(FW) 鏡頭(N) ，(COMMACATEGORY) 可

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2.2 詞彙精簡

3.2.3 經濟詞彙判定

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2.4 特徵詞萃取

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2.5 向量空間模型

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章研究方法與設計

第二節資料前處理

立政治大學

第二節資料前處理

(P) 2 月 (N) 初 (POST) 已 (ADV) 突破 (Vt) 7000 萬 (DET) 台 (M) ，

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學