情感詞庫的蒐集與建立

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

句子的情感標記的規則如下：

1. 如果該句子的情感取向對於搜尋目標為正面意見，則標記為 1。

2. 如果該句子的情感取向對於搜尋目標為負面意見，則標記為-1。

3. 以上皆非，則標記為 0，代表該句為中立意見或不含意見。

我們將每個句子分別給 3 個人標記，並採取多數決的方式決定每個句子的情感取向。比如當一個句子被 A 標記為 1，被 B 標記為 0，被 C 標記為 1 時，則此句應為正向句。為了避免過多的誤判，若句子的三個標記同時出現 1 和-1 時，則由我們檢查句子的情感標記是否正確，並給予對應的調整。句子在人工標記和調整後的結果如表 8，其中完全一致是指同一個句子的三個標記皆相同，而部分一致是指兩個相同，其中一個不同的標記。

表 8 句子的情感標記結果

情感標記句子數量完全一致部分一致正向 1,601 842 759 負向 1,083 616 467 中立 8,328 7,042 1,286 總計 11,012 8,500 2,512

五、情感詞庫的蒐集與建立

本研究採用 NTUSD 和 HowNet-VSA 作為基礎的情感詞庫來源。其中 HowNet-VSA 為簡體中文，但語料庫中的文章皆由正體中文撰寫，所以必須先將 HowNet-VSA 的詞語轉為正體中文後才能使用。另外，在 HowNet-VSA 中還有和情感取向無關的主張詞語和程度級別詞語，在此先不討論，此處僅使用正向詞與負向詞。

（一）意見詞辭典

首先是建立意見詞辭典，本研究建立意見詞辭典的方法如下：

將 NTUSD 與 HowNet-VSA 視為兩個詞語的集合並比對。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

(1) 由於 HowNet-VSA 有同時出現在正向詞與負向詞的詞彙，我們先 將這些詞取出，加入初始中立詞集合 Oraw。

(2) 當一個詞只出現在 NTUSD 或 HowNet-VSA 時，則將該詞語依照其 原本的分類加入初始正向詞集合 P_raw或初始負向詞集合 N_raw。

(3) 當一個詞同時出現在 NTUSD 與 HowNet-VSA，且其分類相同時，

則將該詞語依照其原本的分類加入初始正向詞集合 P_raw 或初始負向詞 集合 N_raw。

(4) 當一個詞同時出現在 NTUSD 與 HowNet-VSA，但其分類不同時，

則將該詞語加入初始中立詞集合 Oraw。

2. 把初始正向詞集合 Praw、初始負向詞集合 Nraw、初始中立詞集合 Oraw

等三個詞彙集合跟已斷詞的語料庫中的詞彙交集，以過濾沒有出現在語 料庫中的字，稱為 P_filter、N_filter、O_filter。

在第二章中曾經介紹重新定義情感取向的方法，也就是 SO。此處我們將 SO 中 PMI 的算法稍做更改。原本 SO 中的 PMI 是計算一未知情感取向的詞彙和一已知的正向或負向詞的獨立性，但在本研究中，我們已經先行以人工標記的方式取得句子的情感取向，因此本研究將此處的 PMI 改為計算詞彙與正向語句和負向語句的獨立性，分別稱為 PMI⁺與 PMI^-，如第 6 式與第 7 式，其中 s⁺和 s^-分別代表人工標記後的正向句和負向句。

(6)

(7) 因此 SO 的計算方法將更改為第 8 式。

(8) 其中機率的計算是採用最大似然估計法（Maximum Likelihood Estimation;

MLE），如第 9 式至第 11 式。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

(9)

(10)

(11) PMI⁺、PMI^-與 SO 的計算可參考下列的例子：

在語料庫共 1000 句中，正向句有 350 句，負向句有 400 句，中立句有 250 句。含有「貴」的句子有 40 句，其中含有正向句 4 句，負向句 25 句，中立句 11 句。則

PMI⁺(貴)

=log2(0.004/(0.04× 0.35))

=log2(0.2857)

=−1.8074 PMI^-(貴)

=log₂(0.025/(0.04× 0.4))

=log₂(1.5625)

=0.6439 SO(貴)

=PMI⁺(貴)−PMI^-(貴)

=−1.8074−0.6439

=−2.4513

3. 計算 P_filter、N_filter、O_filter中每個意見詞的 PMI⁺、PMI^-與 SO。

雖然 SO 越大代表該詞彙越正向，SO 越小則越負向。但是對正向詞而言，

若該詞彙的 PMI⁺已經小於等於 0，則該詞彙與正向句的相關性並非正相關，因此不應採納為正向意見詞。同理，對負向詞而言，PMI^-小於等於 0 的詞彙也不應採納為負向意見詞。此外，一些在正向意見詞中的詞彙若具有明顯偏低的 SO，

則這些詞彙很有可能對本研究而言是負向詞；同樣地，一些在負向詞中的詞彙也

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

可能具有明顯偏高的 SO，則很有可能對本研究而言是正向詞。我們也會將這些詞彙的情感取向重新調整。

4. 從不同的詞彙集合中以下列的方式選出意見詞。

(1) 從 P_filter和 O_filter中選出 PMI⁺大於 0，且 SO 大於 0 的詞彙的子集合，

加入本研究的正向意見詞集合 P_opn。

(2) 從 Nfilter和 O_filter中選出 PMI^-大於 0，且 SO 小於 0 的詞彙的子集合，

加入本研究的負向意見詞集合 N_opn。

(3) 將 Pfilter中的 SO 標準化後，從中選出 PMI^-大於 0，且 SO 小於-1 的 詞彙，加入本研究的負向意見詞集合 Nopn。

(4) 將 Nfilter中的 SO 標準化後，從中選出 PMI⁺大於 0，且 SO 大於 1 的詞彙，加入本研究的正向意見詞集合 Popn。

最後，本研究共計取出 947 個正向意見詞與 482 個負向意見詞，相關的統計數據如表 9。

表 9 意見詞數量統計

初始意見詞集合 P_raw N_raw O_raw 詞彙數量 12,674 14,301 203 過濾後的意見詞集合 Pfilter Nfilter Ofilter

詞彙數量 1,271 687 35

篩選後的意見詞集合 Popn Nopn

詞彙數量 947 482

（二）搭配詞辭典

在第二章曾介紹過，搭配詞是在當一個詞彙與意見詞共同出現時，能指出特定情感取向的一組詞語。以意見詞辭典為基礎建立搭配詞辭典的方法如下：

1. 由於不是所有詞彙都能和意見詞組成搭配詞，因此必須先去除和搭配詞無關的詞彙。本研究依詞性去除語料庫中和搭配詞無關的詞彙，僅保留

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

詞性標記為 A（形容詞）、Na（普通名詞）、Nv（名物化動詞）、FW（外文標記），以及除 V_2（「有」）和 SHI（「是」）之外的動詞。

2. 對於意見詞辭典中的每個意見詞 a，在語料庫中尋找所有曾和 ai i共同出 現於同一個句子的詞彙集合 B_i。這些集合便是可能和 a_i組成搭配詞的 詞語集合，而 B_i中的每個詞彙 b_ij都可以和其對應的意見詞 a_i建立搭配 詞。所有由(a_i, bij)構成的集合稱為 Craw。

3. 計算 C_raw中每個搭配詞(a_i, bij)的 PMI，如第 12 式。機率的計算也同樣採用 MLE，如第 13 與第 14 式。

(12)

(13)

(14) PMI 的計算與篩選可參考下列的例子：

假設在語料庫共 1000 句中，含有「貴」的句子有 20 句，含有「價格」的句 子有 25 句，同時有「貴」和「價格」的句子有 4 句。則

PMI(貴,價格)

=log2(P(貴,價格)/(P(貴)P(價格)))

=log₂(0.004/(0.02*0.025))

=log₂8

4. 去除 C_raw中所有 PMI 小於等於 0 的搭配詞(a_i, b_ij)，也就是保留所有正 相關的詞，此集合稱為 C_filter。

5. 計算 C_filter中每個搭配詞的 PMI⁺、PMI^-，以及 SO。

搭配詞(a_i, b_ij)是由一個意見詞 a_i與一個其他詞語 b_ij組成。當搭配詞(a_i, b_ij) 的情感取向和其意見詞 a_i的情感取向相同時，並不會對該句子或文章整體的情感

‧

副詞辭典，分別是強、中、弱；而 HowNet-VSA 也有提供六種不同程度的程度級別詞語，分別是「極其／最」、「很」、「較」、「稍」、「欠」，以及「超」。為了將目標辨識的相關詞語，包含 HowNet-VSA 提供的主張動詞，還有表達對等關係的詞彙，以及表達總結用的詞彙。其中表達對等關係的詞彙和表達總結用的詞彙是從中央研究院廣義知網知識本體¹⁸中，以特定關鍵字蒐集而成的相關詞彙；前

18 http://ehownet.iis.sinica.edu.tw/

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

者的關鍵字為「相等」和「一樣」，而後者的關鍵字為「結論」和「總而言之」。其他用詞的統計數據如表 12。

表 11 程度詞與否定詞數量統計

張育蓉（2012）強程度詞中程度詞弱程度詞否定詞

詞彙數量 20 59 38 56

HowNet-VSA

極其

／最超很較稍欠 (無) 詞彙數量 69 30 42 37 29 12 0

合併後強程度詞中程度詞弱程度詞否定詞

詞彙數量 107 115 54 56

表 12 其他詞彙數量統計

集合名稱主張詞語對等用詞總結用詞

詞彙數量 35 29 21

‧

料是相當不利的，稱為維度的詛咒（Curse of Dimensionality）。此外，本研究的目的是建置一系統，採用此方法也將在分類時消耗不少時間。因此，我們不採用

在文檔中網路評價搜尋結果的正負意見分類系統 - 政大學術集成 (頁 41-48)

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

五、 情感詞庫的蒐集與建立

（一） 意見詞辭典

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

（二） 搭配詞辭典

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

立政治大學

五、情感詞庫的蒐集與建立

（一）意見詞辭典

立政治大學

立政治大學

立政治大學

（二）搭配詞辭典

立政治大學

立政治大學