情緒語意分析

第二章相關研究探討

第四節情緒語意分析

大多數的情緒語意分析都是監督式(supervised)的機器學習方法，半監督 (semi-supervised)或是非監督(unsupervised)的機器學習方法皆還在初期發展的階段。

Seeker 等人(2009)以及 Moilanen 等人(2010)說明情緒語意分析大多數的研究都可以分為兩個部分，第一個部分是情緒字彙的分析，給予各種有顯著表達情緒的字詞相對應的正負評價分數，第二部分就是加入自然語言處理技術，例如：

Sentiment Lexicon, Negative Words, Stems, Function Words, Part of Speech and Dependency Relations，透過這兩部分去實現想要的結果，張莊平(2012)也是利用類似的方法去分析長篇中文電影評論集，他首先以人工的方式標註在電影領域中

相關的情緒詞彙正負評價分數，再透過中文語法結構去找出情緒詞彙所描述的正確率(Precision)。另一方面在 Das 與 Gambäck (2012)研究中指出，他們建立了一個向量空間，找出上下文之間的關係，再透過事先建立好的情緒詞彙與修飾主體的關聯度，避免因為情緒詞彙修飾的主體不同而造成的歧異性，比如：『長』修飾於等待與道路就有著截然不同的意義。Maas 等人(2011)建立了一個全新的向量模型，同時納入情緒以及語義的部分，並與 LDA、LSA 的結果作比較，也都有很高的正確率(Precision)。

李政儒(2012)提出了一個監督式的方法，有效利用 NTUSD 跟廣義知網詞彙的交集建立出標準答案集，再由標準答案及訓練分類器，為其他廣義知網詞彙進

統計並組合整理之後，再利用這些詞彙的詞性序列自動分析出更多含有的情緒意

由上表可以看出一般帶有極性的詞彙出現在文章中的方式，是具有詞性組合規律的，而此也是我們在本論文中擷取種子詞彙的依據。

第三章研究方法與步驟

第一節研究方法架構

本研究找出文章中極性詞之架構分為兩大部分，分別說明如下：

第一部分：首先利用中文斷詞系統建立好可使用的中文電影評論語料庫，接著透過語法規則選出正負極性種子詞彙之後，再利用同義反義詞集作擴充，並去除邏輯上的矛盾之後，直到情緒詞彙集不再變動。

第二部分：對在第一部分中未被標註的詞彙進行字數的分類，其中對 1 到 3 個字的類別進行模糊比對，期望找出更多的情緒詞彙。過程中利用 NTUSD (National Taiwan University Semantic Dictionary)詞彙進行詞頻分析，藉此依照出現機率進行標註，而 4 個字以上的類別，再利用教育部詞典標記註釋，經過斷詞系統和我們所建出的語法規則後，判別出正確的極性，最後再與人工標註之答案進行比較。

此方法是希望能改進陳立(2010)在情緒詞彙上能擷取出的數量不足以及增加多樣性，不再受到否定詞，以及文章長度的影響，進而能以非監督的方式進行標註。

研究方法架構分兩個部分如圖 3-1 和圖 3-2 所示：

第一部分如圖 3-1 所示：

圖 3-1：系統架構圖(Part I) 電影評論集

斷詞分析中研院斷詞

系統語法規則與詞性分析

比對

無法判斷出極性之詞彙可判斷出極性之

詞彙

教育部同義詞反義詞資料庫

去除同義詞邏輯錯誤挑選正負極性種子字

擴充正負極性種子詞彙

種子極性判定結果 StopWord

第二部分如圖 3-2 所示：

圖 3-2：系統架構圖(Part II)

字數為 1~3 的詞彙字數為 4 以上的詞彙

字數分類

1~3 個字極性分析

斷詞分析以模糊比對為基礎之

極性分析規則

標記註釋

教育部註釋資料庫 NTUSD 字頻

成語諺語極性分析

句型規則分析於第一部分未能判斷出正

負極性之詞彙

最後分析結果

第二節實驗語料文集

本論文實驗使用的語料文集是使用張莊平(2012)的實驗語料，取自於 BBS 討論區，台大 PTT 實業坊(批踢踢實業坊)⁵上面的 Moive 板。PTT 實業坊為台大所創立的電子佈告欄式網路論壇，也是目前最具人氣的網路社群之一，站上人數經常維持在十萬多人。

PTT 實業坊的討論看板內容包山包海，從學校、地區、學術、感情、運動、

政治、消費等等全部囊括在內，其中的 Movie 電影看板如下圖 3-3，主要就是消費者用來討論電影的觀後心得感想，分享對電影的評價，同時讓更多想要看電影的人有參考的依據。

圖 3-3：PTT 實業坊 Movie 板

實驗語料選自近年來比較有話題性的熱門電影，並且不侷限在同一種類型風格上，內容包括了動作片、動畫片、科幻片等等的七部電影，皆以程式自動的擷取出各約 50 篇的電影評論文章作為語料文集。同時為了證明能夠分析長篇的電

5 telnet://ptt.cc

影評論中的極性詞，因此設定每篇電影評論中的字數必須超過 100 個字，才會納

字數 100-500 500-1000 1000-1500 1500-2000 2000-2500 2500-3000 3000- 文章

kappa =𝑃_𝑟(𝑎) − 𝑃_𝑟(𝑒)

表 3-6：三位評分者相對 Kappa 值

Kappa 值

A 和 B 評分者 0.902

A 和 C 評分者 0.896

B 和 C 評分者 0.906

表 3-7：所有極性詞彙整理

數目/比率

1 個字 2 個字 3 個字 4 個字以上 總和

正向 17 1.73% 306 31.22% 24 2.45% 86 8.77% 433 44.18%

負向 51 5.2% 402 41.02% 30 3.06% 64 6.53% 547 55.82%

總和 68 6.93% 708 72.24% 54 5.51% 150 15.3% 980 100%

第三節種子詞彙的選取

首先實驗資料文集中必須選出適合的正向種子以及負向種子詞彙，其中排除一些加強語氣詞彙以及還有驚嘆語氣的詞彙後，篩選出四個規則，較能囊括大部分的情緒詞彙，主要基礎是藉由中文語法的結構並尋找『否定詞』和『副詞』之後連接的詞彙，在中文語句中人們常常會使用『不是很好看』、『不太適合』、『很不刺激』等等的詞彙去描述事件，而這些詞彙去除掉否定詞和副詞之後，都代表著在這個領域上有著正面極性的詞彙，接著利用教育部的同義反義詞集擴充，而

在選取正向種子方面我們參照了陳立(2010)所使用的方法並加以修改，步驟如下：

否定詞定義：不、不是、不會、沒、沒有。(用於所有規則)

副詞定義：很、非常、太、太過、太多、最、比較、夠。(用於規則(一)(二)(三))

我們所使用的中文電影語料庫集，經過中文斷詞系統處理後，皆會有清楚的詞性標註，標註的結果當中，斷詞系統是不會標示出『形容詞』的，而是標記成各式種類的動詞，所以根據斷詞系統的標註，在此規則(一)先擷取出詞性為狀態類及物動詞(Vi)，作為正向詞彙種子。

規則(一)：{否定詞+ 副詞 + Vi + (Vi) 副詞+ 否定詞 + Vi + (Vi)

規則(一)中，否定詞和副詞無先後順序，(Vi)表示至多可以擷取 2 個 Vi，皆判定為正向種子。

符合規則(一)例子如下：

好像(D)和(P)騎士(Na)任務(Na)票房(Na)都(D)不(D)是(SHI)很(Dfa) 理想(Vi)。(PERIODCATEGORY)

由上述例子中『理想(Vi)』符合規則(一)，所以被納入正向狀態類及物動詞(Vi) 詞彙集合中。

完成擷取後我們使用針對電影領域的內容所創建的 ViStopWord 除去掉沒有實質意義的詞，例如：大、小、近、遠、來、去、長、短、快、慢、出去、進來，

等詞彙，共 30 個，其中絕大多數為一個字，如下表 3-8：

表 3-8：ViStopWord

夠長短大小遠

近來去久古雅

深淺是有高低

的拍多少讓圓

快慢出去進來開始結束

在規則(二)當中，雖然同樣是以擷取出詞性為狀態類及物動詞(Vi)做為種子詞彙，不過此方法是擷取出大多數為負向種子，極少部分為正向種子。

規則(二)：{ X + Vi → 此 Vi 歸類為負向種子詞彙

X + 否定詞 + Vi + (Vi) → 此 Vi 歸類為正向種子詞彙

規則(二)中 X 為：有些、有點、有一點、些許。

符合規則(二)的例子如下：

而(Cbb)從(P)天花板(Na)垂(VA)降下來(VA)的(DE)姿勢(Na)竟(D)有

由上述例子中『雷同(Vi)』符合規則(二)，所以被納入負向狀態類及物動詞(Vi) 詞彙集合中。

如同規則(一)抓取結果需要用 ViStopWord 去除無實質意義的詞。

規則(一)和規則(二)因為同樣是擷取狀態類及物動詞(Vi)，所以會有重複擷取的現象發生，也就是一個詞彙同時是正向種子跟負向種子，到此步驟會先把這些詞彙暫時儲存起來，之後再用投票機制分類。

規則(三)的方法類似於規則(一)，只是改成擷取動作及物動詞(Vt)。

規則(三)：{否定詞+ 副詞 + Vt + (Vt) 副詞+ 否定詞 + Vt + (Vt)

規則(三)中否定詞和副詞無先後順序，(Vt)表示至多可以擷取兩個 Vt，皆判定為正向種子。

符合規則(三)的例子如下：

但(Cbb)也(D)遭致(VJ)不(D)夠(Dfa)忠於(Vt)原著(Na)的(DE)批評 (VC)，(COMMACATEGORY)

由上述例子中『忠於(Vt)』符合規則(三)，所以被納入正向動作及物動詞(Vt) 詞彙集合中。

在規則(三)擷取 Vt 之後，只納入 2 個字以上的結果為正向種子，這是因為在 Vt 中，只有 1 個字的詞幾乎都是沒有實質意義的，所以在此把只有 1 個字的詞彙刪除。

而規則(二)在此不適合用於擷取 Vt，動作及物動詞(Vt)在規則(二)中是幾乎不會出現的。

最後規則(四)負責擷取的詞彙以全部的 V 為主，而主要擷取出來的 V，皆以狀態類及物動詞(Vi)、動作及物動詞(Vt)、狀態不及物動詞(Vh)等為主。

規則(四)如下：

第一類：{ X + V + (V) X + 副詞 + V + (V)

在規則(四)第一類中 V 歸類為正向種子，(V)表示至多可以擷取兩個 V。

第二類：{ X + 否定詞 + V + (V) X + 否定詞 + 副詞 + V + (V)

規則(四)第二類中否定詞與副詞無先後順序，(V)表示至多可以擷取兩個 V，

其中 V 歸類為負向種子。

規則(四)中 X 定義：算是、還算、都算、還蠻。

規則(四)中副詞定義：最、很、非常、真的。

符合規則(四)的例子如下：

當然(D)劇情(Na)裡面(Ncd)還是(D)蠻(Dfa)緊湊(Vh)的(DE)也(D)有 (V_2)很多(Neqa)橋段(Na)緊張(Vh)刺激(Na)或是(Caa)讓(VL)人(Na) 會心一笑(Vh)，(COMMACATEGORY)

由上述例子中『緊湊(Vh)』符合規則(四)，所以被納入正向狀態不及物動詞(Vh)

詞彙集合中。

6 http://dict.revised.moe.edu.tw/

第五節模糊比對

經過初步的種子詞彙擷取與擴充之後，我們把標準答案中在此步驟之前能找到的全部除去，並把剩下來未判定極性的詞彙依照字數分為四個類別，其中 1 個字的分為一類，2 個字的分為一類，3 個字的分為一類，4 個字以上的分為一類，

並給予不同的規則進行極性分析。其中 2 個字的實驗步驟順序是根據最後的實驗結果而定，不僅可以節省多餘的詞性判定，同時也不至於讓正確率(Precision)降低。

1 個字、2 個字、3 個字的判定極性的規則方法會在此節解說，而 4 個字以上極性判定會在下一節詳述。

NTUSD

在此步驟中使用了 NTUSD positive 以及 NTUSD negative 這兩個資料當作進行模糊比對的統計資訊。

首先 NTUSD 為一個標明正確極性的資料，其中只取出 2 個字的結果，來進行字數的統計，這是因為在 NTUSD 資料中對於每個詞都標示得非常詳細，幾乎是把所有詞彙的使用方法包含進去，例如：『令人高興的』，被正確的歸類在正向詞彙中，但卻多出了多餘的修飾詞彙『令人』、『的』，這些多出來的字就會對統計結果產生影響，我們所期望的是不需要修飾字，而是像『高興』本身就具有極性意義詞彙。

最後擷取出 NTUSD positive 中 2 個字的詞彙共 1262 個，以及 NTUSD negative

中 2 個字的詞彙共 3605 個，進行單字的統計，並分別列出 NTUSD 正向和負向統計字數前 10 多的單字，如下表 3-9：

表 3-9：NTUSD 正向和負向統計字數各前 10 多的單字

正向極性字 844 個數量排名前 10 名 負向極性字 1813 個數量排名前 10 名

正向極性字 數量 負向極性字 數量

心 30 不 118

愛 29 死 60

好 28 失 51

安 23 亂 45

明 19 人 42

意 18 打 42

有 17 無 38

正 16 心 37

善 16 傷 35

喜 16 惡 35

因為考慮到正負詞彙數量的差距很大，所以在此不能直接使用這些字的統計數量進行分析，而詳細的使用方法會在下面各個章節中介紹。

第一類 1 個字

從第一類 1 個字的類別，我們調整了正負向統計字的比例以進行標註極性的

在文檔中電影評論中情緒詞彙之極性分析 (頁 19-0)

第二章 相關研究探討

第四節 情緒語意分析

第三章 研究方法與步驟

第一節 研究方法架構

第二節 實驗語料文集