第二章 相關研究探討
第四節 情緒語意分析
大多數的情緒語意分析都是監督式(supervised)的機器學習方法,半監督 (semi-supervised)或是非監督(unsupervised)的機器學習方法皆還在初期發展的階 段。
Seeker 等人(2009)以及 Moilanen 等人(2010)說明情緒語意分析大多數的研究 都可以分為兩個部分,第一個部分是情緒字彙的分析,給予各種有顯著表達情緒 的字詞相對應的正負評價分數,第二部分就是加入自然語言處理技術,例如:
Sentiment Lexicon, Negative Words, Stems, Function Words, Part of Speech and Dependency Relations,透過這兩部分去實現想要的結果,張莊平(2012)也是利用 類似的方法去分析長篇中文電影評論集,他首先以人工的方式標註在電影領域中
相關的情緒詞彙正負評價分數,再透過中文語法結構去找出情緒詞彙所描述的 正確率(Precision)。另一方面在 Das 與 Gambäck (2012)研究中指出,他們建立了一 個向量空間,找出上下文之間的關係,再透過事先建立好的情緒詞彙與修飾主體 的關聯度,避免因為情緒詞彙修飾的主體不同而造成的歧異性,比如:『長』修 飾於等待與道路就有著截然不同的意義。Maas 等人(2011)建立了一個全新的向量 模型,同時納入情緒以及語義的部分,並與 LDA、LSA 的結果作比較,也都有很 高的正確率(Precision)。
李政儒(2012)提出了一個監督式的方法,有效利用 NTUSD 跟廣義知網詞彙 的交集建立出標準答案集,再由標準答案及訓練分類器,為其他廣義知網詞彙進
統計並組合整理之後,再利用這些詞彙的詞性序列自動分析出更多含有的情緒意
由上表可以看出一般帶有極性的詞彙出現在文章中的方式,是具有詞性組合 規律的,而此也是我們在本論文中擷取種子詞彙的依據。
第三章 研究方法與步驟
第一節 研究方法架構
本研究找出文章中極性詞之架構分為兩大部分,分別說明如下:
第一部分:首先利用中文斷詞系統建立好可使用的中文電影評論語料庫,接 著透過語法規則選出正負極性種子詞彙之後,再利用同義反義詞集作擴充,並去 除邏輯上的矛盾之後,直到情緒詞彙集不再變動。
第二部分:對在第一部分中未被標註的詞彙進行字數的分類,其中對 1 到 3 個字的類別進行模糊比對,期望找出更多的情緒詞彙。過程中利用 NTUSD (National Taiwan University Semantic Dictionary)詞彙進行詞頻分析,藉此依照出現 機率進行標註,而 4 個字以上的類別,再利用教育部詞典標記註釋,經過斷詞系 統和我們所建出的語法規則後,判別出正確的極性,最後再與人工標註之答案進 行比較。
此方法是希望能改進陳立(2010)在情緒詞彙上能擷取出的數量不足以及增加 多樣性,不再受到否定詞,以及文章長度的影響,進而能以非監督的方式進行標 註。
研究方法架構分兩個部分如圖 3-1 和圖 3-2 所示:
第一部分如圖 3-1 所示:
圖 3-1:系統架構圖(Part I) 電影評論集
斷詞分析 中研院斷詞
系統 語法規則與詞性分析
比對
無法判斷出極性 之詞彙 可判斷出極性之
詞彙
教育部同義詞反 義詞資料庫
去除同義詞邏輯錯誤 挑選正負極性種子字
擴充正負極性種子 詞彙
種子極性判定結果 StopWord
第二部分如圖 3-2 所示:
圖 3-2:系統架構圖(Part II)
字數為 1~3 的詞彙 字數為 4 以上的詞彙
字數分類
1~3 個字極性分析
斷詞分析 以模糊比對為基礎之
極性分析規則
標記註釋
教育部註釋資 料庫 NTUSD 字頻
成語諺語極性分析
句型規則分析 於第一部分未能判斷出正
負極性之詞彙
最後分析結果
第二節 實驗語料文集
本論文實驗使用的語料文集是使用張莊平(2012)的實驗語料,取自於 BBS 討 論區,台大 PTT 實業坊(批踢踢實業坊)5上面的 Moive 板。PTT 實業坊為台大所創 立的電子佈告欄式網路論壇,也是目前最具人氣的網路社群之一,站上人數經常 維持在十萬多人。
PTT 實業坊的討論看板內容包山包海,從學校、地區、學術、感情、運動、
政治、消費等等全部囊括在內,其中的 Movie 電影看板如下圖 3-3,主要就是消 費者用來討論電影的觀後心得感想,分享對電影的評價,同時讓更多想要看電影 的人有參考的依據。
圖 3-3:PTT 實業坊 Movie 板
實驗語料選自近年來比較有話題性的熱門電影,並且不侷限在同一種類型風 格上,內容包括了動作片、動畫片、科幻片等等的七部電影,皆以程式自動的擷 取出各約 50 篇的電影評論文章作為語料文集。同時為了證明能夠分析長篇的電
5 telnet://ptt.cc
影評論中的極性詞,因此設定每篇電影評論中的字數必須超過 100 個字,才會納
字數 100-500 500-1000 1000-1500 1500-2000 2000-2500 2500-3000 3000- 文章
kappa =𝑃𝑟(𝑎) − 𝑃𝑟(𝑒)
表 3-6:三位評分者相對 Kappa 值
Kappa 值
A 和 B 評分者 0.902
A 和 C 評分者 0.896
B 和 C 評分者 0.906
表 3-7:所有極性詞彙整理
數目/比率
1 個字 2 個字 3 個字 4 個字以上 總和
正向 17 1.73% 306 31.22% 24 2.45% 86 8.77% 433 44.18%
負向 51 5.2% 402 41.02% 30 3.06% 64 6.53% 547 55.82%
總和 68 6.93% 708 72.24% 54 5.51% 150 15.3% 980 100%
第三節 種子詞彙的選取
首先實驗資料文集中必須選出適合的正向種子以及負向種子詞彙,其中排除 一些加強語氣詞彙以及還有驚嘆語氣的詞彙後,篩選出四個規則,較能囊括大部 分的情緒詞彙,主要基礎是藉由中文語法的結構並尋找『否定詞』和『副詞』之 後連接的詞彙,在中文語句中人們常常會使用『不是很好看』、『不太適合』、『很 不刺激』等等的詞彙去描述事件,而這些詞彙去除掉否定詞和副詞之後,都代表 著在這個領域上有著正面極性的詞彙,接著利用教育部的同義反義詞集擴充,而
在選取正向種子方面我們參照了陳立(2010)所使用的方法並加以修改,步驟如 下:
否定詞定義:不、不是、不會、沒、沒有。(用於所有規則)
副詞定義:很、非常、太、太過、太多、最、比較、夠。(用於規則(一)(二)(三))
我們所使用的中文電影語料庫集,經過中文斷詞系統處理後,皆會有清楚的 詞性標註,標註的結果當中,斷詞系統是不會標示出『形容詞』的,而是標記成 各式種類的動詞,所以根據斷詞系統的標註,在此規則(一)先擷取出詞性為狀態 類及物動詞(Vi),作為正向詞彙種子。
規則(一):{否定詞+ 副詞 + Vi + (Vi) 副詞+ 否定詞 + Vi + (Vi)
規則(一)中,否定詞和副詞無先後順序,(Vi)表示至多可以擷取 2 個 Vi,皆 判定為正向種子。
符合規則(一)例子如下:
好像(D)和(P)騎士(Na)任務(Na)票房(Na)都(D)不(D)是(SHI)很(Dfa) 理想(Vi)。(PERIODCATEGORY)
由上述例子中『理想(Vi)』符合規則(一),所以被納入正向狀態類及物動詞(Vi) 詞彙集合中。
完成擷取後我們使用針對電影領域的內容所創建的 ViStopWord 除去掉沒有 實質意義的詞,例如:大、小、近、遠、來、去、長、短、快、慢、出去、進來,
等詞彙,共 30 個,其中絕大多數為一個字,如下表 3-8:
表 3-8:ViStopWord
夠 長 短 大 小 遠
近 來 去 久 古 雅
深 淺 是 有 高 低
的 拍 多 少 讓 圓
快 慢 出去 進來 開始 結束
在規則(二)當中,雖然同樣是以擷取出詞性為狀態類及物動詞(Vi)做為種子詞 彙,不過此方法是擷取出大多數為負向種子,極少部分為正向種子。
規則(二):{ X + Vi → 此 Vi 歸類為負向種子詞彙
X + 否定詞 + Vi + (Vi) → 此 Vi 歸類為正向種子詞彙
規則(二)中 X 為:有些、有點、有一點、些許。
符合規則(二)的例子如下:
而(Cbb)從(P)天花板(Na)垂(VA)降下來(VA)的(DE)姿勢(Na)竟(D)有
由上述例子中『雷同(Vi)』符合規則(二),所以被納入負向狀態類及物動詞(Vi) 詞彙集合中。
如同規則(一)抓取結果需要用 ViStopWord 去除無實質意義的詞。
規則(一)和規則(二)因為同樣是擷取狀態類及物動詞(Vi),所以會有重複擷取 的現象發生,也就是一個詞彙同時是正向種子跟負向種子,到此步驟會先把這些 詞彙暫時儲存起來,之後再用投票機制分類。
規則(三)的方法類似於規則(一),只是改成擷取動作及物動詞(Vt)。
規則(三):{否定詞+ 副詞 + Vt + (Vt) 副詞+ 否定詞 + Vt + (Vt)
規則(三)中否定詞和副詞無先後順序,(Vt)表示至多可以擷取兩個 Vt,皆判 定為正向種子。
符合規則(三)的例子如下:
但(Cbb)也(D)遭致(VJ)不(D)夠(Dfa)忠於(Vt)原著(Na)的(DE)批評 (VC),(COMMACATEGORY)
由上述例子中『忠於(Vt)』符合規則(三),所以被納入正向動作及物動詞(Vt) 詞彙集合中。
在規則(三)擷取 Vt 之後,只納入 2 個字以上的結果為正向種子,這是因為在 Vt 中,只有 1 個字的詞幾乎都是沒有實質意義的,所以在此把只有 1 個字的詞彙 刪除。
而規則(二)在此不適合用於擷取 Vt,動作及物動詞(Vt)在規則(二)中是幾乎不 會出現的。
最後規則(四)負責擷取的詞彙以全部的 V 為主,而主要擷取出來的 V,皆以 狀態類及物動詞(Vi)、動作及物動詞(Vt)、狀態不及物動詞(Vh)等為主。
規則(四)如下:
第一類:{ X + V + (V) X + 副詞 + V + (V)
在規則(四)第一類中 V 歸類為正向種子,(V)表示至多可以擷取兩個 V。
第二類:{ X + 否定詞 + V + (V) X + 否定詞 + 副詞 + V + (V)
規則(四)第二類中否定詞與副詞無先後順序,(V)表示至多可以擷取兩個 V,
其中 V 歸類為負向種子。
規則(四)中 X 定義:算是、還算、都算、還蠻。
規則(四)中副詞定義:最、很、非常、真的。
符合規則(四)的例子如下:
當然(D)劇情(Na)裡面(Ncd)還是(D)蠻(Dfa)緊湊(Vh)的(DE)也(D)有 (V_2)很多(Neqa)橋段(Na)緊張(Vh)刺激(Na)或是(Caa)讓(VL)人(Na) 會心一笑(Vh),(COMMACATEGORY)
由上述例子中『緊湊(Vh)』符合規則(四),所以被納入正向狀態不及物動詞(Vh)
詞彙集合中。
6 http://dict.revised.moe.edu.tw/
第五節 模糊比對
經過初步的種子詞彙擷取與擴充之後,我們把標準答案中在此步驟之前能找 到的全部除去,並把剩下來未判定極性的詞彙依照字數分為四個類別,其中 1 個 字的分為一類,2 個字的分為一類,3 個字的分為一類,4 個字以上的分為一類,
並給予不同的規則進行極性分析。其中 2 個字的實驗步驟順序是根據最後的實驗 結果而定,不僅可以節省多餘的詞性判定,同時也不至於讓正確率(Precision)降 低。
1 個字、2 個字、3 個字的判定極性的規則方法會在此節解說,而 4 個字以上 極性判定會在下一節詳述。
NTUSD
在此步驟中使用了 NTUSD positive 以及 NTUSD negative 這兩個資料當作進 行模糊比對的統計資訊。
首先 NTUSD 為一個標明正確極性的資料,其中只取出 2 個字的結果,來進 行字數的統計,這是因為在 NTUSD 資料中對於每個詞都標示得非常詳細,幾乎 是把所有詞彙的使用方法包含進去,例如:『令人高興的』,被正確的歸類在正向 詞彙中,但卻多出了多餘的修飾詞彙『令人』、『的』,這些多出來的字就會對統 計結果產生影響,我們所期望的是不需要修飾字,而是像『高興』本身就具有極 性意義詞彙。
最後擷取出 NTUSD positive 中 2 個字的詞彙共 1262 個,以及 NTUSD negative
中 2 個字的詞彙共 3605 個,進行單字的統計,並分別列出 NTUSD 正向和負向統 計字數前 10 多的單字,如下表 3-9:
表 3-9:NTUSD 正向和負向統計字數各前 10 多的單字
正向極性字 844 個數量排名前 10 名 負向極性字 1813 個數量排名前 10 名
正向極性字 數量 負向極性字 數量
心 30 不 118
愛 29 死 60
好 28 失 51
安 23 亂 45
明 19 人 42
意 18 打 42
有 17 無 38
正 16 心 37
善 16 傷 35
喜 16 惡 35
因為考慮到正負詞彙數量的差距很大,所以在此不能直接使用這些字的統計 數量進行分析,而詳細的使用方法會在下面各個章節中介紹。
第一類 1 個字
從第一類 1 個字的類別,我們調整了正負向統計字的比例以進行標註極性的
從第一類 1 個字的類別,我們調整了正負向統計字的比例以進行標註極性的