第四章 實驗結果與分析
第五節 雙極性問題、已收錄但無法分類極性的詞彙問題的分析
NTUSD positive 及 NTUSD negative 中已經針對每個詞彙標註了明確的極 性,這是一份相當有價值的資訊。因此希望透過比對的方式,將前三節的擴充過 程中,已經收錄,但卻無法給予極性的詞彙重新標註並擴充的機會。
下表 50 列出 NTUSD 詞彙出現次數的統計。方法已於「第三章 第七節 雙極 性問題、已收錄但無法分類極性的詞彙問題」提出,現在針對結果做說明:有 701 種詞彙出現 2 次以上。出現 3 次的詞彙投票後必然可以判定極性; 1 次的同理。
出現 2 次的 690 個詞彙中有 653 個可以判定極性。因此就結果來說,雖然 NTUSD 內部存在著雙極性的問題,但只要使用投票後的結果,就幾乎不會產生影響。
表 50:針對跨 negative、positive 的詞彙做統計
詞彙出現次數 不同詞彙種類數 可以判定極性的詞彙數
3 11 11
2 690 653
1 9671 9671
總計 10372 10335
以下分別針對「廣義知網中的雙極性詞彙」、「擴充過程中產生的雙極性詞 彙」、「已收錄但無法分類極性的詞彙」進行討論。
擴充過程中全部的「廣義知網中的雙極性詞彙」經過整理後共有 485 個。節
比對。發現共有 251 個詞彙可以因而得到極性,如表 51 中有*的詞彙。挑出和電 影領域有關的情緒詞彙作為範例,發現如「緊張」、「意外」、「刺激」等評論中常 見的情緒詞彙的確可以透過這個方法被過濾出來。
表 51:節錄部份「廣義知網中的雙極性詞彙」
*顛覆 *壓倒性 *激烈 *諒解 *緊張
*寧可 誇耀 *意外 *犀利 *現實
敏感 *迷戀 *容易 *突如其來 *明確
征服 *刺激 忍耐 *老練 出乎意料
和人工標註的 468 個測試詞彙比較,共找出 33 個。其中有 25 個判定正確,
如表 52 中有*的詞彙,正確率 75.76%。可以發現雙極性詞彙的確比較不好判斷,
此外也有出現由於是電影領域才會發生的錯誤:如「緊張」、「激烈」等詞彙。
表 52:33 個中共有 25 個成功比對
*期待 刺激 *好笑 緊張 不如
*堅持 *質疑 轟動 *輕鬆 *新鮮
*明確 *成就 *降低 *保守 犀利
*辛苦 *認同 *落後 *罕見 *抱歉
*苛求 *動搖 *放棄 *蔓延 *故意
激烈 *搶走 *擊敗 *瓦解 *炫耀
顛覆 老練 出人意表
收集前三步驟全部的「擴充過程中產生的雙極性詞彙」,經過整理後,共計
表 53:135 個無法分類的「擴充過程中產生的雙極性詞彙」說明
數量 所佔百分比 範例
1 個字 103 76.30% 強、假、闢、誇、爽、狂、
綽、野、變、攝、曉、輔 2 個字 30 22.22% 惺惺、*刺眼、有味、一般、
觸目、*新鮮、週旋、*陷落、
淋漓、*清理、*閃爍、*抓住
3 個字 1 0.74% 光溜溜
成語或諺語 1 0.74% 趕來趕去
合計 135 100%
和 NTUSD 完全比對,只從 135 個中找出 6 個可以透過 NTUSD 而得到極性 的詞彙。即為表 53,範例欄位中,2 個字有*標記的詞彙。撇開極少數 3 個字、
成語或諺語的部份,雖然 2 個字的詞彙中感覺上有一些的確是情緒詞彙,如「有 味」、「一般」、「淋漓」等,可惜的是卻無法比對出來。至於 1 個字僅有少部份帶 有情緒、同時也是評論中常出現的詞彙,如「強」、「假」、「爽」。但此外大部分 均是沒有明顯情緒意義的詞彙,如「闢」、「變」、「攝」。
這個結果很直接的反應在人工標註的 468 個測試詞彙上:上述分類出極性的
6 個詞彙沒有在其中。
最後看到「已收錄但無法分類極性的詞彙」。「已收錄但無法分類極性的詞彙」
較多是以類別的型式出現。一個類別可能含有數個不同詞彙,因此在比對前可以 合理的猜測:這個方法用在「已收錄但無法分類極性的詞彙」應該會比前兩種雙 極性詞彙來得更有效率,因為只要透過 NTUSD 比對到一個類別中的某一個詞
經過整理,總計有 9468 種。包含類別型的:如種子詞彙「對勁」找出但無 法定義極性的類別「ServeAsFoil|陪襯」中的詞彙「相映」、「襯托出」等;以及含 有複雜結構型:如種子「冠冕堂皇」找出的詞彙「附庸風雅」、「科幻」等。
完全比對後重新找出正向辭彙 53 個以及負向辭彙 361 個。過程中我們發現
NTUSD 有時會有好幾筆資料和同一個類別內的詞彙產生對應,於是投票決定究 竟有沒有機會被擴充。如表 54 所示,由種子詞彙「掰」所擴充出的類別「bump|
撞」,其中標有*的詞彙「碰撞」、「碰擊」、「撞擊」、「衝撞」、「衝擊」全為 NTUSD
negative 中對應到的詞彙,因此收錄「bump|撞」類別中的所有詞彙,並定義為負 向。另外看到由種子詞彙「閒散」所擴充出的類別「idle|閒」,發現擴充後得到的 詞彙「悠哉」屬於 NTUSD positive;而「閒散」卻屬於 NTUSD negative,因此「idle|
閒」類別中的詞彙依然無法收錄。
於人工標註的 468 個測試資料中,僅僅比對出 3 個詞彙:「豪華」、「衝擊」、