• 沒有找到結果。

雙極性問題、已收錄但無法分類極性的詞彙問題的分析

第四章 實驗結果與分析

第五節 雙極性問題、已收錄但無法分類極性的詞彙問題的分析

NTUSD positive 及 NTUSD negative 中已經針對每個詞彙標註了明確的極 性,這是一份相當有價值的資訊。因此希望透過比對的方式,將前三節的擴充過 程中,已經收錄,但卻無法給予極性的詞彙重新標註並擴充的機會。

下表 50 列出 NTUSD 詞彙出現次數的統計。方法已於「第三章 第七節 雙極 性問題、已收錄但無法分類極性的詞彙問題」提出,現在針對結果做說明:有 701 種詞彙出現 2 次以上。出現 3 次的詞彙投票後必然可以判定極性; 1 次的同理。

出現 2 次的 690 個詞彙中有 653 個可以判定極性。因此就結果來說,雖然 NTUSD 內部存在著雙極性的問題,但只要使用投票後的結果,就幾乎不會產生影響。

表 50:針對跨 negative、positive 的詞彙做統計

詞彙出現次數 不同詞彙種類數 可以判定極性的詞彙數

3 11 11

2 690 653

1 9671 9671

總計 10372 10335

以下分別針對「廣義知網中的雙極性詞彙」、「擴充過程中產生的雙極性詞 彙」、「已收錄但無法分類極性的詞彙」進行討論。

擴充過程中全部的「廣義知網中的雙極性詞彙」經過整理後共有 485 個。節

比對。發現共有 251 個詞彙可以因而得到極性,如表 51 中有*的詞彙。挑出和電 影領域有關的情緒詞彙作為範例,發現如「緊張」、「意外」、「刺激」等評論中常 見的情緒詞彙的確可以透過這個方法被過濾出來。

表 51:節錄部份「廣義知網中的雙極性詞彙」

*顛覆 *壓倒性 *激烈 *諒解 *緊張

*寧可 誇耀 *意外 *犀利 *現實

敏感 *迷戀 *容易 *突如其來 *明確

征服 *刺激 忍耐 *老練 出乎意料

和人工標註的 468 個測試詞彙比較,共找出 33 個。其中有 25 個判定正確,

如表 52 中有*的詞彙,正確率 75.76%。可以發現雙極性詞彙的確比較不好判斷,

此外也有出現由於是電影領域才會發生的錯誤:如「緊張」、「激烈」等詞彙。

表 52:33 個中共有 25 個成功比對

*期待 刺激 *好笑 緊張 不如

*堅持 *質疑 轟動 *輕鬆 *新鮮

*明確 *成就 *降低 *保守 犀利

*辛苦 *認同 *落後 *罕見 *抱歉

*苛求 *動搖 *放棄 *蔓延 *故意

激烈 *搶走 *擊敗 *瓦解 *炫耀

顛覆 老練 出人意表

收集前三步驟全部的「擴充過程中產生的雙極性詞彙」,經過整理後,共計

表 53:135 個無法分類的「擴充過程中產生的雙極性詞彙」說明

數量 所佔百分比 範例

1 個字 103 76.30% 強、假、闢、誇、爽、狂、

綽、野、變、攝、曉、輔 2 個字 30 22.22% 惺惺、*刺眼、有味、一般、

觸目、*新鮮、週旋、*陷落、

淋漓、*清理、*閃爍、*抓住

3 個字 1 0.74% 光溜溜

成語或諺語 1 0.74% 趕來趕去

合計 135 100%

和 NTUSD 完全比對,只從 135 個中找出 6 個可以透過 NTUSD 而得到極性 的詞彙。即為表 53,範例欄位中,2 個字有*標記的詞彙。撇開極少數 3 個字、

成語或諺語的部份,雖然 2 個字的詞彙中感覺上有一些的確是情緒詞彙,如「有 味」、「一般」、「淋漓」等,可惜的是卻無法比對出來。至於 1 個字僅有少部份帶 有情緒、同時也是評論中常出現的詞彙,如「強」、「假」、「爽」。但此外大部分 均是沒有明顯情緒意義的詞彙,如「闢」、「變」、「攝」。

這個結果很直接的反應在人工標註的 468 個測試詞彙上:上述分類出極性的

6 個詞彙沒有在其中。

最後看到「已收錄但無法分類極性的詞彙」。「已收錄但無法分類極性的詞彙」

較多是以類別的型式出現。一個類別可能含有數個不同詞彙,因此在比對前可以 合理的猜測:這個方法用在「已收錄但無法分類極性的詞彙」應該會比前兩種雙 極性詞彙來得更有效率,因為只要透過 NTUSD 比對到一個類別中的某一個詞

經過整理,總計有 9468 種。包含類別型的:如種子詞彙「對勁」找出但無 法定義極性的類別「ServeAsFoil|陪襯」中的詞彙「相映」、「襯托出」等;以及含 有複雜結構型:如種子「冠冕堂皇」找出的詞彙「附庸風雅」、「科幻」等。

完全比對後重新找出正向辭彙 53 個以及負向辭彙 361 個。過程中我們發現

NTUSD 有時會有好幾筆資料和同一個類別內的詞彙產生對應,於是投票決定究 竟有沒有機會被擴充。如表 54 所示,由種子詞彙「掰」所擴充出的類別「bump|

撞」,其中標有*的詞彙「碰撞」、「碰擊」、「撞擊」、「衝撞」、「衝擊」全為 NTUSD

negative 中對應到的詞彙,因此收錄「bump|撞」類別中的所有詞彙,並定義為負 向。另外看到由種子詞彙「閒散」所擴充出的類別「idle|閒」,發現擴充後得到的 詞彙「悠哉」屬於 NTUSD positive;而「閒散」卻屬於 NTUSD negative,因此「idle|

閒」類別中的詞彙依然無法收錄。

於人工標註的 468 個測試資料中,僅僅比對出 3 個詞彙:「豪華」、「衝擊」、