• 沒有找到結果。

雙極性問題、已收錄但無法分類極性的詞彙問題

第三章 研究方法

第七節 雙極性問題、已收錄但無法分類極性的詞彙問題

截至目前為止,共發現了兩種雙極性詞彙,分別是「廣義知網中的雙極性詞 彙」、「擴充過程中產生的雙極性詞彙」。後者利用統計的方式,計算同一個詞彙 於正負類別中的出現次數,嘗試分類極性。但受限於正負區域出現的次數一樣,

有多數的詞彙仍然無法分類。而「廣義知網中的雙極性詞彙」則完全無法處理,

因為沒有其它資料以利進一步的判定。

無論是「廣義知網中的雙極性詞彙」,或是「擴充過程中產生的雙極性詞彙」

都可以說成是正負類別的出現次數相同,因而沒有明顯的極性。如果可以找出新 的參考,在平手的情況下作關鍵性的投票,便能成功分類極性。本研究使用

NTUSD 做為關鍵性的一票,試圖處理兩種雙極性問題。至於一開始就沒有任何 極性標註的詞彙,例如之前已收錄但無法分類極性的那些,也可用 NTUSD 來幫 忙標註極性。以下分別討論。

「廣義知網中的雙極性詞彙」是指廣義知網將一個詞彙的 sentiment 欄位中的

positive、negative 屬性同時標註大於 0 的值。這種詞彙本身可能也有不只一種詞 性。分析所有「廣義知網中的雙極性詞彙」後發現廣義知網對此種詞彙極性的標 註是一致的。也就是就算有超過一種詞性,因而出現在多個分類,極性分數也會 相同。但根據觀察,僅限「廣義知網中的雙極性詞彙」有此特性。

另外 NTUSD 本身也具有內部的雙極性問題,因此必須先決定出一種極性才 能使用。將原始 NTUSD 兩部分的詞彙合併觀察,發現一個詞彙在 negative、positive 中最多出現 3 次,出現 3 次的詞彙直接以投票的方式決定極性。如表 17 中詞彙

「羨慕」將被判定為正向。出現 2 次的詞彙,可能有三種情形:於 positive 中出 現 2 次;於 negative 中出現 2 次;於 positive、negative 中各出現 1 次。前兩種狀 況中將直接給予詞彙明確的極性。如表中「歡天喜地」,將被判定為正向;「懼怕」

則為負向。「敏感的」由於兩邊的出現次數各一,因此無法判定。無法判定的詞 彙我們不給予極性,若前述過程中那些無法分類極性的詞彙,不巧剛好又是

NTUSD 這些無法判定的詞彙,則無法給定極性。剩餘出現 1 次的詞彙如「流行 的」,將維持原來 NTUSD 的極性判定。

表 17:節錄部份 NTUSD 詞彙之統計次數

若無,但如果在 NTUSD negative 中有出現該詞彙前面加上否定 詞如:「不」、「無」之情形。則取出「不」、「無」後面的詞彙,

定義為正向極性。

若無,則詞彙維持原先無法判定極性的結果。

圖 26:完全比對演算法

鑒於先前的過程中,很多「擴充過程中產生的雙極性詞彙」還是無法透過投 票方式得出結果。因此同樣以上述演算法處理,希望能分類詞彙的極性。

擴充過程中,常遇到某些類別的詞彙中沒有任何一筆有極性標註,例如類別

「laugh|笑」;或是投票的過程中,廣義知網對於極性的部分標註在正向、負向的 票數是相同的,例如類別「finish|完畢」。但這些詞彙同樣可能帶有極性,因此也 將它們透過演算法處理。類別型的辭彙和兩種雙極性詞彙間的不同之處在於:雙 極性詞彙只有自己一個;而類別型則是一整個區域。因此若能擴充,則整個區域 內的詞彙均產生極性標註。