雙極性問題、已收錄但無法分類極性的詞彙問題

第三章研究方法

第七節雙極性問題、已收錄但無法分類極性的詞彙問題

截至目前為止，共發現了兩種雙極性詞彙，分別是「廣義知網中的雙極性詞彙」、「擴充過程中產生的雙極性詞彙」。後者利用統計的方式，計算同一個詞彙於正負類別中的出現次數，嘗試分類極性。但受限於正負區域出現的次數一樣，

有多數的詞彙仍然無法分類。而「廣義知網中的雙極性詞彙」則完全無法處理，

因為沒有其它資料以利進一步的判定。

無論是「廣義知網中的雙極性詞彙」，或是「擴充過程中產生的雙極性詞彙」

都可以說成是正負類別的出現次數相同，因而沒有明顯的極性。如果可以找出新的參考，在平手的情況下作關鍵性的投票，便能成功分類極性。本研究使用

NTUSD 做為關鍵性的一票，試圖處理兩種雙極性問題。至於一開始就沒有任何極性標註的詞彙，例如之前已收錄但無法分類極性的那些，也可用 NTUSD 來幫忙標註極性。以下分別討論。

「廣義知網中的雙極性詞彙」是指廣義知網將一個詞彙的 sentiment 欄位中的

positive、negative 屬性同時標註大於 0 的值。這種詞彙本身可能也有不只一種詞性。分析所有「廣義知網中的雙極性詞彙」後發現廣義知網對此種詞彙極性的標註是一致的。也就是就算有超過一種詞性，因而出現在多個分類，極性分數也會相同。但根據觀察，僅限「廣義知網中的雙極性詞彙」有此特性。

另外 NTUSD 本身也具有內部的雙極性問題，因此必須先決定出一種極性才能使用。將原始 NTUSD 兩部分的詞彙合併觀察，發現一個詞彙在 negative、positive 中最多出現 3 次，出現 3 次的詞彙直接以投票的方式決定極性。如表 17 中詞彙

「羨慕」將被判定為正向。出現 2 次的詞彙，可能有三種情形：於 positive 中出現 2 次；於 negative 中出現 2 次；於 positive、negative 中各出現 1 次。前兩種狀況中將直接給予詞彙明確的極性。如表中「歡天喜地」，將被判定為正向；「懼怕」

則為負向。「敏感的」由於兩邊的出現次數各一，因此無法判定。無法判定的詞彙我們不給予極性，若前述過程中那些無法分類極性的詞彙，不巧剛好又是

NTUSD 這些無法判定的詞彙，則無法給定極性。剩餘出現 1 次的詞彙如「流行的」，將維持原來 NTUSD 的極性判定。

表 17：節錄部份 NTUSD 詞彙之統計次數

若無，但如果在 NTUSD negative 中有出現該詞彙前面加上否定詞如：「不」、「無」之情形。則取出「不」、「無」後面的詞彙，

定義為正向極性。

若無，則詞彙維持原先無法判定極性的結果。

圖 26：完全比對演算法

鑒於先前的過程中，很多「擴充過程中產生的雙極性詞彙」還是無法透過投票方式得出結果。因此同樣以上述演算法處理，希望能分類詞彙的極性。

擴充過程中，常遇到某些類別的詞彙中沒有任何一筆有極性標註，例如類別

「laugh|笑」；或是投票的過程中，廣義知網對於極性的部分標註在正向、負向的票數是相同的，例如類別「finish|完畢」。但這些詞彙同樣可能帶有極性，因此也將它們透過演算法處理。類別型的辭彙和兩種雙極性詞彙間的不同之處在於：雙極性詞彙只有自己一個；而類別型則是一整個區域。因此若能擴充，則整個區域內的詞彙均產生極性標註。

在文檔中使用廣義知網於情感詞彙之極性分析研究 (頁 54-57)

第三章 研究方法

第七節 雙極性問題、已收錄但無法分類極性的詞彙問題

第三章研究方法

第七節雙極性問題、已收錄但無法分類極性的詞彙問題