引入 NTUSD 做斷詞並擴充的分析

第四章實驗結果與分析

第四節引入 NTUSD 做斷詞並擴充的分析

進入第二部分後，不再使用人工標記的 980 個詞彙做為測試資料；而是除去第一部份可以判定的 512 個詞彙，使用剩下的 468 個詞彙。不使用表 41 中扣除

487 個正確數目的詞彙後，剩下的 493 個詞彙的原因是：錯誤判定的 25 個詞彙在廣義知網中只出現在單一類別，這代表就算使用新的種子詞彙擴充，也頂多得到一樣的結果，無助於提升正確率。為提升效率，在此將選擇使用 468 個詞彙。新的資料列於表 42。

表 42：第二部份的測試資料

新的實驗資料 數量 部分範例

1 個字 24 爽、假、扯

2 個字 316 期待、無言、珍藏、賁張、敗筆

3 個字 39 出風頭、老油條、跳脫出

成語或諺語 89 千篇一律、一氣呵成、意猶未盡、急轉直下總計 468

在「第三章第六節利用 NTUSD 的擴充」中，我們將 NTUSD positive、NTUSD

negative 兩份語料透過斷詞系統做詞性分析，接著分別統計、並整理所有詞性為

「形容詞」、「動詞」的詞彙。其中 NTUSD positive 共可找出 1270 種不同詞彙；

NTUSD negative 共可找出 3743 種不同詞彙。由於還沒有要利用 NTUSD 內的極性資訊來做判定，僅僅是將斷詞後的結果作為新的種子詞彙，因此暫時把 NTUSD

內橫跨兩區域詞彙的問題擱置一旁。

為了做有效率的擴充，於是將 NTUSD 兩部份合併，發現共有 293 個詞彙橫跨不同區域。接著和「種子詞彙的擴充（同階層）的分析結果」比較，去除已經擷取過的詞彙。主要目的是避免重覆擴充，並希望發掘以前尚未找出的詞彙。

最後一共得出 3055 個不同詞彙。列出部分於下表 43 中。可以發現包含各種面向，並不限於電影領域才較常見的詞彙；且字數不同，從一個字到常用的兩個字詞彙、甚至是成語部分均有節錄。但不變的是它們的詞性絕對不會有超出「形容詞類」或是「動詞類」的可能。

表 43：NTUSD 部分節錄的詞彙

蹩腳警惕隱密嚇壞學進去

確定銀根緊滿載而歸過多痴心

嫌貧愛富虛張聲勢晴朗透明淪為

專制逃避料苦拜託

將 3055 個詞彙做為新的種子詞彙，直接透過廣義知網，以同階層的方式擴充。共得到 6105 種不同的正向詞彙以及 6394 種不同的負向詞彙。在原來的種子詞彙中負向詞彙是正向詞彙數量的 3 倍，但擴充後差距卻大幅縮小。這是由於很多廣義知網的類別，以相反概念的方式出現其中。例如種子詞彙「倒楣」，經過同階層的擴充後可以得到 2 個正向類別「fortunate|好運」、「auspicious|吉祥」；2 個負向類別「misfortunate|倒楣」、「inauspicious|不祥」，如圖 30 所示。

圖 30：詞彙「倒楣」透過階層式的擴充得到的類別

透過四個規則找出的種子詞彙數量相當少，只有 225 個，卻能擴充出 5012 個正向詞彙以及 4217 個負向詞彙；NTUSD 部分用了 3055 個種子詞彙，卻只發掘 6105 個正向詞彙以及 6394 個負向詞彙。我們認為這是由於種子詞彙的兩種擴充法中，已經找出相當多的『大』類別：例如由規則（一）找出的種子詞彙「喜歡」，透過同階層的方式擴充後，可以一次得到「FondOf|喜歡」、「PayAttention|

表 44：「縮減」的相關擴充

表 45：透過 NTUSD 找出的種子詞彙「轟動一時」擴充後的情形

原始種子 類別 擴充過程中得到的辭彙

轟動一時 (+) 人逢喜事精神爽

轟動一時亢奮

轟動一時 (-) 血氣方剛

轟動一時急進

轟動一時為之動容

轟動一時 (+) 動容

轟動一時悲喜交加

轟動一時悲喜交集

轟動一時 (-) 歇斯底里轟動一時 (-) 過激轟動一時 (-) 煽情轟動一時 (+) 臉紅

轟動一時臉紅耳赤

轟動一時 * 轟動一時

轟動一時 (-) 憤激

圖 31：「人逢喜事精神爽」在廣義知網中的資訊

圖 32：「轟動一時」在廣義知網中的資訊

擴充完成後，一樣用一個簡單的投票法解決「擴充過程中產生的雙極性詞彙」。共發現 107 個詞彙橫跨正向與負向，其中 20 個成功透過投票法分類，節錄於下表 46 中。其中一個字的詞彙佔了大多數，一個字的詞彙往往有多種用法和不同的意義，除非像「好」、「錯」等具有明顯極性的詞彙。雖然經由投票的方式可以強制給予極性，但是實際的情緒詞彙還是必須由同類別的概念顯現之。

表 46：20 個成功分類的「擴充過程中產生的雙極性詞彙」

擴充後得到的詞彙 出現次數 正向次數 負向次數 結論

斂 3 1 2 負

辦 4 1 3 負

此處共找出 233 種詞彙，回收率有 45.94％，也就是說大約找出一半；還有另外一半找不出來。這與第三節種子詞彙的擴充（同階層）的結果大致相似。這三部份（第四章第二節、第四章第三節、第四章第四節）均是利用種子詞彙，並以廣義知網作擴充。決定詞彙極性的方式三者皆同，唯一不同的地方只在於擴充找出的詞彙種類、數量不同，因此合併一起討論錯誤判斷的原因。主要有以下兩種可能：

1. 我們認為廣義知網中的詞彙極性，是比較偏向一般性的用法，因此將有較好的泛用性。但若是用於特定領域，例如本論文所探討的電影領域，則會有一些問題。例如下表 48 中的詞彙，皆是電影領域中的正向詞彙。但事實上如果不是討論電影領域，這些詞彙會直覺的給人一種負面的概念；在廣義知網的投票方式中，也是得出類似的結果。

表 48：電影領域中的正向詞彙

衝動訝異恐怖衝突驚呼

激烈意想不到複雜眩目

2. 擴充時產生的錯誤。本研究對一個詞彙的極性定義方式為：透過類別內成員間投票，由多數決決定整體的極性。廣義知網的分類方式，是把有相同或類似概念的詞彙放入一個類別中。但是概念相似的辭彙不一定代表具有相同極性，

所以擴充時會產生錯誤，與人工標註的極性不同。例如下表 49 中的詞彙，均有

此特性。

表 49：概念相似，但極性卻與同類別中多數成員不同的詞彙

笑(-) 驚人(-) 微妙(+) 奇幻(-) 熱淚盈眶(-) 訝異(-) 僥倖(+) 批評(+) 操縱(+) 睽違(-) 不羈(+) 出風頭(-) 一板一眼(+) 廉價(+) 酥麻(-)

挑出表 49 中有代表性的詞彙「睽違」做說明。「睽違」出現在「farewell|離別」類別，如圖 33。分析此類別中的成員，正向詞彙有：「惜別」；負向辭彙有：

「分手」、「分離」、「別離」、「拜別」、「揮別」，因此「farewell|離別」將被判定為負向類別。但實際上在這個類別中，正向與負向詞彙均有出現，且詞彙的概念的確都和「farewell|離別」有一些關係。

圖 33：類別「farewell|離別」

接下來將不再擴充新的詞彙，因為我們認為就算繼續找新的種子詞彙做擴充，正確率和回收率應該也是類似的情形；此外有不少詞彙是之前擴充過程中曾經擷取，但卻無法分類極性的辭彙。因此下一節將嘗試處理這些詞彙。

在文檔中使用廣義知網於情感詞彙之極性分析研究 (頁 81-90)

第四章 實驗結果與分析

第四節 引入 NTUSD 做斷詞並擴充的分析

第四章實驗結果與分析

第四節引入 NTUSD 做斷詞並擴充的分析