• 沒有找到結果。

引入 NTUSD 做斷詞並擴充的分析

第四章 實驗結果與分析

第四節 引入 NTUSD 做斷詞並擴充的分析

進入第二部分後,不再使用人工標記的 980 個詞彙做為測試資料;而是除去 第一部份可以判定的 512 個詞彙,使用剩下的 468 個詞彙。不使用表 41 中扣除

487 個正確數目的詞彙後,剩下的 493 個詞彙的原因是:錯誤判定的 25 個詞彙在 廣義知網中只出現在單一類別,這代表就算使用新的種子詞彙擴充,也頂多得到 一樣的結果,無助於提升正確率。為提升效率,在此將選擇使用 468 個詞彙。新 的資料列於表 42。

表 42:第二部份的測試資料

新的實驗資料 數量 部分範例

1 個字 24 爽、假、扯

2 個字 316 期待、無言、珍藏、賁張、敗筆

3 個字 39 出風頭、老油條、跳脫出

成語或諺語 89 千篇一律、一氣呵成、意猶未盡、急轉直下 總計 468

在「第三章 第六節 利用 NTUSD 的擴充」中,我們將 NTUSD positive、NTUSD

negative 兩份語料透過斷詞系統做詞性分析,接著分別統計、並整理所有詞性為

「形容詞」、「動詞」的詞彙。其中 NTUSD positive 共可找出 1270 種不同詞彙;

NTUSD negative 共可找出 3743 種不同詞彙。由於還沒有要利用 NTUSD 內的極 性資訊來做判定,僅僅是將斷詞後的結果作為新的種子詞彙,因此暫時把 NTUSD

內橫跨兩區域詞彙的問題擱置一旁。

為了做有效率的擴充,於是將 NTUSD 兩部份合併,發現共有 293 個詞彙橫 跨不同區域。接著和「種子詞彙的擴充(同階層)的分析結果」比較,去除已經 擷取過的詞彙。主要目的是避免重覆擴充,並希望發掘以前尚未找出的詞彙。

最後一共得出 3055 個不同詞彙。列出部分於下表 43 中。可以發現包含各種 面向,並不限於電影領域才較常見的詞彙;且字數不同,從一個字到常用的兩個 字詞彙、甚至是成語部分均有節錄。但不變的是它們的詞性絕對不會有超出「形 容詞類」或是「動詞類」的可能。

表 43:NTUSD 部分節錄的詞彙

蹩腳 警惕 隱密 嚇壞 學進去

確定 銀根緊 滿載而歸 過多 痴心

嫌貧愛富 虛張聲勢 晴朗 透明 淪為

專制 逃避 料 苦 拜託

將 3055 個詞彙做為新的種子詞彙,直接透過廣義知網,以同階層的方式擴 充。共得到 6105 種不同的正向詞彙以及 6394 種不同的負向詞彙。在原來的種子 詞彙中負向詞彙是正向詞彙數量的 3 倍,但擴充後差距卻大幅縮小。這是由於很 多廣義知網的類別,以相反概念的方式出現其中。例如種子詞彙「倒楣」,經過 同階層的擴充後可以得到 2 個正向類別「fortunate|好運」、「auspicious|吉祥」;2 個負向類別「misfortunate|倒楣」、「inauspicious|不祥」,如圖 30 所示。

圖 30:詞彙「倒楣」透過階層式的擴充得到的類別

透過四個規則找出的種子詞彙數量相當少,只有 225 個,卻能擴充出 5012 個正向詞彙以及 4217 個負向詞彙;NTUSD 部分用了 3055 個種子詞彙,卻只發 掘 6105 個正向詞彙以及 6394 個負向詞彙。我們認為這是由於種子詞彙的兩種擴 充法中,已經找出相當多的『大』類別:例如由規則(一)找出的種子詞彙「喜 歡」,透過同階層的方式擴充後,可以一次得到「FondOf|喜歡」、「PayAttention|

注意」、「respect|敬佩」、「loyal|忠孝」、「admire|羨慕」、「grateful|感激」、「agree|同 意」、「ThinkOf|思念」共 8 個不同類別,包含 176 個不同詞彙。因此 NTUSD 部 分只能找出剩餘較細節的詞彙。不過其中還是不乏相當具有極性意義的詞彙。如 表 44,由新的種子詞彙「縮減」,所得到的擴充詞彙。

表 44:「縮減」的相關擴充

表 45:透過 NTUSD 找出的種子詞彙「轟動一時」擴充後的情形

原始種子 類別 擴充過程中得到的辭彙

轟動一時 (+) 人逢喜事精神爽

轟動一時 亢奮

轟動一時 (-) 血氣方剛

轟動一時 急進

轟動一時 為之動容

轟動一時 (+) 動容

轟動一時 悲喜交加

轟動一時 悲喜交集

轟動一時 (-) 歇斯底里 轟動一時 (-) 過激 轟動一時 (-) 煽情 轟動一時 (+) 臉紅

轟動一時 臉紅耳赤

轟動一時 * 轟動一時

轟動一時 (-) 憤激

圖 31:「人逢喜事精神爽」在廣義知網中的資訊

圖 32:「轟動一時」在廣義知網中的資訊

擴充完成後,一樣用一個簡單的投票法解決「擴充過程中產生的雙極性詞 彙」。共發現 107 個詞彙橫跨正向與負向,其中 20 個成功透過投票法分類,節錄 於下表 46 中。其中一個字的詞彙佔了大多數,一個字的詞彙往往有多種用法和 不同的意義,除非像「好」、「錯」等具有明顯極性的詞彙。雖然經由投票的方式 可以強制給予極性,但是實際的情緒詞彙還是必須由同類別的概念顯現之。

表 46:20 個成功分類的「擴充過程中產生的雙極性詞彙」

擴充後得到的詞彙 出現次數 正向次數 負向次數 結論

斂 3 1 2 負

辦 4 1 3 負

此處共找出 233 種詞彙,回收率有 45.94%,也就是說大約找出一半;還有 另外一半找不出來。這與第三節種子詞彙的擴充(同階層)的結果大致相似。這 三部份(第四章第二節、第四章第三節、第四章第四節)均是利用種子詞彙,並 以廣義知網作擴充。決定詞彙極性的方式三者皆同,唯一不同的地方只在於擴充 找出的詞彙種類、數量不同,因此合併一起討論錯誤判斷的原因。主要有以下兩 種可能:

1. 我們認為廣義知網中的詞彙極性,是比較偏向一般性的用法,因此將有 較好的泛用性。但若是用於特定領域,例如本論文所探討的電影領域,則會有一 些問題。例如下表 48 中的詞彙,皆是電影領域中的正向詞彙。但事實上如果不 是討論電影領域,這些詞彙會直覺的給人一種負面的概念;在廣義知網的投票方 式中,也是得出類似的結果。

表 48:電影領域中的正向詞彙

衝動 訝異 恐怖 衝突 驚呼

激烈 意想不到 複雜 眩目

2. 擴充時產生的錯誤。本研究對一個詞彙的極性定義方式為:透過類別內 成員間投票,由多數決決定整體的極性。廣義知網的分類方式,是把有相同或類 似概念的詞彙放入一個類別中。但是概念相似的辭彙不一定代表具有相同極性,

所以擴充時會產生錯誤,與人工標註的極性不同。例如下表 49 中的詞彙,均有

此特性。

表 49:概念相似,但極性卻與同類別中多數成員不同的詞彙

笑(-) 驚人(-) 微妙(+) 奇幻(-) 熱淚盈眶(-) 訝異(-) 僥倖(+) 批評(+) 操縱(+) 睽違(-) 不羈(+) 出風頭(-) 一板一眼(+) 廉價(+) 酥麻(-)

挑出表 49 中有代表性的詞彙「睽違」做說明。「睽違」出現在「farewell|離 別」類別,如圖 33。分析此類別中的成員,正向詞彙有:「惜別」;負向辭彙有:

「分手」、「分離」、「別離」、「拜別」、「揮別」,因此「farewell|離別」將被判定為 負向類別。但實際上在這個類別中,正向與負向詞彙均有出現,且詞彙的概念的 確都和「farewell|離別」有一些關係。

圖 33:類別「farewell|離別」

接下來將不再擴充新的詞彙,因為我們認為就算繼續找新的種子詞彙做擴 充,正確率和回收率應該也是類似的情形;此外有不少詞彙是之前擴充過程中曾 經擷取,但卻無法分類極性的辭彙。因此下一節將嘗試處理這些詞彙。