• 沒有找到結果。

種子詞彙的擴充(同類別)的分析

第四章 實驗結果與分析

第二節 種子詞彙的擴充(同類別)的分析

前一節透過四個規則,利用中文的語法結構嘗試取出情緒詞彙。共找出 225 個不同的種子詞彙,其中包含明確的正向、負向、以及無法分類極性的種子詞彙。

接著便是將這 225 個種子詞彙透過廣義知網擴充做同類別的擴充。

進行擴充並對類別投票後,總共得到 2632 種不同的正向詞彙以及 1870 種不 同的負向詞彙,節錄部份於表 32、表 33 中。

表 32:節錄(同類別)擴充過程中得到的部份正向詞彙

以表 32 作說明:最左邊的欄位為原始的種子詞彙;中間欄位為類別的名稱;

最右側便是擴充過程中收錄的詞彙。本研究在擴充的當下對同一個類別的詞彙使 用簡單的投票,得出該類別的極性後,記錄於中間欄位中(如表 32 中,「important|

重要」為正向類別,記錄為(+)),以利後續的步驟使用。

擴充過程會遇到一些問題,以下逐一說明。首先若是類別欄位空白,則屬於 概念式為「一個義原以外」情形的詞彙,因此無法給予單一類別,例如表 32 中 的種子詞彙「稱職」。

本研究先對種子詞彙於類別的中的詞性做判定,才決定要不要納入擴充區域 中。以表 32 中的辭彙「好」為例,「好」在倒數 3 筆資料中的詞性分別是「Dfa:

副詞」、「Di:副詞」、「Cbca:連接詞」,並非形容詞或動詞類詞彙,因此不繼續 探討它有哪些擴充詞彙,所以在表 32 中加上刪除線。

若是有不同的種子詞彙卻對應到廣義知網中的同一個類別,則只取一次,不 會重複擴充。如表 33,種子詞彙「沈悶」和「悶」,同時都有屬於「stuffy|悶」的 部份,但「stuffy|悶」已於「沈悶」中擴充過,因此「悶」將只取「LowVoice|低 聲」這個類別的詞彙做擴充,而在「stuffy|悶」相對應欄位加上刪除線。

由四個規則定義出的種子詞彙極性,不見得和擴充後相同。例如表 33 的「討 好」。「討好」於規則(三)中是屬於正向的「Vt:動作類及物動詞」,但擴充後 的「please|取悅」卻是屬於負向的類別,因此「討好」將被定義為負向詞彙。

某些類別由於部分極性標註的正負向票數相同、或是類別中沒有任何一筆極

表 35:簡易的投票法試圖解決(同類別)中「擴充過程中產生的雙極性詞彙」

表 36:種子詞彙的擴充(同類別)的分析結果

總數 擷取數目 正確數目 正確率(Precision) 回收率(Recall)

1 個字詞彙 68 27 26 96.30% 38.24%

2 個字詞彙 708 268 256 95.52% 36.16%

3 個字詞彙 54 10 10 100% 18.52%

成語或諺語 150 39 37 94.87% 24.67%

總計 980 344 329 95.64% 33.57%

由此可以看出:觀察人們慣用的語法習慣,找出規則後,並擷取可能的種子 詞彙。接著透過廣義知網作擴充,利用對類別中的詞彙投票以決定整體極性是可 行的;同時也能找出電影領域中的情緒詞彙,並得到很好的正確率。

不過在所有 980 個測試詞彙中,卻只有 33.57%的部份被擷取出來。應用廣 義知網擴充的過程中,我們發現僅使用種子詞彙的類別是遠遠不夠的。不光是電 影領域的詞彙,還有很多具有極性、且是生活中常用的詞彙藏在某些角落。接著 改成使用同階層方式繼續擴充,希望能找出更多有意義的情緒詞彙。