第四章 實驗結果與分析
第三節 種子詞彙的擴充(同階層)的分析
此節重新將由規則找出的 225 個種子詞彙,透過廣義知網擴充。差別是這次 將擷取種子詞彙所在類別中,所有同階層類別的詞彙以提昇擴充詞彙量。經過整 理,共得到了 5012 種不同的正向詞彙以及 4217 種不同的負向詞彙。
同階層的擴充中時常會一次性的找出多個類別,這些類別不見得具有相同的 極性。找出幾個較有代表性的種子詞彙,以正負的結果分類,列於表 37、表 38 中。
看到表 37 下方的三個類別「creative|有創意」、「consistent|有條理」、「disciplined|
有紀律」。它們是透過「uninventive|無創意」、「inconsistent|沒條理」、「undisciplined|
無紀律」而得到正面、正面、正面的極性。這是由於利用了否定詞:若是有撇開 否定詞「無」、「不」、「沒」後名稱前增加「有」的類別,則只要其中一種有極性,
便可以藉由取相反的方式得出另一個類別的極性。
再看到表 38,從規則(一)中擷取的種子詞彙「俗」。「俗」屬於「vulgar|俗」
的類別。經由同階層的擴充擷取和「vulgar|俗」同樣高度的類別,並在過程中針 對各自類別的詞彙投票以決定極性,最後納入擴充詞彙。依此法擴充得到「couth|
脫俗」屬於正向類別、「vulgar|俗」屬於負向類別、而表 39 中同屬原始種子詞彙
「俗」的類別「uncouth|土氣」、「habit|習慣」則無法分類。類別欄位的*,代表種 子詞彙所在的類別;否則為透過階層的方式額外增加的類別;另外原始種子的數字
則是代表由種子詞彙找出的不同類別編號。
表 37:節錄(同階層)擴充過程中得到的部份正向詞彙
原始種子 類別 擴充過程中得到的辭彙
重要1 *important|重要 (+)
主要性,非同小可,要緊,重大,重要,茲事體大,
深巨,深鉅,軸心,精要,緊要,樞機,歷史性,
舉足輕重,關鍵性,顯要,切要,關鍵,根本,
重量級 拖沓 consistent|有條
理 (+)
一板一眼,有條有理,條理井然,層次分明
中規中矩 disciplined|有紀 律
重要2 Unimportant|不 重要 緊湊2 OutOfTheWay| 幽,偏遠,偏僻,僻,僻遠,僻靜,隱僻,隱癖,
(-)
一樣記錄下擴充過程中新發現的「廣義知網中的雙極性詞彙」後擱置一旁,
利用上述方法新增 10 個詞彙,現在共有 4960 種正向詞彙與 4165 種負向詞 彙。收錄的詞彙量增加,將可能對極性產生影響。所以重新將這些詞彙和測試資 料中的 980 個詞彙比對;而非以上一節的基礎繼續往上進行比對。結果呈現於下 表 41。
表 41:種子詞彙的擴充(同階層)的分析結果
總數 擷取數目 正確數目 正確率(precision) 回收率(recall)
1 個字詞彙 68 44 42 95.45% 61.76%
2 個字詞彙 708 392 371 94.64% 52.40%
3 個字詞彙 54 15 15 100% 27.78%
成語或諺語 150 61 59 96.72% 39.33%
總計 980 512 487 95.12% 49.69%
回收率相較於前一節的結果,從 33.57%提升至 49.69%,也就是 980 個測試 詞彙中共取出了 487 個;正確率則因為擴充詞彙量的增加而稍有下降,從 95.64%
降低為 95.12%。因此透過廣義知網,進一步由選取種子詞彙所在的類別,提升至 選取種子詞彙所在階層的所有類別,並透過類別成員間的投票以決定整體極性是 可行的。不過 49.69%的回收率代表還有一半左右的極性詞彙依然無法被擷取出 來。下一節將不再透過句法規則找出的 225 個種子詞彙作擴充,而是改成使用
NTUSD 舊版經過斷詞系統處理的新種子詞彙。本研究的目的是找出電影評論中 的情感詞彙。如果能直接透過情緒詞詞典作擴充,那應該會更精確、更有效率。