• 沒有找到結果。

種子詞彙的擴充(同階層)的分析

第四章 實驗結果與分析

第三節 種子詞彙的擴充(同階層)的分析

此節重新將由規則找出的 225 個種子詞彙,透過廣義知網擴充。差別是這次 將擷取種子詞彙所在類別中,所有同階層類別的詞彙以提昇擴充詞彙量。經過整 理,共得到了 5012 種不同的正向詞彙以及 4217 種不同的負向詞彙。

同階層的擴充中時常會一次性的找出多個類別,這些類別不見得具有相同的 極性。找出幾個較有代表性的種子詞彙,以正負的結果分類,列於表 37、表 38 中。

看到表 37 下方的三個類別「creative|有創意」、「consistent|有條理」、「disciplined|

有紀律」。它們是透過「uninventive|無創意」、「inconsistent|沒條理」、「undisciplined|

無紀律」而得到正面、正面、正面的極性。這是由於利用了否定詞:若是有撇開 否定詞「無」、「不」、「沒」後名稱前增加「有」的類別,則只要其中一種有極性,

便可以藉由取相反的方式得出另一個類別的極性。

再看到表 38,從規則(一)中擷取的種子詞彙「俗」。「俗」屬於「vulgar|俗」

的類別。經由同階層的擴充擷取和「vulgar|俗」同樣高度的類別,並在過程中針 對各自類別的詞彙投票以決定極性,最後納入擴充詞彙。依此法擴充得到「couth|

脫俗」屬於正向類別、「vulgar|俗」屬於負向類別、而表 39 中同屬原始種子詞彙

「俗」的類別「uncouth|土氣」、「habit|習慣」則無法分類。類別欄位的*,代表種 子詞彙所在的類別;否則為透過階層的方式額外增加的類別;另外原始種子的數字

則是代表由種子詞彙找出的不同類別編號。

表 37:節錄(同階層)擴充過程中得到的部份正向詞彙

原始種子 類別 擴充過程中得到的辭彙

重要1 *important|重要 (+)

主要性,非同小可,要緊,重大,重要,茲事體大,

深巨,深鉅,軸心,精要,緊要,樞機,歷史性,

舉足輕重,關鍵性,顯要,切要,關鍵,根本,

重量級 拖沓 consistent|有條

理 (+)

一板一眼,有條有理,條理井然,層次分明

中規中矩 disciplined|有紀 律

重要2 Unimportant|不 重要 緊湊2 OutOfTheWay| 幽,偏遠,偏僻,僻,僻遠,僻靜,隱僻,隱癖,

(-)

一樣記錄下擴充過程中新發現的「廣義知網中的雙極性詞彙」後擱置一旁,

利用上述方法新增 10 個詞彙,現在共有 4960 種正向詞彙與 4165 種負向詞 彙。收錄的詞彙量增加,將可能對極性產生影響。所以重新將這些詞彙和測試資 料中的 980 個詞彙比對;而非以上一節的基礎繼續往上進行比對。結果呈現於下 表 41。

表 41:種子詞彙的擴充(同階層)的分析結果

總數 擷取數目 正確數目 正確率(precision) 回收率(recall)

1 個字詞彙 68 44 42 95.45% 61.76%

2 個字詞彙 708 392 371 94.64% 52.40%

3 個字詞彙 54 15 15 100% 27.78%

成語或諺語 150 61 59 96.72% 39.33%

總計 980 512 487 95.12% 49.69%

回收率相較於前一節的結果,從 33.57%提升至 49.69%,也就是 980 個測試 詞彙中共取出了 487 個;正確率則因為擴充詞彙量的增加而稍有下降,從 95.64%

降低為 95.12%。因此透過廣義知網,進一步由選取種子詞彙所在的類別,提升至 選取種子詞彙所在階層的所有類別,並透過類別成員間的投票以決定整體極性是 可行的。不過 49.69%的回收率代表還有一半左右的極性詞彙依然無法被擷取出 來。下一節將不再透過句法規則找出的 225 個種子詞彙作擴充,而是改成使用

NTUSD 舊版經過斷詞系統處理的新種子詞彙。本研究的目的是找出電影評論中 的情感詞彙。如果能直接透過情緒詞詞典作擴充,那應該會更精確、更有效率。