• 沒有找到結果。

擴充種子詞彙的結果分析

第四章 實驗結果與分析

第二節 擴充種子詞彙的結果分析

此步驟是透過教育部所提供的線上詞典進行同義詞反義詞的擴充,如同第三 章所提到的方法,進行擴充之後就針對會造成矛盾的詞進行下一層的分析。

造成矛盾的內容除了跨極性區塊的重複詞共 6 個之外,還有具有相反意義的 詞彙同時出現在同一個極性區塊中,例如:『簡單』、『複雜』、『普通』同時出現 在正向極性詞彙,這就會造成種子詞彙進行擴充時產生更多錯誤。

在此階段根據結果,先定義兩個 1 個字的單詞極性:『強』為正向極性和『弱』

為負向極性,是因為教育部詞典對於 1 個字的詞彙不會有同義反義詞註解。

為了解決 2 個字以上有矛盾的部分,定義規則如下:『經過種子擴充並建立 每個詞彙同義詞反義詞之關連性之後,在原本擴充前且互相具有關聯的詞彙中,

而產生矛盾情形的個數』,在此設定上述定義若有 2 個以上矛盾詞彙,則就會變 更原始詞彙的極性。

例如:『普通』為原始的正向極性詞彙,而在經過擴充並建立關連之後,找 到同義詞有『平凡』為負向極性,反義詞有『突出』為正向極性,而『平凡』和

『突出』這 2 個詞彙造成了原始詞彙『普通』的極性矛盾,這就是關聯度等於 2 的矛盾極性,所以會把『普通』變更為負向極性詞彙。而『普通』、『平凡』、『突

由上述規則更動有關極性的詞彙共有 10 個,對應之極性及相關例句如表 4-7 所示:

表 4-7:根據關聯度變更極性的詞彙

詞彙 極性(P/N) 相關例句

簡單 Negative 簡單到不行的剪接

複雜 Positive 不會太過複雜的劇情

普通 Negative 覺得普通不算太好

容易 Negative 也太容易被暗殺掉

悲涼 Negative 場景都顯得蠻悲涼的

歡樂 Positive 動作歡樂爽片

高興 Positive 我感到很高興

沉悶 Negative 整個劇情太沉悶

舒暢 Positive 看完心情舒暢爽朗

爽朗 Positive 看完心情舒暢爽朗

在更動極性這個步驟中,雖然改變的極性數量不多,但是就結果看來準確率 是夠高的,而關聯度設定為 2 是因為抓到的詞彙不夠多,並沒有符合關聯度大於 等於 3 的矛盾詞彙出現。不過當資料集夠大時,也不應該過度的使用此方法去調 整所擷取出來的種子詞彙,因為透過這個方法會讓原先判斷極性的詞彙失去在各

自領域中的獨特性,例如:『緊張』、『刺激』等詞彙,透過此步驟之後變成負向 極性的機會就提高很多,這樣就失去了原先使用這個方法的初衷,找不出各自領 域中獨特的極性詞彙,導致極性詞彙越來越接近大眾普遍使用的方式。

最後完成擴充的極性詞彙共有 741 個,其中正向極性詞彙有 410 個,負向極 性詞彙有 331 個,在全部詞彙 980 個中,比對出 205 個詞彙,1 個字的詞彙有 14 個、2 個字的詞彙有 180 個、3 個字的詞彙有 5 個、4 個字的詞彙有 6 個。

在 205 個詞彙中,誤判的極性詞彙有 18 個,其中 1 個字詞彙有 2 個,剩下 皆是 2 個字的詞彙共 16 個,如下表 4-8:

而跨雙極性的詞彙剩下 4 個詞彙分別是:『假』、『驚喜』、『沉重』、『出乎意 料』會放在第二部分進行分析。

表 4-8:第一部分種子極性詞彙誤判結果

廣泛 嚴重 邪惡 血腥

任性 好奇 俏皮 風趣

幽默 善良 悲慘 犯法

心疼 充足 輕鬆 從容

糟 俗

表 4-9:第一部分種子極性判定之結果分析

擷取數目 總數 正確率(Precision) 回收率(Recall)

1 個字詞彙 14 68 85.71% 20.58%

2 個字詞彙 180 708 91.11% 25.42%

3 個字詞彙 5 54 100% 9.25%

4 個字以上詞彙 6 150 100% 4.00%

總和 205 980 91.21% 20.91%

由上表 4-9 可以清楚看出,由人們慣用的語法習慣所定義出來的規則,用於 判斷正負向極性詞彙是可行的,同時也能精確的選出各個領域中較獨特的極性詞 彙,但是在所有的極性詞彙中,被擷取出來比例卻只占了 20%,也就是大多數的 極性詞彙都不適用這些語法規則,為了解決回收率(Recall)的問題,在此進行了第 二部分的極性分類。

相關文件