第四章 實驗結果與分析
第三節 模糊比對結果分析
第二部分所使用的資料文集已經除去在第一部分可以判定的詞彙,資料詳細 內容如下表 4-10:
表 4-10:第二部分使用的資料內容
詞彙項目 數量
1 個字的詞彙 54 個
2 個字的詞彙 528 個
3 個字的詞彙 49 個
4 個字以上的詞彙 144 個
第二部分所有詞彙 775 個
第一類 1 個字
在此使用第三章所述的 NTUSD 中所有 2 個字的詞頻,其規則為負向詞頻必 須大於正向詞頻 3 倍(不包括等於),才會被判定為負性極性詞彙,否則為正向極 性詞彙。
1 個字詞彙共 54 個,其中有 4 個為判定錯誤,有 2 個為無法判定極性,而在 被判定為正向極性的 12 個詞彙中有 3 個是被判定錯誤的;在被判定為負向的 40 個詞彙中有 1 個是判定錯誤的,如下表 4-11 和 4-12:
表 4-11:1 個字詞彙模糊比對過程
詞彙 正負比 極性(P/N) 正確/錯誤(O/X)
睡 1:0 Positive X
膩 1:1 Positive X
棒 1:1 Positive O
愛 29:3 Positive O
遜 1:3 Negative O
萌 0:0 --- ---
表 4-12:1 個字詞彙模糊比對結果分析
正確答案 分類結果
Positive Negative
Positive 9 3
Negative 1 39
使用此方法得到在第二部分所有 1 個字的 54 個詞彙中,正確率(Precision)為 92.30%,回收率(Recall)為 96.29%。所以在此方法中有效提高了回收率(Recall)不 足的問題。
第二類 2 個字
在 2 個字的詞彙共 528 個中,先針對開頭第一個字否定意義的詞彙像『不』、
『無』、『違』、『誤』、『勿』、『錯』,並分類到負向極性詞彙中,其中包含了『不 凡』、『不行』、『不及』、『無言』、『無奈』、『違和』、『誤導』、『錯過』等 21 個詞 彙,被判定錯誤的只有 1 個『不凡』。
其次對正向極性詞彙優先開始分類,而這些實驗的順序皆是以結果去決定的,
以省去多餘實驗步驟並維持正確率(Precision)。在此利用了 NTUSD 所統計出的 2 個字之正向詞頻,進行多次的實驗如下表 4-13 和 4-14,只要其中 1 個字出現在詞 彙中即被判定為正向極性,並從詞頻 6 次以上開始擷取,根據實驗結果往下修正。
表 4-13:2 個字詞彙正向擷取數目
詞頻數目 6 次以上 5 次以上 4 次以上 3 次以上 2 次以上 全部
詞彙數目 211 個 250 個 286 個 325 個 372 個 427 個
考慮到 2 個字的極性詞彙只有 507 個(扣除第一步後),並假設約有一半以上 詞彙為正向極性,所以決定正向極性詞頻數目取 2~4 次,分別為:372 個、325 個、286 個為正向極性詞彙資料集做實驗,接著扣除掉各種不同負向極性詞頻所 擷取出的詞彙後,計算各個的正確率(Precision)和回收率(Recall),結果如下表 4-14:
表 4-14:2 個字詞彙正向分類結果分析
表 4-15:優先使用負向分類結果
表 4-16:
表 4-16:2 個字詞彙負向分類結果分析
負向詞頻 正向詞頻
7 次以上 193 個 6 次以上 202 個 數目/錯誤/正確率(Precision) /回收率(Recall)
7 次以上 140/38
在此設定正確率(Precision)為 70%,取相對應最高的回收率(Recall)為 29.73%,
也就是取負向詞頻 6 次以上和正向詞頻 10 次以上的資料集『N6-P10』共有 157 個詞彙,並從上一步未分類詞彙中除去。
最後剩下 2 個字詞彙共 104 個,分別把正向字頻和負向字頻加總,負向字頻 總和必須為正向的 3 倍以上(不包括等於)才會被判定為負向集性詞彙,否則皆為 正向極性詞彙,分析過程和結果如下表 4-17 以及 4-18:
表 4-17:最後 2 個字詞彙比對過程
詞彙 正負比 極性(P/N) 正確/錯誤(O/X)
用心 47:38 Positive O
誇大 13:40 Negative O
自責 16:38 Positive X
迷人 17:53 Negative X
磅礡 0:0 --- ---
表 4-18:最後 2 個字詞彙結果分析
正確答案 分類結果
Positive Negative
Positive 30 17
Negative 16 28
在 97 個詞彙中有 6 個詞彙是無法分辨極性的,其正確率(Precision)為 63.73%,
回收率(Recall)為 93.81%。
表 4-19:第二部分 2 個字詞彙總整理結果分析 結果分析
詞彙數量
正確率(Precision) 回收率(Recall)
去除否定詞共 21 個 95.23% 3.97%
正向極性分類共 253 個 81.02% 47.91%
負向極性分類共 157 個 70.06% 29.73%
最後分類共 97 個 63.73% 17.23%
總評共 528 個 75.28% 98.86%
上表 4-19 表示在第二部分中 2 個字詞彙的最後結果,其正確率(Precision)為 75.28%以及回收率(Recall)為 98.86%。
第三類 3 個字
3 個字組成的詞彙總共 49 個,由第三章所描述的分成四個步驟進行分類,第 一步使用 3 個字種子詞彙進行模糊比對,在此步驟中比對出來的結果只有 1 個為
『不得了』,是由種子詞彙『了不得』所比對出來的。
第二步使用所有已分類出極性的 2 個字進行模糊比對,例如:『討人厭』由
『討厭』比對出結果、『傷害到』由『傷害』比對出、『喜歡上』由『喜歡』比對 出。
第三步利用否定詞進行分類,例如:『跟不上』、『受不了』、『不自覺』、『比 不過』共 12 個,其中 1 個分類錯誤為『不亞於』。
最後把未分類的詞彙去掉多餘字之後,進行正負字頻加總的分類,如下表 4-20 和表 4-21 為最後結果整理。
表 4-20:3 個字詞彙比對過程
詞彙 正負比 極性(P/N) 正確/錯誤(O/X)
創造(出) 7:7 Positive O
出風頭 8:44 Negative X
孩子氣 9:46 Negative O
人性化 22:54 Positive O
表 4-21:3 個字分類結果
正確答案 分類結果
Positive Negative
Positive 16 3
Negative 5 25
其中極性分類錯誤的有 8 個,全部 49 個皆可以分類,正確率(Precision)為 83.67%,回收率(Recall)為 100%。