第四章 實驗設計與結果分析
4.4 評估擷取效果
之 macro average、weighted average 以及 accuracy。其中以下說明此三種擷取代 表句的方法。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
4.4.1 亞馬遜
在以下的實驗中,以目標詞彙「亞馬遜」並根據表12 中 purity 值最優之分群模 型結果進行擷取代表句,並透過人工標記之標準答案進行評估。
其中根據表12 中 purity 值最優之分群模型結果為,使用 K-means 作為分群 模型並使用方法 2 設置起始點時,當分群數目為 10 時;使用 average word2vec 作為embedding 模型;Skip-gram 作為 embedding 架構;窗口大小設置為 50;相 關句維度設置為5。
其中表21 呈現 purity 最優之分群模型,透過方法 1 擷取代表句,同時依據 人工標記之標準答案計算正確率 macro average、weighted average 以及 accuracy 介於84.0%至 85.6%之間。此外總擷取代表句數量為 483 句,佔總於維基百科中 擷取出「亞馬遜」847 句相關句的 57.0%。
表22 呈現「亞馬遜」最優分群模型,透過方法2、方法3擷取代表句並依據 人工標記計算準確率。其中從有參考句之群集,擷取代表句並根據人工標記之標 準答案計算準確率,群集擷取代表句的數量範圍為[1, 101],以10為一區間。圖28 中縱軸代表各指標於不同擷取代表句數量下根據人工標記計算的值;橫軸表示平 均總擷取代表句數量。以下舉例說明,假設現有一分群模型於分群數目為6時表 現最佳,並且於此6個群集當中皆出現代表句,則對此6群集進行擷取代表句,假 設於每一個出現代表句之群集擷取5句代表句,則於此群集共擷取30(6*5)句代表 句,而假設於此參數下重複執行2次,第一次共擷取30句代表句,第二次,其中 一個群集未出現代表句,因此則擷取25(5*5)句代表句,因此對於此分群模型,於 有參考句之群集擷取5句代表句,平均總擷取代表句數量為27.5((30+25)/2)句代表 句。根據圖28實線可以觀察出,當平均總擷取代表句數量低時,方法2之指標的 準確率可以達90%上下,而隨著平均總擷取代表句數量逐漸變高時,指標的準確 率也逐漸趨向於方法1,亦即約略85%。
‧
Macro average Macro average
標準差 Weighted average Weighted average 標準差
0.840 0.004 0.851 0.036
Accuracy Accuracy
標準差 總擷取代表句數量 總擷取代表句數量
標準差
0.856 0.031 483.0 35.364
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
4.4.2 出入
在以下的實驗中,以目標詞彙「出入」,並根據表13 中 purity 值最優之分群模型 結果,進行擷取代表句,並透過人工標記之標準答案進行評估。
其中根據表13 中 purity 值最優之分群模型結果為,使用階層式分群作為分 群模型並 complete linkage,當分群數目為 10 時;使用 average word2vec 作為 embedding 模型;Skip-gram 作為 embedding 架構;窗口大小設置為 30;相關句 維度設置為5。其中表 23 呈現 purity 最優之分群模型,透過方法 1 擷取代表句,
同時依據人工標記之標準答案計算正確率,其中根據計算macro average、weighted average 以及 accuracy 可達 72%以上,此外平均總擷取代表句數量為 935.6 句,
佔總於維基百科中擷取出「出入」1,037 句相關句的 90.2%。
根據表24 圖 29 呈現「出入」最優分群模型,透過方法 2 和方法 3 擷取代 表句並依據人工標記計算準確率。其中從有參考句之群集,擷取代表句並根據人 工標記之標準答案計算準確率,群集擷取代表句的數量範圍為[1, 101],以 10 為 一區間。根據圖29 中實線當平均總擷取代表句數量低時擷取代表句效果卻較不 好,這也表示透過方法 2 亦即透過群集中心擷取代表句,距離中心越近的代表 句,並無法很好的表達該群集目標詞彙的義項,因此指標準確率較低,只有當平 均總擷取代表句數量逐漸變高時,其效果才能逐漸接近方法 1;根據圖 29 虛線 亦可觀察出當平均總擷取代表句數量逐漸變高時,其擷取正確率提高後逐漸呈現 穩定,這也意味距離參考句中心越近的代表句,並無法很好的表達該群集目標詞 彙的義項。而同時觀察圖29 實虛線時,可以觀察出當平均總擷取代表句數量逐 漸變高時,透過方法3 擷取代表句的 macro average、weighted average 以及 accuracy 對比同等平均總擷取代表句數量,方法2 有較高的正確率,這也表示對於「出入」
最優之分群模型結果擷取代表句,透過方法3 亦即透過群集中參考句中心距離擷 取代表句,會較方法2 有較好的表現。
‧
Macro average Macro average
標準差 Weighted average Weighted average 標準差
0.722 0.050 0.777 0.051
Accuracy Accuracy
標準差 總擷取代表句數量 總擷取代表句數量
標準差
0.763 0.061 935.6 61.136
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖29 方法 2、方法 3 擷取代表句並算準確率(出入)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
4.4.3 蘋果
而在以下的實驗中,以目標詞彙「蘋果」並根據表14 中 purity 值最優之分群模 型結果進行擷取代表句,並透過人工標記之標準答案進行評估。
其中根據表14 中 purity 值最優之分群模型結果為,使用 K-means 作為分群 模型並使用方法2 設置起始點時,當分群數目為 3 時;使用 average word2vec 作 為embedding 模型;Skip-gram 作為 embedding 架構;窗口大小設置為 50;相關 句維度設置為10。
其中表25 呈現 purity 最優之分群模型,透過方法 1 擷取代表句,同時依據 人工標記之標準答案計算正確率,其中根據計算macro average、weighted average 以及accuracy 達 90%左右,此外平均總擷取代表句數量為 4,367 句,總擷取代表 句數量標準差為0,佔總於維基百科中擷取出「蘋果」4,367 相關句的 100%,亦 即於相同參數值重複執行十次下,每一個群集皆有參考句,因此透過方法1 可以 將群集內的所有相關句作為代表句。
根據表26 圖30 呈現「蘋果」最優分群模型,透過方法2擷取代表句並依據 人工標記計算準確率,擷取代表句的數量範圍為[1, 101],以10為一區間。根據圖 30 實線當平均總擷取代表句數量低時擷取代表句效果十分準確,這也表示透過 方法2亦即透過群集中心擷取代表句,距離中心越近的代表句,可以很好的表達 該群集目標詞彙的義項,因此指標準確率高,而當平均總擷取代表句數量逐漸變 高時,其指標準確率逐漸下降,但是仍較方法1之準確率為高,因為透過方法2平 均總擷取數量最多只有303句,僅占方法1平均總擷取代表句數量為4,367句的 6.9%(303/4,367);而圖30 虛線呈現「蘋果」最優分群模型,透過方法3擷取代表 句並依據人工標記計算準確率,可以觀察出當平均總擷取代表句數量較低時指標 準確率不好,即意味著距離參考句中心越近的代表句,並無法很好的表達該群集 目標詞彙的義項,因此指標準確率較低,只有當平均總擷取代表句數量逐漸變高
‧
Macro average Macro average
標準差 Weighted average Weighted average 標準差
0.871 0.001 0.900 0.001
Accuracy Accuracy
標準差 總擷取代表句數量 總擷取代表句數量
標準差
0.896 0.001 4367.0 0.000
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖30 方法 2、方法 3 擷取代表句並算準確率(蘋果)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
4.4.4 出發
而在以下的實驗中,以目標詞彙「出發」並根據表15 中 purity 值最優之分群模 型結果進行擷取代表句,並透過人工標記之標準答案進行評估。
其中根據表 15 中 purity 值最優之分群模型結果為,使用 spectral clustering 作為分群模型,當分群數目為2 時;使用 average word2vec 作為 embedding 模型;
Skip-gram 作為 embedding 架構;窗口大小設置為 50;相關句維度設置為 5。
其中表27 呈現purity最優之分群模型,透過方法1擷取代表句,同時依據人 工標記之標準答案計算正確率,其中根據計算macro average、weighted average以 及accuracy。其中macro average準確率50.7%上下,同時macro average標準差10%
上下,意味著震盪幅度很大,而在accuracy來到80.7%。
而在人工標記標準答案中,目標詞彙「出發」二義項分布比例並不十分均勻,
其中「實際離開」之相關句佔總相關句81.6%;「從某方面著手」之相關句佔總 相關句18.4%。透過同時觀察表27 中macro average以及weighted average,可以發 現macro average以及weighted average差異有23.6%,而這也表示,無法僅使用語 境資訊將相關句進行embedding,便可透過分群模型有效區分「從某方面著手」
之相關句。最後,平均總擷取代表句數量為3,574句,佔總於維基百科中擷取出
「出發」3,574相關句的100%。
表28 圖 31 呈現「出發」最優分群模型,透過方法 2 擷取代表句並依據人 工標記計算準確率,擷取代表句的數量範圍為[1, 101],以 10 為一區間。根據圖 31 實線中當平均總擷取代表句數量低時擷取代表句效果十分準確,這也表示透 過方法2 亦即透過群集中心擷取代表句,距離中心越近的代表句,可以很好的表 達該群集目標詞彙的義項,因此指標準確率高,但是,當平均總擷取數量逐漸上 升時,透過指標可以得知,擷取的準確率驟然下降值至平穩。而圖31 虛線呈現
「出發」最優分群模型,透過方法3 擷取代表句並依據人工標記計算準確率,可
‧
Macro average Macro average
標準差 Weighted average Weighted average 標準差
0.507 0.118 0.743 0.035
Accuracy Accuracy
標準差 總擷取代表句數量 總擷取代表句數量
標準差
0.807 0.007 3574.0 0.000
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖31 方法 2、方法 3 擷取代表句並算準確率(出發)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
4.4.5 壓力
而在以下的實驗中,以目標詞彙「壓力」並根據表16 中 purity 值最優之分群模 型結果進行擷取代表句,並透過人工標記之標準答案進行評估。
其中根據表 16 中 purity 值最優之分群模型結果為,使用 spectral clustering 作為分群模型,當分群數目為8 時;使用 average word2vec 作為 embedding 模型;
Skip-gram 作為 embedding 架構;窗口大小設置為 20;相關句維度設置為 500。
其中表29 呈現purity最優之分群模型,透過方法1擷取代表句,同時依據人 工標記之標準答案計算正確率,其中根據計算macro average、weighted average以 及accuracy,其中macro average準確率40%上下,weighted average準確率51%上下,
而accuracy準確率65%上下。透過accuracy得知,並不能僅透過語境資訊以及分群 模型,便可很好的有效區分目標詞彙「壓力」於相關句中的的二義項。
而在人工標記標準答案中,目標詞彙「壓力」二義項分布比例並不十分勻稱,
其中「緊張不安的狀態」之相關句佔總相關句64.9%;「單位面積上所受之力」之 相關句佔總相關句 35.1%。透過同時觀察表 29 中 macro average 以及 weighted average,可以發現 macro average 以及 weighted average 差異有 12%,而這也表 示,無法僅使用語境資訊將相關句進行embedding,便可透過分群模型有效區分
「單位面積上所受之力」之相關句。最後,平均總擷取代表句數量為6,699.2 句,
「單位面積上所受之力」之相關句。最後,平均總擷取代表句數量為6,699.2 句,