評估擷取效果 - 實驗設計與結果分析 - 基於語境特徵及分群模型之中文多義詞消歧

第四章實驗設計與結果分析

4.4 評估擷取效果

之 macro average、weighted average 以及 accuracy。其中以下說明此三種擷取代表句的方法。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

4.4.1 亞馬遜

在以下的實驗中，以目標詞彙「亞馬遜」並根據表12 中 purity 值最優之分群模型結果進行擷取代表句，並透過人工標記之標準答案進行評估。

其中根據表12 中 purity 值最優之分群模型結果為，使用 K-means 作為分群模型並使用方法 2 設置起始點時，當分群數目為 10 時；使用 average word2vec 作為embedding 模型；Skip-gram 作為 embedding 架構；窗口大小設置為 50；相關句維度設置為5。

其中表21 呈現 purity 最優之分群模型，透過方法 1 擷取代表句，同時依據人工標記之標準答案計算正確率 macro average、weighted average 以及 accuracy 介於84.0%至 85.6%之間。此外總擷取代表句數量為 483 句，佔總於維基百科中擷取出「亞馬遜」847 句相關句的 57.0%。

表22 呈現「亞馬遜」最優分群模型，透過方法2、方法3擷取代表句並依據人工標記計算準確率。其中從有參考句之群集，擷取代表句並根據人工標記之標準答案計算準確率，群集擷取代表句的數量範圍為[1, 101]，以10為一區間。圖28 中縱軸代表各指標於不同擷取代表句數量下根據人工標記計算的值；橫軸表示平均總擷取代表句數量。以下舉例說明，假設現有一分群模型於分群數目為6時表現最佳，並且於此6個群集當中皆出現代表句，則對此6群集進行擷取代表句，假設於每一個出現代表句之群集擷取5句代表句，則於此群集共擷取30(6*5)句代表句，而假設於此參數下重複執行2次，第一次共擷取30句代表句，第二次，其中一個群集未出現代表句，因此則擷取25(5*5)句代表句，因此對於此分群模型，於有參考句之群集擷取5句代表句，平均總擷取代表句數量為27.5((30+25)/2)句代表句。根據圖28實線可以觀察出，當平均總擷取代表句數量低時，方法2之指標的準確率可以達90%上下，而隨著平均總擷取代表句數量逐漸變高時，指標的準確率也逐漸趨向於方法1，亦即約略85%。

‧

Macro average Macro average

標準差 Weighted average Weighted average 標準差

0.840 0.004 0.851 0.036

Accuracy Accuracy

標準差總擷取代表句數量總擷取代表句數量

標準差

0.856 0.031 483.0 35.364

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

4.4.2 出入

在以下的實驗中，以目標詞彙「出入」，並根據表13 中 purity 值最優之分群模型結果，進行擷取代表句，並透過人工標記之標準答案進行評估。

其中根據表13 中 purity 值最優之分群模型結果為，使用階層式分群作為分群模型並 complete linkage，當分群數目為 10 時；使用 average word2vec 作為 embedding 模型；Skip-gram 作為 embedding 架構；窗口大小設置為 30；相關句維度設置為5。其中表 23 呈現 purity 最優之分群模型，透過方法 1 擷取代表句，

同時依據人工標記之標準答案計算正確率，其中根據計算macro average、weighted average 以及 accuracy 可達 72%以上，此外平均總擷取代表句數量為 935.6 句，

佔總於維基百科中擷取出「出入」1,037 句相關句的 90.2%。

根據表24 圖 29 呈現「出入」最優分群模型，透過方法 2 和方法 3 擷取代表句並依據人工標記計算準確率。其中從有參考句之群集，擷取代表句並根據人工標記之標準答案計算準確率，群集擷取代表句的數量範圍為[1, 101]，以 10 為一區間。根據圖29 中實線當平均總擷取代表句數量低時擷取代表句效果卻較不好，這也表示透過方法 2 亦即透過群集中心擷取代表句，距離中心越近的代表句，並無法很好的表達該群集目標詞彙的義項，因此指標準確率較低，只有當平均總擷取代表句數量逐漸變高時，其效果才能逐漸接近方法 1；根據圖 29 虛線亦可觀察出當平均總擷取代表句數量逐漸變高時，其擷取正確率提高後逐漸呈現穩定，這也意味距離參考句中心越近的代表句，並無法很好的表達該群集目標詞彙的義項。而同時觀察圖29 實虛線時，可以觀察出當平均總擷取代表句數量逐漸變高時，透過方法3 擷取代表句的 macro average、weighted average 以及 accuracy 對比同等平均總擷取代表句數量，方法2 有較高的正確率，這也表示對於「出入」

最優之分群模型結果擷取代表句，透過方法3 亦即透過群集中參考句中心距離擷取代表句，會較方法2 有較好的表現。

‧

Macro average Macro average

標準差 Weighted average Weighted average 標準差

0.722 0.050 0.777 0.051

Accuracy Accuracy

標準差總擷取代表句數量總擷取代表句數量

標準差

0.763 0.061 935.6 61.136

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖29 方法 2、方法 3 擷取代表句並算準確率(出入)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

4.4.3 蘋果

而在以下的實驗中，以目標詞彙「蘋果」並根據表14 中 purity 值最優之分群模型結果進行擷取代表句，並透過人工標記之標準答案進行評估。

其中根據表14 中 purity 值最優之分群模型結果為，使用 K-means 作為分群模型並使用方法2 設置起始點時，當分群數目為 3 時；使用 average word2vec 作為embedding 模型；Skip-gram 作為 embedding 架構；窗口大小設置為 50；相關句維度設置為10。

其中表25 呈現 purity 最優之分群模型，透過方法 1 擷取代表句，同時依據人工標記之標準答案計算正確率，其中根據計算macro average、weighted average 以及accuracy 達 90%左右，此外平均總擷取代表句數量為 4,367 句，總擷取代表句數量標準差為0，佔總於維基百科中擷取出「蘋果」4,367 相關句的 100%，亦即於相同參數值重複執行十次下，每一個群集皆有參考句，因此透過方法1 可以將群集內的所有相關句作為代表句。

根據表26 圖30 呈現「蘋果」最優分群模型，透過方法2擷取代表句並依據人工標記計算準確率，擷取代表句的數量範圍為[1, 101]，以10為一區間。根據圖 30 實線當平均總擷取代表句數量低時擷取代表句效果十分準確，這也表示透過方法2亦即透過群集中心擷取代表句，距離中心越近的代表句，可以很好的表達該群集目標詞彙的義項，因此指標準確率高，而當平均總擷取代表句數量逐漸變高時，其指標準確率逐漸下降，但是仍較方法1之準確率為高，因為透過方法2平均總擷取數量最多只有303句，僅占方法1平均總擷取代表句數量為4,367句的 6.9%(303/4,367)；而圖30 虛線呈現「蘋果」最優分群模型，透過方法3擷取代表句並依據人工標記計算準確率，可以觀察出當平均總擷取代表句數量較低時指標準確率不好，即意味著距離參考句中心越近的代表句，並無法很好的表達該群集目標詞彙的義項，因此指標準確率較低，只有當平均總擷取代表句數量逐漸變高

‧

Macro average Macro average

標準差 Weighted average Weighted average 標準差

0.871 0.001 0.900 0.001

Accuracy Accuracy

標準差總擷取代表句數量總擷取代表句數量

標準差

0.896 0.001 4367.0 0.000

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖30 方法 2、方法 3 擷取代表句並算準確率(蘋果)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

4.4.4 出發

而在以下的實驗中，以目標詞彙「出發」並根據表15 中 purity 值最優之分群模型結果進行擷取代表句，並透過人工標記之標準答案進行評估。

其中根據表 15 中 purity 值最優之分群模型結果為，使用 spectral clustering 作為分群模型，當分群數目為2 時；使用 average word2vec 作為 embedding 模型；

Skip-gram 作為 embedding 架構；窗口大小設置為 50；相關句維度設置為 5。

其中表27 呈現purity最優之分群模型，透過方法1擷取代表句，同時依據人工標記之標準答案計算正確率，其中根據計算macro average、weighted average以及accuracy。其中macro average準確率50.7%上下，同時macro average標準差10%

上下，意味著震盪幅度很大，而在accuracy來到80.7%。

而在人工標記標準答案中，目標詞彙「出發」二義項分布比例並不十分均勻，

其中「實際離開」之相關句佔總相關句81.6%；「從某方面著手」之相關句佔總相關句18.4%。透過同時觀察表27 中macro average以及weighted average，可以發現macro average以及weighted average差異有23.6%，而這也表示，無法僅使用語境資訊將相關句進行embedding，便可透過分群模型有效區分「從某方面著手」

之相關句。最後，平均總擷取代表句數量為3,574句，佔總於維基百科中擷取出

「出發」3,574相關句的100%。

表28 圖 31 呈現「出發」最優分群模型，透過方法 2 擷取代表句並依據人工標記計算準確率，擷取代表句的數量範圍為[1, 101]，以 10 為一區間。根據圖 31 實線中當平均總擷取代表句數量低時擷取代表句效果十分準確，這也表示透過方法2 亦即透過群集中心擷取代表句，距離中心越近的代表句，可以很好的表達該群集目標詞彙的義項，因此指標準確率高，但是，當平均總擷取數量逐漸上升時，透過指標可以得知，擷取的準確率驟然下降值至平穩。而圖31 虛線呈現

「出發」最優分群模型，透過方法3 擷取代表句並依據人工標記計算準確率，可

‧

Macro average Macro average

標準差 Weighted average Weighted average 標準差

0.507 0.118 0.743 0.035

Accuracy Accuracy

標準差總擷取代表句數量總擷取代表句數量

標準差

0.807 0.007 3574.0 0.000

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖31 方法 2、方法 3 擷取代表句並算準確率(出發)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

4.4.5 壓力

而在以下的實驗中，以目標詞彙「壓力」並根據表16 中 purity 值最優之分群模型結果進行擷取代表句，並透過人工標記之標準答案進行評估。

其中根據表 16 中 purity 值最優之分群模型結果為，使用 spectral clustering 作為分群模型，當分群數目為8 時；使用 average word2vec 作為 embedding 模型；

Skip-gram 作為 embedding 架構；窗口大小設置為 20；相關句維度設置為 500。

其中表29 呈現purity最優之分群模型，透過方法1擷取代表句，同時依據人工標記之標準答案計算正確率，其中根據計算macro average、weighted average以及accuracy，其中macro average準確率40%上下，weighted average準確率51%上下，

而accuracy準確率65%上下。透過accuracy得知，並不能僅透過語境資訊以及分群模型，便可很好的有效區分目標詞彙「壓力」於相關句中的的二義項。

而在人工標記標準答案中，目標詞彙「壓力」二義項分布比例並不十分勻稱，

其中「緊張不安的狀態」之相關句佔總相關句64.9%；「單位面積上所受之力」之相關句佔總相關句 35.1%。透過同時觀察表 29 中 macro average 以及 weighted average，可以發現 macro average 以及 weighted average 差異有 12%，而這也表示，無法僅使用語境資訊將相關句進行embedding，便可透過分群模型有效區分

「單位面積上所受之力」之相關句。最後，平均總擷取代表句數量為6,699.2 句，

在文檔中基於語境特徵及分群模型之中文多義詞消歧 - 政大學術集成 (頁 95-123)

評估擷取效果

第四章 實驗設計與結果分析

4.4 評估擷取效果

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第四章實驗設計與結果分析

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學