• 沒有找到結果。

第四章 實驗設計與結果分析

4.4 評估擷取效果

之 macro average、weighted average 以及 accuracy。其中以下說明此三種擷取代 表句的方法。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4.4.1 亞馬遜

在以下的實驗中,以目標詞彙「亞馬遜」並根據表12 中 purity 值最優之分群模 型結果進行擷取代表句,並透過人工標記之標準答案進行評估。

其中根據表12 中 purity 值最優之分群模型結果為,使用 K-means 作為分群 模型並使用方法 2 設置起始點時,當分群數目為 10 時;使用 average word2vec 作為embedding 模型;Skip-gram 作為 embedding 架構;窗口大小設置為 50;相 關句維度設置為5。

其中表21 呈現 purity 最優之分群模型,透過方法 1 擷取代表句,同時依據 人工標記之標準答案計算正確率 macro average、weighted average 以及 accuracy 介於84.0%至 85.6%之間。此外總擷取代表句數量為 483 句,佔總於維基百科中 擷取出「亞馬遜」847 句相關句的 57.0%。

表22 呈現「亞馬遜」最優分群模型,透過方法2、方法3擷取代表句並依據 人工標記計算準確率。其中從有參考句之群集,擷取代表句並根據人工標記之標 準答案計算準確率,群集擷取代表句的數量範圍為[1, 101],以10為一區間。圖28 中縱軸代表各指標於不同擷取代表句數量下根據人工標記計算的值;橫軸表示平 均總擷取代表句數量。以下舉例說明,假設現有一分群模型於分群數目為6時表 現最佳,並且於此6個群集當中皆出現代表句,則對此6群集進行擷取代表句,假 設於每一個出現代表句之群集擷取5句代表句,則於此群集共擷取30(6*5)句代表 句,而假設於此參數下重複執行2次,第一次共擷取30句代表句,第二次,其中 一個群集未出現代表句,因此則擷取25(5*5)句代表句,因此對於此分群模型,於 有參考句之群集擷取5句代表句,平均總擷取代表句數量為27.5((30+25)/2)句代表 句。根據圖28實線可以觀察出,當平均總擷取代表句數量低時,方法2之指標的 準確率可以達90%上下,而隨著平均總擷取代表句數量逐漸變高時,指標的準確 率也逐漸趨向於方法1,亦即約略85%。

Macro average Macro average

標準差 Weighted average Weighted average 標準差

0.840 0.004 0.851 0.036

Accuracy Accuracy

標準差 總擷取代表句數量 總擷取代表句數量

標準差

0.856 0.031 483.0 35.364

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4.4.2 出入

在以下的實驗中,以目標詞彙「出入」,並根據表13 中 purity 值最優之分群模型 結果,進行擷取代表句,並透過人工標記之標準答案進行評估。

其中根據表13 中 purity 值最優之分群模型結果為,使用階層式分群作為分 群模型並 complete linkage,當分群數目為 10 時;使用 average word2vec 作為 embedding 模型;Skip-gram 作為 embedding 架構;窗口大小設置為 30;相關句 維度設置為5。其中表 23 呈現 purity 最優之分群模型,透過方法 1 擷取代表句,

同時依據人工標記之標準答案計算正確率,其中根據計算macro average、weighted average 以及 accuracy 可達 72%以上,此外平均總擷取代表句數量為 935.6 句,

佔總於維基百科中擷取出「出入」1,037 句相關句的 90.2%。

根據表24 圖 29 呈現「出入」最優分群模型,透過方法 2 和方法 3 擷取代 表句並依據人工標記計算準確率。其中從有參考句之群集,擷取代表句並根據人 工標記之標準答案計算準確率,群集擷取代表句的數量範圍為[1, 101],以 10 為 一區間。根據圖29 中實線當平均總擷取代表句數量低時擷取代表句效果卻較不 好,這也表示透過方法 2 亦即透過群集中心擷取代表句,距離中心越近的代表 句,並無法很好的表達該群集目標詞彙的義項,因此指標準確率較低,只有當平 均總擷取代表句數量逐漸變高時,其效果才能逐漸接近方法 1;根據圖 29 虛線 亦可觀察出當平均總擷取代表句數量逐漸變高時,其擷取正確率提高後逐漸呈現 穩定,這也意味距離參考句中心越近的代表句,並無法很好的表達該群集目標詞 彙的義項。而同時觀察圖29 實虛線時,可以觀察出當平均總擷取代表句數量逐 漸變高時,透過方法3 擷取代表句的 macro average、weighted average 以及 accuracy 對比同等平均總擷取代表句數量,方法2 有較高的正確率,這也表示對於「出入」

最優之分群模型結果擷取代表句,透過方法3 亦即透過群集中參考句中心距離擷 取代表句,會較方法2 有較好的表現。

Macro average Macro average

標準差 Weighted average Weighted average 標準差

0.722 0.050 0.777 0.051

Accuracy Accuracy

標準差 總擷取代表句數量 總擷取代表句數量

標準差

0.763 0.061 935.6 61.136

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖29 方法 2、方法 3 擷取代表句並算準確率(出入)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4.4.3 蘋果

而在以下的實驗中,以目標詞彙「蘋果」並根據表14 中 purity 值最優之分群模 型結果進行擷取代表句,並透過人工標記之標準答案進行評估。

其中根據表14 中 purity 值最優之分群模型結果為,使用 K-means 作為分群 模型並使用方法2 設置起始點時,當分群數目為 3 時;使用 average word2vec 作 為embedding 模型;Skip-gram 作為 embedding 架構;窗口大小設置為 50;相關 句維度設置為10。

其中表25 呈現 purity 最優之分群模型,透過方法 1 擷取代表句,同時依據 人工標記之標準答案計算正確率,其中根據計算macro average、weighted average 以及accuracy 達 90%左右,此外平均總擷取代表句數量為 4,367 句,總擷取代表 句數量標準差為0,佔總於維基百科中擷取出「蘋果」4,367 相關句的 100%,亦 即於相同參數值重複執行十次下,每一個群集皆有參考句,因此透過方法1 可以 將群集內的所有相關句作為代表句。

根據表26 圖30 呈現「蘋果」最優分群模型,透過方法2擷取代表句並依據 人工標記計算準確率,擷取代表句的數量範圍為[1, 101],以10為一區間。根據圖 30 實線當平均總擷取代表句數量低時擷取代表句效果十分準確,這也表示透過 方法2亦即透過群集中心擷取代表句,距離中心越近的代表句,可以很好的表達 該群集目標詞彙的義項,因此指標準確率高,而當平均總擷取代表句數量逐漸變 高時,其指標準確率逐漸下降,但是仍較方法1之準確率為高,因為透過方法2平 均總擷取數量最多只有303句,僅占方法1平均總擷取代表句數量為4,367句的 6.9%(303/4,367);而圖30 虛線呈現「蘋果」最優分群模型,透過方法3擷取代表 句並依據人工標記計算準確率,可以觀察出當平均總擷取代表句數量較低時指標 準確率不好,即意味著距離參考句中心越近的代表句,並無法很好的表達該群集 目標詞彙的義項,因此指標準確率較低,只有當平均總擷取代表句數量逐漸變高

Macro average Macro average

標準差 Weighted average Weighted average 標準差

0.871 0.001 0.900 0.001

Accuracy Accuracy

標準差 總擷取代表句數量 總擷取代表句數量

標準差

0.896 0.001 4367.0 0.000

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖30 方法 2、方法 3 擷取代表句並算準確率(蘋果)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4.4.4 出發

而在以下的實驗中,以目標詞彙「出發」並根據表15 中 purity 值最優之分群模 型結果進行擷取代表句,並透過人工標記之標準答案進行評估。

其中根據表 15 中 purity 值最優之分群模型結果為,使用 spectral clustering 作為分群模型,當分群數目為2 時;使用 average word2vec 作為 embedding 模型;

Skip-gram 作為 embedding 架構;窗口大小設置為 50;相關句維度設置為 5。

其中表27 呈現purity最優之分群模型,透過方法1擷取代表句,同時依據人 工標記之標準答案計算正確率,其中根據計算macro average、weighted average以 及accuracy。其中macro average準確率50.7%上下,同時macro average標準差10%

上下,意味著震盪幅度很大,而在accuracy來到80.7%。

而在人工標記標準答案中,目標詞彙「出發」二義項分布比例並不十分均勻,

其中「實際離開」之相關句佔總相關句81.6%;「從某方面著手」之相關句佔總 相關句18.4%。透過同時觀察表27 中macro average以及weighted average,可以發 現macro average以及weighted average差異有23.6%,而這也表示,無法僅使用語 境資訊將相關句進行embedding,便可透過分群模型有效區分「從某方面著手」

之相關句。最後,平均總擷取代表句數量為3,574句,佔總於維基百科中擷取出

「出發」3,574相關句的100%。

表28 圖 31 呈現「出發」最優分群模型,透過方法 2 擷取代表句並依據人 工標記計算準確率,擷取代表句的數量範圍為[1, 101],以 10 為一區間。根據圖 31 實線中當平均總擷取代表句數量低時擷取代表句效果十分準確,這也表示透 過方法2 亦即透過群集中心擷取代表句,距離中心越近的代表句,可以很好的表 達該群集目標詞彙的義項,因此指標準確率高,但是,當平均總擷取數量逐漸上 升時,透過指標可以得知,擷取的準確率驟然下降值至平穩。而圖31 虛線呈現

「出發」最優分群模型,透過方法3 擷取代表句並依據人工標記計算準確率,可

Macro average Macro average

標準差 Weighted average Weighted average 標準差

0.507 0.118 0.743 0.035

Accuracy Accuracy

標準差 總擷取代表句數量 總擷取代表句數量

標準差

0.807 0.007 3574.0 0.000

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖31 方法 2、方法 3 擷取代表句並算準確率(出發)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4.4.5 壓力

而在以下的實驗中,以目標詞彙「壓力」並根據表16 中 purity 值最優之分群模 型結果進行擷取代表句,並透過人工標記之標準答案進行評估。

其中根據表 16 中 purity 值最優之分群模型結果為,使用 spectral clustering 作為分群模型,當分群數目為8 時;使用 average word2vec 作為 embedding 模型;

Skip-gram 作為 embedding 架構;窗口大小設置為 20;相關句維度設置為 500。

其中表29 呈現purity最優之分群模型,透過方法1擷取代表句,同時依據人 工標記之標準答案計算正確率,其中根據計算macro average、weighted average以 及accuracy,其中macro average準確率40%上下,weighted average準確率51%上下,

而accuracy準確率65%上下。透過accuracy得知,並不能僅透過語境資訊以及分群 模型,便可很好的有效區分目標詞彙「壓力」於相關句中的的二義項。

而在人工標記標準答案中,目標詞彙「壓力」二義項分布比例並不十分勻稱,

其中「緊張不安的狀態」之相關句佔總相關句64.9%;「單位面積上所受之力」之 相關句佔總相關句 35.1%。透過同時觀察表 29 中 macro average 以及 weighted average,可以發現 macro average 以及 weighted average 差異有 12%,而這也表 示,無法僅使用語境資訊將相關句進行embedding,便可透過分群模型有效區分

「單位面積上所受之力」之相關句。最後,平均總擷取代表句數量為6,699.2 句,

「單位面積上所受之力」之相關句。最後,平均總擷取代表句數量為6,699.2 句,