• 沒有找到結果。

特徵集對推論關係分類之影響

5. 第五章 系統效能評估

5.2 機器學習式推論模型實驗

5.2.3 特徵集對推論關係分類之影響

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

54

5.2.3 特徵集對推論關係分類之影響

為了瞭解我們選取之特徵對推論關係判斷的效果,我們依據挑選出的特徵組合與分類演 算法,進行特徵抽除的實驗比較,透過抽除指定特徵前後的效能分析該特徵對推論關係 分類的影響。

由經驗法則式推論模型的建構開始,我們便以詞彙覆蓋比例做為計算推論關係的基 礎,並且由經驗法則式推論模型的效能觀察,我們認為詞彙覆蓋比例在判斷推論關係中 扮演一個相當重要的角色,因此接下來將針對詞彙覆蓋比例這項特徵在指定的分類演算 法與特徵組合中實驗其對推論能力的影響。圖 5.13 到圖 5.20 是各個測試語料使用上一 小節的特徵組合,將其中詞彙覆蓋比例特徵(特徵 E1 及 F1)抽除後的實驗結果,可以從 圖表中發現未使用詞彙覆蓋比例時,系統效能幾乎都呈現下滑的趨勢,僅有在 RTE-1 測 試語料中一組特徵組合移除詞彙覆蓋比例後呈現準確率略微提升的狀況,但我們認為分 類模型對 RTE 測試語料本身已經缺乏推論關係判斷的能力,對這樣非常微小的提升只 是語料中的例外狀況。透過實驗的結果,移除詞彙覆蓋比例都造成五到十個百分點的 Macro-F1 分數或準確率下跌,足以說明詞彙覆蓋比例在推論關係判斷上的重要性(詳細 的系統效能置於附錄 II)。

原特徵集 Macro-F1 68.12% 67.62% 70.85% 70.50% 71.50% 72.48%

未使用特徵F1 Macro-F1 67.03% 66.16% 66.92% 68.82% 68.84% 69.50%

原特徵集 Acc 68.89% 68.56% 71.44% 71.11% 71.89% 72.89%

未使用特徵F1 Acc 67.67% 66.89% 67.67% 69.56% 69.00% 69.67%

35.00%

原特徵集 Macro-F1 65.82% 65.58% 65.85% 66.15% 64.60% 64.10%

未使用特徵F1 Macro-F1 62.22% 62.15% 63.92% 63.47% 60.61% 60.03%

原特徵集 Acc 66.40% 66.29% 66.29% 66.52% 64.81% 64.36%

未使用詞彙覆蓋比例 Acc 62.43% 62.32% 64.13% 63.68% 60.61% 60.05%

35.00%

原特徵集 Macro-F1 70.60% 71.28% 69.03% 68.63% 71.58% 72.36%

未使用特徵F1 Macro-F1 65.95% 65.55% 58.19% 68.05% 67.67% 68.81%

原特徵集 Acc 76.41% 77.15% 75.43% 75.18% 77.64% 78.13%

特徵F1未使用 Acc 73.22% 73.22% 70.52% 74.94% 74.94% 75.18%

35.00%

原特徵集 Macro-F1 61.57% 62.20% 61.19% 61.45% 62.16% 62.05%

未使用特徵F1 Macro-F1 49.07% 50.41% 47.35% 59.55% 56.85% 56.90%

原特徵集 Acc 66.20% 66.58% 65.04% 65.43% 65.94% 65.81%

特徵F1未使用 Acc 58.39% 59.15% 57.75% 63.76% 62.36% 61.97%

35.00%

M13 M14 M15 M16 M17 M18

原特徵集 Macro-F1 64.33% 64.33% 64.18% 64.18% 64.23% 64.57%

未使用特徵E1 Macro-F1 60.75% 60.75% 41.20% 41.20% 62.80% 61.33%

原特徵集 Acc 72.17% 72.17% 72.23% 72.23% 71.83% 72.17%

未使用特徵E1 Acc 70.43% 70.43% 66.43% 66.43% 71.48% 70.43%

35.00%

M19 M20 M21 M22 M23 M24

原特徵集 Macro-F1 54.80% 54.12% 54.92% 54.13% 55.61% 54.75%

未使用特徵E1 Macro-F1 39.51% 43.77% 50.47% 50.02% 52.74% 53.19%

原特徵集 Acc 55.25% 54.75% 56.12% 55.00% 56.62% 55.12%

特徵E1未使用 Acc 47.62% 48.88% 50.62% 50.25% 55.75% 55.38%

35.00%

M19 M20 M21 M22 M23 M24

原特徵集 Macro-F1 57.09% 56.68% 56.18% 56.91% 57.91% 57.37%

未使用特徵E1 Macro-F1 40.41% 45.74% 50.12% 51.46% 56.42% 55.01%

原特徵集 Acc 57.63% 57.38% 56.50% 57.38% 58.25% 57.75%

特徵E1未使用 Acc 50.12% 51.88% 50.38% 51.62% 57.63% 56.88%

35.00%

M19 M20 M21 M22 M23 M24

原特徵集 Macro-F1 61.46% 59.43% 60.80% 61.03% 61.50% 61.96%

未使用特徵E1 Macro-F1 40.50% 44.10% 55.55% 56.33% 59.11% 58.58%

原特徵集 Acc 62.12% 60.25% 61.12% 61.62% 61.88% 62.25%

未使用特徵E1 Acc 50.75% 51.75% 55.62% 56.38% 60.00% 59.62%

35.00%

原特徵集 Macro-F1 68.12% 67.62% 70.85% 70.50% 71.50% 72.48%

未使用特徵F13 F14 Macro-F1 67.49% 67.44% 69.75% 70.18% 70.58% 70.58%

原特徵集 Acc 68.89% 68.56% 71.44% 71.11% 71.89% 72.89%

未使用特徵F13 F14 Acc 68.33% 68.33% 70.33% 70.78% 71.00% 71.00%

45.00%

原特徵集 Macro-F1 65.82% 65.58% 65.85% 66.15% 64.60% 64.10%

未使用特徵F13 F14 Macro-F1 64.99% 65.31% 66.28% 65.56% 65.02% 65.02%

原特徵集 Acc 66.40% 66.29% 66.29% 66.52% 64.81% 64.36%

未使用特徵F13 F14 Acc 66.06% 66.29% 66.86% 65.95% 65.38% 65.38%

45.00%

原特徵集 Macro-F1 70.60% 71.28% 69.03% 68.63% 71.58% 72.36%

未使用特徵F13 F14 Macro-F1 71.28% 71.28% 69.03% 68.63% 71.58% 68.71%

原特徵集 Acc 76.41% 77.15% 75.43% 75.18% 77.64% 78.13%

特徵F13 F14未使用 Acc 77.15% 77.15% 75.43% 75.18% 77.64% 75.68%

45.00%

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

61

圖 5.24 近義詞於推論關係分類之影響:RITE-2 簡體中文測試語料

M7 M8 M9 M10 M11 M12

原特徵集 Macro-F1 61.57% 62.20% 61.19% 61.45% 62.16% 62.05%

未使用特徵F13 F14 Macro-F1 62.20% 62.20% 61.19% 61.45% 62.16% 62.05%

原特徵集 Acc 66.20% 66.58% 65.04% 65.43% 65.94% 65.81%

特徵F13 F14未使用 Acc 66.58% 66.58% 65.04% 65.43% 65.94% 65.81%

45.00%

50.00%

55.00%

60.00%

65.00%

70.00%

75.00%

80.00%

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

62

在機器學習的方法中,我們嘗試加入較多的語法結構特徵訓練分類模型,期望可以 加強推論關係的判斷與系統效能,我們分別在中英文部分中加入剖析樹相似度、詞彙依 賴關係及 SVO 結構相似度(特徵 F8、F16、E9、E10 及 E11),接下來將由前面的特徵組 合抽除這些語法結構,觀察效能的變化。圖 5.25 到圖 5.32 顯示各種語料未使用語法特 徵時的效能比較,中文語料的圖表指出抽除語法結構特徵後,大部分的實驗組合都呈現 效能下降一個百分點的情況,少數的組合反而是效能提升的,這樣的現象和先前認為的 狀況一樣,是由於特徵組合之間的衝突而產生的差異,因此我們認為語法結構特徵在大 部分的情況中,對中文語句推論關係的判斷僅有微小的幫助。接著我們觀察英文語料抽 除語法結構特徵後的比較,MSR 語料鮮少使用語法結構特徵來判斷推論關係,因此效 能上幾乎沒有變化,僅有一組數據稍稍地提升,而 RTE 語料則有較多的組合在抽除語 法結構的特徵後,多組的系統效能下滑了一至兩個百分點,而在 RTE-1 測試語料的 M23 組合則是下降了近八個百分點,是當中較為顯著的差異。從這些現象可以看到語法結構 特徵對英文語料判斷推論關係是項重要的特徵,相較於中文語料,可以有更好的輔助效 果。

原特徵集 Macro-F1 68.12% 67.62% 70.85% 70.50% 71.50% 72.48%

未使用特徵F8 F16 Macro-F1 67.80% 67.62% 69.67% 70.11% 71.70% 71.32%

原特徵集 Acc 68.89% 68.56% 71.44% 71.11% 71.89% 72.89%

未使用特徵F8 F16 Acc 68.67% 68.56% 70.33% 70.78% 72.00% 71.67%

45.00%

原特徵集 Macro-F1 65.82% 65.58% 65.85% 66.15% 64.60% 64.10%

未使用特徵F8 F16 Macro-F1 65.92% 65.58% 66.70% 65.53% 64.51% 64.34%

原特徵集 Acc 66.40% 66.29% 66.29% 66.52% 64.81% 64.36%

未使用特徵F8 F16 Acc 66.63% 66.29% 67.31% 65.95% 64.81% 64.70%

45.00%

原特徵集 Macro-F1 70.60% 71.28% 69.03% 68.63% 71.58% 72.36%

未使用特徵F8 F16 Macro-F1 69.99% 69.20% 69.03% 69.03% 70.95% 69.25%

原特徵集 Acc 76.41% 77.15% 75.43% 75.18% 77.64% 78.13%

未使用語法特徵 Acc 75.92% 75.43% 75.43% 75.43% 77.15% 75.68%

45.00%

原特徵集 Macro-F1 61.57% 62.20% 61.19% 61.45% 62.16% 62.05%

未使用特徵F8 F16 Macro-F1 59.99% 60.45% 61.19% 61.19% 62.31% 62.03%

原特徵集 Acc 66.20% 66.58% 65.04% 65.43% 65.94% 65.81%

未使用語法特徵 Acc 65.17% 65.43% 65.04% 65.04% 65.81% 65.56%

45.00%

M13 M14 M15 M16 M17 M18

原特徵集 Macro-F1 64.33% 64.33% 64.18% 64.18% 64.23% 64.57%

未使用特徵E9 E10 E11

Macro-F1 64.18% 64.18% 64.18% 64.18% 64.43% 64.33%

原特徵集 Acc 72.17% 72.17% 72.23% 72.23% 71.83% 72.17%

未使用特徵F8 F16 Acc 72.23% 72.23% 72.23% 72.23% 72.17% 72.12%

40.00%

M19 M20 M21 M22 M23 M24

原特徵集 Macro-F1 54.80% 54.12% 54.92% 54.13% 55.61% 54.75%

未使用特徵E9 E10 E11

Macro-F1 52.87% 54.12% 54.05% 53.86% 48.84% 54.80%

原特徵集 Acc 55.25% 54.75% 56.12% 55.00% 56.62% 55.12%

未使用特徵F8 F16 Acc 54.37% 54.75% 55.50% 54.62% 54.62% 55.25%

35.00%

M19 M20 M21 M22 M23 M24

原特徵集 Macro-F1 57.09% 56.68% 56.18% 56.91% 57.91% 57.37%

未使用特徵E9 E10 E11

Macro-F1 55.35% 56.68% 56.06% 56.29% 57.16% 57.13%

原特徵集 Acc 57.63% 57.38% 56.50% 57.38% 58.25% 57.75%

未使用特徵E9 E10 E11 Acc 56.62% 57.38% 56.50% 56.75% 57.63% 57.50%

35.00%

M19 M20 M21 M22 M23 M24

原特徵集 Macro-F1 61.46% 59.43% 60.80% 61.03% 61.50% 61.96%

未使用特徵E9 E10 E11

Macro-F1 59.10% 59.43% 60.04% 61.17% 61.34% 61.86%

原特徵集 Acc 62.12% 60.25% 61.12% 61.62% 61.88% 62.25%

未使用語法結構 Acc 60.50% 60.25% 60.50% 61.75% 61.75% 62.12%

35.00%

本節說明我們在 NTCIR-10 RITE-2 競賽中的表現,我們採用經驗法則式與機器學習兩種 推論模型進行測試語料的判斷,並在經驗法則式推論模型中加入近義詞判定,觀察推論 使用近義詞的推論效能,期中 Y-Recall 大幅地增加,並且 Y-Precision 亦同樣的上升,這 樣的提升對否定的推論關係判斷影響並不大,使得我們的系統效能提升許多。最終我們

語言 Y-Precision Y-Recall N-Precision N-Recall Macro-F1 Acc 繁體 68.88% 67.01% 61.93% 63.93% 65.42% 65.61%

簡體 69.33% 65.88% 62.11% 65.74% 65.71% 65.81%

表 5.30 RITE-2 競賽結果(近義詞)

語言 Y-Precision Y-Recall N-Precision N-Recall Macro-F1 Acc 繁體 69.03% 73.07% 65.51% 60.95% 67.07% 67.54%

簡體 69.64% 73.93% 66.97% 62.12% 68.09% 68.50%