• 沒有找到結果。

人類解釋機制與模型之異同

4.3 在 SNLI 資料集之適應性

4.4.1 人類解釋機制與模型之異同

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

我們隨機取樣了 100 %,10 %,1 % 和 0.1 % 的原始樣本數,並以 5 組不同 的 random seed 進行訓練。最終我們在 549 筆、5493 筆、54936 筆和 54.9367 萬筆樣本上共有兩種訓練方法的各五個結果。從【表 4-12】中可以看到在完整 的 SNLI 中,加入語義現象分類後的效能比單一自然語言推理高出 0.3,隨著 資料集樣本及效能減小,兩者的差距加大為 0.5,2.0 及 4.1,足見在其他自然 語言推理任務上,加入語義現象分類任務的知識,對主要任務有一定程度的幫 助。在效能差異顯著性分析上,我們同樣採用 McNemar 檢定進行計算,在取 樣樣本為 100 % 時,t = 6.43, p < 0.05,在取樣樣本為 10 % 時,t = 21.82, p <

0.05,在取樣樣本為 1 % 時,t = 7.40 , p < 0.05,在取樣樣本為 0.1 % 時,t = 131.65, p < 0.05。

4.4 人類認知與模型可解釋性

本節首先說明了請多位標註者進行 3.5.1 之注意力區間標註,並評估其解釋性 之結果。其後說明 3.5.4 以各個方式所擷取之區間,以競賽形式評估受測者之 解釋方式及對模型信任度之實驗。

4.4.1 人類解釋機制與模型之異同

本段將說明我們從 MTurk 取得標註資料之評估結果。在 90 份的標註任 務中(HIT),共有 13 位標註了 2 份 HIT ,因此我們除了原先標註的專家資 料外,共有來自於 77 位群眾標註者對於蘊含關係判斷解釋方式之資料。

在進行資料的蒐集時,我們發現標註者的思維模式有著明顯的差異,以下 為兩筆資料,來自 77 位中不同的 4 位標註者所標註的內容:

"I'm not ruling out staying active in causes and issues but at this point I'm looking for a new line of work" Blagojevich said. "I'm trying to pursue a way to earn a living and do some interesting things. This is a chance to do something new and entertaining." Blagojevich first compared himself to Arnold Schwarzenegger whom he described as "my favorite governor" — well now that he's no longer governor of Illinois. "(I'm pursuing) the reverse career path of Arnold's" he said.

Later in explaining his desire to join "I'm A Celebrity" he also invoked the 26th president of the United States Theodore Roosevelt.

Hypothesis: Blagojevich is the ex-governor of Illinois.

Relation: entailment

Annotator 1: Blagojevich first compared himself to Arnold Schwarzenegger whom he described as "my favorite governor" — well now that he's no longer governor of Illinois

Annotator 2: I'm trying to pursue a way to earn a living and do some interesting things

Annotator 3: Blagojevich first compared himself to Arnold Schwarzenegger whom he described as "my favorite governor" — well now that he's no longer governor of Illinois.

Annotator 4: This is a chance to do something new and entertaining."

Blagojevich first compared himself to Arnold Schwarzenegger whom he described as "my favorite governor

The alleged mastermind behind the London bombings was reported captured in Cairo, Egypt last week. Police believe that a U.S. trained chemist Magdi Asdi

Nashar, 33 helped build the bombs that killed over 50 people. Mr.

el-Nashar, who has a PhD from Leeds University, left England two weeks before the bo-mbings. After the London bombings British authorities initiated a worldwide manhunt that found him in Cairo. State security officials reported they have begun questioning el-Nashar with British agents in attendance.

Hypothesis: Cairo is situated in Egypt.

Relation: entailment Annotator 1: Cairo, Egypt

Annotator 2: The alleged mastermind behind the London bombings was reported captured in Cairo Egypt last week

Annotator 3: The alleged mastermind behind the London bombings was reported captured in Cairo Egypt last week.

Annotator 4: reported captured in Cairo Egypt last week.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

從上例我們可以發現,標註者 1 試圖用簡單兩個字來推論 Cairo 和 Egypt 之 間的關係,而標註者 3, 4 則偏向選取能夠包含較多情境資訊的完整句子。而標 註者 4 則選取介於兩者長度之間的區間,但是四位標註者都有包含到 Cairo Egypt 這個能夠決定兩者關係的關鍵資訊。

以下我們將說明兩個資料集(群眾、專家)在我們的方法中,可解釋性評 估指標的變化趨勢。

在【表 4-13】中我們可以看到,根據標註者思維模式的不同,其所標註的 區間長度也有所不同,而區間長度對評估指標的值有所影響。雖然標註區間的 長度對評估指標有所影響,但在專家及群眾的資料集中,我們可以發現相似的 變化趨勢。

加入第三個區間判斷任務的資料集,是以區間較短的專家資料集思維模式 進行訓練,因此我們假設模型有一個比較傾向關注短而關鍵資訊的偏好。在

【圖 4-1】我們可以觀察到,專家和群眾資料集兩者變化的趨勢類似,而專家 標註的測試資料集更能得益於訓練資料集的知識,在加入區間辨識任務後,效 能有更顯著的提升,在長而豐富的解釋上,進步的幅度相較來說則比較小,即 我們可以在此驗證在進行區間標註任務時,標註者所偏好或擁有的解釋思維模 式,同時也會影響模型在進行解釋時的解釋模式。

2 Tasks 1 Task Pretrained

3 Tasks

2 Tasks 1 Task Pretrained

0.38 0.43 0.48 0.53 0.58

3 Tasks 2 Tasks 1 Task Pretrained

專家和群眾資料集

Expert Crowd

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

斷,群眾資料集所標註之資料,相較於專家資料集,在判斷蘊含關係與是否關 注到重要資訊之間,較難以歸納出一模式。

Entailment - Crowd

Model Accuracy (%) MAX@F1 SUM@F1 MAX@MRR SUM@MRR Overview

Pretrained 20.0 0.4066 0.4274 0.1197 0.1251 RTE 71.1 0.4199 0.4323 0.1214 0.1252 RTE+SP 73.4 0.4153 0.4373 0.1211 0.1249 RTE+SP+SD 75.1 0.4333 0.4540 0.1205 0.1272

Correct

Pretrained 0.4061 0.4285 0.1169 0.1258 RTE 0.4155 0.4273 0.1212 0.1249 RTE+SP 0.4211 0.4446 0.1236 0.1277 RTE+SP+SD 0.4342 0.4533 0.1231 0.1296

Incorrect

Pretrained 0.4068 0.4272 0.1204 0.1249 RTE 0.4305 0.4448 0.1218 0.1259 RTE+SP 0.3994 0.4176 0.1143 0.1174 RTE+SP+SD 0.4308 0.4564 0.1129 0.1200

表 4-14 群眾資料集蘊含關係為蘊含之可解釋性評估

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

Neutral - Crowd

Model Accuracy (%) MAX@F1 SUM@F1 MAX@MRR SUM@MRR Overview

Pretrained 37.0 0.3420 0.3578 0.1032 0.1103 RTE 58.1 0.3517 0.3591 0.1052 0.1085 RTE+SP 44.3 0.3464 0.3317 0.1045 0.1096 RTE+SP+SD 70.8 0.3653 0.3840 0.1040 0.1106

Correct

Pretrained 0.3513 0.3580 0.1062 0.1155 RTE 0.3280 0.3396 0.1051 0.1081 RTE+SP 0.3144 0.3854 0.0949 0.1002 RTE+SP+SD 0.3566 0.3736 0.1027 0.1089

Incorrect

Pretrained 0.3366 0.3577 0.1014 0.1079 RTE 0.3839 0.3855 0.1054 0.1090 RTE+SP 0.3712 0.4053 0.1120 0.1169 RTE+SP+SD 0.3860 0.4089 0.1073 0.1148

表 4-15 群眾資料集蘊含關係為不相關之可解釋性評估

Contradiction - Crowd

Model Accuracy (%) MAX@F1 SUM@F1 MAX@MRR SUM@MRR

Pretrained 0.3798 0.3989 0.1140 0.1185 RTE 0.3831 0.3900 0.1116 0.1217 RTE+SP 0.3722 0.3776 0.1054 0.1144 RTE+SP+SD 0.4173 0.4286 0.1127 0.1199

Incorrect

Pretrained 0.3742 0.3941 0.1104 0.1198 RTE 0.3905 0.4003 0.1129 0.1161

Metric/Accuracy Correlation (SUM@F1)

Model Accuracy (%) Correct Incorrect Correlation Entailment