自然語言推理模型 - 自然語言理解（Natural Language Understanding）

2.2 自然語言理解（Natural Language Understanding）

2.2.3 自然語言推理模型

A man inspects the uniform of a figure in some East Asian country.

contradiction C C C C C

The man is sleeping.

An older and younger man smiling.

neutral N N E N N

Two men are smiling and laughing at the cats playing on the floor.

A black race car starts up in front of a crowd of people.

contradiction C C C C C

A man is driving down a lonely road.

A soccer game with multiple males playing

entailment E E E E E

Some men are playing a sport.

A smiling costumed woman is holding an umbrella

neutral N N E C N

A happy woman in a fairy costume holds an umbrella.

表 2-1 SNLI 資料集範例

【表 2-1】的範例資料，第一筆資料的前提 A man inspects the uniform of a figure in some East Asian country 和其假設 The man is sleeping 的敘述互相衝突，故這筆資料的標註為 contradiction (Bowman et al., 2015)。其中每個標註下面各有對應的五個標註，為五位不同的標註者所認為這段資料該有的標註，在

‧

在 Recognizing Textural Entailment, RTE 資料集上，以最直接的相似度算法，

基於詞袋（bag of words）計算前提和假設中詞彙的相似度，並為相似度分數設立閥值來判斷其是否為蘊含關係 (Jijkoun & Rijke, 2005)。以邏輯推理的方法來處理 RTE 資料集，透過自動推理（Automated Reasoning）來找出文本之間不易察覺的背景知識，接著以兩者重疊的知識做計算來進行文本辨識，重疊的知 (Marneffe et al., 2008)。在計算最後的抵觸資料前，必須先剔除掉不是在談論同一件事的兩個文本，因儘管語義圖相似度低，但原因可能是因為兩段論述在談

Manning, 2009)。

前述方法多為人工建立特徵，例如分析字詞的詞性和邏輯關係等，將這些資訊送入模型進行訓練。除了基於人工特徵的模型外，還有基於分佈式表示法

‧

‧ 2.3 注意力機制（Attention Mechanism）

自然語言處理任務在注意力機制的助益下取得重大進展，注意力的概念首度被提出 (Bahdanau et al., 2014)，最初運用在神經機器翻譯（Neural Machine Translation, NMT）任務上，日後延伸到更廣泛的自然語言處理任務上，我們的模型（sequence to sequence）模型的主要任務。序列對序列模型的架構包含了兩個遞歸神經網路，一個為將資料輸入進行編碼的編碼器（encoder），一個為將

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

Transformer 模型是一個非遞迴式、基於自注意力機制的序列對序列模型，和遞歸神經網路一樣可以進行序列資料的運算，除外還能夠透過自注意力機制解決上述遞歸神經網路無法有效平行運算的問題，假設遞迴一個十個元素的序列需要十個時步（time step）才能回傳所有的輸出向量，則自注意力機制可以在一個時步即回傳所有的輸出向量，同時每一個輸出向量都包含了完整輸入序列的資訊。

圖2-2 Transformer 模型架構

‧

經網路層、加入了 add&norm 和位置編碼（positional encoding）。

編碼器和解碼器都能以堆疊區塊的方式來搭建深度模型，以 N=6 來實作 Transformer 模型 (Vaswani et al., 2017)。在編碼器中，每一層有兩個子層，第一子層為多頭自注意力層，第二子層為 position-wise 的全連結前饋網路層。兩個子層後都接有一個 add&norm 層，將前一層的輸入和輸出以殘差連結

（residual connection）後做層正規化（Layer Normalization），避免子層的輸入和輸出值差距過大，以確保能夠更快地訓練及增加模型的泛化

（key）和值（value），attention 則使用了 Scaled Dot-Product 來計算 (Vaswani et al., 2017)。

2.3.3 基於 Transformer 架構之模型

自從 Transformer 模型發表以來，許多基於 Transformer 模型的架構大量用於自然語言理解和自然語言生成中各個任務並取得重大進展。同時利用預訓練模型（pre-trained model）來做兩階段的遷移學習（Transfer Learning）除了能夠取得高表現，更是節省訓練龐大語料的時間，遷移學習將能夠理解龐大語境的預訓練語言模型做為通用模型，再依據各個自然語言處理任務所需的架構，利用監督式學習來微調下游模型，使其能夠解決特定任務的模型。BERT 為一雙向

‧

（unsupervised）的方式進行預訓練，在預訓練時採用了雙向 Transformer，訓練方法採用隨機遮蔽單詞預測（masked LM）及下句預測（next sentence prediction），其產生的表示（representations）能夠考慮文本上下文的情境 (Devlin et al., 2018)。GPT-2，為單向由左至右的解碼器模型，預訓練方法為給予已知字詞來預測下一個未知字詞，因此在生成任務上有相當優秀的表現型架構和實驗參數，最終使用了完整的 Transformer Encoder-Decoder 架構，利用類似 BERT 的隨機遮罩，不同的是 BERT 隨機遮罩單詞，T5 隨機遮罩一

巨大的模型也不容易部署到邊緣設備上應用。有鑑於此，ditilled BERT 使用了模型蒸餾方法 (Sanh et al., 2019; Hinton et al., 2015)，對 BERT 模型進行壓縮，

透過知識蒸餾（knowledge distillation）使其擁有類似巨型模型的知識，同時減少模型層數來使模型參數為 BERT 的一半，並保有 BERT 的 95% 性能表現。

我們的方法基於 XLNet，其結合了 BERT 模型的自編碼（autoencoding）

特性捕捉上下文關係，和 GPT-2 模型的自迴歸（autoregressive）特性強化生成

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

類型任務，其利用 Permutation Language Modeling, PLM 置換句子元素，和雙流（two stream）注意力及注意力遮罩機制（attention mask）來使其結合兩者特性，改善自編碼和自迴歸模型的缺點。

圖2-3 GLUE 任務效能

【圖 2-3】為 GLUE 任務效能之排行榜 (Bowman et al., 2015)。第 12 位為人類之表現，可以看見已有比人類表現好之模型出現，且多為基於 Transformer 架構之模型，由此可見 Transformer 模型在處理自然語言理解任務，甚至自然語言處理之強大。

‧

Transformer 模型除了賦予模型平行運算及捕捉上下文資訊之外，其自注意力機制讓研究者得以窺探模型的可能運作方式，和為模型所做出的預測提出解釋。

在自然語言推理中，將 LSTM 之注意力以圖像化的方式呈現 (Ghaeini et al., 2018)，使研究者們能夠對模型為何做出這樣的決策有所了解。除了利用圖像化注意力機制做解釋外，亦可從多個角度分析不同層級的注意力有何區別，並從其中得到洞見改善模型 (Rocktäschel et al., 2015)。(Ghaeini et al., 2018) 及 (Rocktäschel et al., 2015) 之可解釋性研究多是使用較早期的模型，近期之 Transformer 架構之模型則以 BERT ，利用圖像化自注意力機制來觀察模型不同層之間，其所關注的資訊為何 (Clark et al., 2019)；或利用樹狀 co-attention 網路之注意力以視覺化的方式進行解釋 (Wu et al., 2020)。我們的方法將使用 Transformer 架構模型，試圖在單一任務探索 Transformer 模型的自注意力可解釋性，及如何運用其最終決策的可解釋性來發展更多的可能，如改進模型和加

‧

(Mohankumar et al., 2020)。(Jain & Wallace, 2019) 和 (Serrano & Smith, 2019) 之侷限性在於其使用了特徵重要度排序的做法來做比較，雖然數據表示特徵重要

Transformer 架構模型，在假定序列對序列模型及自注意力機制能夠捕捉更多文本語境和複雜背景下，觀察自注意力機制在可解釋性上的表現如何。同時以特

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

訓練後的注意力分數擷取後設解釋進一步建模。在加入人類進行評估部分，我們蒐集更能普遍代表人類進行自然語言推理任務時所做的解釋，將其與模型所做解釋進行評估。最後以模型所擷取之後設解釋，進行人類對模型的信任及解釋偏好的實驗。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章研究方法

3.1 自然語言推理（Natural Language Inference）

在我們的方法中，我們選用了自然語言推理任務，自然語言推理任務是要判斷兩段敘述是蘊含關係、相斥關係或是不相關。同時自然語言推理是自然語言理解的一個子任務，如果希望模型能夠給出正確的解釋，模型勢必得對文本有相當程度的理解，自然語言理解的目標就是讓模型能夠理解人類所使用的自然語言。

自然語言推理也能夠和其他任務連結，如摘要任務，摘要和原本文章的關係就是蘊含關係；在問答任務中，答案和問題的關係也是蘊含關係，在資訊檢索情境下，我們所下的查詢指令（query）和 document 也是蘊含關係，即自然語言推理任務的研究成果，對其他任務也有助益。

3.1.1 文字蘊含關係識別

在建立可解釋之模型時，我們使用PASCAL Recognizing Textual Entailment Challenge (RTE-5) at TAC 2009 資料集作為訓練。RTE-5 為進行自然語言推理任務之資料集，其特點為擁有較長的前提 P，訓練資料亦較少，因此在判斷兩者蘊含關係時若能有好的效能，則可以假設模型學習到了複雜的語義現象及背景關係。我們將建立兩個模型，一為基於單一任務的模型，一為基於多任務學習的模型，並將其作為產生解釋的模型，分析兩者關注不同資訊所導致的效能差異，並依此模型產生後設可解釋性實驗之資料。

‧

筆測試資料，模型需要辨識兩個文本的關係為 entailment、contradiction 或 neutral，為三元分類任務。（優化這邊的內容，說明加入兩個任務來提供更多

P: The purchase of LexCorp by BMI for $2Bn promoted widerspread sell-offs by traders as they sought to minimize exposure.

H: BMI acquired another company.

前提的 lexcorp 跟 BMI，還有假設的 BMI 和 another company 為

arugument，接下來要利用這兩個 aruguments 來推論兩句的關係，過程會一步一步進行拆解，紀錄對應的語義現象。

‧

parent-sibling，接著在前提的 purchase 是作為名詞用，語義現象紀錄 nominalization，接著 purchase 是 bmi 的被動行為，語義現象紀錄

passivization，最後可以將前提簡化為 A purchase B，將假設簡化為 A acquire B，我們將這個語義現象紀錄為簡單的動詞改寫。

接下來是負面的語義現象範例：

P: The purchase of LexCorp by BMI for $2Bn promoted widerspread sell-offs by traders as they sought to minimize exposure.

H: BMI bought LexCorp for $3.4Bn.

和前例相同，先將 lexcorp 和 BMI 作為 argument，接著 P 中的 purchase 和假設中的 buy ，他們是同義詞關係，因此我們語義現象紀錄 lexical

relation，在交易金額的部分，兩個的金額無法正確配對，因此我們語義現象紀錄 Numerical Quantity Mismatch，這是一個負面的語義現象，不過可能會思考這是不是指稱不同的事件，但是在同一筆交易中，我們沒辦法把公司以兩個不同的價錢賣掉，因此我們紀錄 exclusive argument，這同樣是一個負面的語義現象。以上為概述 (Sammons et al., 2010) 之研究如何對 P 和 H 的組合進行語義現象的標註。

然而並不是每一種語語義現象都有助於文本蘊含識別任務有幫助，對 39 種語義現象進行實驗後，發現對於文本蘊含識別任務有幫助的資訊主要為 Disconnected Relation、Exclusive Argument、Exclusive Relation、Missing Argument 及 Missing Relation，故我們取這五種語義現象做為我們次要任務的目標，以此五個資訊做多標籤分類 (Huang et al., 2013)。另外在 (Sammons et al., 2010) 研究中的標註者有兩位，其所標註的資料不盡相同，所對於語義現

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

𝑎 _, = exp 𝑎 _,

∑ exp 𝑎 _, (5) 最後再將權重和 value 做內積得到得到的結果相加得到 dot-product

在文檔中自然語言推理之後設可解釋性建模 - 政大學術集成 (頁 30-0)

自然語言推理模型

2.2 自然語言理解（Natural Language Understanding）

2.2.3 自然語言推理模型

‧

‧

‧ 2.3 注意力機制（Attention Mechanism）

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

2.3.3 基於 Transformer 架構之模型

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章 研究方法

3.1 自然語言推理（Natural Language Inference）

3.1.1 文字蘊含關係識別

‧

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

立政治大學

立政治大學

立政治大學

立政治大學

第三章研究方法

立政治大學