2.2 自然語言理解(Natural Language Understanding)
2.2.3 自然語言推理模型
A man inspects the uniform of a figure in some East Asian country.
contradiction C C C C C
The man is sleeping.
An older and younger man smiling.
neutral N N E N N
Two men are smiling and laughing at the cats playing on the floor.
A black race car starts up in front of a crowd of people.
contradiction C C C C C
A man is driving down a lonely road.
A soccer game with multiple males playing
entailment E E E E E
Some men are playing a sport.
A smiling costumed woman is holding an umbrella
neutral N N E C N
A happy woman in a fairy costume holds an umbrella.
表 2-1 SNLI 資料集範例
【表 2-1】的範例資料,第一筆資料的前提 A man inspects the uniform of a figure in some East Asian country 和其假設 The man is sleeping 的敘述互相衝 突,故這筆資料的標註為 contradiction (Bowman et al., 2015)。其中每個標註下 面各有對應的五個標註,為五位不同的標註者所認為這段資料該有的標註,在
‧
在 Recognizing Textural Entailment, RTE 資料集上,以最直接的相似度算法,
基於詞袋(bag of words)計算前提和假設中詞彙的相似度,並為相似度分數設 立閥值來判斷其是否為蘊含關係 (Jijkoun & Rijke, 2005)。以邏輯推理的方法來 處理 RTE 資料集,透過自動推理(Automated Reasoning)來找出文本之間不 易察覺的背景知識,接著以兩者重疊的知識做計算來進行文本辨識,重疊的知 (Marneffe et al., 2008)。在計算最後的抵觸資料前,必須先剔除掉不是在談論同 一件事的兩個文本,因儘管語義圖相似度低,但原因可能是因為兩段論述在談
Manning, 2009)。
前述方法多為人工建立特徵,例如分析字詞的詞性和邏輯關係等,將這些 資訊送入模型進行訓練。除了基於人工特徵的模型外,還有基於分佈式表示法
‧
‧ 2.3 注意力機制(Attention Mechanism)
自然語言處理任務在注意力機制的助益下取得重大進展,注意力的概念首度被 提出 (Bahdanau et al., 2014),最初運用在神經機器翻譯(Neural Machine Translation, NMT)任務上,日後延伸到更廣泛的自然語言處理任務上,我們的 模型(sequence to sequence)模型的主要任務。序列對序列模型的架構包含了兩 個遞歸神經網路,一個為將資料輸入進行編碼的編碼器(encoder),一個為將
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
Transformer 模型是一個非遞迴式、基於自注意力機制的序列對序列模型,和遞 歸神經網路一樣可以進行序列資料的運算,除外還能夠透過自注意力機制解決 上述遞歸神經網路無法有效平行運算的問題,假設遞迴一個十個元素的序列需 要十個時步(time step)才能回傳所有的輸出向量,則自注意力機制可以在一 個時步即回傳所有的輸出向量,同時每一個輸出向量都包含了完整輸入序列的 資訊。
圖2-2 Transformer 模型架構
‧
經網路層、加入了 add&norm 和位置編碼(positional encoding)。編碼器和解碼器都能以堆疊區塊的方式來搭建深度模型,以 N=6 來實作 Transformer 模型 (Vaswani et al., 2017)。在編碼器中,每一層有兩個子層,第 一子層為多頭自注意力層,第二子層為 position-wise 的全連結前饋網路層。兩 個子層後都接有一個 add&norm 層,將前一層的輸入和輸出以殘差連結
(residual connection)後做層正規化(Layer Normalization),避免子層的輸入 和輸出值差距過大,以確保能夠更快地訓練及增加模型的泛化
(key)和值(value),attention 則使用了 Scaled Dot-Product 來計算 (Vaswani et al., 2017)。
2.3.3 基於 Transformer 架構之模型
自從 Transformer 模型發表以來,許多基於 Transformer 模型的架構大量用於 自然語言理解和自然語言生成中各個任務並取得重大進展。同時利用預訓練模 型(pre-trained model)來做兩階段的遷移學習(Transfer Learning)除了能夠取 得高表現,更是節省訓練龐大語料的時間,遷移學習將能夠理解龐大語境的預 訓練語言模型做為通用模型,再依據各個自然語言處理任務所需的架構,利用 監督式學習來微調下游模型,使其能夠解決特定任務的模型。BERT 為一雙向
‧
(unsupervised)的方式進行預訓練,在預訓練時採用了雙向 Transformer,訓 練方法採用隨機遮蔽單詞預測(masked LM)及下句預測(next sentence prediction),其產生的表示(representations)能夠考慮文本上下文的情境 (Devlin et al., 2018)。GPT-2,為單向由左至右的解碼器模型,預訓練方法為給 予已知字詞來預測下一個未知字詞,因此在生成任務上有相當優秀的表現 型架構和實驗參數,最終使用了完整的 Transformer Encoder-Decoder 架構,利 用類似 BERT 的隨機遮罩,不同的是 BERT 隨機遮罩單詞,T5 隨機遮罩一
巨大的模型也不容易部署到邊緣設備上應用。有鑑於此,ditilled BERT 使用了 模型蒸餾方法 (Sanh et al., 2019; Hinton et al., 2015),對 BERT 模型進行壓縮,
透過知識蒸餾(knowledge distillation)使其擁有類似巨型模型的知識,同時減 少模型層數來使模型參數為 BERT 的一半,並保有 BERT 的 95% 性能表 現。
我們的方法基於 XLNet,其結合了 BERT 模型的自編碼(autoencoding)
特性捕捉上下文關係,和 GPT-2 模型的自迴歸(autoregressive)特性強化生成
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
類型任務,其利用 Permutation Language Modeling, PLM 置換句子元素,和雙 流(two stream)注意力及注意力遮罩機制(attention mask)來使其結合兩者特 性,改善自編碼和自迴歸模型的缺點。
圖2-3 GLUE 任務效能
【圖 2-3】為 GLUE 任務效能之排行榜 (Bowman et al., 2015)。第 12 位為人 類之表現,可以看見已有比人類表現好之模型出現,且多為基於 Transformer 架構之模型,由此可見 Transformer 模型在處理自然語言理解任務,甚至自然 語言處理之強大。
‧
Transformer 模型除了賦予模型平行運算及捕捉上下文資訊之外,其自注意力機 制讓研究者得以窺探模型的可能運作方式,和為模型所做出的預測提出解釋。
在自然語言推理中,將 LSTM 之注意力以圖像化的方式呈現 (Ghaeini et al., 2018),使研究者們能夠對模型為何做出這樣的決策有所了解。除了利用圖像化 注意力機制做解釋外,亦可從多個角度分析不同層級的注意力有何區別,並從 其中得到洞見改善模型 (Rocktäschel et al., 2015)。(Ghaeini et al., 2018) 及 (Rocktäschel et al., 2015) 之可解釋性研究多是使用較早期的模型,近期之 Transformer 架構之模型則以 BERT ,利用圖像化自注意力機制來觀察模型不 同層之間,其所關注的資訊為何 (Clark et al., 2019);或利用樹狀 co-attention 網路之注意力以視覺化的方式進行解釋 (Wu et al., 2020)。我們的方法將使用 Transformer 架構模型,試圖在單一任務探索 Transformer 模型的自注意力可解 釋性,及如何運用其最終決策的可解釋性來發展更多的可能,如改進模型和加
‧
(Mohankumar et al., 2020)。(Jain & Wallace, 2019) 和 (Serrano & Smith, 2019) 之 侷限性在於其使用了特徵重要度排序的做法來做比較,雖然數據表示特徵重要
Transformer 架構模型,在假定序列對序列模型及自注意力機制能夠捕捉更多文 本語境和複雜背景下,觀察自注意力機制在可解釋性上的表現如何。同時以特
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
訓練後的注意力分數擷取後設解釋進一步建模。在加入人類進行評估部分,我 們蒐集更能普遍代表人類進行自然語言推理任務時所做的解釋,將其與模型所 做解釋進行評估。最後以模型所擷取之後設解釋,進行人類對模型的信任及解 釋偏好的實驗。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
第三章 研究方法
3.1 自然語言推理(Natural Language Inference)
在我們的方法中,我們選用了自然語言推理任務,自然語言推理任務是要判斷 兩段敘述是蘊含關係、相斥關係或是不相關。同時自然語言推理是自然語言理 解的一個子任務,如果希望模型能夠給出正確的解釋,模型勢必得對文本有相 當程度的理解,自然語言理解的目標就是讓模型能夠理解人類所使用的自然語 言。
自然語言推理也能夠和其他任務連結,如摘要任務,摘要和原本文章的關 係就是蘊含關係;在問答任務中,答案和問題的關係也是蘊含關係,在資訊檢 索情境下,我們所下的查詢指令(query)和 document 也是蘊含關係,即自然 語言推理任務的研究成果,對其他任務也有助益。
3.1.1 文字蘊含關係識別
在建立可解釋之模型時,我們使用PASCAL Recognizing Textual Entailment Challenge (RTE-5) at TAC 2009 資料集作為訓練。RTE-5 為進行自然語言推理 任務之資料集,其特點為擁有較長的前提 P,訓練資料亦較少,因此在判斷兩 者蘊含關係時若能有好的效能,則可以假設模型學習到了複雜的語義現象及背 景關係。我們將建立兩個模型,一為基於單一任務的模型,一為基於多任務學 習的模型,並將其作為產生解釋的模型,分析兩者關注不同資訊所導致的效能 差異,並依此模型產生後設可解釋性實驗之資料。
‧
筆測試資料,模型需要辨識兩個文本的關係為 entailment、contradiction 或 neutral,為三元分類任務。(優化這邊的內容,說明加入兩個任務來提供更多P: The purchase of LexCorp by BMI for $2Bn promoted widerspread sell-offs by traders as they sought to minimize exposure.
H: BMI acquired another company.
前提的 lexcorp 跟 BMI,還有假設的 BMI 和 another company 為
arugument,接下來要利用這兩個 aruguments 來推論兩句的關係,過程會一步 一步進行拆解,紀錄對應的語義現象。
‧
parent-sibling,接著在前提的 purchase 是作為名詞用,語義現象紀錄 nominalization,接著 purchase 是 bmi 的被動行為,語義現象紀錄passivization,最後可以將前提簡化為 A purchase B,將假設簡化為 A acquire B,我們將這個語義現象紀錄為簡單的動詞改寫。
接下來是負面的語義現象範例:
P: The purchase of LexCorp by BMI for $2Bn promoted widerspread sell-offs by traders as they sought to minimize exposure.
H: BMI bought LexCorp for $3.4Bn.
和前例相同,先將 lexcorp 和 BMI 作為 argument,接著 P 中的 purchase 和假設中的 buy ,他們是同義詞關係,因此我們語義現象紀錄 lexical
relation,在交易金額的部分,兩個的金額無法正確配對,因此我們語義現象紀 錄 Numerical Quantity Mismatch,這是一個負面的語義現象,不過可能會思考 這是不是指稱不同的事件,但是在同一筆交易中,我們沒辦法把公司以兩個不 同的價錢賣掉,因此我們紀錄 exclusive argument,這同樣是一個負面的語義現 象。以上為概述 (Sammons et al., 2010) 之研究如何對 P 和 H 的組合進行語義 現象的標註。
然而並不是每一種語語義現象都有助於文本蘊含識別任務有幫助,對 39 種語義現象進行實驗後,發現對於文本蘊含識別任務有幫助的資訊主要為 Disconnected Relation、Exclusive Argument、Exclusive Relation、Missing Argument 及 Missing Relation,故我們取這五種語義現象做為我們次要任務的 目標,以此五個資訊做多標籤分類 (Huang et al., 2013)。另外在 (Sammons et al., 2010) 研究中的標註者有兩位,其所標註的資料不盡相同,所對於語義現
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
𝑎 , = exp 𝑎 ,
∑ exp 𝑎 , (5) 最後再將權重和 value 做內積得到得到的結果相加得到 dot-product
∑ exp 𝑎 , (5) 最後再將權重和 value 做內積得到得到的結果相加得到 dot-product