問題定義與研究策略 - 自然語言推理之後設可解釋性建模

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

確的捕捉關鍵的資訊來判斷兩個文本內容的關係，同時許多自然語言理解的任務，都能被轉化為自然語言推理的形式，因此較能夠泛化至其他任務上。

1.2 問題定義與研究策略

【圖 1-1】為 Transformer 模型中，12 層的 Tranformer 區塊中的 12 個頭所關注訊息的視覺化呈現。當兩個字詞間的線條愈粗時，代表其互相關注的的程度愈高，同時也可以看見每一個自注意力頭所關注的訊息都不一樣。我們亦可以透過【圖 1-2】來觀察每一個個別的頭所關注的詳細狀況為何。

圖1-1 多頭自注意力機制權重視覺化，使用工具為 bertviz (Vig, 2019) 透過這些圖表，可以看出在判斷每一個決策時，模型所關注的序列資訊為何。當某一個字詞擁有的權重愈高時，它對最終輸出的影響就愈大，同時也以

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

此做為模型的一種可解釋性。以自然語言推理任務為例，在【圖 1-2】中可以看到，A soccer game with multiple males playing. 和 Some men are playing a sport (Bowman et al., 2015). 兩者互相關注程度最高的為 soccer game, males 和

playing sport，由此方法我們可以看出模型的判斷結果和其思考方式之間的相關性，因此本研究目標為透過標註過的資料，分析其可解釋性之效能為何，及進一步進行建模；另外透過多人標註之資料，分析模型可解釋性和人類決策過程之異同。

圖1-2 自注意頭內權重視覺化 (Bowman et al., 2015)，使用工具為 bertviz (Vig, 2019)

本研究的架構安排如下，第二章回顧本研究相關人工智慧之可解釋性、自然語言理解及注意力機制等既有文獻，第三章說明自注意力機制如何計算、使用架構及如何利用多任務學習來對照兩者學習前後可解釋性之差異。第四章分析與討論實驗結果。第五章指出本研究的貢獻及未來發展方向。

‧

2018) ，許多研究被提出用以揭開模型的黑盒子 (Lipton, 2016; Doshi-Velez &

Kim, 2018; Baehrens et al., 2009; Simonyan et al., 2013; Zeiler & Fergus, 2013;

Lapuschkin et al., 2013; Shrikumar et al., 2017; Ribeiro et al., 2016; Zintgraf et al., 2017)，前人的研究大致可將解釋模型的方法分為 4 個面向 (Adadi & Berrada, 2018)：

- 視覺化（Visualization）：如透過將深度神經網路模型的神經單元運作模式視覺化。

- 知識抽取（Knowledge extraction）：將模型內部的表示方式轉化為可理解的形式，觀察模型進行任務的規則，除了釐清模型的運作方式外，更能夠探索出新的模式。

- 影響力（Influence）：改變特徵的輸入和模型內部的架構和參數等，觀察對於輸出結果的改變。

- 基於範例（example-based）：觀察單一範例，從預測結果為模型運作提供可能的解釋 (Adadi & Berrada, 2018)。

近期基於以往遞歸神機網路（RNN）注意力機制，及 Transformer 架構模型自注意力機制的可解釋性上，開始得到關注並討論注意力機制是否擁有可解釋性 (Clark et al., 2019; Jain & Wallace, 2019; Serrano & Smith, 2019; Wiegreffe &

Pinter, 2019)。基於前述研究的開展，更多研究提出了注意力分數是否擁有解釋性的討論，說明注意力在成對序列任務（Pair Sequence task）如自然語言推理上，較單序列任務（Single Sequence task）如文本情感分析更能展現可解釋性 (Vashishth et al., 2019)。時至今日，在自然語言處理上，更多基於注意力機制解

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

釋模型的方法被提出 (Wu et al., 2020; Ma et al., 2019; Pruthi et al., 2020;

Mohankumar et al., 2020)，但其解釋方式仍多以視覺化的方式來呈現；當人工智慧系統部署至生活中時，使用自然語言進行解釋的情境較符合應用需求，而目前生成自然語言解釋之方式多為以生成式（generative）模型為主 (Rajani et al., 2020; Kumar & Talukdar, 2020)。

在以往模型可解釋性的研究中，多為提出一解釋模型的方式，缺乏對其解釋進行評估，更少有將解釋之終端接受者，人，加入至評估環節中 (Mueller et al., 2019)。近年對解釋性之評估逐漸受到更多重視。其中解釋的忠實度

（faithfulness），即模型所給予的解釋是否能夠忠實的呈現出模型的特性及決策過程，和合理性（plausibility），即對於人類來說，模型所給予的解釋是否合理應該要被區分 (Jacovi & Goldberg, 2020)。評估模型可解釋性時，在不同任務情境下，如何評估模型解釋的好壞，及人類對其解釋是否滿意、理解或者信任 (Hoffman et al. 2018)。近年可解釋研究時，能夠將模型解釋加入人類做評估之研究有增加之趨勢 (Wu et al., 2020; Ma et al., 2019; Mohankumar et al., 2020;

Hase & Bansal, 2020; Chen et al., 2020; Lee et al., 2020; Feng & Boyd-Graber, 2019)；但我們認為其評估方式之完整性並無法為人類和人工智慧系統互動上帶來足夠的資訊。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y 1.4 主要貢獻

在前人的方法中，多為運用模型的注意力權重來進行視覺化及影響力之解釋方式，我們認為在與一般接受者互動時，以自然語言的型式來呈現解釋方式能夠給予較高的可解釋性，亦更符合人類日常生活的情境。為了探究模型解釋之忠實性及合理性，並加入人類進行對於模型解釋的信任及偏好，本研究為模型之可解釋性提出新的研究架構：

- 本研究提出在自然語言推理任務下，模型在效能進步的同時，其能透過注意力機制關注到能夠幫助其判斷的區資訊。

- 有別於前人僅在單一任務上觀察模型可解釋性，本研究除自然語言推理任務外，同時加入含有人類對於自然語言推理解釋之任務，並關注其注意力機制所關注內容的變化。

- 利用注意力分數及區間判斷任務取出模型自然語言型式之解釋，分析模型解釋是否忠實地呈現不同模型的判斷模式。

- 以投注方式量化人類對於不同模型解釋之信任度，並分析模型之間解釋上的差異，以及各自模型解釋表現的優劣，對於人類信任度有什麼影響。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章文獻探討

本章將對與本研究相關之既有文獻做一系列之回顧，並分為三個不同面向說明，首先在 2.1 節回顧人工智慧可解釋性之方法，接著 2.2 節回顧自然語言理解領域之相關方法，最後 2.3 節回顧注意力機制之文獻及方法。

2.1 可解釋之人工智慧（Explainable Artificial Intelligence, XAI）

本節將說明可解釋性於模型之重要性、從兩個不同面向切入之模型可解釋性方法及如何評估，最後說明如何將人類加入至整個模型可解釋性的系統中。

2.1.1 可解釋性之重要性

近年來快速發展的人工智慧模型，在許多應用場域展現出驚人的表現。擁有優異判斷能力的模型背後，其運作過程有高度的黑箱性。黑箱性使我們不易解讀模型的整體運作、所做預測的原因等，而這些資訊能夠透過對模型進行解釋獲得，有助於模型在應用中可能面臨的種種議題。可解釋性如何增進模型之應用，其可以大致歸類為三個面向 (Adadi & Berrada, 2018)：

驗證模型：首先是確認模型的運作方式，當建立一個模型時，會對模型能訓練出的能力做假設。如在一個能夠辨識貓的模型，我們會期待模型能夠捕捉到貓的輪廓、五官、身形等資訊；在建立解釋機制前，即便預測結果正確，我們仍無法確知模型的預測和輸入之間的關係，為模型的能力提供強而有力的證明。

‧

逐層關聯傳播（layer-wise relevance propagation），透過熱圖（heatmap）來觀察每個像素和預測結果之間的關聯性 (Samek et al., 2017)。此兩種做法較不受限模型之間關注的特徵（feature）卻不盡相同 (Arras et al., 2017)。透過比較，能夠得出各個模型、架構所擅長或關注的特徵，並擷取其優勢加以利用。

‧

Mullenbach et al., 2018)。

一個需要被解釋的模型同時也代表其不完整，從上述三個面向，提供設計者在檢視模型是否完整時一些切入點。它可能需要透過解釋機制來確認其是否符合設計者所設想的運作方式、有哪些可能風險是可以規避的、設計者如何改善其算法和架構，最後跳脫出模型原有的預測功能，為人類提供有別以往的洞見 (Adadi & Berrada, 2018; Rudin, 2019)。

2.1.2 解釋模型的方法

模型的可解釋性和模型的複雜度有著直接的關係，愈複雜的模型，通常愈難去解釋。如邏輯迴歸（Logistic Regression）、單純貝氏分類器（naive-Bayes classifier）能夠提供較多的可解釋性，但同時也伴隨著較差的準確率；若是使用隨機森林（Random Forest）或神經網路（neural nets）等模型，通常能夠得到比較好的準確率，而用以犧牲換取準確率的代價，即是可解釋性 (Adadi &

Berrada, 2018)。

解釋模型最直接的方法是在模型中加入具有解釋功能的演算法。廣義相加模型 (Generalized additive model) 方法來解釋模型，將其用於肺炎風險的評估，並表示模型的可解釋性在改善模型時給予了許多正面回饋 (Caruana et al., 2015)。如以複雜的神經網路模型如卷積神經網路（Convolutional neural

network）和遞歸神經網路（Recurrent neural network）的組合並加入注意力機制

（Attention Mechanism），在維持模型高準確率的表現下，同時對預測的照片給予一段文字的解釋 (Xu et al., 2015)。

現在主流的解釋機制多採用事後（post-hoc）解釋的方法 (Lipton, 2016)，

為了能夠取得較佳的表現，主要任務使用強大且複雜的模型，隨後再使用合適

‧

在深度神經網路（Deep neural network）模型中，最常使用的解釋機制為區域解釋方法 (Samek et al., 2017)。在眾多解釋模型的文獻當中，許多作者皆表示

Berrada, 2018)。

不特定模型（Model-agnostic）：不特定模型解釋不受限於特定的模型，即模型的預測和解釋是不同的兩個部分，此類解釋方法多用事後解釋來分析預測與模型之間的關聯。根據不同的解釋機制，可以將其分為四種類型：(1) 視覺化（Visualization），如透過將深度神經網路模型的神經單元運作模式視覺化。

(2) 知識抽取（Knowledge extraction），將模型內部的表示方式轉化為可理解的形式 (Silver et al., 2016)，觀察模型進行任務的規則，除了釐清模型的運作方式外，更能夠探索出新的模式。(3) 影響力（Influence）：改變特徵的輸入和模型內部的架構和參數等，觀察對於輸出結果的改變。(4) 基於範例（example-based）：觀察單一範例，從預測結果為模型運作提供可能的解釋 (Adadi &

Berrada, 2018)。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y 2.1.3 評估模型可解釋性

儘管有許多能夠解釋模型的機制，評估模型解釋的方法相較之下便略顯不足。

評估模型解釋能力的方法之所以稀少，可能原因為解釋模型相較其他主流研究領域尚稱不上顯學，此外一個模型的解釋能力端看每個使用者對於模型解釋的

在文檔中自然語言推理之後設可解釋性建模 - 政大學術集成 (頁 14-0)

問題定義與研究策略

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

1.2 問題定義與研究策略

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y 1.4 主要貢獻

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章 文獻探討

2.1 可解釋之人工智慧（Explainable Artificial Intelligence, XAI）

2.1.1 可解釋性之重要性

‧

‧

2.1.2 解釋模型的方法

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y 2.1.3 評估模型可解釋性

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

第二章文獻探討

立政治大學