解釋模型的方法 - 可解釋之人工智慧（Explainable Artificial Intelligence, XAI）

2.1 可解釋之人工智慧（Explainable Artificial Intelligence, XAI）

2.1.2 解釋模型的方法

Mullenbach et al., 2018)。

一個需要被解釋的模型同時也代表其不完整，從上述三個面向，提供設計者在檢視模型是否完整時一些切入點。它可能需要透過解釋機制來確認其是否符合設計者所設想的運作方式、有哪些可能風險是可以規避的、設計者如何改善其算法和架構，最後跳脫出模型原有的預測功能，為人類提供有別以往的洞見 (Adadi & Berrada, 2018; Rudin, 2019)。

2.1.2 解釋模型的方法

模型的可解釋性和模型的複雜度有著直接的關係，愈複雜的模型，通常愈難去解釋。如邏輯迴歸（Logistic Regression）、單純貝氏分類器（naive-Bayes classifier）能夠提供較多的可解釋性，但同時也伴隨著較差的準確率；若是使用隨機森林（Random Forest）或神經網路（neural nets）等模型，通常能夠得到比較好的準確率，而用以犧牲換取準確率的代價，即是可解釋性 (Adadi &

Berrada, 2018)。

解釋模型最直接的方法是在模型中加入具有解釋功能的演算法。廣義相加模型 (Generalized additive model) 方法來解釋模型，將其用於肺炎風險的評估，並表示模型的可解釋性在改善模型時給予了許多正面回饋 (Caruana et al., 2015)。如以複雜的神經網路模型如卷積神經網路（Convolutional neural

network）和遞歸神經網路（Recurrent neural network）的組合並加入注意力機制

（Attention Mechanism），在維持模型高準確率的表現下，同時對預測的照片給予一段文字的解釋 (Xu et al., 2015)。

現在主流的解釋機制多採用事後（post-hoc）解釋的方法 (Lipton, 2016)，

為了能夠取得較佳的表現，主要任務使用強大且複雜的模型，隨後再使用合適

‧

在深度神經網路（Deep neural network）模型中，最常使用的解釋機制為區域解釋方法 (Samek et al., 2017)。在眾多解釋模型的文獻當中，許多作者皆表示

Berrada, 2018)。

不特定模型（Model-agnostic）：不特定模型解釋不受限於特定的模型，即模型的預測和解釋是不同的兩個部分，此類解釋方法多用事後解釋來分析預測與模型之間的關聯。根據不同的解釋機制，可以將其分為四種類型：(1) 視覺化（Visualization），如透過將深度神經網路模型的神經單元運作模式視覺化。

(2) 知識抽取（Knowledge extraction），將模型內部的表示方式轉化為可理解的形式 (Silver et al., 2016)，觀察模型進行任務的規則，除了釐清模型的運作方式外，更能夠探索出新的模式。(3) 影響力（Influence）：改變特徵的輸入和模型內部的架構和參數等，觀察對於輸出結果的改變。(4) 基於範例（example-based）：觀察單一範例，從預測結果為模型運作提供可能的解釋 (Adadi &

Berrada, 2018)。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y 2.1.3 評估模型可解釋性

儘管有許多能夠解釋模型的機制，評估模型解釋的方法相較之下便略顯不足。

評估模型解釋能力的方法之所以稀少，可能原因為解釋模型相較其他主流研究領域尚稱不上顯學，此外一個模型的解釋能力端看每個使用者對於模型解釋的主觀感受，而主觀感受是難以衡量的，故較難以提出一具公信力的評估方法。

儘管如此，隨著解釋模型的需求提升，評估解釋表現的方法也有上升的趨勢 (Jacovi & Goldberg, 2020; Hoffman et al. 2018)。

評估模型的可解釋性可分為三個類型【圖 2-1】：(1) 應用為基礎：此類型需要真實應用和人類參與的實驗，以模型任務終端的應用場景，加入模型和人類使用者之間的對比來評估。如有一個進行自動判決的模型，評估其解釋機制的方法就是將其投入到實際裁判中，對比和人類法官的判決，受裁判人的感受為何，此類評估方法通常也需要大量的領域專家參與評估，並以較嚴謹的機制衡量結果。(2) 人類為基礎：相較於應用終端場景，此類型以較簡單的人類涉入實驗為主，為評估一個模型在「解釋」這件事或概念上的表現如何，故不需

圖2-1 模型可解釋性評估機制

‧

擬人解釋（Human-like explanations）：可以幫助 XAI 發展的概念的三個認知科學概念 (Miller, 2017)： (Adadi & Berrada, 2018)。

‧

2.2 自然語言理解（Natural Language Understanding）

自然語言理解（Natural Language Understanding）為自然語言處理（Natural Language Processing）領域的分支，透過將人類的語言形式轉化為機器可以理解

（sentiment analysis）、關係抽取（relation extraction）、意圖分類（intent classification）命名實體識別 (named-entity recognition) 等。實現自然語言理解可將其拆成兩個面向 (Allen, 1987)，一為科技目標，一為認知目標。科技目標為更好的軟硬體，為支撐處理複雜自然語言時所需要的大量運算，或是諸如使得深度學習方法得以快速發展的大量數據等。認知目標為將人類處理語言的機制以計算的方式來模擬，如為一個事實表示立場並給予理由、正確理解語言的

‧

（TF-IDF）、機率等方法來進行加權，接著如 Latent Semantic Analysis,

Autoencoders, GloVe, word2vec 中以不同的方式進行降維，最後透過歐式幾何距離、餘弦相似度等來計算兩個字詞之間的相似度。代表兩個字詞的向量若是相近或是相似的話，通常代表相較於其他字詞，兩者的字詞意義在當前情境中更為相似一些。

將字詞以能夠表示其含意的向量表示，此種表示方式稱為分佈式表示法

（Distributed Representations），基於神經網路的分佈式表示又稱詞向量（word vector）或詞嵌入（word embedding）。諸如 word2vec 和 GloVe 等皆是透過矩陣設計、加權和降維來生成詞向量的語言模型 (Hinton et al., 1986)，透過其

為了能夠綜合評估模型對自然語言之理解程度， General Language

‧

2.2.2 自然語言推理（Natural Language Inference）

自然語言推理為自然語言理解之子領域。在自然語言理解的任務中，主要處理

Premise: A soccer game with multiple males playing.

Hypothesis: Some men are playing a sport.

Relation: Entailment

文本識別所運用到的推論關係，可以做為評估和比較語義推論模型的通用任務 (Dagan et al., 2006)，而在將文本識別運用到不同應用上時所得到的資訊，

能夠用來進一步提升文本識別這個主要任務的表現。如在總結

（summarization）任務時，可視為辨識文字是否蘊含摘要（summary）的任務；在資訊檢索時，可視為尋找所查詢文件為蘊含關係之任務。

SNLI（Stanford Natural Language Inference）為自然語言推理大型文本資料集 (Bowman et al., 2015)，訓練、驗證及測試資料共有 57 萬筆，其中 55 萬筆為訓練資料，驗證及測試各1 萬筆。資料集中所有的前提來自於由圖片說明所建

‧

A man inspects the uniform of a figure in some East Asian country.

contradiction C C C C C

The man is sleeping.

An older and younger man smiling.

neutral N N E N N

Two men are smiling and laughing at the cats playing on the floor.

A black race car starts up in front of a crowd of people.

contradiction C C C C C

A man is driving down a lonely road.

A soccer game with multiple males playing

entailment E E E E E

Some men are playing a sport.

A smiling costumed woman is holding an umbrella

neutral N N E C N

A happy woman in a fairy costume holds an umbrella.

表 2-1 SNLI 資料集範例

【表 2-1】的範例資料，第一筆資料的前提 A man inspects the uniform of a figure in some East Asian country 和其假設 The man is sleeping 的敘述互相衝突，故這筆資料的標註為 contradiction (Bowman et al., 2015)。其中每個標註下面各有對應的五個標註，為五位不同的標註者所認為這段資料該有的標註，在

‧

在 Recognizing Textural Entailment, RTE 資料集上，以最直接的相似度算法，

基於詞袋（bag of words）計算前提和假設中詞彙的相似度，並為相似度分數設立閥值來判斷其是否為蘊含關係 (Jijkoun & Rijke, 2005)。以邏輯推理的方法來處理 RTE 資料集，透過自動推理（Automated Reasoning）來找出文本之間不易察覺的背景知識，接著以兩者重疊的知識做計算來進行文本辨識，重疊的知 (Marneffe et al., 2008)。在計算最後的抵觸資料前，必須先剔除掉不是在談論同一件事的兩個文本，因儘管語義圖相似度低，但原因可能是因為兩段論述在談

Manning, 2009)。

前述方法多為人工建立特徵，例如分析字詞的詞性和邏輯關係等，將這些資訊送入模型進行訓練。除了基於人工特徵的模型外，還有基於分佈式表示法

‧

‧ 2.3 注意力機制（Attention Mechanism）

自然語言處理任務在注意力機制的助益下取得重大進展，注意力的概念首度被提出 (Bahdanau et al., 2014)，最初運用在神經機器翻譯（Neural Machine Translation, NMT）任務上，日後延伸到更廣泛的自然語言處理任務上，我們的模型（sequence to sequence）模型的主要任務。序列對序列模型的架構包含了兩個遞歸神經網路，一個為將資料輸入進行編碼的編碼器（encoder），一個為將

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

Transformer 模型是一個非遞迴式、基於自注意力機制的序列對序列模型，和遞歸神經網路一樣可以進行序列資料的運算，除外還能夠透過自注意力機制解決上述遞歸神經網路無法有效平行運算的問題，假設遞迴一個十個元素的序列需要十個時步（time step）才能回傳所有的輸出向量，則自注意力機制可以在一個時步即回傳所有的輸出向量，同時每一個輸出向量都包含了完整輸入序列的資訊。

圖2-2 Transformer 模型架構

‧

經網路層、加入了 add&norm 和位置編碼（positional encoding）。

編碼器和解碼器都能以堆疊區塊的方式來搭建深度模型，以 N=6 來實作 Transformer 模型 (Vaswani et al., 2017)。在編碼器中，每一層有兩個子層，第一子層為多頭自注意力層，第二子層為 position-wise 的全連結前饋網路層。兩個子層後都接有一個 add&norm 層，將前一層的輸入和輸出以殘差連結

（residual connection）後做層正規化（Layer Normalization），避免子層的輸入和輸出值差距過大，以確保能夠更快地訓練及增加模型的泛化

（key）和值（value），attention 則使用了 Scaled Dot-Product 來計算 (Vaswani et al., 2017)。

2.3.3 基於 Transformer 架構之模型

自從 Transformer 模型發表以來，許多基於 Transformer 模型的架構大量用於自然語言理解和自然語言生成中各個任務並取得重大進展。同時利用預訓練模型（pre-trained model）來做兩階段的遷移學習（Transfer Learning）除了能夠取得高表現，更是節省訓練龐大語料的時間，遷移學習將能夠理解龐大語境的預訓練語言模型做為通用模型，再依據各個自然語言處理任務所需的架構，利用監督式學習來微調下游模型，使其能夠解決特定任務的模型。BERT 為一雙向

‧

（unsupervised）的方式進行預訓練，在預訓練時採用了雙向 Transformer，訓練方法採用隨機遮蔽單詞預測（masked LM）及下句預測（next sentence prediction），其產生的表示（representations）能夠考慮文本上下文的情境 (Devlin et al., 2018)。GPT-2，為單向由左至右的解碼器模型，預訓練方法為給予已知字詞來預測下一個未知字詞，因此在生成任務上有相當優秀的表現型架構和實驗參數，最終使用了完整的 Transformer Encoder-Decoder 架構，利

在文檔中自然語言推理之後設可解釋性建模 - 政大學術集成 (頁 21-0)

解釋模型的方法

2.1 可解釋之人工智慧（Explainable Artificial Intelligence, XAI）

2.1.2 解釋模型的方法

2.1.2 解釋模型的方法

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y 2.1.3 評估模型可解釋性

‧

‧

‧

2.2 自然語言理解（Natural Language Understanding）

‧

‧

2.2.2 自然語言推理（Natural Language Inference）

‧

‧

‧

‧ 2.3 注意力機制（Attention Mechanism）

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

2.3.3 基於 Transformer 架構之模型

‧

立政治大學

立政治大學