文獻探討

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章文獻探討

此章將就 Kullback-Leibler Information Criterion(KLIC)及傾向分數(propensity score) 這兩項後續章節中所會涉及的議題，進行簡單回顧。

第一節 KLIC 壹、 Shannon Entropy

Entropy 一詞最早在熱力學由 Boltzman 於 1872 年提出，後來 Shannon 在 1948 年延伸到訊息理論(information theory)上並正式定義，詳述如下[5]。

已知一離散隨機變數，其機率密度函數(probability mass function)為，定義為

藉由上述定義可以延伸許多性質如下：

(1) 恆為正數：，。

(2) 平均訊息指標：將原式作延伸可得， 因此 H(X)可視為一個期望值的概念，表示平均而言此機率函數所提供的訊息。

(3) 不確定性指標：我們知道當的發生機率越低，表示不確定性越高。由定義對

照可知，此時其會近似於 0，使得。另外若我們知道確定發生或不發生的情況，則無不確定性可言。由於當不發生時，；確定發生時，其機率 ，這兩者對所造成的貢獻都是 0，所以 H(X)可 解釋為用於測量隨機變數的不確定性。

另外，Ullah(1996)也提到由於影響大小決定於其機率函數而非變數值本身，故文獻上大多使用以作為強調[6]。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

儘管 Shannon entropy 有良好的定義，也因為意義簡單明白被廣泛應用，但生活上許多例子大多建構在連續狀態下，所以將中的總和改為積分符號做為調整，卻因此

產生了另外的問題：「若隨機變數為連續，其機率密度函數的選取可能會使 entropy 產生

負值」，故延生出其他處理方法，KLIC 為其中一種。

貳、 Kullback-Leibler Information Criterion

一、起源

Kullback and Leibler(1951)將 Shannon entropy 做一延伸，用以測量兩機率測度的差異(discrimination)，後來稱之為 KLIC(也稱 relative entropy)，其定義如下[7]：

由上式可看到幾點特性：

(1) 恆為正數：利用詹森不等式¹(Jensen's inequality)可輕易證明如下。

(2) 等號成立表示測度相等：亦即。

(3) 無對稱性(non-symmetry)：由定義明顯可得，故 Kullback and Leibler(1951)也定義了 Kullback-Leibler divergence 以滿足其對稱性。此概念最先由 Jeffreys(1946)提出，故也稱 Jeffreys information。

(4) 不符合三角不等式：Ullah(1996)整理了許多不同距離及其衍生，其中指出 KLIC 並不是一個距離(metric)概念，因為不符合對稱性與三角不等式，即便是 Jeffreys information 也仍不滿足距離公設，故也不為距離。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

二、應用

由於 KLIC 可以做為檢視兩測度訊息差異的指標，後來被廣泛使用在模型選

取，當應用於實務時，若將視為所真實的模型，為用以估計的模型，兩者皆為機率測度，應滿足下列條件：

(1) (2)

則 KLIC 在此將兩測度的差異解釋為：「使用模型來估計背後真實所遺失的訊息」，

然而實務的困難點是，我們永遠不知道真實為何，因此將 KLIC 定義展開如下

這邊的重點在於前項表示真實的分配故無法測量，雖然如此，這真實分配卻是固定的，代表前項可視為一個"常數"，而後項(後來將此稱為 cross entropy)可以經由樣本模型等等估計，因此欲選取最佳的模型，就表示希望遺失的訊息最少，即最小的 KLIC，

也意味著最小的 cross entropy，故實務上會去比較各個模型的 cross entropy 以求得最佳模型。另外許多文獻上應用可發現，cross entropy 必須經由比較才有意義，故而延伸出許多估計方法，如 AIC、BIC、QAIC 等等。

第二節傾向分數

在實驗性研究(experimental study)中，要判斷特定變數的效果時，我們可以利用隨機實驗的方式來控制其他變數以達成隨機配置的目的，進而推斷是否具有因果關係；然而生活中絕大部分是屬於觀察性研究(observational study)，其所觀察到的現象不見得只受到特定變數的影響，可能是來自其他的變項交互影響而成，也因此在推斷關係上造成困擾與錯誤估計，故近年來發展出傾向分數(propensity score)來處理類似問題。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

Rosenbaum and Rubin(1983)提出傾向分數一詞，將一個均衡分數(balancing score)定義為傾向分數：「給定各控制變量(covariates)的條件下其受測者所指派到特定處理 (treatment)組的機率。」給定傾向分數下，其組別的分類應與基準變量獨立。若以數學式表示則為

其中

各控制變量實驗指派變數

若將傾向分數的性質做一個意義上的延伸，表示在相同的傾向分數下，其不同實驗組別的其他控制變項分配結構相近，可視為一個模擬的隨機詴驗(randomization experiment)，

並據以進行資料分析。

傾向分數常透過羅吉斯模型來估計，後續文獻中也陸續發展出四種常用之傾向分數使用方法，(1)配對(matching)、(2)分層(stratification)、(3)加權調整(inverse probability of treatment weighting, IPTW)、(4)變量調整(covariate adjustment)，其中最被廣泛使用的是配對方法。由於真實的傾向分數為一個均衡分數，故事後兩組之間的平衡診斷(balance diagnostics)是必要的。常用的診斷工具包含標準化差異(standardized difference)、配對前後變異數比(variance ratio)、盒鬚圖(boxplot)、Q-Q plot、機率密度函數(PDF)、累積機率函數(CDF)等其他圖形比較法(參見 Austin(2009))[8]。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中 KLIC作為傾向分數配對平衡診斷之可行性探討 - 政大學術集成 (頁 8-12)

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章 文獻探討

第一節 KLIC 壹、 Shannon Entropy

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

貳、 Kullback-Leibler Information Criterion

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節 傾向分數

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

立政治大學

第二章文獻探討

立政治大學

立政治大學

第二節傾向分數

立政治大學

立政治大學