統計學家及生物學家在分析因果關係有使用各種不同的方 法 , 前 面 提 及 的 大 多 是 以 貝 氏 為 主 的 方 法 ; 貝 氏 方 法 一 開 始 先 主觀地相信參數 θ 是來自於某一分配,再客觀地根據搜集的資 料對於模型做修正;亦即需給定先驗分配(prior distribution),
接著再根據資料修正參數 θ 的模型,而求得後驗分配(posterior distribution)。由於先驗資料是很主觀的,所以我們的方法是設 法著重在概似函數(Likelihood function)上面,而概似函數需 要 知 道 資 料 的 模 型 才 能 做 , 因 此 在 底 下 的 方 法 中 會 探 討 若 模 型 假 設 錯 誤 會 造 成 什 麼 影 響 , 並 以 數 個 不 同 的 模 型 去 做 模 擬 , 而 誤差函數(Error function)亦會以數個不同的型式做模擬。
在分析因果關係的方向性之前,我們仍需先判斷資料中有 哪 些 變 數 彼 此 之 間 是 獨 立 的 , 或 具 有 條 件 獨 立 的 關 係 , 在 分 析 之前,先介紹在本文中所使用的檢定獨立方法。
3-1 檢定獨立的方法-Kendall’s Tau
在文獻中有關檢定獨立的方法不只 Kendall’s Tau 法,還有 其 它 方 法 , 如 :Spearman Rank-Order Correlation Coefficient, Chi-Square Test, Pearson Product Moment Correlation ( 簡 稱
Pearson’s r),...等,但由於 Kendall’s Tau 法能檢定出的範圍比
而 在 文 獻 Encyclopedia of Statistical Sciences Volume Ⅳ (Samuel Kotz & Normal L. Johnson)中有提及當樣本個數
時,Kendall’s Tau 即會服從常態分配,在程式的模擬驗證中,
中,變數 X 和變數 Y 的個數皆不能太小(一般會使之大於 5),
以免影響分析。我們使用 Rank 離散化變數 Z 的方式將變數 X 和變數 Y 對於變數 Z 做分組,依序列為底下數個步驟:
Step 0:原始數對為
(
Z X Yi, i, i)
i =1,...,n。Step 1:將資料 Z1,...,Zn取 Rank,稱為 R1,...,Rn。 Step 2:使用Int Ri
n k
⎡⎢
⎣ ⎦
⎤⎥將原始的連續資料離散化成 k 組,記為
1 2
1 1 1 2 2 2
1, ,...,2 i, 1, 2,..., i ,..., 1k,..., ikk
R R R R R R R R ,Rij之上標下標分別 表示第 j 組中第 i 個,而每組中分別有ij個,j =1,...,k。 Step 3:檢查每個ij是否都夠大足以分析。
Step 4:將每組之 Rij值原對應的數對
(
X Yi, i)
j分別收集起來。Step 5:對於每組之
(
X Yi, i)
j分別做 Kendall’s Tau,來檢驗當 Z = j時之(
X Yi, i)
j是否獨立。若當每組之變數 X 和變數 Y 皆獨立時,則我們認定在給定 變數 Z 的條件下,變數 X 和變數 Y 有條件獨立的關係;反之,
只要有一組變數 Z 的值會使變數 X 和變數 Y 相關,則我們認為 在給定變數 Z 的條件下,變數 X 和變數 Y 不符合條件獨立的關 係。而更進一步的判斷方式及更詳細的分析請見林育仕(2005)。
3-2 貝氏概念與概似函數
若 以 數 學 式 來 表 示 貝 氏 的 概 念 , 一 般 會 將 先 驗 分 配 記 為
( )
π θ ,而資料的分配記為 f x
( )
θ ,則後驗分配可寫成如下式子:( ) ( )
x f x( ) ( )
m xπ θ = θ π θ (3-2-1)
當中的m x
( )
是資料的邊際分配:m x( )
=∫
f x( )
θ π θ θ( )
d底下的分析接著上述再進一步的假設參數 θ 裡仍存在一個 參 數 λ,亦即可寫成如下的型式:資料 X 服從函數 f 分配,
( )
X ∼ f xθ ,參數 θ 的先驗分配為θ π θ λ∼
( )
,則(
X,θ 的聯合分)
配為
(
X,θ)
∼ f x( ) ( )
θ π θ λ ,接著對參數 θ 做積分可得資料 X 的邊 際分配 X ∼h x( )
λ :( ) ( ) ( )
h xλ =
∫
f xθ π θ λ θd (3-2-2)由於上式中只有參數 λ 是未知,因此利用已知的資料將函數最 大化,以求得參數 λ 的 MLE(Maximum Likelihood Estimator):
( )
ˆmaxh x
λ λ ⇒ λ
此時我們的資料仍舊服從函數 f 分配, X ∼ f x
( )
θ ,而參數 θ 的先驗分配則可寫成θ π θ λ∼
( )
ˆ ,當中的λ 是函數 h 之 MLE,所以藉ˆ 由上述兩個式子(3-2-1)及(3-2-2)可以得知參數 θ 的後驗分配 是和 f x( )
θ π θ λ 成正比。(
ˆ)
3-3 使用貝氏概念及概似函數判斷兩個變數間之方向性
使用上式(3-3-3)求出參數
(
λ λ 的 MLE:X, Y) (
λ λ ,再將ˆX, ˆY) (
λ λˆX, ˆY)
Step 3:判斷圖形結構何者的可能性最大?
錯 誤 , 我 們 能 否 判 斷 出 正 確 之 圖 形 結 構 。 一 開 始 先 導 出 分 配 為
3-4.2 模擬五種不同分配,使用之公式資料服從 Normal 分配
(
1.0, 2.4)
直接影響結果;而這當中也可能是因為 Normal 分配較有不易分
3-4.4 模擬四種不同分配,使用之公式資料服從 Exponential 本節採用的判斷公式中,資料是服從 Exponential 分配,我 們亦想知道,在假設(模型 3-4.3)是對的情況下,測試若分配 假設錯誤能否判斷出正確之圖形結構;仍舊設定樣本數為 100,
重覆 1000 次,列出其在不同的分配及不同的先驗分配選擇下,
判斷正確的次數;此時之先驗分配亦如同上述,假設 Prior 為 p 的情況。
在下頁的兩個表格中,由於 Exponential 分配皆為正數,所 以捨棄了 Cauchy 分配,只採用了四種不同機率模型,而變數間 以 線 性 及 二 次 兩 種 關 係 去 模 擬 ; 在 Normal 、 Exponential 、 Gamma、Double Exponential 四種模型中,除了與判斷公式同模 型的 Exponential 分配,無論變數間是線性或二次關係,皆可以 判 斷 出 正 確 的 圖 形 結 構 ; 而 其 餘 三 種 模 型 中 , 若 變 數 間 為 線 性 關係時,除非 p>0.5,否則無法判斷出正確的圖形結構;反之,
變數間為二次關係時,只要 p>0.1 時,則可將正確的圖形結構 判 斷 出 。 接 著 我 們 想 再 更 進 一 步 的 使 準 確 度 提 高 , 尤 其 是 在 變 數之間為線性關係的情況下。
( )
8, 2另一個圖形結構則可直接利用其相對的變數關係,即可求得。
首先假設資料的分配為 X ∼ fX
(
xθX)
,Y X ∼ fY X(
y x,θY)
,因此我們可以得到圖形結構 X→Y 之概似函數:
(
, X, Y)
X(
X)
Y X(
, Y)
L x yθ θ = f xθ f y x θ
為了求出上式中參數的 MLE,一般會先取自然對數,接著將求 出的 MLE
(
θ θˆ ˆX, Y)
代回上式而求得圖形結構 X→Y 之概似函數:(
, ˆ ˆX, Y) ( ) (
X ˆX Y X , ˆY)
L x yθ θ = f xθ f y xθ (3-5-1)
同理可得圖形結構 X←Y 之概似函數為:
(
, ˆ ˆY, X) ( ) (
Y ˆY X Y , ˆX)
L y xθ θ = f yθ f x y θ
)
(3-5-2)
最後我們只要比較由式子(3-5-1) 及 (3-5-2) 所 得 的 兩 個 概似函數值之大小即可判斷出實際資料之圖形結構為何者。
3-5.1 考慮
(
X Y, 間的機率模型為線性關係之 Normal假設資料中 X、Y 兩個變數都來自常態分配,而變數間是 為 線 性 關 係 , 並 採 用 來 自 常 態 分 配 的 誤 差 , 依 照 上 小 節 之 方 法 設法判定出有最大概似函數值的圖形結構。
首先假設資料的分配為 X ∼ N
(
µ σX, X2)
,Y X ∼ N aX b(
+ ,σY2)
,記為(模型 3-5.1),由此模型假設我們可以得此圖形結構 X→Y
之概似函數:
由上述兩步驟中求得的兩個 函數,我們可以發現,其實兩
當中之SAB =
∑
ni=1(
Ai−A B) (
i−B)
;再將(
µ σ σ 代回概似函數ˆX, ˆX2, ˆY2)
從上表發現,在 Normal 分配下,若兩變數之間為線性關係 時,不容易判斷圖形是為 X→Y 或 X←Y。此為合理結果,由於 在線性關係方面,當 X 為 Y 的線性時亦可寫成 Y 為 X 的線性;
在這個例子中,我們也可以將 X 為 Y 的二次寫成 Y 為 X 的二次,
因此兩圖形被判斷正確的可能性皆為一半左右。
Case 2:資料為 Normal 分配,而變數之間的關係為二次關係。
資料 X 資料 Y 樣本數 正確次數 樣本數 正確次數
N(1,1) N(X2-3X+7,1) 100 1000 1000 1000 N(1,3) N(4X2+X+5,5) 100 1000 1000 1000 N(3,2) N(2X2+6X-2,6) 100 1000 1000 1000 N(0,1) N(5X2-3X+1,3) 100 1000 1000 1000 N(0,5) N(2X2-X+10,2) 100 1000 1000 1000
從上表發現,在 Normal 分配下,若兩變數之間為二次關係 時 , 無 論 資 料 變 異 有 多 大 , 皆 可 判 斷 出 正 確 的 圖 形 結 構 X→Y 或 X←Y。
Case 3:資料為 Exponential 分配,變數間的關係為線性關係。
資料 X 資料 Y 樣本數 正確次數 樣本數 正確次數
Exp(5) -X+10+Exp(5) 100 0 1000 0 Exp(3) -3X+7+Exp(1) 100 1 1000 0 Exp(2) -2X+6+Exp(5) 100 104 1000 0 Exp(1) X+1+Exp(0.5) 100 160 1000 6 Exp(1) 2X+1+Exp(2) 100 137 1000 7
從上表發現,在 Exponential 分配,若兩變數之間為線性關 係時,不容易判斷圖形是為 X→Y 或 X←Y。
Case 4:資料為 Exponential 分配,變數間的關係為二次關係。
資料 X 資料 Y 樣本數 正確次數 樣本數 正確次數
Exp(5) 2X2-X+10+Exp(5) 100 989 1000 1000 Exp(1) X2+X+1+Exp(0.5) 100 998 1000 1000 Exp(3) 6X2-3X+7+Exp(1) 100 999 1000 1000 Exp(2) X2-2X+6+Exp(5) 100 998 1000 1000 Exp(1) X2+2X+1+Exp(2) 100 1000 1000 1000
從上表發現,在 Exponential 分配,若兩變數之間為二次關 係 時 , 無 論 資 料 變 異 有 多 大 , 幾 乎 皆 可 判 斷 出 正 確 的 圖 形 結 構 X→Y 或 X←Y;在這個模擬結果中,我們亦發現,誤差項的變 動對於判斷結果似乎不是很重要。
Case 5:資料為 Double Exponential 分配,而變數間為線性關係。
資料 X 資料 Y 樣本數 正確次數 樣本數 正確次數
Case 6:資料為 Double Exponential 分配,而變數間為二次關係。
資料 X 資料 Y 樣本數 正確次數 樣本數 正確次數
從上頁的表格發現,在 Double Exponential 分配下,若兩變 數 之 間 為 二 次 關 係 時 , 無 論 資 料 變 異 有 多 大 , 皆 可 判 斷 出 正 確 的圖形結構 X→Y 或 X←Y;在這個模擬結果中,我們亦發現,
誤差項的變動對於判斷結果似乎不是很重要。
Case 7:資料為 Cauchy 分配,而變數之間的關係為線性關係。
資料 X 資料 Y 樣本數 正確次數 樣本數 正確次數
C(5,1) C(-X+10,1) 100 48 1000 4 C(1,1) C(X+1,1) 100 46 1000 7 C(1,6) C(-2X+6,5) 100 67 1000 13 C(2,4) C(2X+1,2) 100 78 1000 15 C(3,3) C(-3X+7,3) 100 90 1000 17
從上表發現,在 Cauchy 分配下,若兩變數之間為線性關係 時,不容易判斷圖形是為 X→Y 或 X←Y。
Case 8:資料為 Cauchy 分配,而變數之間的關係為二次關係。
資料 X 資料 Y 樣本數 正確次數 樣本數 正確次數
C(5,1) C(2X2-X+10,1) 100 992 1000 998 C(1,1) C(X2+X+1,1) 100 986 1000 1000 C(3,3) C(6X2-3X+7,3) 100 999 1000 1000 C(2,4) C(X2+2X+1,2) 100 991 1000 1000 C(1,6) C(X2-2X+6,5) 100 994 1000 1000
從上表發現,在 Cauchy 分配下,若兩變數之間為二次關係 時 , 無 論 資 料 變 異 有 多 大 , 皆 可 判 斷 出 正 確 的 圖 形 結 構 X→Y 或 X←Y。
Case 9:資料為 Gamma 分配,而變數之間的關係為線性關係。
資料 X 資料 Y 樣本數 正確次數 樣本數 正確次數
G(1,6) -X+10+G(1,2) 100 1 1000 0 G(1,1) -X+5+G(1,5) 100 6 1000 0 G(5,1) -3X+7+G(1,1) 100 320 1000 42 G(3,3) 6X-2+G(1,6) 100 318 1000 112 G(2,4) 2X+1+G(1,3) 100 231 1000 139 從上表發現,在 Gamma 分配下,若兩變數之間為線性關係 時,不容易判斷圖形是為 X→Y 或 X←Y。
Case 10:資料為 Gamma 分配,而變數之間的關係為二次關係。
資料 X 資料 Y 樣本數 正確次數 樣本數 正確次數
G(5,1) X2-3X+7+G(1,1) 100 1000 1000 1000 G(1,1) 4X2-X+5+G(1,5) 100 1000 1000 1000 G(3,3) 2X2+6X-2+G(1,6) 100 1000 1000 1000 G(2,4) 5X2+2X+1+G(1,3) 100 1000 1000 1000 G(1,6) 2X2-X+10+G(1,2) 100 1000 1000 1000
從上表發現,在 Gamma 分配下,若兩變數之間為二次關係 時 , 無 論 資 料 變 異 有 多 大 , 皆 可 判 斷 出 正 確 的 圖 形 結 構 X→Y 或 X←Y;在這個模擬結果中,我們亦發現,誤差項的變動對於 判斷結果似乎不是很重要。
由以上 10 個 Cases,我們在此做個小整理,若資料中的變 數 為 二 次 關 係 時 , 無 論 是 何 種 分 配 我 們 皆 可 判 斷 出 正 確 的 圖 形 結 構 ; 反 之 , 資 料 中 的 變 數 為 線 性 關 係 時 , 仍 無 法 直 接 由 ( 模 型 3-5.2)判斷出正確的圖形結構,整理的表格如下頁所示。
資料模型 變數間為線性關係 變數間為二次關係
Normal 8 9
Exponential 8 9
Double Exponential 8 9
Cauchy 8 9
Gamma 8 9
3-6 直接使用概似函數判斷三個變數間之方向性
若有 X、Y、Z 三個變數時,圖形之因果關係方向性有底下 三種類型:cX→Y→Z、dX→Z←Y、eY←X→Z,而圖形c中 X、Y、Z 三個變數的位置若置換順序有 6 種組合的可能,圖形 d、e各有 3 種組合的可能;詳細的 12 種組合情形已在第一章 時 列 出 , 底 下 即 開 始 分 析 代 表 這 三 類 圖 形 結 構 的 概 似 函 數 , 每 一類型中,X、Y、Z 三個變數的順序僅以其中一個組合為代表,
亦 即 當 圖 形 類 型 相 同 , 而 三 個 變 數 的 順 序 若 有 改 變 時 , 概 似 函 數中只要變數做相對應的代換即可。
Step 1:求出代表圖形結構 X→Y→Z 的概似函數
假設資料 X ∼ fX
(
xθX)
,Y X ∼ fY X(
y x,θY)
,Z Y ∼ fZ Y(
z y,θZ)
,由以上假設我們可以得到此圖形之概似函數:
( ) ( ) ( ) ( )
1 , , X, ,Y Z X X Y X , Y Z Y , Z
L x y zθ θ θ = f xθ f y xθ f z y θ
為了求出參數的 MLE,一般會對上式取自然對數,接著將求出 的 MLE
(
θ θ θˆ ˆ ˆX, ,Y Z)
代回上式而求得圖形結構 X→Y→Z之概似函 數L x y z1(
, , θ θ θ 。 ˆ ˆ ˆX, ,Y Z)
而在 X、Y、Z 三變數的資料中,依照同樣的方法求得圖形 結構 X→Z→Y 之概似函數:
( ) ( ) ( ) ( )
1 , , ˆ ˆ ˆX, ,Z Y X ˆX Z X , ˆZ Y Z , ˆY L x z yθ θ θ = f xθ f z x θ f y z θ
同理,可求出圖形結構相對應關係為 A→B→C 之概似函數:
Y→X→Z: L y x z1
(
, , θ θ θ ˆ ˆ ˆY, X, Z)
Y→Z→X: L y z x1
(
, , θ θ θ ˆ ˆ ˆY, ,Z X)
Z→X→Y: L z x y1
(
, , θ θ θ ˆ ˆ ˆZ, X, Y)
Z→Y→X: L z y x1
(
, , θ θ θ ˆ ˆ ˆZ, ,Y X)
Step 2:求出代表圖形結構 X→Z←Y 的概似函數
假設資料 X ∼ fX
(
xθX)
,Y ∼ f yY( )
θY ,Z X Y, ∼ fZ X Y,(
z x y, ,θZ)
,,由以上假設我們可以得到此圖形之概似函數:
where X ⊥Y
( ) ( ) ( ) ( )
2 , , X, ,Z Y X X Y Y Z X Y, , , Z
L x z yθ θ θ = f xθ f yθ f z x y θ
)
接著求出參數之 MLE
(
θ θ θˆ ˆ ˆX, ,Y Z 並代回上式而求得圖形結構 X→Z←Y 之概似函數 L x z y2
(
, , θ θ θ 。 ˆ ˆ ˆX, ,Z Y)
依照同樣的方法求得圖形結構 X→Y←Z 之概似函數: