判斷變數間之方向性 - 模型假設對分析變數間因果關係的影響

統計學家及生物學家在分析因果關係有使用各種不同的方法，前面提及的大多是以貝氏為主的方法；貝氏方法一開始先主觀地相信參數 θ 是來自於某一分配，再客觀地根據搜集的資 料對於模型做修正；亦即需給定先驗分配（prior distribution），

接著再根據資料修正參數 θ 的模型，而求得後驗分配（posterior distribution）。由於先驗資料是很主觀的，所以我們的方法是設法著重在概似函數（Likelihood function）上面，而概似函數需要知道資料的模型才能做，因此在底下的方法中會探討若模型假設錯誤會造成什麼影響，並以數個不同的模型去做模擬，而誤差函數（Error function）亦會以數個不同的型式做模擬。

在分析因果關係的方向性之前，我們仍需先判斷資料中有哪些變數彼此之間是獨立的，或具有條件獨立的關係，在分析之前，先介紹在本文中所使用的檢定獨立方法。

3-1 檢定獨立的方法－Kendall’s Tau

在文獻中有關檢定獨立的方法不只 Kendall’s Tau 法，還有其它方法，如：Spearman Rank-Order Correlation Coefficient, Chi-Square Test, Pearson Product Moment Correlation （簡稱

Pearson’s r），...等，但由於 Kendall’s Tau 法能檢定出的範圍比

而在文獻 Encyclopedia of Statistical Sciences Volume Ⅳ (Samuel Kotz & Normal L. Johnson)中有提及當樣本個數

時，Kendall’s Tau 即會服從常態分配，在程式的模擬驗證中，

中，變數 X 和變數 Y 的個數皆不能太小（一般會使之大於 5），

以免影響分析。我們使用 Rank 離散化變數 Z 的方式將變數 X 和變數 Y 對於變數 Z 做分組，依序列為底下數個步驟：

Step 0：原始數對為

(

Z X Yi^, i^, i

)

i =^1,...,n。

Step 1：將資料 Z₁,...,Z_n取 Rank，稱為 R₁,...,R_n。 Step 2：使用Int ^Rⁱ

n k

⎡⎢

⎣ ⎦

⎤⎥將原始的連續資料離散化成 k 組，記為

1 2

1 1 1 2 2 2

1, ,...,2 _i, 1, 2,..., _i ,..., 1^k,..., _i^k_k

R R R R R R R R ，R_i^j之上標下標分別表示第 j 組中第 i 個，而每組中分別有i_j個，j =1,...,k。 Step 3：檢查每個i_j是否都夠大足以分析。

Step 4：將每組之 R_i^j值原對應的數對

(

X Yi^, i

)

^j分別收集起來。

Step 5：對於每組之

(

X Yi^, i

)

^j分別做 Kendall’s Tau，來檢驗當 Z = j時之

(

X Yi^, i

)

^j是否獨立。

若當每組之變數 X 和變數 Y 皆獨立時，則我們認定在給定變數 Z 的條件下，變數 X 和變數 Y 有條件獨立的關係；反之，

只要有一組變數 Z 的值會使變數 X 和變數 Y 相關，則我們認為在給定變數 Z 的條件下，變數 X 和變數 Y 不符合條件獨立的關係。而更進一步的判斷方式及更詳細的分析請見林育仕（2005）。

3-2 貝氏概念與概似函數

若以數學式來表示貝氏的概念，一般會將先驗分配記為

( )

π θ ，而資料的分配記為 ^{f x}

( )

θ ，則後驗分配可寫成如下式子：

( ) ( )

^x ^{f x}

( ) ( )

^{m x}

π θ = θ π θ （3-2-1）

當中的^{m x}

( )

是資料的邊際分配：^{m x}

( )

⁼

∫

^{f x}

( )

^{θ π θ θ}

( )

底下的分析接著上述再進一步的假設參數 θ 裡仍存在一個 參數 λ，亦即可寫成如下的型式：資料 X 服從函數 f 分配，

( )

X ∼ f xθ ，參數 θ 的先驗分配為^{θ π θ λ}^∼

( )

^，則

(

^X^,^{θ 的聯合分}

)

配為

(

^X^,^θ

)

^∼ ^{f x}

( ) ( )

^{θ π θ λ} ^{，接著對參數} θ 做積分可得資料 X 的邊 際分配 ^X ^∼^{h x}

( )

^λ ^：

( ) ( ) ( )

h xλ =

∫

f xθ π θ λ θd ^（3-2-2）

由於上式中只有參數 λ 是未知，因此利用已知的資料將函數最 大化，以求得參數 λ 的 MLE（Maximum Likelihood Estimator）：

( )

^ˆ

maxh x

λ λ ⇒ λ

此時我們的資料仍舊服從函數 f 分配， ^X ^∼ ^{f x}

( )

^θ ^，而參數 ^{θ 的}

先驗分配則可寫成^{θ π θ λ}^∼

( )

^ˆ ^，當中的λ 是函數 h 之 MLE，所以藉^ˆ 由上述兩個式子（3-2-1）及（3-2-2）可以得知參數 θ 的後驗分配 是和 ^{f x}

( )

θ π θ λ 成正比。

(

^ˆ

)

3-3 使用貝氏概念及概似函數判斷兩個變數間之方向性

使用上式（3-3-3）求出參數

(

λ λ 的 MLE：X^, Y

) (

^{λ λ ，再將}^ˆ^X^, ^ˆ^Y

) (

^{λ λ}^ˆ^X^, ^ˆ^Y

)

Step 3：判斷圖形結構何者的可能性最大？

錯誤，我們能否判斷出正確之圖形結構。一開始先導出分配為

3-4.2 模擬五種不同分配，使用之公式資料服從 Normal 分配

(

^{1.0, 2.4}

)

直接影響結果；而這當中也可能是因為 Normal 分配較有不易分

3-4.4 模擬四種不同分配，使用之公式資料服從 Exponential 本節採用的判斷公式中，資料是服從 Exponential 分配，我們亦想知道，在假設（模型 3-4.3）是對的情況下，測試若分配假設錯誤能否判斷出正確之圖形結構；仍舊設定樣本數為 100，

重覆 1000 次，列出其在不同的分配及不同的先驗分配選擇下，

判斷正確的次數；此時之先驗分配亦如同上述，假設 Prior 為 p 的情況。

在下頁的兩個表格中，由於 Exponential 分配皆為正數，所以捨棄了 Cauchy 分配，只採用了四種不同機率模型，而變數間以線性及二次兩種關係去模擬；在 Normal 、 Exponential 、 Gamma、Double Exponential 四種模型中，除了與判斷公式同模型的 Exponential 分配，無論變數間是線性或二次關係，皆可以判斷出正確的圖形結構；而其餘三種模型中，若變數間為線性關係時，除非 p＞0.5，否則無法判斷出正確的圖形結構；反之，

變數間為二次關係時，只要 p＞0.1 時，則可將正確的圖形結構 判斷出。接著我們想再更進一步的使準確度提高，尤其是在變數之間為線性關係的情況下。

( )

^{8, 2}

另一個圖形結構則可直接利用其相對的變數關係，即可求得。

首先假設資料的分配為 X ∼ fX

(

xθX

)

，^{Y X} ^∼ ^f^{Y X}

(

^{y x}^,^θ^Y

)

^，因

此我們可以得到圖形結構 X→Y 之概似函數：

(

^, ^X^, ^Y

)

⁽

⁾

^{Y X}

(

^, ^Y

)

L x yθ θ = f xθ f y x θ

為了求出上式中參數的 MLE，一般會先取自然對數，接著將求出的 MLE

(

^{θ θ}^{ˆ ˆ}^X^, ^Y

)

代回上式而求得圖形結構 X→Y 之概似函數：

(

^, ^{ˆ ˆ}^X^, ^Y

) ( ) (

^X ^ˆ^X ^{Y X} ^, ^ˆ^Y

)

L x yθ θ = f xθ f y xθ （3-5-1）

同理可得圖形結構 X←Y 之概似函數為：

(

^, ^{ˆ ˆ}^Y^, ^X

) ( ) (

^Y ^ˆ^Y ^{X Y} ^, ^ˆ^X

)

L y xθ θ = f yθ f x y θ

)

（3-5-2）

最後我們只要比較由式子（3-5-1）及（3-5-2）所得的兩個概似函數值之大小即可判斷出實際資料之圖形結構為何者。

3-5.1 考慮

(

^{X Y}^, 間的機率模型為線性關係之 Normal

假設資料中 X、Y 兩個變數都來自常態分配，而變數間是為線性關係，並採用來自常態分配的誤差，依照上小節之方法設法判定出有最大概似函數值的圖形結構。

首先假設資料的分配為 ^X ^∼ ^N

(

^{µ σ}^X^, ^X²

)

^，^{Y X} ^∼ ^{N aX b}

(

⁺ ^,^σ^Y²

)

^，

記為（模型 3-5.1），由此模型假設我們可以得此圖形結構 X→Y

之概似函數：

由上述兩步驟中求得的兩個函數，我們可以發現，其實兩

當中之SAB =

∑

ⁿi₌₁

(

Ai−A B

) (

i−^B

)

^；再將

(

µ σ σ 代回概似函數^ˆ^X^, ^ˆ^X²^, ^ˆ^Y²

)

從上表發現，在 Normal 分配下，若兩變數之間為線性關係時，不容易判斷圖形是為 X→Y 或 X←Y。此為合理結果，由於在線性關係方面，當 X 為 Y 的線性時亦可寫成 Y 為 X 的線性；

在這個例子中，我們也可以將 X 為 Y 的二次寫成 Y 為 X 的二次，

因此兩圖形被判斷正確的可能性皆為一半左右。

Case 2：資料為 Normal 分配，而變數之間的關係為二次關係。

資料 X 資料 Y 樣本數正確次數樣本數正確次數

N(1,1) N(X²-3X+7,1) 100 1000 1000 1000 N(1,3) N(4X²+X+5,5) 100 1000 1000 1000 N(3,2) N(2X²+6X-2,6) 100 1000 1000 1000 Ｎ(0,1) Ｎ(5X²-3X+1,3) 100 1000 1000 1000 Ｎ(0,5) Ｎ(2X²-X+10,2) 100 1000 1000 1000

從上表發現，在 Normal 分配下，若兩變數之間為二次關係時，無論資料變異有多大，皆可判斷出正確的圖形結構 X→Y 或 X←Y。

Case 3：資料為 Exponential 分配，變數間的關係為線性關係。

資料 X 資料 Y 樣本數正確次數樣本數正確次數

Exp(5) -X+10+Exp(5) 100 0 1000 0 Exp(3) -3X+7+Exp(1) 100 1 1000 0 Exp(2) -2X+6+Exp(5) 100 104 1000 0 Exp(1) X+1+Exp(0.5) 100 160 1000 6 Exp(1) 2X+1+Exp(2) 100 137 1000 7

從上表發現，在 Exponential 分配，若兩變數之間為線性關係時，不容易判斷圖形是為 X→Y 或 X←Y。

Case 4：資料為 Exponential 分配，變數間的關係為二次關係。

資料 X 資料 Y 樣本數正確次數樣本數正確次數

Exp(5) 2X²-X+10+Exp(5) 100 989 1000 1000 Exp(1) X²+X+1+Exp(0.5) 100 998 1000 1000 Exp(3) 6X²-3X+7+Exp(1) 100 999 1000 1000 Exp(2) X²-2X+6+Exp(5) 100 998 1000 1000 Exp(1) X²+2X+1+Exp(2) 100 1000 1000 1000

從上表發現，在 Exponential 分配，若兩變數之間為二次關係時，無論資料變異有多大，幾乎皆可判斷出正確的圖形結構 X→Y 或 X←Y；在這個模擬結果中，我們亦發現，誤差項的變動對於判斷結果似乎不是很重要。

Case 5：資料為 Double Exponential 分配，而變數間為線性關係。

資料 X 資料 Y 樣本數正確次數樣本數正確次數

Case 6：資料為 Double Exponential 分配，而變數間為二次關係。

資料 X 資料 Y 樣本數正確次數樣本數正確次數

從上頁的表格發現，在 Double Exponential 分配下，若兩變數之間為二次關係時，無論資料變異有多大，皆可判斷出正確的圖形結構 X→Y 或 X←Y；在這個模擬結果中，我們亦發現，

誤差項的變動對於判斷結果似乎不是很重要。

Case 7：資料為 Cauchy 分配，而變數之間的關係為線性關係。

資料 X 資料 Y 樣本數正確次數樣本數正確次數

C(5,1) C(-X+10,1) 100 48 1000 4 C(1,1) C(X+1,1) 100 46 1000 7 C(1,6) C(-2X+6,5) 100 67 1000 13 C(2,4) C(2X+1,2) 100 78 1000 15 C(3,3) C(-3X+7,3) 100 90 1000 17

從上表發現，在 Cauchy 分配下，若兩變數之間為線性關係時，不容易判斷圖形是為 X→Y 或 X←Y。

Case 8：資料為 Cauchy 分配，而變數之間的關係為二次關係。

資料 X 資料 Y 樣本數正確次數樣本數正確次數

C(5,1) C(2X²-X+10,1) 100 992 1000 998 C(1,1) C(X²+X+1,1) 100 986 1000 1000 C(3,3) C(6X²-3X+7,3) 100 999 1000 1000 C(2,4) C(X²+2X+1,2) 100 991 1000 1000 C(1,6) C(X²-2X+6,5) 100 994 1000 1000

從上表發現，在 Cauchy 分配下，若兩變數之間為二次關係時，無論資料變異有多大，皆可判斷出正確的圖形結構 X→Y 或 X←Y。

Case 9：資料為 Gamma 分配，而變數之間的關係為線性關係。

資料 X 資料 Y 樣本數正確次數樣本數正確次數

G(1,6) -X+10+G(1,2) 100 1 1000 0 G(1,1) -X+5+G(1,5) 100 6 1000 0 G(5,1) -3X+7+G(1,1) 100 320 1000 42 G(3,3) 6X-2+G(1,6) 100 318 1000 112 G(2,4) 2X+1+G(1,3) 100 231 1000 139 從上表發現，在 Gamma 分配下，若兩變數之間為線性關係時，不容易判斷圖形是為 X→Y 或 X←Y。

Case 10：資料為 Gamma 分配，而變數之間的關係為二次關係。

資料 X 資料 Y 樣本數正確次數樣本數正確次數

G(5,1) X²-3X+7+G(1,1) 100 1000 1000 1000 G(1,1) 4X²-X+5＋G(1,5) 100 1000 1000 1000 G(3,3) 2X²+6X-2+G(1,6) 100 1000 1000 1000 G(2,4) 5X²+2X+1+G(1,3) 100 1000 1000 1000 G(1,6) 2X²-X+10+G(1,2) 100 1000 1000 1000

從上表發現，在 Gamma 分配下，若兩變數之間為二次關係時，無論資料變異有多大，皆可判斷出正確的圖形結構 X→Y 或 X←Y；在這個模擬結果中，我們亦發現，誤差項的變動對於判斷結果似乎不是很重要。

由以上 10 個 Cases，我們在此做個小整理，若資料中的變數為二次關係時，無論是何種分配我們皆可判斷出正確的圖形結構；反之，資料中的變數為線性關係時，仍無法直接由（模型 3-5.2）判斷出正確的圖形結構，整理的表格如下頁所示。

資料模型變數間為線性關係變數間為二次關係

Normal 8 9

Exponential 8 9

Double Exponential 8 9

Cauchy 8 9

Gamma 8 9

3-6 直接使用概似函數判斷三個變數間之方向性

若有 X、Y、Z 三個變數時，圖形之因果關係方向性有底下三種類型：cX→Y→Z、dX→Z←Y、eY←X→Z，而圖形c中 X、Y、Z 三個變數的位置若置換順序有 6 種組合的可能，圖形 d、e各有 3 種組合的可能；詳細的 12 種組合情形已在第一章時列出，底下即開始分析代表這三類圖形結構的概似函數，每一類型中，X、Y、Z 三個變數的順序僅以其中一個組合為代表，

亦即當圖形類型相同，而三個變數的順序若有改變時，概似函數中只要變數做相對應的代換即可。

Step 1：求出代表圖形結構 X→Y→Z 的概似函數

假設資料 X ∼ fX

(

xθX

)

，^{Y X} ^∼ ^f^{Y X}

(

^{y x}^,^θ^Y

)

^，^{Z Y} ^∼ ^f^{Z Y}

(

^{z y}^,^θ^Z

)

^，

由以上假設我們可以得到此圖形之概似函數：

( ) ⁽ ⁾ ( ) ( )

1 , , _X, ,_Y _Z _X _X _{Y X} , _Y _{Z Y} , _Z

L x y zθ θ θ = f xθ f y xθ f z y θ

為了求出參數的 MLE，一般會對上式取自然對數，接著將求出的 MLE

(

^{θ θ θ}^{ˆ ˆ ˆ}^X^{, ,}^Y ^Z

)

代回上式而求得圖形結構 X→Ｙ→Ｚ之概似函數^{L x y z}¹

(

^{, ,} ^{θ θ θ 。}^{ˆ ˆ ˆ}^X^{, ,}^Y ^Z

)

而在 X、Y、Z 三變數的資料中，依照同樣的方法求得圖形結構 X→Z→Y 之概似函數：

( ) ( ) ( ) ( )

1 , , ˆ ˆ ˆ_X, ,_Z _Y _X ˆ_X _{Z X} , ˆ_Z _{Y Z} , ˆ_Y L x z yθ θ θ = f xθ f z x θ f y z θ

同理，可求出圖形結構相對應關係為 A→B→C 之概似函數：

Y→X→Z： ^{L y x z}¹

(

^{, ,} ^{θ θ θ}^{ˆ ˆ ˆ}^Y^, ^X^, ^Z

)

Y→Z→X： ^{L y z x}¹

(

^{, ,} ^{θ θ θ}^{ˆ ˆ ˆ}^Y^{, ,}^Z ^X

)

Z→X→Y： ^{L z x y}¹

(

^{, ,} ^{θ θ θ}^{ˆ ˆ ˆ}^Z^, ^X^, ^Y

)

Z→Y→X： ^{L z y x}¹

(

^{, ,} ^{θ θ θ}^{ˆ ˆ ˆ}^Z^{, ,}^Y ^X

)

Step 2：求出代表圖形結構 X→Z←Y 的概似函數

假設資料 X ∼ fX

(

xθX

)

，^Y ^∼ ^{f y}^Y

( )

^θ^Y ^，^{Z X Y}^, ^∼ ^f^{Z X Y}^,

(

^{z x y}^{, ,}^θ^Z

)

^，

，由以上假設我們可以得到此圖形之概似函數：

where X ⊥Y

( ) ⁽ ⁾ ( ) ( )

2 , , _X, ,_Z _Y _X _X _Y _Y _{Z X Y}, , , _Z

L x z yθ θ θ = f xθ f yθ f z x y θ

)

接著求出參數之 MLE

(

^{θ θ θ}^{ˆ ˆ ˆ}^X^{, ,}^Y ^Z 並代回上式而求得圖形結構 X→

Z←Y 之概似函數 ^{L x z y}²

(

^{, ,} ^{θ θ θ 。}^{ˆ ˆ ˆ}^X^{, ,}^Z ^Y

)

依照同樣的方法求得圖形結構 X→Y←Z 之概似函數：

在文檔中模型假設對分析變數間因果關係的影響 (頁 26-74)