• 沒有找到結果。

判斷變數間之方向性

統計學家及生物學家在分析因果關係有使用各種不同的方 法 , 前 面 提 及 的 大 多 是 以 貝 氏 為 主 的 方 法 ; 貝 氏 方 法 一 開 始 先 主觀地相信參數 θ 是來自於某一分配,再客觀地根據搜集的資 料對於模型做修正;亦即需給定先驗分配(prior distribution),

接著再根據資料修正參數 θ 的模型,而求得後驗分配(posterior distribution)。由於先驗資料是很主觀的,所以我們的方法是設 法著重在概似函數(Likelihood function)上面,而概似函數需 要 知 道 資 料 的 模 型 才 能 做 , 因 此 在 底 下 的 方 法 中 會 探 討 若 模 型 假 設 錯 誤 會 造 成 什 麼 影 響 , 並 以 數 個 不 同 的 模 型 去 做 模 擬 , 而 誤差函數(Error function)亦會以數個不同的型式做模擬。

在分析因果關係的方向性之前,我們仍需先判斷資料中有 哪 些 變 數 彼 此 之 間 是 獨 立 的 , 或 具 有 條 件 獨 立 的 關 係 , 在 分 析 之前,先介紹在本文中所使用的檢定獨立方法。

3-1 檢定獨立的方法-Kendall’s Tau

在文獻中有關檢定獨立的方法不只 Kendall’s Tau 法,還有 其 它 方 法 , 如 :Spearman Rank-Order Correlation Coefficient, Chi-Square Test, Pearson Product Moment Correlation ( 簡 稱

Pearson’s r),...等,但由於 Kendall’s Tau 法能檢定出的範圍比

而 在 文 獻 Encyclopedia of Statistical Sciences Volume Ⅳ (Samuel Kotz & Normal L. Johnson)中有提及當樣本個數

時,Kendall’s Tau 即會服從常態分配,在程式的模擬驗證中,

中,變數 X 和變數 Y 的個數皆不能太小(一般會使之大於 5),

以免影響分析。我們使用 Rank 離散化變數 Z 的方式將變數 X 和變數 Y 對於變數 Z 做分組,依序列為底下數個步驟:

Step 0:原始數對為

(

Z X Yi, i, i

)

i =1,...,n

Step 1:將資料 Z1,...,Zn取 Rank,稱為 R1,...,Rn。 Step 2:使用Int Ri

n k

將原始的連續資料離散化成 k 組,記為

1 2

1 1 1 2 2 2

1, ,...,2 i, 1, 2,..., i ,..., 1k,..., ikk

R R R R R R R RRij之上標下標分別 表示第 j 組中第 i 個,而每組中分別有ij個,j =1,...,k。 Step 3:檢查每個ij是否都夠大足以分析。

Step 4:將每組之 Rij值原對應的數對

(

X Yi, i

)

j分別收集起來。

Step 5:對於每組之

(

X Yi, i

)

j分別做 Kendall’s Tau,來檢驗當 Z = j時之

(

X Yi, i

)

j是否獨立。

若當每組之變數 X 和變數 Y 皆獨立時,則我們認定在給定 變數 Z 的條件下,變數 X 和變數 Y 有條件獨立的關係;反之,

只要有一組變數 Z 的值會使變數 X 和變數 Y 相關,則我們認為 在給定變數 Z 的條件下,變數 X 和變數 Y 不符合條件獨立的關 係。而更進一步的判斷方式及更詳細的分析請見林育仕(2005)。

3-2 貝氏概念與概似函數

若 以 數 學 式 來 表 示 貝 氏 的 概 念 , 一 般 會 將 先 驗 分 配 記 為

( )

π θ ,而資料的分配記為 f x

( )

θ ,則後驗分配可寫成如下式子:

( ) ( )

x f x

( ) ( )

m x

π θ = θ π θ (3-2-1)

當中的m x

( )

是資料的邊際分配:m x

( )

=

f x

( )

θ π θ θ

( )

d

底下的分析接著上述再進一步的假設參數 θ 裡仍存在一個 參 數 λ,亦即可寫成如下的型式:資料 X 服從函數 f 分配,

( )

Xf xθ ,參數 θ 的先驗分配為θ π θ λ

( )

,則

(

X,θ 的聯合分

)

配為

(

X,θ

)

f x

( ) ( )

θ π θ λ ,接著對參數 θ 做積分可得資料 X 的邊 際分配 X h x

( )

λ

( ) ( ) ( )

h xλ =

f xθ π θ λ θd (3-2-2)

由於上式中只有參數 λ 是未知,因此利用已知的資料將函數最 大化,以求得參數 λ 的 MLE(Maximum Likelihood Estimator):

( )

ˆ

maxh x

λ λ ⇒ λ

此時我們的資料仍舊服從函數 f 分配, X f x

( )

θ ,而參數 θ 的

先驗分配則可寫成θ π θ λ

( )

ˆ ,當中的λ 是函數 h 之 MLE,所以藉ˆ 由上述兩個式子(3-2-1)(3-2-2)可以得知參數 θ 的後驗分配 是和 f x

( )

θ π θ λ 成正比。

(

ˆ

)

3-3 使用貝氏概念及概似函數判斷兩個變數間之方向性

使用上式(3-3-3)求出參數

(

λ λ 的 MLE:X, Y

) (

λ λ ,再將ˆX, ˆY

) (

λ λˆX, ˆY

)

Step 3:判斷圖形結構何者的可能性最大?

錯 誤 , 我 們 能 否 判 斷 出 正 確 之 圖 形 結 構 。 一 開 始 先 導 出 分 配 為

3-4.2 模擬五種不同分配,使用之公式資料服從 Normal 分配

(

1.0, 2.4

)

直接影響結果;而這當中也可能是因為 Normal 分配較有不易分

3-4.4 模擬四種不同分配,使用之公式資料服從 Exponential 本節採用的判斷公式中,資料是服從 Exponential 分配,我 們亦想知道,在假設(模型 3-4.3)是對的情況下,測試若分配 假設錯誤能否判斷出正確之圖形結構;仍舊設定樣本數為 100,

重覆 1000 次,列出其在不同的分配及不同的先驗分配選擇下,

判斷正確的次數;此時之先驗分配亦如同上述,假設 Prior 為 p 的情況。

在下頁的兩個表格中,由於 Exponential 分配皆為正數,所 以捨棄了 Cauchy 分配,只採用了四種不同機率模型,而變數間 以 線 性 及 二 次 兩 種 關 係 去 模 擬 ; 在 Normal 、 Exponential 、 Gamma、Double Exponential 四種模型中,除了與判斷公式同模 型的 Exponential 分配,無論變數間是線性或二次關係,皆可以 判 斷 出 正 確 的 圖 形 結 構 ; 而 其 餘 三 種 模 型 中 , 若 變 數 間 為 線 性 關係時,除非 p>0.5,否則無法判斷出正確的圖形結構;反之,

變數間為二次關係時,只要 p>0.1 時,則可將正確的圖形結構 判 斷 出 。 接 著 我 們 想 再 更 進 一 步 的 使 準 確 度 提 高 , 尤 其 是 在 變 數之間為線性關係的情況下。

( )

8, 2

另一個圖形結構則可直接利用其相對的變數關係,即可求得。

首先假設資料的分配為 XfX

(

xθX

)

Y X fY X

(

y x,θY

)

,因

此我們可以得到圖形結構 X→Y 之概似函數:

(

, X, Y

)

X

(

X

)

Y X

(

, Y

)

L x yθ θ = f xθ f y x θ

為了求出上式中參數的 MLE,一般會先取自然對數,接著將求 出的 MLE

(

θ θˆ ˆX, Y

)

代回上式而求得圖形結構 X→Y 之概似函數:

(

, ˆ ˆX, Y

) ( ) (

X ˆX Y X , ˆY

)

L x yθ θ = f xθ f y xθ (3-5-1

同理可得圖形結構 X←Y 之概似函數為:

(

, ˆ ˆY, X

) ( ) (

Y ˆY X Y , ˆX

)

L y xθ θ = f yθ f x y θ

)

3-5-2

最後我們只要比較由式子(3-5-1) 及 (3-5-2) 所 得 的 兩 個 概似函數值之大小即可判斷出實際資料之圖形結構為何者。

3-5.1 考慮

(

X Y, 間的機率模型為線性關係之 Normal

假設資料中 X、Y 兩個變數都來自常態分配,而變數間是 為 線 性 關 係 , 並 採 用 來 自 常 態 分 配 的 誤 差 , 依 照 上 小 節 之 方 法 設法判定出有最大概似函數值的圖形結構。

首先假設資料的分配為 X N

(

µ σX, X2

)

Y X N aX b

(

+ ,σY2

)

記為(模型 3-5.1),由此模型假設我們可以得此圖形結構 X→Y

之概似函數:

由上述兩步驟中求得的兩個 函數,我們可以發現,其實兩

當中之SAB =

ni=1

(

AiA B

) (

iB

)

;再將

(

µ σ σ 代回概似函數ˆX, ˆX2, ˆY2

)

從上表發現,在 Normal 分配下,若兩變數之間為線性關係 時,不容易判斷圖形是為 X→Y 或 X←Y。此為合理結果,由於 在線性關係方面,當 X 為 Y 的線性時亦可寫成 Y 為 X 的線性;

在這個例子中,我們也可以將 X 為 Y 的二次寫成 Y 為 X 的二次,

因此兩圖形被判斷正確的可能性皆為一半左右。

Case 2:資料為 Normal 分配,而變數之間的關係為二次關係。

資料 X 資料 Y 樣本數 正確次數 樣本數 正確次數

N(1,1) N(X2-3X+7,1) 100 1000 1000 1000 N(1,3) N(4X2+X+5,5) 100 1000 1000 1000 N(3,2) N(2X2+6X-2,6) 100 1000 1000 1000 N(0,1) N(5X2-3X+1,3) 100 1000 1000 1000 N(0,5) N(2X2-X+10,2) 100 1000 1000 1000

從上表發現,在 Normal 分配下,若兩變數之間為二次關係 時 , 無 論 資 料 變 異 有 多 大 , 皆 可 判 斷 出 正 確 的 圖 形 結 構 X→Y 或 X←Y。

Case 3:資料為 Exponential 分配,變數間的關係為線性關係。

資料 X 資料 Y 樣本數 正確次數 樣本數 正確次數

Exp(5) -X+10+Exp(5) 100 0 1000 0 Exp(3) -3X+7+Exp(1) 100 1 1000 0 Exp(2) -2X+6+Exp(5) 100 104 1000 0 Exp(1) X+1+Exp(0.5) 100 160 1000 6 Exp(1) 2X+1+Exp(2) 100 137 1000 7

從上表發現,在 Exponential 分配,若兩變數之間為線性關 係時,不容易判斷圖形是為 X→Y 或 X←Y。

Case 4:資料為 Exponential 分配,變數間的關係為二次關係。

資料 X 資料 Y 樣本數 正確次數 樣本數 正確次數

Exp(5) 2X2-X+10+Exp(5) 100 989 1000 1000 Exp(1) X2+X+1+Exp(0.5) 100 998 1000 1000 Exp(3) 6X2-3X+7+Exp(1) 100 999 1000 1000 Exp(2) X2-2X+6+Exp(5) 100 998 1000 1000 Exp(1) X2+2X+1+Exp(2) 100 1000 1000 1000

從上表發現,在 Exponential 分配,若兩變數之間為二次關 係 時 , 無 論 資 料 變 異 有 多 大 , 幾 乎 皆 可 判 斷 出 正 確 的 圖 形 結 構 X→Y 或 X←Y;在這個模擬結果中,我們亦發現,誤差項的變 動對於判斷結果似乎不是很重要。

Case 5:資料為 Double Exponential 分配,而變數間為線性關係。

資料 X 資料 Y 樣本數 正確次數 樣本數 正確次數

Case 6:資料為 Double Exponential 分配,而變數間為二次關係。

資料 X 資料 Y 樣本數 正確次數 樣本數 正確次數

從上頁的表格發現,在 Double Exponential 分配下,若兩變 數 之 間 為 二 次 關 係 時 , 無 論 資 料 變 異 有 多 大 , 皆 可 判 斷 出 正 確 的圖形結構 X→Y 或 X←Y;在這個模擬結果中,我們亦發現,

誤差項的變動對於判斷結果似乎不是很重要。

Case 7:資料為 Cauchy 分配,而變數之間的關係為線性關係。

資料 X 資料 Y 樣本數 正確次數 樣本數 正確次數

C(5,1) C(-X+10,1) 100 48 1000 4 C(1,1) C(X+1,1) 100 46 1000 7 C(1,6) C(-2X+6,5) 100 67 1000 13 C(2,4) C(2X+1,2) 100 78 1000 15 C(3,3) C(-3X+7,3) 100 90 1000 17

從上表發現,在 Cauchy 分配下,若兩變數之間為線性關係 時,不容易判斷圖形是為 X→Y 或 X←Y。

Case 8:資料為 Cauchy 分配,而變數之間的關係為二次關係。

資料 X 資料 Y 樣本數 正確次數 樣本數 正確次數

C(5,1) C(2X2-X+10,1) 100 992 1000 998 C(1,1) C(X2+X+1,1) 100 986 1000 1000 C(3,3) C(6X2-3X+7,3) 100 999 1000 1000 C(2,4) C(X2+2X+1,2) 100 991 1000 1000 C(1,6) C(X2-2X+6,5) 100 994 1000 1000

從上表發現,在 Cauchy 分配下,若兩變數之間為二次關係 時 , 無 論 資 料 變 異 有 多 大 , 皆 可 判 斷 出 正 確 的 圖 形 結 構 X→Y 或 X←Y。

Case 9:資料為 Gamma 分配,而變數之間的關係為線性關係。

資料 X 資料 Y 樣本數 正確次數 樣本數 正確次數

G(1,6) -X+10+G(1,2) 100 1 1000 0 G(1,1) -X+5+G(1,5) 100 6 1000 0 G(5,1) -3X+7+G(1,1) 100 320 1000 42 G(3,3) 6X-2+G(1,6) 100 318 1000 112 G(2,4) 2X+1+G(1,3) 100 231 1000 139 從上表發現,在 Gamma 分配下,若兩變數之間為線性關係 時,不容易判斷圖形是為 X→Y 或 X←Y。

Case 10:資料為 Gamma 分配,而變數之間的關係為二次關係。

資料 X 資料 Y 樣本數 正確次數 樣本數 正確次數

G(5,1) X2-3X+7+G(1,1) 100 1000 1000 1000 G(1,1) 4X2-X+5+G(1,5) 100 1000 1000 1000 G(3,3) 2X2+6X-2+G(1,6) 100 1000 1000 1000 G(2,4) 5X2+2X+1+G(1,3) 100 1000 1000 1000 G(1,6) 2X2-X+10+G(1,2) 100 1000 1000 1000

從上表發現,在 Gamma 分配下,若兩變數之間為二次關係 時 , 無 論 資 料 變 異 有 多 大 , 皆 可 判 斷 出 正 確 的 圖 形 結 構 X→Y 或 X←Y;在這個模擬結果中,我們亦發現,誤差項的變動對於 判斷結果似乎不是很重要。

由以上 10 個 Cases,我們在此做個小整理,若資料中的變 數 為 二 次 關 係 時 , 無 論 是 何 種 分 配 我 們 皆 可 判 斷 出 正 確 的 圖 形 結 構 ; 反 之 , 資 料 中 的 變 數 為 線 性 關 係 時 , 仍 無 法 直 接 由 ( 模 型 3-5.2)判斷出正確的圖形結構,整理的表格如下頁所示。

資料模型 變數間為線性關係 變數間為二次關係

Normal 8 9

Exponential 8 9

Double Exponential 8 9

Cauchy 8 9

Gamma 8 9

3-6 直接使用概似函數判斷三個變數間之方向性

若有 X、Y、Z 三個變數時,圖形之因果關係方向性有底下 三種類型:cX→Y→Z、dX→Z←Y、eY←X→Z,而圖形c中 X、Y、Z 三個變數的位置若置換順序有 6 種組合的可能,圖形 d、e各有 3 種組合的可能;詳細的 12 種組合情形已在第一章 時 列 出 , 底 下 即 開 始 分 析 代 表 這 三 類 圖 形 結 構 的 概 似 函 數 , 每 一類型中,X、Y、Z 三個變數的順序僅以其中一個組合為代表,

亦 即 當 圖 形 類 型 相 同 , 而 三 個 變 數 的 順 序 若 有 改 變 時 , 概 似 函 數中只要變數做相對應的代換即可。

Step 1:求出代表圖形結構 X→Y→Z 的概似函數

假設資料 XfX

(

xθX

)

Y X fY X

(

y x,θY

)

Z Y fZ Y

(

z y,θZ

)

由以上假設我們可以得到此圖形之概似函數:

( ) ( ) ( ) ( )

1 , , X, ,Y Z X X Y X , Y Z Y , Z

L x y zθ θ θ = f xθ f y xθ f z y θ

為了求出參數的 MLE,一般會對上式取自然對數,接著將求出 的 MLE

(

θ θ θˆ ˆ ˆX, ,Y Z

)

代回上式而求得圖形結構 X→Y→Z之概似函 數L x y z1

(

, , θ θ θ 。 ˆ ˆ ˆX, ,Y Z

)

而在 X、Y、Z 三變數的資料中,依照同樣的方法求得圖形 結構 X→Z→Y 之概似函數:

( ) ( ) ( ) ( )

1 , , ˆ ˆ ˆX, ,Z Y X ˆX Z X , ˆZ Y Z , ˆY L x z yθ θ θ = f xθ f z x θ f y z θ

同理,可求出圖形結構相對應關係為 A→B→C 之概似函數:

Y→X→Z: L y x z1

(

, , θ θ θ ˆ ˆ ˆY, X, Z

)

Y→Z→X: L y z x1

(

, , θ θ θ ˆ ˆ ˆY, ,Z X

)

Z→X→Y: L z x y1

(

, , θ θ θ ˆ ˆ ˆZ, X, Y

)

Z→Y→X: L z y x1

(

, , θ θ θ ˆ ˆ ˆZ, ,Y X

)

Step 2:求出代表圖形結構 X→Z←Y 的概似函數

假設資料 XfX

(

xθX

)

Y f yY

( )

θY Z X Y, fZ X Y,

(

z x y, ,θZ

)

,由以上假設我們可以得到此圖形之概似函數:

where XY

( ) ( ) ( ) ( )

2 , , X, ,Z Y X X Y Y Z X Y, , , Z

L x z yθ θ θ = f xθ f yθ f z x y θ

)

接著求出參數之 MLE

(

θ θ θˆ ˆ ˆX, ,Y Z 並代回上式而求得圖形結構 X→

Z←Y 之概似函數 L x z y2

(

, , θ θ θ 。 ˆ ˆ ˆX, ,Z Y

)

依照同樣的方法求得圖形結構 X→Y←Z 之概似函數:

相關文件