文獻回顧 - 模型假設對分析變數間因果關係的影響

本文主要的目標是希望分析出資料的因果關係及判斷出圖形的方向性，在文獻上有很多統計學家使用各種不同的方法來描述基因網路模型，如：線性模型（D’haeseleer et al, 1999）、

非線性模型（Weaver et al, 1999 ）、布爾數學邏輯網路模型

（Boolean Networks）（Kauffman 1993, Somogyi and Sniegoski, 1996）等；但使用這些方法需要在底下兩個限制條件下才適用：

（i）每個變數都是可觀測的，亦即不能有所謂的隱藏變數；

（ii）所有在每個變數之間的關係需是決定性的（deterministic）。因此 Murphy and Mian (1998)和 Friedman(1999)等人建議使用貝氏網路模型（Bayesian Network）來設法改善其不足之處，

貝氏網路在處理因果關係的領域上是很普遍卻也很重要的一個方法。

2-1 貝氏網路法及其優缺點

什麼是貝氏網路法呢？Heckerman 在 1995 年指出貝氏網路是一個根據先驗資料（prior ）所架構出圖形模式（ graphical model）的方法；簡單來說就是使用圖形結構分析隨機變數之間的因果關係。底下我們分成兩個部分來說明，一開始我們先說

明是使用何種圖形結構：貝氏網路法是使用一個有方向性且沒有循環的圖形結構（Directed Acyclic Graph，簡稱 DAG）（Peral and Verma, 1991），由一些頂點（node）和連接頂點的邊（edge）

所組成，圖形中的每一個頂點都代表一個隨機變數，而每個位於點和點之間的邊再加上有方向性的單箭號（directed edge），

則代表這兩個相鄰的點之間的因果關係，若是 A→B 則表示 A 直接影響 B；以圖一來說明，圖中共有 5 個頂點、4 條有向邊

（directed edge），也就是有 A、B、C、D、E 五個隨機變數，及 AC、 BC 、 、四條有向邊，從圖一我們可以看出 A 和 B 是 C 的親代，C 是 D 和 E 的親代，亦即 C 是 A 和 B 的子代，D 和 E 是 C 的子代；在因果關係中，有時將親代稱為因、子代稱為果。從圖一也可以看出，A 和 C、A 和 D、A 和 E、B 和 C、

B 和 D、B 和 E、C 和 D、C 和 E 及 D 和 E 皆是相關的。

CD CE

A B

D E

圖一：五個變數之Bayesian Network 圖形

接著要繼續探討隨機變數間的因果關係，我們以條件機率的觀點做為出發點，想從條件機率的角度去看整個模型的機率密度函數。在列出整個模型的機率密度函數之前，我們先描述在條件機率方面，若要探討因果關係之前需先討論的兩種關係：

(ⅰ) 條件獨立：意指給定 X、Y、Z 三個隨機變數當中的隨機

變數 Z 時，若此時隨機變數 Y 所得之訊息對於隨機變數 X 並沒有任何額外的訊息時，我們說在給定隨機變數 Z，隨機變數 X 和 Y 會條件獨立；以圖一的關係來看，給定 C 時，D 和 E 會條件獨立，另外給定 C 時，

A 和 D 及 B 和 E 亦會條件獨立。

(ⅱ) 邊際相關：意指無論是在 causal chains i → m → j 或 causal forks i ← m → j 兩種情況下，只要變數 i 和變數 j 相關，而若給定變數 m 時，變數 i 和變數 j 會條件獨

立時，此時我們稱變數 i 及變數 j 是邊際相關；以圖一 中的關係來看，將變數 C 視為變數 m、變數 D、E 分 別視為變數 i、j，由於 D 和 E 是相關的，而若給定 C 時，D 和 E 會條件獨立，因此可以發現 D 和 E 是邊際相關，同理亦可以得知 A 和 D、B 和 E 是邊際相關。

值得一提的是：在一有方向性且沒有循環的圖形結構 G

中，對於任何隨機變數若給定其親代，則此隨機變數會與親代的親代還有親代的其它子代有條件獨立的因果關係。在這樣的 DAG 圖形結構中，還有一個值得留意的性質：沒有子代的變數或有子代但沒有給定子代的親代，彼此之間是獨立的；有了子代，且給定子代後的親代是相關的。以生活上的方式來說，沒有子孫的配偶或有子孫但沒有給定子孫的配偶，彼此之間是獨立的；有了子孫，且給定子孫後的配偶就是相關的了。

而貝氏網路究竟有什麼優點呢？Spirtes 等人在 2000 年指出下列五項：

（i）能夠很明確的把 DAG 圖形結構中的因果關係與統計上的假設相關聯起來；＜they explicitly relate the directed acyclic graph model of the causal relations among the gene expression levels to a statistical hypothesis.＞

（ii）包含了先前所提及的模型，如：線性模型、非線性模型、

布爾數學邏輯網路模型（Boolean Networks）等，而且把 Hidden Markov Models 視為其特例；＜the include all of the aforementioned models, and Hidden Markov Models, as special cases.＞

（iii）在觀測到的資料中，已開發了很多演算法是適合貝氏網路的；＜there are already well developed algorithms for

searching for Bayesian networks from observational data＞

（iv）允許隨機的元素及隱藏變數的存在；＜they allow for the introduction of a stochastic element and hidden variables＞

（v）允許資料被搜集的過程有明確的模型；＜ they allow explicit modeling of the process by which the data are gathered.＞

以圖二為例，在貝氏網路結構中，隨機變數

(

X X X X X1, 2, 3, 4, 5

)

之聯合機率密度函數若利用機率論中的性質，可以寫成底下這種形式：

(

1, 2, 3, 4, 5

)

P X X X X X

( )

2 1

) (

3 1

) (

4 2, 3

) (

5 4

)

P X X X X X =P X P X X P X X P X X X P X X

X2 X3

圖二：五個相關變數之Bayesian Network 圖形

經由圖形之間的因果關係及機率論的性質，我們對於隨機變數

(

X X1, 2, ,… X_n

)

可以寫出一個唯一的分配（distribution）；但有時，我們所寫出來的聯合機率密度函數和圖形結構之間並不是一對一（one-to-one）的對應，也就是說，雖然一個圖形結構只能簡化出一個唯一的分配，但有可能會有一個以上的圖形結構對應到同一個分配函數；比如下面三個圖形結構，在 DAG 圖形結構中所寫出來的聯合機率密度函數會是相同的。

由於上面三個 DAG 圖形結構有相同的「骨架」，亦即在不考慮方向性時，其圖形結構相同皆為 A－B－C，且變數間的因果關係有相同的獨立關係，此時我們說這兩個圖形是等價的

（Equivalent）。這三個等價的圖形結構之因果關係皆為如下：A 和 B 相關、B 和 C 相關及給定 B，A 和 C 會是條件獨立；也因此我們無法直接從資料中得知，上述三個圖形結構中的哪個圖

圖三：三個密度函數相同的DAG 圖形結構

A C

B B

A C B

（a）（b）（c）

才是資料的真正圖形結構。從另一角度來看，上述三個圖形的 Acyclic Graph，簡稱 PDAG），在 PDAG 的圖形結構中，A→B

表示所有等價的圖形都包含 A→B 這個因果關係；A－B 則表示在等價的圖形中，A 和 B 之間的因果關係有的為 A→B，有的則為A←B，而我們還無法確認出方向性，因此記為 A－B。在 PDAG 的圖形結構中，有時我們可以確認出當中某些隨機變數之間的關係，但並不是全然都可以的。

事實上真正的因果圖形結構是無法完全確認出的，由於我

所有可觀測的變數們無法確認實際上會有多少個隨機變數，因此在我們設法畫出可能的圖形結構時，可能會有更多不同的圖形結構產生，而在每個可能的圖形結構中，還可能會有各種不同的隱藏變數存在，如此一來，會組合成更多不同的圖形結構，而不同的圖形結構會導致不同的因果關係，不同的因果關係會形成不同的聯合機率密度函數，再加上 DAG 圖形結構的可能組合是與我們所觀測到的隨機變數個數之間呈現指數倍關係，層層累積下來，可能的組合個數會大到根本無法繼續做因果關係的分析；所以我們在做因果關係的分析時，為了能找到適當的 DAG 圖形結構，必需做適當的假設，在一些條件限制下，才能找出適當的 DAG 圖形結構，底下列出較常見的假設：

（i）Causally Sufficient Assumption：在

集合中，任何兩變數都不會被集合以外的變數所影響。

（ii）

Algorithm（Verma and Pearl, 1990）來分析變數之間的條件獨立關係，將所得的關係依底下三個步驟來建構與資料最接近的 DAG 圖形結構：

Step1：在變數集合 V 中

是否存在集合S_AB，使得給定集合 S_AB，變數 A 和變數 B 會條件獨立；當不存在這樣的集合S_AB時，我們在變數 A

和變數 B 之間畫一條沒有方向性的，且這兩事件之間是為若且唯若的關係（if and only if）。

對於每對不相鄰的變數 A 和變數 B，一一邊

Step2：確認兩變數之

間所有的共同相鄰變數（common neighbor）是否屬於集合S_AB。若屬於集合 S_AB時則繼續確認的動作；反之，若兩變數之共同相鄰變數 C 不屬於集合S_AB時，則將兩箭號指向變數 C，亦即 A→C←B。

Step3：在我們設法確認出變數之間的因果關係方向性時，需遵

（i）在此步驟我們畫新的箭號時不能增加新的 v-結構；

畫守底下兩個條件：

我們簡單利用圖形 A→B←C 解釋何謂 v-結構。若將圖形 成底下圖四的格式時，可發現圖形呈現一個 v 字型，且兩變數 皆指向另一變數；而因果關係為：A 和 C 在沒有給定 B 之前是獨立的，在給定 B 之後則為相關。

A C

圖四：v-結構（v-structure）

（ii）在此步驟我們畫新的箭號時不能產生循環結構；

圖形 A→B→C→A 是為一 directed cycle，而圖形 A→A 則否，我們稱之為 self-loops，。

步驟 3 似乎有些抽象，Meek 在 1995 年提出只要依照底下四個規則去做就足夠滿足步驟 3：

R1：當A→B存在且A和C不相鄰時，將B－C畫成B→C；

R2：當A→C→B存在時，將A－B畫成A→B；

R3：當A－C→B和A－D→B皆存在且C和D不相鄰時，將A－

B畫成A→B；

R4：當 A－C→D和C→D→B皆存在，C和B不相鄰，且A 和 D相鄰時，將A－B畫成A→B。

前面有說明過，即使在同樣的條件獨立關係下也有可能建構出不唯一的圖形結構，需再利用其它資訊，如：事件發生的先後順序、專家的專業知識等等資訊，才能使我們再次縮減範圍，而儘可能得到唯一的一個 DAG 圖形結構。

2-2.2 Score Function

Heckerman 等人在 1995 年提出一個廣為流傳的貝氏方法，

在給定資料 D 之下，在每個圖形 G 中利用所得的後驗分配求出一個分數函數（Score function）^{S G D}

(

)

^{，而我們所定義的這個}

分數為後驗機率函數的對數值，會和^P

( )

漸漸地會有愈來愈多因果關係的方向性被確定出來，使 PDAG 中不確定的關係可以逐漸被確認出來。底下利用一個簡單的例子實際說明這個方法，圖形G₁：A→B→C 及圖形G₂：A←B→C 兩個等價的 DAG 圖形結構，

若我們控制變數 B 使之為一固定值，此時圖形在G₁中，變數 A 無法影響變數 B 了，而在圖形G₂中，變數 B 仍舊保留影響變數 A 的關係；則兩個原本等價的 AG 圖形結構將不再是等價關

在文檔中模型假設對分析變數間因果關係的影響 (頁 11-26)