本文主要的目標是希望分析出資料的因果關係及判斷出圖 形 的 方 向 性 , 在 文 獻 上 有 很 多 統 計 學 家 使 用 各 種 不 同 的 方 法 來 描述基因網路模型,如:線性模型(D’haeseleer et al, 1999)、
非 線 性 模 型 (Weaver et al, 1999 )、 布 爾 數 學 邏 輯 網 路 模 型
(Boolean Networks)(Kauffman 1993, Somogyi and Sniegoski, 1996)等;但使用這些方法需要在底下兩個限制條件下才適用:
(i)每個變數都是可觀測的,亦即不能有所謂的隱藏變數;
(ii)所有在每個變數之間的關係需是決定性的(deterministic)。 因此 Murphy and Mian (1998)和 Friedman(1999)等人建議使 用貝氏網路模型(Bayesian Network)來設法改善其不足之處,
貝 氏 網 路 在 處 理 因 果 關 係 的 領 域 上 是 很 普 遍 卻 也 很 重 要 的 一 個 方法。
2-1 貝氏網路法及其優缺點
什麼是貝氏網路法呢?Heckerman 在 1995 年指出貝氏網路 是 一 個 根 據 先 驗 資 料 (prior ) 所 架 構 出 圖 形 模 式 ( graphical model)的方法;簡單來說就是使用圖形結構分析隨機變數之間 的 因 果 關 係 。 底 下 我 們 分 成 兩 個 部 分 來 說 明 , 一 開 始 我 們 先 說
明 是 使 用 何 種 圖 形 結 構 : 貝 氏 網 路 法 是 使 用 一 個 有 方 向 性 且 沒 有循環的圖形結構(Directed Acyclic Graph,簡稱 DAG)(Peral and Verma, 1991),由一些頂點(node)和連接頂點的邊(edge)
所 組 成 , 圖 形 中 的 每 一 個 頂 點 都 代 表 一 個 隨 機 變 數 , 而 每 個 位 於點和點之間的邊再加上有方向性的單箭號(directed edge),
則代表這兩個相鄰的點之間的因果關係,若是 A→B 則表示 A 直接影響 B;以圖一來說明,圖中共有 5 個頂點、4 條有向邊
(directed edge),也就是有 A、B、C、D、E 五個隨機變數,及 AC、 BC 、 、 四條有向邊,從圖一我們可以看出 A 和 B 是 C 的親代,C 是 D 和 E 的親代,亦即 C 是 A 和 B 的子代,D 和 E 是 C 的子代;在因果關係中,有時將親代稱為因、子代稱 為果。從圖一也可以看出,A 和 C、A 和 D、A 和 E、B 和 C、
B 和 D、B 和 E、C 和 D、C 和 E 及 D 和 E 皆是相關的。
CD CE
A B
C
D E
圖一:五個變數之Bayesian Network 圖形
接著要繼續探討隨機變數間的因果關係,我們以條件機率 的觀點做為出發點,想從條件機率的角度去看整個模型的機率 密度函數。在列出整個模型的機率密度函數之前,我們先描述 在條件機率方面,若要探討因果關係之前需先討論的兩種關係:
(ⅰ) 條件獨立:意指給定 X、Y、Z 三個隨機變數當中的隨機
變數 Z 時,若此時隨機變數 Y 所得之訊息對於隨機變 數 X 並沒有任何額外的訊息時,我們說在給定隨機變 數 Z,隨機變數 X 和 Y 會條件獨立;以圖一的關係來 看,給定 C 時,D 和 E 會條件獨立,另外給定 C 時,
A 和 D 及 B 和 E 亦會條件獨立。
(ⅱ) 邊際相關:意指無論是在 causal chains i → m → j 或 causal forks i ← m → j 兩種情況下,只要變數 i 和變數 j 相關,而若給定變數 m 時,變數 i 和變數 j 會條件獨
立時,此時我們稱變數 i 及變數 j 是邊際相關;以圖一 中的關係來看,將變數 C 視為變數 m、變數 D、E 分 別視為變數 i、j,由於 D 和 E 是相關的,而若給定 C 時,D 和 E 會條件獨立,因此可以發現 D 和 E 是邊際 相關,同理亦可以得知 A 和 D、B 和 E 是邊際相關。
值 得 一 提 的 是 : 在 一 有 方 向 性 且 沒 有 循 環 的 圖 形 結 構 G
中 , 對 於 任 何 隨 機 變 數 若 給 定 其 親 代 , 則 此 隨 機 變 數 會 與 親 代 的 親 代 還 有 親 代 的 其 它 子 代 有 條 件 獨 立 的 因 果 關 係 。 在 這 樣 的 DAG 圖形結構中,還有一個值得留意的性質:沒有子代的變數 或 有 子 代 但 沒 有 給 定 子 代 的 親 代 , 彼 此 之 間 是 獨 立 的 ; 有 了 子 代 , 且 給 定 子 代 後 的 親 代 是 相 關 的 。 以 生 活 上 的 方 式 來 說 , 沒 有 子 孫 的 配 偶 或 有 子 孫 但 沒 有 給 定 子 孫 的 配 偶 , 彼 此 之 間 是 獨 立的;有了子孫,且給定子孫後的配偶就是相關的了。
而貝氏網路究竟有什麼優點呢?Spirtes 等人在 2000 年指出 下列五項:
(i) 能 夠 很 明 確 的 把 DAG 圖 形 結 構 中 的 因 果 關 係 與 統 計 上 的假設相關聯起來;<they explicitly relate the directed acyclic graph model of the causal relations among the gene expression levels to a statistical hypothesis.>
(ii) 包含了先前所提及的模型,如:線性模型、非線性模型、
布爾數學邏輯網路模型(Boolean Networks)等,而且把 Hidden Markov Models 視為其特例;<the include all of the aforementioned models, and Hidden Markov Models, as special cases.>
(iii) 在觀測到的資料中,已開發了很多演算法是適合貝氏網 路的;<there are already well developed algorithms for
searching for Bayesian networks from observational data>
(iv) 允許隨機的元素及隱藏變數的存在;<they allow for the introduction of a stochastic element and hidden variables>
(v) 允 許 資 料 被 搜 集 的 過 程 有 明 確 的 模 型 ; < they allow explicit modeling of the process by which the data are gathered.>
以圖二為例,在貝氏網路結構中,隨機變數
(
X X X X X1, 2, 3, 4, 5)
之 聯 合 機 率 密 度 函 數 若 利 用 機 率 論 中 的 性 質 , 可 以 寫 成 底 下 這 種形式:
(
1, 2, 3, 4, 5)
P X X X X X
( )
1(
2 1) (
3 1, 2) (
4 1, 2, 3) (
5 1, 2, 3)
P X P X X P X X X P X X X X P X X X X X
= , 4
而從圖二中可以發現,在給定 時, 和 會條件獨立,
因此
X1 X2 X3
(
3 1, 2)
P X X X =P X X
(
3 1)
;同理給定X2或 X3時,X1會和 X4條 件獨立,即P X X X X(
4 1, 2, 3)
= P X X X(
4 2, 3)
;而P X X X X X(
5 1, 2, 3, 4)
= P X X
(
5 4)
也 是 相 同 的 道 理 ; 由 上 面 的 式 子 , 我 們 可 以 將 聯 合 機率密度函數簡化成底下的形式,使得在計算時可以簡單很多:(
1, 2, 3, 4, 5) ( )
1(
2 1) (
3 1) (
4 2, 3) (
5 4)
P X X X X X =P X P X X P X X P X X X P X X
X1
X2 X3
X4
X5
圖二:五個相關變數之Bayesian Network 圖形
經由圖形之間的因果關係及機率論的性質,我們對於隨機 變 數
(
X X1, 2, ,… Xn)
可 以 寫 出 一 個 唯 一 的 分 配 (distribution); 但 有 時 , 我 們 所 寫 出 來 的 聯 合 機 率 密 度 函 數 和 圖 形 結 構 之 間 並 不 是一對一(one-to-one)的對應,也就是說,雖然一個圖形結構 只 能 簡 化 出 一 個 唯 一 的 分 配 , 但 有 可 能 會 有 一 個 以 上 的 圖 形 結 構對應到同一個分配函數;比如下面三個圖形結構,在 DAG 圖 形結構中所寫出來的聯合機率密度函數會是相同的。由於上面三個 DAG 圖形結構有相同的「骨架」,亦即在不 考慮方向性時,其圖形結構相同皆為 A-B-C,且變數間的因 果 關 係 有 相 同 的 獨 立 關 係 , 此 時 我 們 說 這 兩 個 圖 形 是 等 價 的
(Equivalent)。這三個等價的圖形結構之因果關係皆為如下:A 和 B 相關、B 和 C 相關及給定 B,A 和 C 會是條件獨立;也因 此 我 們 無 法 直 接 從 資 料 中 得 知 , 上 述 三 個 圖 形 結 構 中 的 哪 個 圖
圖三:三個密度函數相同的DAG 圖形結構
A C
B B
C
A C B
A
(a) (b) (c)
才 是 資 料 的 真 正 圖 形 結 構 。 從 另 一 角 度 來 看 , 上 述 三 個 圖 形 的 Acyclic Graph,簡稱 PDAG),在 PDAG 的圖形結構中,A→B
表示所有等價的圖形都包含 A→B 這個因果關係;A-B 則表示 在等價的圖形中,A 和 B 之間的因果關係有的為 A→B,有的則 為A←B,而我們還無法確認出方向性,因此記為 A-B。在 PDAG 的 圖 形 結 構 中 , 有 時 我 們 可 以 確 認 出 當 中 某 些 隨 機 變 數 之 間 的 關係,但並不是全然都可以的。
事實上真正的因果圖形結構是無法完全確認出的,由於我
所有可觀測的變數 們 無 法 確 認 實 際 上 會 有 多 少 個 隨 機 變 數 , 因 此 在 我 們 設 法 畫 出 可 能 的 圖 形 結 構 時 , 可 能 會 有 更 多 不 同 的 圖 形 結 構 產 生 , 而 在 每 個 可 能 的 圖 形 結 構 中 , 還 可 能 會 有 各 種 不 同 的 隱 藏 變 數 存 在 , 如 此 一 來 , 會 組 合 成 更 多 不 同 的 圖 形 結 構 , 而 不 同 的 圖 形 結 構 會 導 致 不 同 的 因 果 關 係 , 不 同 的 因 果 關 係 會 形 成 不 同 的 聯 合機率密度函數,再加上 DAG 圖形結構的可能組合是與我們所 觀 測 到 的 隨 機 變 數 個 數 之 間 呈 現 指 數 倍 關 係 , 層 層 累 積 下 來 , 可 能 的 組 合 個 數 會 大 到 根 本 無 法 繼 續 做 因 果 關 係 的 分 析 ; 所 以 我們在做因果關係的分析時,為了能找到適當的 DAG 圖形結 構 , 必 需 做 適 當 的 假 設 , 在 一 些 條 件 限 制 下 , 才 能 找 出 適 當 的 DAG 圖形結構,底下列出較常見的假設:
(i)Causally Sufficient Assumption:在
集合中,任何兩變數都不會被集合以外的變數所影響。
(ii)
Algorithm(Verma and Pearl, 1990)來分析變數之間的條 件 獨 立 關 係 , 將 所 得 的 關 係 依 底 下 三 個 步 驟 來 建 構 與 資 料 最 接 近的 DAG 圖形結構:
Step1:在變數集合 V 中
是否存在集合SAB,使得給定集合 SAB,變數 A 和變數 B 會條件獨立;當不存在這樣的集合SAB時,我們在變數 A
和變數 B 之間畫一條沒有方向性的 ,且這兩事件之間 是為若且唯若的關係(if and only if)。
對於每對不相鄰的變數 A 和變數 B,一一 邊
Step2: 確認兩變數之
間所有的共同相鄰變數(common neighbor)是否屬於集 合SAB。若屬於集合 SAB時則繼續確認的動作;反之,若 兩變數之共同相鄰變數 C 不屬於集合SAB時,則將兩箭 號指向變數 C,亦即 A→C←B。
Step3:在我們設法確認出變數之間的因果關係方向性時,需遵
(i)在此步驟我們畫新的箭號時不能增加新的 v-結構;
畫 守底下兩個條件:
我們簡單利用圖形 A→B←C 解釋何謂 v-結構。若將圖形 成底下圖四的格式時,可發現圖形呈現一個 v 字型,且兩變數 皆指向另一變數;而因果關係為:A 和 C 在沒有給定 B 之前是 獨立的,在給定 B 之後則為相關。
A C
B
圖四:v-結構(v-structure)
(ii)在此步驟我們畫新的箭號時不能產生循環結構;
圖形 A→B→C→A 是為一 directed cycle,而圖形 A→A 則 否,我們稱之為 self-loops,。
步驟 3 似乎有些抽象,Meek 在 1995 年提出只要依照底下 四個規則去做就足夠滿足步驟 3:
R1:當A→B存在且A和C不相鄰時,將B-C畫成B→C;
R2:當A→C→B存在時,將A-B畫成A→B;
R3:當A-C→B和A-D→B皆存在且C和D不相鄰時,將A-
B畫成A→B;
R4:當 A-C→D和C→D→B皆存在,C和B不相鄰,且A 和 D相鄰時,將A-B畫成A→B。
前面有說明過,即使在同樣的條件獨立關係下也有可能建 構 出 不 唯 一 的 圖 形 結 構 , 需 再 利 用 其 它 資 訊 , 如 : 事 件 發 生 的 先 後 順 序 、 專 家 的 專 業 知 識 等 等 資 訊 , 才 能 使 我 們 再 次 縮 減 範 圍,而儘可能得到唯一的一個 DAG 圖形結構。
2-2.2 Score Function
Heckerman 等人在 1995 年提出一個廣為流傳的貝氏方法,
在給定資料 D 之下,在每個圖形 G 中利用所得的後驗分配求出 一個分數函數(Score function)S G D
(
:)
,而我們所定義的這個分數為後驗機率函數的對數值,會和P
( )
漸漸地會有愈來愈多因果關係的方向性被確定出來,使 PDAG 中 不 確 定 的 關 係 可 以 逐 漸 被 確 認 出 來 。 底 下 利 用 一 個 簡 單 的 例 子實際說明這個方法,圖形G1:A→B→C 及圖形G2:A←B→C 兩個等價的 DAG 圖形結構,
若我們控制變數 B 使之為一固定值,此時圖形在G1中,變數 A 無法影響變數 B 了,而在圖形G2中,變數 B 仍舊保留影響變數 A 的關係;則兩個原本等價的 AG 圖形結構將不再是等價關
若我們控制變數 B 使之為一固定值,此時圖形在G1中,變數 A 無法影響變數 B 了,而在圖形G2中,變數 B 仍舊保留影響變數 A 的關係;則兩個原本等價的 AG 圖形結構將不再是等價關