3-1.2 模擬一結構方程式，建構基因網路 - 利用基因網路分析變數間之因果關係

基因網路中，變數x_i只受其親輩pa_i之影響，因此模型可以方程式表示為：

), PC-Algorithm 建構基因網路。

圖3.1 基因網路與其結構方程式

由表3.8 可知，在此模型下，兩兩變數之間的關係有很大的機率可被完全正確地確認出來。

（二）條件獨立性檢定

對於條件獨立檢定問題，本論文欲利用兩種不同方法考慮之：(i) 修正之p-value；(ii)修正之型一誤差α^*。

(part1 :修正之 p-value)

欲求給定C 變數，A、B 間之獨立關係，首先將給定變數 C 分組，

利用 ]

/ ) [ (

k N

Int Rank ⁱ 進行分組，其中N 為 C 之樣本數、k 為分組數。分

別對k 組內之對應變數 A、B 進行 Kendall’s tau 獨立性檢定，最後檢視各組內之p-value。因分組之緣故，每組內之樣本數為 N/k，為避免縮小的樣本而導致β 的增加，因此對組內所計算的 p-value 稍做修正。

將分組內之 p-value 取自然對數 ln ，由於 p-value 介於0~1，且當 p-value 越小時，則所對應之自然對數會越快速遞減，故此轉換動作，

對較小的p-value 有加權之效果。將 k 組 p-value 所轉換的自然對數加總並取平均值，以最後的平均值作為指數的次方，其值即為修正後之 p-value。

模擬結果如下：(樣本數 N＝100，分組數 k＝5)

H₀：A⊥B｜C VS H₁：A⊥B｜C (註：若 p-value≤ 0.001 以 0.001 記之) 表3.9：條件獨立性檢定(part1)

p-value

變數給定

變數第一組

第二組

第三組

第四組

第五組

修正之

p-value 結論是否誤判 C 0.43 0.43 0.85 0.81 0.53 0.583 獨立正確 D 0.64 0.001 0.07 0.46 1 0.115 獨立誤判 A、B

E 0.67 0.001 0.49 0.11 0.5 0.112 獨立誤判 B 0.68 0.24 0.79 0.67 0.31 0.484 獨立正確 D 0.57 0.001 0.27 0.05 0.84 0.091 相關正確 A、C

E 0.41 0.001 0.83 0.8 0.67 0.178 獨立誤判 B 0.08 0.001 0.01 0.06 0.001 0.008 相關正確 C 0.001 0.02 0.01 0.001 0.01 0.004 相關正確 A、D

E 0.001 0.59 0.06 0.04 0.001 0.016 相關正確 B 0.18 0.001 0.07 0.08 0.001 0.015 相關正確 C 0.01 0.02 0.03 0.001 0.04 0.011 相關正確 A、E

D 0.07 0.89 0.87 0.39 0.03 0.229 獨立正確 A 0.001 0.001 0.001 0.001 0.001 0.001 相關正確 D 0.14 0.001 0.001 0.01 0.06 0.009 相關正確 B、C

E 0.03 0.001 0.001 0.07 0.08 0.011 相關正確 A 0.001 0.001 0.001 0.001 0.001 0.001 相關正確 C 0.84 0.03 0.01 0.14 0.32 0.102 相關正確 B、D

E 0.05 0.57 0.11 0.86 0.02 0.140 獨立誤判 A 0.05 0.001 0.001 0.01 0.001 0.003 相關正確 C 0.9 0.7 0.001 0.37 0.53 0.165 獨立誤判 B、E

D 0.76 0.68 0.06 0.7 0.16 0.322 獨立正確 A 0.01 0.001 0.06 0.14 0.001 0.009 相關正確 B 0.74 0.2 0.31 0.72 0.62 0.459 獨立正確 C、D

E 0.02 0.88 0.42 0.56 0.95 0.330 獨立誤判 A 0.08 0.001 0.11 0.06 0.001 0.013 相關正確 B 0.98 0.28 0.28 0.83 0.61 0.522 獨立正確 C、E

D 0.13 1 0.22 0.89 0.26 0.366 獨立正確 A 0.001 0.001 0.001 0.001 0.001 0.001 相關正確

由表3.9 可知，所有檢定為條件相關之關係均正確，但會誤判出

錯誤的模型，來自於錯誤的(條件)獨立檢定結果，其主要原因則

再次利用PC-Algorithm，除去A−B,A−C,A−E,B−E,C−D,C −E線段，且結構中無任何V-Structure，可得最終之 PDAG 如下：

圖3.3 PDAG

此 PDAG 和所模擬之基因網路已有相同之結構，但因仍有錯誤的條件獨立關係，而無法找到一因果方向可符合上述所有之(條件)獨立關係。

(part2 :修正之型一誤差

α^*

)

對於條件獨立之檢定，我們亦可考慮另一方法。在給定變數 C 的分組中(分 k 組)，設定一修正型一誤差α^*，若所有k 組均無顯著證據說明 A、B 相關(即 p-value>α*)，則稱給定變數 C，A、B 獨立。

反之，假若 k 組中，存在任一組樣本數不太小(≥20)且 p-value≤α^*，則稱給定 C 變數，A、B 不獨立。但α^*應如何設定呢？令P^*為在

C B A

H₀ : ⊥ | 為真的情形下且不棄卻H₀之機率。則由上述方法可知，

P^* =(1−α^*)^k。 (3.2) 在本節所模擬例子中，k=5 並設P^* =0.90，故

02 . 0 ) 90 . 0 ( 1

1 ¹^/ ¹^/⁵

* = −P ^k = − =

α 。因此，由表 3.9 之模擬結果再判斷一

次條件獨立關係，結果如下：

E B A

C D

E B A

表3.10：條件獨立性檢定(part2)

E B A

由表 3.10 可知，此法可檢定出所有正確之條件獨立關係。綜合表3.8＆表 3.10 之結果：

C A B A⊥ , ⊥

D E C B E C B D C D E B D E A B C A C B

A⊥ | , ⊥ | , ⊥ | , ⊥ | , ⊥ | , ⊥ | , ⊥ | 除去A−B,A−C,A−E,B−E,C−D,C−E線段，可得圖形結構如下：

且A−D−B,D∉S_AB ⇒ A→D ←B A−D−E,D∈S_AE ⇒ A−D−E C −B−D,B∈S_CD ⇒C−B−D

利用定向規則：

E D A E D

A→ − ⇒ → →

最終之 PDAG

E B A

在此例中，利用修正之型一誤差α^*比修正之p-value 所檢定出之條件獨立關係較為正確，且建構出正確之PDAG。

由本節模擬過程可發現，利用 PC-Algorithm 建構基因網路可能遭遇到的難處：

(1) 若資料數不多，可確定出的相關性不強。

(2) 條件獨立性的檢定不易，易將條件相關誤判為條件獨立。

(3) 圖形的不穩定性，可能同時存在數個互相矛盾的 DAG。

可解決之辦法：

(1) 可放寬型一誤差之門檻，降低型二誤差的機率。

(2) 利用修正 p-value 或修正型一誤差α^*，提高條件獨立檢定之正確率。

(3) 距離遙遠之兩節點，其條件相關性之關係可忽略。

在文檔中利用基因網路分析變數間之因果關係 (頁 28-37)