• 沒有找到結果。

3-1.2 模擬一結構方程式,建構基因網路

基因網路中,變數xi只受其親輩pai之影響,因此模型可以方程 式表示為:

), PC-Algorithm 建構基因網路。

圖3.1 基因網路與其結構方程式

由表3.8 可知,在此模型下,兩兩變數之間的關係有很大的機率 可被完全正確地確認出來。

(二)條件獨立性檢定

對於條件獨立檢定問題,本論文欲利用兩種不同方法考慮之:(i) 修正之p-value;(ii)修正之型一誤差α*

(part1 :修正之 p-value)

欲求給定C 變數,A、B 間之獨立關係,首先將給定變數 C 分組,

利用 ]

/ ) [ (

k N

C

Int Rank i 進行分組,其中N 為 C 之樣本數、k 為分組數。分

別對k 組內之對應變數 A、B 進行 Kendall’s tau 獨立性檢定,最後檢 視各組內之p-value。因分組之緣故,每組內之樣本數為 N/k,為避免 縮小的樣本而導致β 的增加,因此對組內所計算的 p-value 稍做修正。

將分組內之 p-value 取自然對數 ln ,由於 p-value 介於0~1,且當 p-value 越小時,則所對應之自然對數會越快速遞減,故此轉換動作,

對較小的p-value 有加權之效果。將 k 組 p-value 所轉換的自然對數加 總並取平均值,以最後的平均值作為指數的次方,其值即為修正後之 p-value。

模擬結果如下:(樣本數 N=100,分組數 k=5)

H0:A⊥B|C VS H1:A⊥B|C (註:若 p-value≤ 0.001 以 0.001 記之) 表3.9:條件獨立性檢定(part1)

p-value

變數 給定

變數 第一 組

第二 組

第三 組

第四 組

第五 組

修正之

p-value 結論 是否 誤判 C 0.43 0.43 0.85 0.81 0.53 0.583 獨立 正確 D 0.64 0.001 0.07 0.46 1 0.115 獨立 誤判 A、B

E 0.67 0.001 0.49 0.11 0.5 0.112 獨立 誤判 B 0.68 0.24 0.79 0.67 0.31 0.484 獨立 正確 D 0.57 0.001 0.27 0.05 0.84 0.091 相關 正確 A、C

E 0.41 0.001 0.83 0.8 0.67 0.178 獨立 誤判 B 0.08 0.001 0.01 0.06 0.001 0.008 相關 正確 C 0.001 0.02 0.01 0.001 0.01 0.004 相關 正確 A、D

E 0.001 0.59 0.06 0.04 0.001 0.016 相關 正確 B 0.18 0.001 0.07 0.08 0.001 0.015 相關 正確 C 0.01 0.02 0.03 0.001 0.04 0.011 相關 正確 A、E

D 0.07 0.89 0.87 0.39 0.03 0.229 獨立 正確 A 0.001 0.001 0.001 0.001 0.001 0.001 相關 正確 D 0.14 0.001 0.001 0.01 0.06 0.009 相關 正確 B、C

E 0.03 0.001 0.001 0.07 0.08 0.011 相關 正確 A 0.001 0.001 0.001 0.001 0.001 0.001 相關 正確 C 0.84 0.03 0.01 0.14 0.32 0.102 相關 正確 B、D

E 0.05 0.57 0.11 0.86 0.02 0.140 獨立 誤判 A 0.05 0.001 0.001 0.01 0.001 0.003 相關 正確 C 0.9 0.7 0.001 0.37 0.53 0.165 獨立 誤判 B、E

D 0.76 0.68 0.06 0.7 0.16 0.322 獨立 正確 A 0.01 0.001 0.06 0.14 0.001 0.009 相關 正確 B 0.74 0.2 0.31 0.72 0.62 0.459 獨立 正確 C、D

E 0.02 0.88 0.42 0.56 0.95 0.330 獨立 誤判 A 0.08 0.001 0.11 0.06 0.001 0.013 相關 正確 B 0.98 0.28 0.28 0.83 0.61 0.522 獨立 正確 C、E

D 0.13 1 0.22 0.89 0.26 0.366 獨立 正確 A 0.001 0.001 0.001 0.001 0.001 0.001 相關 正確

由表3.9 可知,所有檢定為條件相關之關係均正確,但會誤判出

錯誤的模型,來自於錯誤的(條件)獨立檢定結果,其主要原因則

再次利用PC-Algorithm,除去AB,AC,AE,BE,CD,CE線 段,且結構中無任何V-Structure,可得最終之 PDAG 如下:

圖3.3 PDAG

此 PDAG 和所模擬之基因網路已有相同之結構,但因仍有錯誤的條 件獨立關係,而無法找到一因果方向可符合上述所有之(條件)獨立關 係。

(part2 :修正之型一誤差

α*

)

對於條件獨立之檢定,我們亦可考慮另一方法。在給定變數 C 的分組中(分 k 組),設定一修正型一誤差α*,若所有k 組均無顯著證 據說明 A、B 相關(即 p-value>α*),則稱給定變數 C,A、B 獨立。

反之,假若 k 組中,存在任一組樣本數不太小(≥20)且 p-value≤α*, 則稱給定 C 變數,A、B 不獨立。但α*應如何設定呢?令P*為在

C B A

H0 : ⊥ | 為真的情形下且不棄卻H0之機率。則由上述方法可知,

P* =(1−α*)k。 (3.2) 在本節所模擬例子中,k=5 並設P* =0.90,故

02 . 0 ) 90 . 0 ( 1

1 1/ 1/5

* = −P k = − =

α 。因此,由表 3.9 之模擬結果再判斷一

次條件獨立關係,結果如下:

D

E B A

C D

E B A

C

表3.10:條件獨立性檢定(part2)

D

E B A

C

由表 3.10 可知,此法可檢定出所有正確之條件獨立關係。綜合 表3.8&表 3.10 之結果:

C A B A⊥ , ⊥

D E C B E C B D C D E B D E A B C A C B

A⊥ | , ⊥ | , ⊥ | , ⊥ | , ⊥ | , ⊥ | , ⊥ | 除去AB,AC,AE,BE,CD,CE線段,可得圖形結構如下:

ADB,DSABADB ADE,DSAEADE CBD,BSCDCBD

利用定向規則:

E D A E D

A→ − ⇒ → →

最終之 PDAG

D

E B A

C

D

E B A

C

在此例中,利用修正之型一誤差α*比修正之p-value 所檢定出之 條件獨立關係較為正確,且建構出正確之PDAG。

由本節模擬過程可發現,利用 PC-Algorithm 建構基因網路可能 遭遇到的難處:

(1) 若資料數不多,可確定出的相關性不強。

(2) 條件獨立性的檢定不易,易將條件相關誤判為條件獨立。

(3) 圖形的不穩定性,可能同時存在數個互相矛盾的 DAG。

可解決之辦法:

(1) 可放寬型一誤差之門檻,降低型二誤差的機率。

(2) 利用修正 p-value 或修正型一誤差α*,提高條件獨立檢定之正確率。

(3) 距離遙遠之兩節點,其條件相關性之關係可忽略。

相關文件