基因網路中,變數xi只受其親輩pai之影響,因此模型可以方程 式表示為:
), PC-Algorithm 建構基因網路。
圖3.1 基因網路與其結構方程式
由表3.8 可知,在此模型下,兩兩變數之間的關係有很大的機率 可被完全正確地確認出來。
(二)條件獨立性檢定
對於條件獨立檢定問題,本論文欲利用兩種不同方法考慮之:(i) 修正之p-value;(ii)修正之型一誤差α*。
(part1 :修正之 p-value)
欲求給定C 變數,A、B 間之獨立關係,首先將給定變數 C 分組,
利用 ]
/ ) [ (
k N
C
Int Rank i 進行分組,其中N 為 C 之樣本數、k 為分組數。分
別對k 組內之對應變數 A、B 進行 Kendall’s tau 獨立性檢定,最後檢 視各組內之p-value。因分組之緣故,每組內之樣本數為 N/k,為避免 縮小的樣本而導致β 的增加,因此對組內所計算的 p-value 稍做修正。
將分組內之 p-value 取自然對數 ln ,由於 p-value 介於0~1,且當 p-value 越小時,則所對應之自然對數會越快速遞減,故此轉換動作,
對較小的p-value 有加權之效果。將 k 組 p-value 所轉換的自然對數加 總並取平均值,以最後的平均值作為指數的次方,其值即為修正後之 p-value。
模擬結果如下:(樣本數 N=100,分組數 k=5)
H0:A⊥B|C VS H1:A⊥B|C (註:若 p-value≤ 0.001 以 0.001 記之) 表3.9:條件獨立性檢定(part1)
p-value
變數 給定
變數 第一 組
第二 組
第三 組
第四 組
第五 組
修正之
p-value 結論 是否 誤判 C 0.43 0.43 0.85 0.81 0.53 0.583 獨立 正確 D 0.64 0.001 0.07 0.46 1 0.115 獨立 誤判 A、B
E 0.67 0.001 0.49 0.11 0.5 0.112 獨立 誤判 B 0.68 0.24 0.79 0.67 0.31 0.484 獨立 正確 D 0.57 0.001 0.27 0.05 0.84 0.091 相關 正確 A、C
E 0.41 0.001 0.83 0.8 0.67 0.178 獨立 誤判 B 0.08 0.001 0.01 0.06 0.001 0.008 相關 正確 C 0.001 0.02 0.01 0.001 0.01 0.004 相關 正確 A、D
E 0.001 0.59 0.06 0.04 0.001 0.016 相關 正確 B 0.18 0.001 0.07 0.08 0.001 0.015 相關 正確 C 0.01 0.02 0.03 0.001 0.04 0.011 相關 正確 A、E
D 0.07 0.89 0.87 0.39 0.03 0.229 獨立 正確 A 0.001 0.001 0.001 0.001 0.001 0.001 相關 正確 D 0.14 0.001 0.001 0.01 0.06 0.009 相關 正確 B、C
E 0.03 0.001 0.001 0.07 0.08 0.011 相關 正確 A 0.001 0.001 0.001 0.001 0.001 0.001 相關 正確 C 0.84 0.03 0.01 0.14 0.32 0.102 相關 正確 B、D
E 0.05 0.57 0.11 0.86 0.02 0.140 獨立 誤判 A 0.05 0.001 0.001 0.01 0.001 0.003 相關 正確 C 0.9 0.7 0.001 0.37 0.53 0.165 獨立 誤判 B、E
D 0.76 0.68 0.06 0.7 0.16 0.322 獨立 正確 A 0.01 0.001 0.06 0.14 0.001 0.009 相關 正確 B 0.74 0.2 0.31 0.72 0.62 0.459 獨立 正確 C、D
E 0.02 0.88 0.42 0.56 0.95 0.330 獨立 誤判 A 0.08 0.001 0.11 0.06 0.001 0.013 相關 正確 B 0.98 0.28 0.28 0.83 0.61 0.522 獨立 正確 C、E
D 0.13 1 0.22 0.89 0.26 0.366 獨立 正確 A 0.001 0.001 0.001 0.001 0.001 0.001 相關 正確
由表3.9 可知,所有檢定為條件相關之關係均正確,但會誤判出
錯誤的模型,來自於錯誤的(條件)獨立檢定結果,其主要原因則
再次利用PC-Algorithm,除去A−B,A−C,A−E,B−E,C−D,C −E線 段,且結構中無任何V-Structure,可得最終之 PDAG 如下:
圖3.3 PDAG
此 PDAG 和所模擬之基因網路已有相同之結構,但因仍有錯誤的條 件獨立關係,而無法找到一因果方向可符合上述所有之(條件)獨立關 係。
(part2 :修正之型一誤差
α*)
對於條件獨立之檢定,我們亦可考慮另一方法。在給定變數 C 的分組中(分 k 組),設定一修正型一誤差α*,若所有k 組均無顯著證 據說明 A、B 相關(即 p-value>α*),則稱給定變數 C,A、B 獨立。
反之,假若 k 組中,存在任一組樣本數不太小(≥20)且 p-value≤α*, 則稱給定 C 變數,A、B 不獨立。但α*應如何設定呢?令P*為在
C B A
H0 : ⊥ | 為真的情形下且不棄卻H0之機率。則由上述方法可知,
P* =(1−α*)k。 (3.2) 在本節所模擬例子中,k=5 並設P* =0.90,故
02 . 0 ) 90 . 0 ( 1
1 1/ 1/5
* = −P k = − =
α 。因此,由表 3.9 之模擬結果再判斷一
次條件獨立關係,結果如下:
D
E B A
C D
E B A
C
表3.10:條件獨立性檢定(part2)
D
E B A
C
由表 3.10 可知,此法可檢定出所有正確之條件獨立關係。綜合 表3.8&表 3.10 之結果:
C A B A⊥ , ⊥
D E C B E C B D C D E B D E A B C A C B
A⊥ | , ⊥ | , ⊥ | , ⊥ | , ⊥ | , ⊥ | , ⊥ | 除去A−B,A−C,A−E,B−E,C−D,C−E線段,可得圖形結構如下:
且A−D−B,D∉SAB ⇒ A→D ←B A−D−E,D∈SAE ⇒ A−D−E C −B−D,B∈SCD ⇒C−B−D
利用定向規則:
E D A E D
A→ − ⇒ → →
最終之 PDAG
D
E B A
C
D
E B A
C
在此例中,利用修正之型一誤差α*比修正之p-value 所檢定出之 條件獨立關係較為正確,且建構出正確之PDAG。
由本節模擬過程可發現,利用 PC-Algorithm 建構基因網路可能 遭遇到的難處:
(1) 若資料數不多,可確定出的相關性不強。
(2) 條件獨立性的檢定不易,易將條件相關誤判為條件獨立。
(3) 圖形的不穩定性,可能同時存在數個互相矛盾的 DAG。
可解決之辦法:
(1) 可放寬型一誤差之門檻,降低型二誤差的機率。
(2) 利用修正 p-value 或修正型一誤差α*,提高條件獨立檢定之正確率。
(3) 距離遙遠之兩節點,其條件相關性之關係可忽略。