重建基因調控網路的方法 - 離散化基因表現資料以重建基因調控網路

2.2.1 線型模型 2.2.1.1 線性回歸

在眾多重建基因網路的方法中，線性模型的概念較為直覺。其假設為：”受調控基因於某時間點之表現，會受到調控其基因於該時間點之前之基因表現影響。而影響的方式可以以線性的方式表示。”基本的概念可用下列方程式表示：

( )

∑

ℜ

∈

−

⋅

= ^N

j i j i

j i

j t W X t X W

, ( 1) , ,

)

( (2.1)

其中X_j(t)為基因Xj於時間點t之表現程度；N為所有基因個數；W為一N×N矩陣，記錄基因間相互的關係。利用此方程式來建構基因網路，其目標為找出最適當的W，以決定基因Xi與基因Xj之間是否具有調控關係。

Hsu 利用此一方法，求出調控基因與被調控基因之間的估計回歸方程式

，並以統計檢定量之 p-value(PF 值)來決定此方程式的可靠程度。

ε +

= WX Yˆ

2.2.1.2線性皮爾森相關係數

上述線性模型中，我們可以觀察到幾個利用此方程式所會面臨到的問題：

<1> 時間差固定，與生物現象不符；

方程式(2.1)使用的時間差(time lag)固定為 1，但根據生物實驗的觀察，這樣的假設並不完全成立。因此，為了增加預測模型的彈性，方程式 2.1 可以改寫為：

( )

∑

ℜ

∈

⋅

∆

+ ^N

j i j i

j i

j t t W X t X W

, ( ) , ,

)

( (2.2)

∆t 為所謂的 time lag。在大部分的情況中，受調控基因之基因表現會較調控基因之基因 表現為晚，而其間的時間差即為∆t。決定∆t，亦是重建基因網路研究中，一個重要的方 向(Ji et al. 2005；Zou et al. 2005；Liu et al. 2004)]。2.3 節中，將會介紹幾個前人用於決定∆t 的方法。

<2> 需要大量的計算時間；

因此，van Someren 等人(Someren et al. 2000)將基因分群，將表現相似之基因視為同一群，以減少 search space 的大小，進而降低計算時間。

<3> 生物實驗中，基因間的關係是否以線性的方式相互影響？

根據前人的實驗結果，單獨使用線性模型重建基因網路，的確可以找出部分已知的基因關係，但精確度仍過低。

D’Haeseleer(D'haeseleer et al. 1999)與 Kuruvilla(Kuruvilla et al. 2002)以皮爾森相關係數(Linear Pearson correlation)來重建調控網路；Hsu(Hsu et al. 2004)以線性迴歸(Linear regression)來決定兩基因的相關性。這些方法認為，每段基因的表現程度可由其他基因的表現程度以線性方程式表達；另外這些方法偏好基因表現資料具全局相似(global similarity)，對於只具有區域相似(local similarity)的基因表現，其表現較差。

根據我們所提出的方法(見第三章)，對於全局相似或區域相似，我們都能順利地判斷基因間的相關性。

2.2.2 布林網路

Liang 等人(Liang et al. 1998)提供一結合 Shannon Entropy 與 Mutual Information 建構布林網路之方法。其中 Shannon Entropy 用於描述一隨機變數或事件之亂度 (Entropy)，常用於統計、資訊理論和熱動力學等領域。Fuhrman 等人(Fuhrman et al.

2000)將此觀念應用於新藥物的開發；Cunningham 等人(Cunningham et al. 2000)藉由基因的 Shannon Entropy 高低，來篩選可能的 toxicity target。

Shannon Entropy(H)定義為：

Mutual Information 用於描述兩隨機變數之間的相互依賴程度，Butte 等人(Butte et al.

2000)將此觀念應用於基因之分群。

Mutual Information(M)定義為：

)

2.2.3 貝氏網路

Murphy 等人(Murphy et al. 1999)首先將貝氏網路應用於重建基因網路。貝氏網路為 graphical models 之一。由結點(vertices, nodes)與邊(edges, links)所組成。其中每一個結點代表一個可觀察變數(如某基因之基因表現)，而邊則代表變數間的某種因果關係。若兩點之間有邊相連，則表示此兩點間具此種因果關係。貝氏網路中，結點上的機率，只會受和該相連的父結點影響。如圖 2.2-2。

E

A

B

D

C

圖 2.2-2 為一個貝氏網路的結構。

根據這樣的結構，我們可以得知：

I(A;E), I(B;D|A,E), I(C;A,D,E|B), I(D;B,C,E|A), I(E;A,D)

上述幾個條件獨立的關係。其中 I(X;Y|Z)表示在給定 Z 的條件下，X 獨立於 Y。

圖形G中，一個結點Xi其條件機率為P(Xi|PaiG

)，其中PaiG為Xi之父結點所形成的集合。

因為Xi的變化只會受其父結點影響。根據連鎖率，任何聯合機率，在滿足貝氏網路的假設下，可分解為

∏

= ⁿ

i G i

n P X Pa X

X X P

1,..., ) ( | ( )) (

例如，其上圖的聯合機率為：

P(A, B, C, D, E) = P(A)P(B|A,E)P(C|B)P(D|A)P(E)

貝氏網路的建構流程是先決定網路結構，再以實驗資料評估該結構的事後機率。所以 一個包含K個結點的網路，存在 2^K種可能的結構，因此計算時間的需求往往為人詬病，

因此Min Zou(見 2.3.1)提出一前處理，減少候選的結點。

在文檔中離散化基因表現資料以重建基因調控網路 (頁 14-19)