2.2.1 線型模型 2.2.1.1 線性回歸
在眾多重建基因網路的方法中,線性模型的概念較為直覺。其假設為:”受調控基 因於某時間點之表現,會受到調控其基因於該時間點之前之基因表現影響。而影響的 方式可以以線性的方式表示。”基本的概念可用下列方程式表示:
( )
∑
=ℜ
∈
−
⋅
= N
i
j i j i
j i
j t W X t X W
X
1
,
, ( 1) , ,
)
( (2.1)
其中Xj(t)為基因Xj於時間點t之表現程度;N為所有基因個數;W為一N×N矩陣,記錄基 因間相互的關係。利用此方程式來建構基因網路,其目標為找出最適當的W,以決定 基因Xi與基因Xj之間是否具有調控關係。
Hsu 利 用 此 一 方 法 , 求 出 調 控 基 因 與 被 調 控 基 因 之 間 的 估 計 回 歸 方 程 式
,並以統計檢定量之 p-value(PF 值)來決定此方程式的可靠程度。
ε +
= WX Yˆ
2.2.1.2線性皮爾森相關係數
上述線性模型中,我們可以觀察到幾個利用此方程式所會面臨到的問題:
<1> 時間差固定,與生物現象不符;
方程式(2.1)使用的時間差(time lag)固定為 1,但根據生物實驗的觀察,這樣的假 設並不完全成立。因此,為了增加預測模型的彈性,方程式 2.1 可以改寫為:
( )
∑
=ℜ
∈
⋅
=
∆
+ N
i
j i j i
j i
j t t W X t X W
X
1
,
, ( ) , ,
)
( (2.2)
∆t 為所謂的 time lag。在大部分的情況中,受調控基因之基因表現會較調控基因之基因 表現為晚,而其間的時間差即為∆t。決定∆t,亦是重建基因網路研究中,一個重要的方 向(Ji et al. 2005;Zou et al. 2005;Liu et al. 2004)]。2.3 節中,將會介紹幾個前人用於決 定∆t 的方法。
<2> 需要大量的計算時間;
因此,van Someren 等人(Someren et al. 2000)將基因分群,將表現相似之基因視 為同一群,以減少 search space 的大小,進而降低計算時間。
<3> 生物實驗中,基因間的關係是否以線性的方式相互影響?
根據前人的實驗結果,單獨使用線性模型重建基因網路,的確可以找出部分已知 的基因關係,但精確度仍過低。
D’Haeseleer(D'haeseleer et al. 1999)與 Kuruvilla(Kuruvilla et al. 2002)以皮爾森 相關係數(Linear Pearson correlation)來重建調控網路;Hsu(Hsu et al. 2004)以線性迴 歸(Linear regression)來決定兩基因的相關性。這些方法認為,每段基因的表現程度可 由其他基因的表現程度以線性方程式表達;另外這些方法偏好基因表現資料具全局相 似(global similarity),對於只具有區域相似(local similarity)的基因表現,其表現較差。
根據我們所提出的方法(見第三章),對於全局相似或區域相似,我們都能順利地判斷基 因間的相關性。
2.2.2 布林網路
Liang 等人(Liang et al. 1998)提供一結合 Shannon Entropy 與 Mutual Information 建構布林網路之方法。其中 Shannon Entropy 用於描述一隨機變數或事件之亂度 (Entropy),常用於統計、資訊理論和熱動力學等領域。Fuhrman 等人(Fuhrman et al.
2000)將此觀念應用於新藥物的開發;Cunningham 等人(Cunningham et al. 2000)藉由 基因的 Shannon Entropy 高低,來篩選可能的 toxicity target。
Shannon Entropy(H)定義為:
Mutual Information 用於描述兩隨機變數之間的相互依賴程度,Butte 等人(Butte et al.
2000)將此觀念應用於基因之分群。
Mutual Information(M)定義為:
)
2.2.3 貝氏網路
Murphy 等人(Murphy et al. 1999)首先將貝氏網路應用於重建基因網路。貝氏網路 為 graphical models 之一。由結點(vertices, nodes)與邊(edges, links)所組成。其中每 一個結點代表一個可觀察變數(如某基因之基因表現),而邊則代表變數間的某種因果關 係。若兩點之間有邊相連,則表示此兩點間具此種因果關係。貝氏網路中,結點上的 機率,只會受和該相連的父結點影響。如圖 2.2-2。
E
A
B
D
C
圖 2.2-2 為一個貝氏網路的結構。
根據這樣的結構,我們可以得知:
I(A;E), I(B;D|A,E), I(C;A,D,E|B), I(D;B,C,E|A), I(E;A,D)
上述幾個條件獨立的關係。其中 I(X;Y|Z)表示在給定 Z 的條件下,X 獨立於 Y。
圖形G中,一個結點Xi其條件機率為P(Xi|PaiG
),其中PaiG為Xi之父結點所形成的集合。
因為Xi的變化只會受其父結點影響。根據連鎖率,任何聯合機率,在滿足貝氏網路的假 設下,可分解為
∏
== n
i
i G i
n P X Pa X
X X P
1
1,..., ) ( | ( )) (
例如,其上圖的聯合機率為:
P(A, B, C, D, E) = P(A)P(B|A,E)P(C|B)P(D|A)P(E)
貝氏網路的建構流程是先決定網路結構,再以實驗資料評估該結構的事後機率。所以 一個包含K個結點的網路,存在 2K種可能的結構,因此計算時間的需求往往為人詬病,
因此Min Zou(見 2.3.1)提出一前處理,減少候選的結點。