• 沒有找到結果。

決定TNP與本研究方法之門檻值

4.3 單獨使用TNP與本研究方法之結果比較

4.3.1 決定TNP與本研究方法之門檻值

表 4.2-2 為此實驗的結果比較。針對資料<1>,我們得到的平均分數為 8.04;針對資料

<2>,我們共取了 2000 組基因對進行字串排比,其平均為分數為 1.46。由實驗結果可 以發現,跟隨機選取的基因對比較,已知具調控關係的基因對,在我們的方法中,的 確可以得到較高的分數。

Data Set Average Scores 54 known gene-gene pairs 8.04 2000 random gene-gene pairs 1.46

表 4.2-2 針對已知的調控基因對與隨機取得的基因對,所得的評分結果。

4.3單獨使用 TNP 與本研究方法之結果比較

本實驗的最終目的為:比較本研究與 TNP 兩者重建基因調控網路能力。實驗可分為三 部分;其中,4.3.1 節的實驗是為了決定 TNP 與本實驗的最佳門檻值(threshold);而 4.3.2 節的實驗則使用 4.3.1 節中決定之門檻值,對兩種方法進行比較;為了排除設定門檻值 可能造成的偏頗,4.3.3 捨棄門檻值的設定,採用排名的方式來比較兩方法的預測能力,

以做到更為客觀之比較。

4.3.1 決定 TNP 與本研究方法之門檻值

實驗目的:

在 TNP 中以 PF 作為重建基因調控網路之門檻值;本研究方法則以字串排比之分數 (Scores)作為門檻值。本實驗目的是找出最適當的 PF 與 Scores,以利 4.3.2 之實驗進行。

實驗資料:

我們以 TNP 所採用的 26 個轉錄因子所組成的轉錄調控模組(如表 4.3-1),為重建基因網 路的目標。

ABF1、ACE2、ADR1、BAS1、BAS2、GAL4、GCN4、GCR1、

HAP1、HSTF、LEU3、HATalpha1、HATalpha2、MBF、MCM1、

MIG1、PDR3、PHO4、PUT3、RAP1、REB1、Repressor of CAR1、

SBF、STE12、SWI5、TBP

表 4.3-1 本實驗所使用之 26 個調控因子

關於驗證的資料,我們使用記錄於資料庫 SCPD(Zhu et al. 1999)之調控關係來決定某一 方法之預測能力。

SCPD 全名為 Saccharomyces Cerevisiae Promoter Database,集合了生物學家在酵母菌上 的實驗結果,並整理出酵母菌基因與轉錄因子等相關資訊,包含酵母菌之轉錄因子結 合區、轉錄起始位置之資訊,另外還提供部份經過生物實驗驗證之基因調控模組。在 我們的實驗中,將以這些已知的證據,來比較兩個重建調控網路方法之預測能力。

實驗方法:

分別實作 TNP 與本實驗之研究方法,並針對同一組基因表現資料,以比較兩者重建基 因調控網路之能力。

如 1.1 所言,一個轉錄因子為一種特定的蛋白質,可能由多個蛋白質所組成,而這些蛋 白質又由不同的基因所合成。在 26 個轉錄因子中,其中 23 個是由單一基因所合成之 蛋白質;有 3 個則是由多基因所合成之蛋白質複合體(protein complex),分別為 Repressor of CAR1、MBF、SBF。其組合基因如表 4.3-2。

TF name Component Gene(ORF) Reference Repressor of CAR1 RPD3(YNL330c)、

SIN3(YOL004w)、

UME6(YDR207c)

Wingender E. et al. 1996

MBF SWI6(YLR182w)、

MBP1(YDL056w)

Sellman et al. 1998

SBF SWI4(YER111c)、

SWI6(YLR182w)

Sellman et al. 1998

表 4.3-2 由多基因所組成之轉錄因子。

針對這些由多基因合成之調控因子,TNP 利用方程式 2.1(參見 2.2.1),增加其變數以估 過程中,調控模組(Repressor of CAR , YAL001C)的得分為 2.67。

得分 於時間點t之基因表現程度。

在本研究所提出的方法中,針對這些由多基因組成之調控因子,我們分別將其組成基 因與可能被調控基因之基因表現資料,做多次的字串排比,最後計算其平均,作為此 預測調控模組之給分。例如,考慮調控因子 Repressor of CAR1,與可能受調控基因 YAL001C,我們必須分別對基因對(YNL330c , YAL001C)、(YOL004w ,YAL001C)、(YDR207c , YAL001C)進行字串排比。如表 4.3-3,其得分分別為-6、1、13,平

組成基因 字串排比結果

YNL330c (RPD3) YAL001C

-BC--C--DCBAAACCDDC

ABCBBCDDDCCAAA--- -6 YOL004w (SIN3)

YAL001C

--DDDDCCCCBAABBA

ABCBBCDDDCCAA--A 1

YDR207c (UME6)

YAL001C 13

AAABBBCCDDDD-CC AB-CBBCDDDCCAAA

表 4.3-3 調控模組(Repressor of CAR , YAL001C)之預測結果

子結合區等資訊皆可以由 SCPD 資料庫所取得。

為了決定兩方法之門檻值,PF 與 Scores,有較為公平的評量方式,我們引用第三 種重建基因網路之方式,Pattern Match(Hsu et al. 2004),並分別與此兩方法比較,以決 定其門檻值。Pattern Match 是利用判斷某基因之上游區,是否包含某調控因子之轉錄因 子結合區(見 1.1),以決定此基因是否受該轉錄因子所調控。基因上游區序列、轉錄因

圖 4.3-1 為 TNP 於不同 PF 值的設定下,與 Pattern Match 比較的結果。其中,X 軸 代表不同的 PF 值;Y 軸為預測精確度較高的調控模組數。以 PF=0.4 為例,在此設定 之下,上述 26 個調控模組中,Pattern Match 表現較好的有 11 組;而 TNP 表現較好的 有15組。

0 5 10 15 20 25

0 0.01 0.03 0.05 0.07 0.09 0.1 0.2 0.3 0.4 0.5 0.6 0.7

PF threshold

Number of Transcription Modules

Pattern Wins TNP Wins

圖 4.3-1 TNP 於不同 PF 值之下,與 Pattern Match 之預測結果比較。

X 軸代表不同的 PF 值;Y 軸為預測精確度較高的調控模組數。

圖 4.3-2 為就所提出的方法於不同 Scores 值的設定下,與 Pattern Match 比較的結 果。其中,X 軸代表不同的 Scores 值;Y 軸為預測精確度較高的調控模組數。以 Scores

= 6.5 為例,在此設定之下,上述 26 個調控模組中,Pattern Match 表現較好的有 8 組;

而本研究方法表現較好的有 18 組。

0 2 4 6 8 10 12 14 16 18 20

-1.5

-0.5 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5

Scores threshold

Number of Transcription Modules

Pattern Wins OURs Wins

圖 4.3-2 本研究所提方法於不同 Scores 值之下,與 Pattern Match 之預 測結果比較。X 軸代表不同的 Scores 值;Y 軸為預測精確度較高的調控 模組數。

相關文件