• 沒有找到結果。

Cyclic AMP Receptor Protein

第四章 實驗結果與分析

4.2 大腸桿菌中的雙核心模組

4.2.2 Cyclic AMP Receptor Protein

接下來,我們介紹另一種調控蛋白:Cyclic AMP Receptor Protein(CRP,環 腺苷受體蛋白)。存在於大腸桿菌中的 CRP 蛋白其主要功能在於調控醣類的代 謝。當細菌體內的葡萄糖濃度低時,CRP 蛋白與 cAMP(環腺苷酸)會相互結 合成為複合體進而加速基因轉錄作用,產生能夠合成、吸收和分解乳糖的酵素;

一旦細菌體中葡萄糖的濃度充裕時,cAMP 便會減少使得 CRP 蛋白不能夠活化 控制乳糖酵素的基因。

(a)

(b)

(圖4.2.2)大腸桿菌調控模組 Crp 的Logo【Crooks et. al. 2004】。

(a) 系統以雙重調控序列的參數而取得結果。

(b) 實驗已經證實的模組的Logo。資料取自 DPInteract 資料庫【Robison et. al. 1998】。

我們從大腸桿菌的基因體中收集 33 個受到 CRP 蛋白所調控的基因序

核 甘 酸 為 距 離 所 形 成 , 透 過 實 驗 得 知 CRP 蛋 白 所 調 控 的 共 有 字 串 為 WWnTGTGAnnnnnnTCACAnWW,調控模組的 Logo 見(圖4.2.2 b)。我們以長 度 為 8 的兩個調控序列,而此兩個調控序列之間距為可變動的設定來讓 SAMLA 探 測 模 組 , 結 果 如 ( 圖 4.2.2 a ), 共 有 字 串 為 DWWNTGTGAnnnnnnnTCACAWWW。

與實驗中發現的位置(圖4.2.2 a)相比,我們所發現的模組(圖4.2.2 b)的 第一個序列恰與實驗發現的第一個序列位置重疊了 7 個核甘酸,而且我們所發 現的模組其間距也收斂為 7 個核甘酸。

已知樣式 WWnTGTGAnnnnnnTCACAn WW 系統預測樣式 DWWnTGTGnnnnnnn TCACAWWW

* * * * * ** * *** * * *

在預測的結果當中,其中有兩基因條序列不旦預測的道的間距錯誤,且其預 測 的 位 置 也 錯 誤 。 第 一 條 為 位 於 ansB 基 因 序 列 上 , 我 們 預 測 的 序 列 為 AAATTGTTtaacgTCAAATTT,以 AAATTGTT 與 TCAAATTT 為兩核心,其中 小 寫 字 體 部 份 代 表 相 對 距 離 (5 個 核 甘 酸 )。 實 驗 驗 證 的 模 組 則 為 TTTTGTTAcctgccTCTAACTT,以 TTTTGTTA 與 TCTAACTT 為兩核心,其間 以 6 個核甘酸為距離。

已知樣式 WWnTGTGAnnnnnnTCACAnWW 實驗驗證位置 T.TTTGTTAnnnnnnTCT.AACTT 系統預測位置 . AAATTGTTn n n n n TCAAA.TTT

第二條預測錯誤則發生於位在 aldB 基因序列,我們系統預測得到的序列為 AAATTGTTagccgcttttTCAACTAT,以 AAATTGTT 與 TCAACTAT 為兩核 心 , 其 中 間 隔 了 10 個 核 甘 酸 。 然 而 實 驗 驗 證 的 調 控 模 組 則 為 ATTCGTGAtagctgTCGTAAAG,以 ATTCGTGA 與 TCGTAAAG 為兩核心,

其中間隔了 6 個核甘酸。

已知樣式 WWnT GTGAn n n n nnTCACAnWW 實驗驗證位置 . ATTCGTGAn n n n.nnTCGT.AAAG 系統預測位置 AAATTGTTnnnnnnnnnnTCAACT.AT

接下來,我們收集了 Bioprospector【Liu et. al. 2001】、SeSiMCMC【Favorov et.

al. 2005 】 等 能 夠 預 測 雙 核 心 模 組 或 是 雙 調 控 序 列 模 組 的 系 統 。 我 們 針 對 Bioprospector 做 了 兩 次 不 同 設 定 的 實 驗 來 評 估 其 效 能 。 在 參 數 設 定 上 Bioprospector(A) 與 Bioprospector(B) 的兩核心均設定長度為 8;不同的部份在於 Bioprospector(A) 以 0 至 10 的間距為設定,而Bioprospector(B) 則是設定 5 至 8 的間距;亦即,我們測試不同間距設定對 Bioprospector 預測能力的影響。

SeSiMCMC 則均以預設的參數來執行。為了統一起見,我們以每個程式所回報 的最高分者為依歸,針對這些預測結果,只要兩核心序列有與實驗驗證的位置相 護重疊超過百分之六十,我們便認為正確的預測。然而對於 SAMLA 的預測結 果中,由於實際模組的間距為固定的距離,因此每條基因上所預測的模組的間距 也必須要一致,我們才認定為正確的預測。此外,我們使用預測單一調控序列的 工具 AlignACE【Hughes et. al. 2000】來測試是否 CRP 模組的任一核心可以透 過預測單一調控序列的 AlignACE 而探尋。若可以找尋出其中的核心部份,則 表示使用能夠預測多核心(多調控序列)模組的系統,SAMAL,是不需要的,

則為較短,並且各自在最高分數的輸出結果中只要預測的調控序列有與實驗驗證 的位置相護重疊超過百分之六十,我們才認為正確的預測。在希望能夠搜尋較長 的調控序列方面,我們設定「預期多少位置需要高度一致」為 10(測試AlignACE 是否可以準確的將 CRP 模組中兩個長度各為五的核心找出來),另一為 5(測

Tools Number of

Correctly Predicted

Total Number of

Predicted Sites Precision Sensitivit

y F-Score

SAMLA 27 35 77.14% 55.10% 0.6429

Bioprospector(A) 28 63 44.44% 57.14% 0.5000

Bioprospector(B) 35 50 70.00% 71.43% 0.7071

SeSiMCMC 28 44 63.64% 57.14% 0.6022

AlignACE(S) 0 55 0.00% 0.00% 0.0000

AlignACE(L) 19 48 39.58% 38.78% 0.3918

(表 4.2.2)與各種不同的預測工具的比較。已知在 33 條基因序列總共包含了 49 個實驗證實的模組位置。其中 Bioprospector(A) 與 Bioprospector(B) 之間的差距在於所使用的核心間距參數不相同,Bioprospector(A) 以 0 至 10 的間距 為設定,而Bioprospector(B) 則是設定 5 至 8 的間距。而精確率(Precision),涵蓋率(Sensitivity)以及 F-Score 的計 算方式詳見附錄B。AlignACE(S) 代表設定較短的調控序列長度(「預期多少位置需要高度一致」為 5)所得之結果,

AlignACE(L) 代表設定較長的調控序列長度(「預期多少位置需要高度一致」為 10)所得之結果。

或是 Bioprospector(A) 亦或是 SeSiMCMC 所能探測到已證實位置的模組數目幾 乎相同,SAMLA 正確的預測了 27 個位置,Bioprospector(A) 正確的預測了 28 個位置,SeSiMCMC 正確的預測了 28 個位置。能夠比 Bioprospector 的效能更 加突出說明了模組核心之間的間距真正會影響著預測的準確。只能收尋單一調控 序列的 AlignACE 則不能夠有效的尋找出正確的位置。

相關文件