cpxR 調控蛋白

第四章實驗結果與分析

4.2 大腸桿菌中的雙核心模組

4.2.4 cpxR 調控蛋白

cpxR 調控蛋白存在於大腸桿菌中，主要調控 ppiA、ppiD、tsr、csgB、csgD、

motA、cpxR、cpxP、alx、degP、yihE 等 11 種基因的表現。cpxR 調控蛋白的於這些被調控基因上的結合區域有著共同的樣式為 GYAAAnnnnnGTAAR。是為一個雙核心的模組，以 GYAAA 與 GTAAR 作為兩核心，其間相隔了 5 個核甘酸的距離，見（表 4.2.4.1）。

我們從大腸桿菌的基因體中取出這 11 條基因序列轉錄起始位置前的上游區域來測試我們的系統是否能發現生物實驗所證實的位置。這 11 條序列的長度

Regulon 被調控基因 實驗得知樣式

cpxR ppiA ppiD tsr csgB csgD motA cpxR

cpxP alx degP yihE GYAAAnnnnnGTAAR

(表 4.2.4.1) cpxR 調控蛋白的資訊。資料取自 DPInteract 資料庫【Robison et. al. 1998】

(a)

(b)

（表 4.2.4.2）(a) 實驗已證實【Robison et. al. 1998】的樣式 Logo 與 (b)我們所設計的 SAMLA 預測 樣式的 Logo【Crooks et. al. 2004】。

均為 300。SAMLA 的參數設定為：兩核心長度均設定為 5 ，其他則設以預設值。我們比較 SAMAL 的預測結果與生物實驗所預測的結果，見（表 4.2.4.2），

從實驗數據中發現 cpxR 蛋白的雙核心調控模組在 11 條基因序列中出現了 12 個位置。透過 SAMLA 的收尋，我們在這 11 條基因序列中預測出 11 個會與 cpxR 蛋白發生作用的位置，這 11 個預測的位置中有兩個基因序列上為預測錯誤，錯誤發生在 ppiD以及 cpxP 基因。系統在 cpxP 上所發現的樣式為 TTTACnnnnnTTTAC，而非實驗中所發現的 CTGACnnnnnTTTGC。我們也可以明顯的看出 SAMLA 發現的樣式與（表4.4.2）中所呈現的 Logo 較為相似。而針對 ppiD 基因序列上所發掘的位置則是一個有趣的現象。我們所預測的樣式總長為 25，樣式與位置為 (81)GTAAAnnnnnnnnnnnnnnGTAAA(105)，我們預測為序列上的第八十一個位置開始一直到第一百零五位置為模組出現位置。而實驗所驗證的樣式與位置則為 (81)GTAAAnnnnnGAAAG(95)。其相對位置如下表示。

即系統在預測 ppiD 序列上的模組時捨棄了距離上的統一而以核心部份的一致性為優先考量。這是可預期的，原因在於預測大部分的模組均有著相同的間距時，捨棄了 ppiD 基因序列上模組的間距統一，而置換更加一致的調控序列樣式

（將 GAAAG 換成更為一致的樣式 GTAAA ），其於間距上的放棄能夠換取更大的統一。

位置 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05

SAMLA G T A A A N N N N N N N N N N N N N N N G T A A A Known G T A A A N N N N N G A A A G N N N N N N N N N N

(表) ppiD 基因序列上實驗已知的模組位置與系統所預測的位置分佈示意表。

a 位置表示 ppiD 基因序列的實際位置。

我們針對 Bioprospector 將兩核心均設定長度為 5 並且以 0 至 10 的間距為設定。SeSiMCMC 則均以預設的參數來執行。對於各個程式的最高分預測結果，只要兩核心序列有與實驗驗證的位置相護重疊超過百分之六十，我們便認為正確的預測。AlignACE 設定兩種不同的參數，我們設定「預期多少位置需要高度一致」為 10（測試AlignACE 是否可以準確的將模組中兩個長度各為 5 的核心找出來），另一為 5（測試AlignACE 是否可以準確的將模組中長度為 5 的核心單獨地找出來），對於較短的設定，則只要與實驗已知的任一個核心重疊 60

%認定為正確的預測。然而對於 SAMLA 的預測結果中，由於實際模組的間距為固定的距離，因此每條基因上所預測的模組的間距也必須要一致，我們才認定為正確的預測。

(圖) Bioprospector 預測結果，以 MGTMW 與 FTWRW 為核心，而其間距則於 0~10 之間變動。以另一個角度來看便是以 WYWAG 與 WKACK 為核心。

檢視（表4.2.4.3）的實驗結果統計數據，SAMAL 與 SeSiMCMC 的效能相同，遠遠的超過其他預測工具。這項結果讓我們十分納悶的是 Bioprospector 的

Tools Number of

Correctly Predicted

Total Number of

Predicted Sites Precision Sensitivit

y F-Score

SAMLA 9 11 81.82% 75.00% 0.7826

Bioprospector 4 39 10.26% 33.33% 0.1569

SeSiMCMC 9 11 81.82% 75.00% 0.7826

AlignACE(S) 0 27 0.00% 0.00% 0.0000

AlignACE(L) 0 24 0.00% 0.00% 0.0000

（表 4.2.4.3）與各種不同的預測工具的比較。已知在 11 條基因序列總共包含了 12 個實驗證實的模組位置。

AlignACE(S) 代表設定較短的調控序列長度（「預期多少位置需要高度一致」為 5）所得之結果，而 AlignACE(L) 代表設定較長的調控序列長度（「預期多少位置需要高度一致」為10）所得之結果。

[ 0 ~ 10 ]

結果是如此的糟糕。從 Bioprospector 的結果(上圖)中我們發現與實驗驗證的 LOGO 結果（表4.2.4.2）(a) 十分不相似，而兩核心之間的間距也在 0 與 10 之間變化，並無趨向一致的現象。而只能收尋單一調控序列的 AlignACE 依舊不能夠有效的在此資料中尋找出正確的模組位置。

在文檔中探索擁有多調控序列的調控模組 (頁 62-66)

第四章 實驗結果與分析

4.2 大腸桿菌中的雙核心模組

4.2.4 cpxR 調控蛋白

第四章實驗結果與分析