TyrR 調控蛋白

第四章實驗結果與分析

4.2 大腸桿菌中的雙核心模組

4.2.3 TyrR 調控蛋白

大腸桿菌中的 TyrR 調控蛋白（Tyrosine Transcriptional Repressor）調控了 aroF、aroG、aroL、aroP、tyrB、tyrP、TyrR、mtr 等基因的表現作用。TyrR 調控蛋白的於這些被調控基因上的結合區域有著共同的樣式為 RTGTAAWnnnnnnTTTACAnM。是為一個雙核心的模組，以 RTGTAAW 與 TTTACAnM 作為兩核心，其間相隔了 6 個核甘酸的距離，見（表 4.2.3.1）。

TyrR 調控蛋白在轉錄時期大部分扮演著抑制的腳色，主要抑制 aroP、aroL、

tyrP、tyrB、TyrR、aroG、aroF 等基因，特別的是活化 mtr 基因使其發生作用。

我們從大腸桿菌的基因體中取出這 8 條基因序列轉錄起始位置前的上游區域來測試我們的系統是否能發現生物實驗所證實的位置。這 8 條序列的長度均為 300。SAMLA 的參數設定為：兩核心長度均設定為 6 ，其他則設以預設值。

由於 SAMAL 為隨機演算法，因此我們讓 SAMAL 以上述的設定執行五次，並且以這五次中分數最高的結果來做為預測 TyrR 調控蛋白的作用區域。

我們比較 SAMAL 的預測結果與生物實驗所預測的結果，見（表 4.2.3.2），

從實驗數據中發現 TyrR 蛋白的雙核心調控模組在 8 條基因序列中出現了 16 個位置，亦即在這 8 條基因序列上有 16 個位置將會與 TyrR 蛋白的雙核心模組相結合使得 TyrR 蛋白發揮調控的作用。透過 SAMLA 的收尋，我們卻只能在這 8 條基因序列中預測出 8 個會與 TyrR 蛋白發生作用的位置，這 8 個預測的位置中只有一個基因序列上為預測錯誤。此錯誤發生在 tyrB 基因，此基因

Regulon 被調控基因 實驗得知樣式

TyrR tyrB tyrP mtr aroG aroL aroF aroP TyrR RTGTAAWnnnnnnTTTACAnM

(表 4.2.3.1) TyrR 調控蛋白的資訊。資料取自 DPInteract 資料庫【Robison et. al. 1998】。

上的 TyrR 調控模組為 CGTAAAcctggaGAACCA，以 CGTAAA 和 GAACCA 為核心。然而 SAMLA 所發現的模組為 TGTAATatttgaTTGTCT，是以更為一致的 TGTAAT 與 TTGTCT 為核心所形成的模組。

已知樣式 TGTAAWnnnnnnTTTACA 實驗驗證位置 CGTAAAnnnnnnGAACCA 系統預測位置 TGTAATnnnnnnTTGTCT

接下來我們也比較其他工具與 SAMLA 的預測能力，見（表 4.2.3.3）。與上一小節雷同，我們收集了 Bioprospector【Liu et. al. 2001】、SeSiMCMC【Favorov et. al. 2005】、以及 AlignACE【Hughes et. al. 2000】等工具來評估。我們針對 (a)

(b)

（表 4.2.3.2）(a) 實驗已證實【Robison et. al. 1998】的樣式 Logo 與 (b)我們所設計的 SAMLA 預測樣式的 Logo

【Crooks et. al. 2004】。

要兩核心序列有與實驗驗證的位置相護重疊超過百分之六十，我們便認為正確的預測。AlignACE 設定兩種不同的參數，我們設定「預期多少位置需要高度一致」

為 12（測試AlignACE 是否可以準確的將模組中兩個長度各為 6 的核心找出來），另一為 6（測試AlignACE 是否可以準確的將模組中長度為 6 的核心單獨地找出來），對於較短的設定，則只要與實驗已知的任一個核心重疊 60 %認定為正確的預測。此外對於 SAMLA 的預測結果中，由於實際模組的間距為固定的距離，因此每條基因上所預測的模組的間距也必須要一致，我們才認定為正確的預測。

我們透過生物實驗得知在 8 條基因序列中一共包含了 16 個受到 tyrR 蛋白所調控的位置。檢視（表4.2.3.3）的實驗結果統計數據，我們可以發現 SeSiMCMC 的效能遠遠的超過其他預測工具，當然也超過了 SAMLA。這項結果讓我們十分納悶，因此我們詳細的比較了 SeSiMCMC 與 SAMLA 的比較結果，發現 SAMLA 錯誤預測的 tyrB 基因模組位置是由於真正實驗驗證的位置比 SAMLA 發現的位置還要不一致，也就是說，在 tyrB 基因序列中存在一個模組比生物實驗發現的模組還要來得更加與其他基因序列的模組一致。 SeSiMCMC 能夠發現此正確的位置則是在預設參數中有一個「於程式收斂後，

選入比目前結果更加一致的位置」（雖然程式能夠發現”每條”序列中最一致的位

Tools Number of

Correctly Predicted

Total Number of

Predicted Sites Precision Sensitivit

y F-Score

SAMLA 7 8 87.50% 43.75% 0.5833

Bioprospector 6 26 23.08% 37.50% 0.2857

SeSiMCMC 9 10 90.00% 56.25% 0.6923

AlignACE(S) 0 34 0.00% 0.00% 0.0000

AlignACE(L) 5 9 55.56% 31.25% 0.4000

（表 4.2.3.3）與各種不同的預測工具的比較。已知在 8 條基因序列總共包含了 16 個實驗證實的模組位置。

AlignACE(S) 代表設定較短的調控序列長度（「預期多少位置需要高度一致」為 6）所得之結果，而 AlignACE(L) 代表設定較長的調控序列長度（「預期多少位置需要高度一致」為12）所得之結果。

置，仍然有可能於其他序列中存在比此序列更為一致的位置，而此位置不一定是程式所選入的最高分者）。至少在此部分的評比 SeSiMCMC 的效能是為最高的。而只能收尋單一調控序列的 AlignACE 則不能夠有效的在此資料中尋找出正確的模組位置。

在文檔中探索擁有多調控序列的調控模組 (頁 58-62)

第四章 實驗結果與分析

4.2 大腸桿菌中的雙核心模組

4.2.3 TyrR 調控蛋白

第四章實驗結果與分析