narL 調控蛋白

第四章實驗結果與分析

4.2 大腸桿菌中的雙核心模組

4.2.5 narL 調控蛋白

narL 調控蛋白主要調控 fdnG、narK、napF、frdA、dmsA、nrfA、narG、nirB 等 8 種大腸桿菌基因的表現。narL調控蛋白的於這些被調控基因上的結合區域有著共同的樣式為 TWMYYCnnWAKGGGTA。看似為一個雙核心的模組，以 TWMYYC 與 WAKGGGTA 作為兩核心，其間相隔了 2 個核甘酸的距離，見

（表 4.2.5.1）。

我們用 SAMLA 測試這 8 條基因序列，設定兩核心的長度均為 7，其他參數則用預設。結果 LOGO 見(表 4.2.5.2)。基本上 SAMLA 的預測 LOGO (表

Regulon 被調控基因 實驗得知樣式

narL fdnG narK napF frdA dmsA nrfA narG

nirB TWMYYCnnWAKGGGTA

(表 4.2.5.1) narL 調控蛋白的資訊。資料取自 DPInteract 資料庫【Robison et. al. 1998】

(a)

(b)

（表 4.2.5.2）(a) 實驗已證實【Robison et. al. 1998】的樣式 Logo 與 (b)我們所設計的 SAMLA 預測 樣式的 Logo【Crooks et. al. 2004】。

4.2.5.2)(b) 已經描繪出真實模組的大致組成。不同的是我們發現的是以三個核甘酸為核心間距，而實際上則是兩個核甘酸的間距。雖然有些許的不同，但是我們所預測 8 個基因上所得到的 8 個位置卻是真實已經過驗證的模組位置。推測 LOGO 會與實驗模組所表現的 LOGO 之間的大同小異是由於實際上的 10 個位置我們只發現了 8 個。

Bioprospector 將兩核心均設定長度為 6 並且以 0 至 10 的間距為設定。

SeSiMCMC 則均以預設的參數來執行。對於以上程式的最高分預測結果，只要兩核心序列有與實驗驗證的位置相護重疊超過百分之六十，我們便認為正確的預測。AlignACE 設定兩種不同的參數，我們設定「預期多少位置需要高度一致」

為 14（測試 AlignACE 是否可以準確的將模組中兩個長度各為 7 的核心找出來），另一為 7（測試 AlignACE 是否可以準確的將模組中長度為 7 的核心單獨地找出來），對於較短的設定，則只要與實驗已知的任一個核心重疊 60 %認定為正確的預測。與其他預測工具所比較（表4.2.5.3），有考慮間距對模組影響的 SAMLA 效能為最高。讓人較為訝異的是 AlignACE 的表現也絲毫不遜色，

這是因為 narL 模組的兩核心擁有較多的 C、G 核甘酸。這樣的調控模組(調控

Tools Number of

Correctly Predicted

Total Number of

Predicted Sites Precision Sensitivit

y F-Score

SAMLA 8 8 100.00% 80.00% 0.8889

Bioprospector 3 25 12.00% 30.00% 0.1714

SeSiMCMC 7 8 87.50% 70.00% 0.7778

AlignACE(S) 8 13 61.54% 80.00% 0.6957

AlignACE(L) 6 13 46.15% 60.00% 0.5217

（表 4.2.5.3）與各種不同的預測工具的比較。已知在 8 條基因序列總共包含了 10 個實驗證實的模組位置。

AlignACE(S) 代表設定較短的調控序列長度（「預期多少位置需要高度一致」為 7）所得之結果，而 AlignACE(L) 代表設定較長的調控序列長度（「預期多少位置需要高度一致」為14）所得之結果。

4.2.6 rpoH調控蛋白

在這部分，我們要介紹一個與先前十分不同的調控蛋白，rpoH 調控蛋白。

目前已知 rpoH 蛋白調控了 gapA、dnaK、grpE、htpG、hslV、rrmJ、clpB、ibpA、

clpP、lon、groS、rpoD 等 12 個基因。(表4.2.6.1)。其模組序列以 MTTGWMW 和 CCCCATWW 為核心部份，此兩個核心之間的相對距離則存在於兩種變動的數值，13 或 14 個核甘酸位置。我們選擇此與先前介紹的模組（固定間距），來突顯 SAMLA 的強大。

由於 rpoH 調控蛋白所形成的調控模組區域則為一個十分有趣的現象，調控模組中兩個調控序列之間的相對距離並不固定，但分布仍然有限制，即兩個調控序列之間的相對距離只能間隔 13 或 14 個核甘酸的距離。在兩個長度為 6 的核心，可變間距的設定之下 SAMLA 探尋出 rpoH 模組結果見（表4.2.6.2）。

SAMLA 預測的樣式為 MTTGAAn^{14,15}CCCCAT。與已知的樣式之間的排比如下：

實驗驗證樣式 MTTGWMW -.n^{13,14} .- CCCCATWW 系統預測樣式 MTTGAA .-..n^{14,15} -. CCCCAT

* ** * * * *** * **

已知於這 12 條基因上有 14 個以驗證的模組位置，SAMLA 發現了其中的11 個位置。

Regulon 被調控基因 實驗得知樣式

rpoH gapA dnaK grpE htpG hslV rrmJ clpB

ibpA clpP lon groS rpoD MTTGWMWn^{13,14}CCCCATWW

(表 4.2.6.1) 調控蛋白的資訊。資料取自 DPInteract 資料庫【Robison et. al. 1998】

（表4.2.6.3）中列舉了不同的預測工具的比較。由於 rpoH 蛋白所形成的模組為可變間距的模組，因此，我們認定所謂的正確預測核心部份不到需要與實驗所得部分相互重疊超過 60% 之外，SALMA 以及 Biopospector 工具預測每條核心間距也必須一致，我們才將其列入正確的預測。然而，在這部份 SeSiMCMC 由於只能搜尋固定間距之模組，因此我們以較為寬鬆的標準來認定其正確的預測。

只要 SeSiMCMC 所預測的結果能夠與實驗驗證的部份相互重疊百分之 70，我 (a)

(b)

（表 4.2.6.2）(a) 實驗已證實【Robison et. al. 1998】的樣式 Logo。模組核心有兩種不同的相對距離，

分別為上LOGO 的 14 個核甘酸以及下 LOGO 的 13 個核甘酸。 (b)我們所設計的 SAMLA 預測樣式的 Logo【Crooks et. al. 2004】。

[14,15]

為 6 的核心找出來），另一為 6（測試 AlignACE 是否可以準確的將模組中長度為 6 的核心單獨地找出來），對於較短的設定，則只要與實驗已知的任一個核心重疊 60 %認定為正確的預測。即便是放寬了 SeSiMCMC 與 AlignACE 的評定標準，從（表4.2.6.3）依舊可見 SAMLA 的效能評比為第一。AlignACE 則無法精準的預測實驗驗證的模組位置。

Tools Number of

Correctly Predicted

Total Number of

Predicted Sites Precision Sensitivit

y F-Score

SAMLA 11 12 91.67% 78.57% 0.8462

Bioprospector 11 24 45.83% 78.57% 0.5789

SeSiMCMC 12 15 80.00% 85.71% 0.8276

AlignACE(S) 0 28 0.00% 0.00% 0.0000

AlignACE(L) 0 28 0.00% 0.00% 0.0000

（表 4.2.6.3）與各種不同的預測工具的比較。已知在 12 條基因序列總共包含了 14 個實驗證實的模組位置。

AlignACE(S) 代表設定較短的調控序列長度（「預期多少位置需要高度一致」為 6）所得之結果，而 AlignACE(L) 代表設定較長的調控序列長度（「預期多少位置需要高度一致」為12）所得之結果。

4.2.7 總結

在以上小節中，我們評估了 ArcA-P，CRP，TyrR，cpxR，narL，以及 rpoH 等調控蛋白之模組。他們所調控的基因序列群以及從實驗已得知的樣式見（表 4.2.7.1）。

實際比較 SAMLA 的預測能力不難發現，SAMLA 的能力略比 SeSiMCMC 為強大。反而是 Bioprospector 差強人意，深入的觀察 Bioprospector 預測的結果可以發現 Bioprospector 所預測各個基因序列上的兩核心之間之間距並非固定，是不一致的，這與實驗所驗證出的固定間距模組有所差距，這使得 Bioprospector 的預測十分不精確。透過這些評比可以觀察到 SAMLA 的預測能力並不亞於其他的工具（SeSiMCMC），而 Bioprospector 卻有可能輸出許多不

Regulon 被調控基因 實驗得知樣式

ArcA-P aldA cydA glcC gltA icdA lldP lpdA pflA

sodA GTTAAYWMWWWKNNW

CRP

lacZ tsx nagE fur galE ompA dadA cdd glpT ptsH srlA ansB nupG tdcA crp ppiA ompR malT glpE aldB mtlA ilvB tnaL cyaA rhaB glpF cytR malE malK melR uxuA deoC

WWWTGTGAnnnnnnTCACANWW

TyrR tyrB tyrP mtr aroG aroL aroF aroP TyrR RTGTAAWnnnnnnTTTACAnM cpxR ppiA ppiD tsr csgB csgD motA cpxR

cpxP alx degP yihE GYAAAnnnnnGTAAR narL fdnG narK napF frdA dmsA nrfA narG

nirB TWMYYCnnWAKGGGTA

rpoH gapA dnaK grpE htpG hslV rrmJ clpB

ibpA clpP lon groS rpoD MTTGWMWn^{13,14}CCCCATWW

(表 4.2.7.1) 調控蛋白的資訊總整理。

以探測可變間距之模組，這對模組預測的技巧是為一大躍進。

從這些結果中不難發現，不論是 CRP、TyrR、cpxR、或是 rpoH 調控蛋白所形成模組，其兩核心部份均無法利用預測單一調控序列的工具（AlignACE）

來準確的探測，進而將其結合還原為雙核心模組。因此能夠同時探測多核心（調控序列）的 SAMLA 與 SeSiMCMC 反而能夠更為精準的預測模組的位置。至於 narL 調控蛋白所形成之模組足為特例，但是從比較結果中可以看出利用 SAMLA 同時搜尋 narL 模組的雙核心反而能夠提升更多的效能。

Number of Real

Binding Sites Tools

Number of

Precision Sensitivity F-Score

SAMLA 27 35 77.14% 55.10% 0.6429

Bioprospector 28 63 44.44% 57.14% 0.5000

SeSiMCMC 28 44 63.64% 57.14% 0.6022

AlignACE(S) 0 55 0.00% 0.00% 0.0000

AlignACE(L) 19 48 39.58% 38.78% 0.3918

SAMLA 7 8 87.50% 43.75% 0.5833

Bioprospector 6 26 23.08% 37.50% 0.2857

SeSiMCMC 9 10 90.00% 56.25% 0.6923

AlignACE(S) 0 34 0.00% 0.00% 0.0000

AlignACE(L) 5 9 55.56% 31.25% 0.4000

SAMLA 9 11 81.82% 75.00% 0.7826

Bioprospector 4 39 10.26% 33.33% 0.1569

SeSiMCMC 9 11 81.82% 75.00% 0.7826

AlignACE(S) 0 27 0.00% 0.00% 0.0000

AlignACE(L) 0 24 0.00% 0.00% 0.0000

SAMLA 8 8 100.00% 80.00% 0.8889

Bioprospector 3 25 12.00% 30.00% 0.1714

SeSiMCMC 7 8 87.50% 70.00% 0.7778

AlignACE(S) 8 13 61.54% 80.00% 0.6957

AlignACE(L) 6 13 46.15% 60.00% 0.5217

SAMLA 11 12 91.67% 78.57% 0.8462

Bioprospector 11 24 45.83% 78.57% 0.5789

SeSiMCMC 12 15 80.00% 85.71% 0.8276

rpoH

在文檔中探索擁有多調控序列的調控模組 (頁 66-74)

第四章 實驗結果與分析

4.2 大腸桿菌中的雙核心模組

4.2.5 narL 調控蛋白

第四章實驗結果與分析