• 沒有找到結果。

Zn 群組調控因子【van Helden et. al. 2000】

第四章 實驗結果與分析

4.1 Zn 群組調控因子【van Helden et. al. 2000】

在【van Helden et. al. 2000】中提到了所謂的「雙核心」的調控模組。由於 調控蛋白以二聚化合物(Dimer)的複合體樣式而形成雙核心的調控蛋白,這使 得此二核心在與 DNA 序列的結合區域呈現出以較小、較為相似的樣式。在此 型態下的調控模組其兩調控序列(調控蛋白雙核心部份與 DNA 序列的結合區 域)之間必定有著固定的間距。我們收集【van Helden et. al. 2000】中提到與酵 母菌 Zn 群組調控因子所調控的生物基因序列來測試系統的能力。基因序列以及 調控模組的資訊詳見(表4.1.1),所有的序列均取自於ORF前 800 個長度的核 甘酸序列。在此實驗中系統預設的參數為:收尋兩個相同長度的調控序列,長度 分別為 3,其間距為可變動等參數進行收尋。

SAMLA 收尋的結果,詳見(表4.1.1)與(表4.1.2)。(表4.1.2)中詳列了 系統預測樣式的 Logo【Crooks et. al. 2004】。SAMLA 準確地預測了 6 個家族 的調控模組,分別為 GAL4,CAT8,LEU3,LYS,PPR1,PUT3,UGA3,UME6 等家族。其中由於 PUT3 家族中包含的基因序列個數太少(只有 2 條),因此 長度為 3,間距固定的兩個調控序列核心隨處可見,例如 CGGN[10]GCC(真正 的模組樣式)與 CGGN[3]GCC,在我們的評分中這兩種樣式的分數是完全一樣,

因此我們需要更多被 PUT3 調控的基因序列來幫助判定更精確的調控模組樣 式。

然而在長度為 3 的兩調控序列與可變間距的參數設定下,SAMLA 並不能 發現 HAP1 與 PDR 家族的正確樣式。其中 HAP1 家族,系統探測的最高分數 的樣式為 GGGn{3,12}GGC(n{3,12}代表系統探尋出GGG與GGC兩樣式之間的 距離為 3 或 12),與已知的樣式(CGGnnnTAnCGG)明顯的不同。為此,我

家族 基因序列 已知的樣式 SAMLA 預測樣式 dyad analysis 預測樣式

GAL4 GAL1 GAL2 GAL7 GAL80 MEL1 GCY1 CGGRnnRCYnYnCnCCG CGGnnnnnnnnnnnCCG TCGGAnnnnnnnnnTCCGA CAT8 ACR1 ICL1 MLS1 PCK1 FBP1 CGGnnnnnnGGA CGGnnnnnnGGA CGGnnnnATGGAA

*HAP1 CYB2 CYC1 CYC7 CTT1 CYT1 ERG11 HEM13 HMG1 ROX1

CGGnnnTAnCGG CGGnnnTAnCGGnnnTA

GGAnnnnnCGG

GGAnnnnnnGGC GGAnnnnnCGGC

LEU3 GDH1 ILV1 LEU1 LEU2 LEU4 RCCGGnnCCGGY CGGnnnCGG ACCGGCGCCGGT LYS LYS1 LYS2 LYS4 LYS9 LYS20 LYS21

WWWTCCRnYGGAWWW AAAnnCCG

AAATYCCGnnGGMAWW

AAATTCCG TCCGCTGGA

*PDR

YOR1 PDR11 PDR10 GAS1 STE6 SNQ2 PDR5

TYTCCGCGGARY TCCGCGGA TCCGTGGA

CCGYGGAA TTCCGCGGAA

PPR1 URA1 URA3 URA4 WYCGGnnWWYKCCGAW CGGnnnnnnCCG CGGnnnnnnCCG PUT3 PUT1 PUT2 YCGGnAnGCGnAnnnCCGA

CGGnAnGCnAnnnCCGA

CGGnnnnnnnnnnGCC

CGGnnnGCC CGGnnnnnnnnnnCCG

UGA3 UGA1 UGA4 YBR006W AAARCCGCSGGCGGSAWT CCGnnGGC GCCGnCGGCGGC

UME6

BAR1 CAR1 CAR2 DMC1 GAL1 HOP1 HSF1 ILV2 IME1 IME2 INO1 MEI4 MER1 REC102 REC114 RED1 RME1 SPO11 SPO13 SPO16 TOP1 ZIP1

TAGCCGCCGA GCCGCC TAGCCGCCGA

(表4.1.1)序列資訊【van Helden et. al. 2000】。

A 收錄【van Helden et. al. 2000】所使用的雙核心調控模組資訊,欄位“家族”代表調控蛋白的名稱;“基因序列”則是被此蛋白所調控的基因序列群;經由生物實驗驗證 出的模組樣式則置於欄位“已知的樣式”中;“SAMLA”則顯示我們系統所預測的樣式;最後欄位“dyad analysis”則是取自於【van Helden et. al. 2000】中的分析結果。所 有的樣式均以 W.N.W 表示。W= x x x,x{A,C,G,T},i = 1或2,j = 1,2或3。N 代表兩個調控序列之間的間距,以“n”的個數表示距離長度,例如:CAT8的樣

家族 已知的樣式 預測 Logo

GAL4 CGGRnnRCYnYnCnCCG

CAT8 CGGnnnnnnGGA

HAP1 CGGnnnTAnCGG CGGnnnTAnCGGnnnTA

LEU3 RCCGGnnCCGGY

LYS WWWTCCRnYGGAWWW

PDR

TYTCCGCGGARY TCCGCGGA TCCGTGGA

PPR1 WYCGGnnWWYKCCGAW

PUT3 YCGGnAnGCGnAnnnCCGA CGGnAnGCnAnnnCCGA

UGA3 AAARCCGCSGGCGGSAWT

UME6 TAGCCGCCGA

(表4.1.2)模組樣式的 Logo。

們跟隨【van Helden et. al. 2000】中提到 dyad analysis 的方式來作分析:我們讓 系統搜尋兩個調控序列長度為 3 且固定間距的模組。間距設定由 0 至 20,每 個間距設定中,我們讓系統執行五次,選取分數最高者作為此間距最為可能的模 組。經過總共 105 次的收尋,我們發現間距為 5,12 以及 6 的樣式分數各為 第一、二、三名,樣式分別為 GGAnnnnnCGG,GGGnnnnnnnnnnnnGGC 和 GGAnnnnnnGGC。實驗證實的樣式與這兩個樣式之間以及 dyad analysis 所預測 樣式的排比如下:

已知樣式 CGGnnnTAnCGG

dyad analysis預測樣式 GGAnnnnnCGGC GGAnnnnnCGG 系統預測樣式

GGAnnnnnn GGC * * * * *

我們發現,一、我們將間距為五以及六所預測的兩樣式作重組,便與 dyad analysis 所預測樣式一致(GGAnnnnnCGGC)。二、不論是 dyad analysis 或是 SAMLA 所預測的樣式與實驗證實的樣式之間的相似度都非常的高。由於高度的相似性,

我們不諱言的認定我們的系統亦可以利用固定間距的方式發現 HAP1 家族的正 確樣式。然而最讓我們訝異的是 PDR 家族的探索失敗。在兩長度為 3 且可變 間距的調控序列參數設定之下,系統預測 PDR 家族的樣式為 GGTGCC,此樣 式與已知的樣式十分不一致。接下來,我們重新設定系統使用參數,只搜尋長度 為 8 的單一調控序列模組,並且讓 SAMAL 以此設定執行五次,選擇分數最高 的樣式。SAMAL 探測得到的樣式為 CCGYGGAA,與實驗證實的樣式排比如 下:

已知樣式 TCCGCGGA TCCGTGGA 系統預測樣式 CCGYGGAA

* * * ** * *

相關文件