• 沒有找到結果。

本研究選定SCOP分類中的a.39為實驗對象,並以SCOP40為挑選蛋白質結構 標準。Fold a.39是一非常好的實驗對象,除了Fold的大小適中外,最主要是此分 類中的蛋白質具有ㄧ著名的蛋白質作用區域(Function Site) – EF-hand,其他眾多 開發方法的研究中也紛紛挑選此Fold為實驗對象。本實驗以SCOP40為挑選蛋白 質結構的標準,一共包含了48個蛋白質結構作為本研究模型輸入的實驗資料。

本研究在基因規劃模型中是以扭轉角度來衡量相似結構元的結構相似程 度,文獻探討章節中有許多研究都指出扭轉角度是影響結構形狀的因素之ㄧ,但 若只是單用扭轉角度的變異值作為衡量標準,是否真的能找到RMSD也小的相似 結構元呢?為了解答這個疑惑,我們將Fold a.39中48個蛋白質的胺基酸序列中取 出不同長度的子結構,觀察其扭轉角度的變異值和RMSD之間的關係。若兩者成 正比關係,即可證明單獨使用扭轉角度為衡量標準是可行的。圖4-1為Fold a.39 不同長度的結構片段,其扭轉角和RMSD之間的關係。由圖中的曲線可明顯觀察 到,當結構片段長度越長時,因為完全一樣的胺基酸序列越少,相對的扭轉角的 變異值就越小。

圖4-1 不同長度的結構相似元和扭轉角之間的關係

在第三章方法論中介紹了三個子模型,第一個模型是實驗資料的準備,包括 了FMS及RMS。前面已經有說明FMS和RMS來源、特性、及功能,FMS為實際 存在於胺基酸序列中長度為3的區域結構,目的是因提供了可能的相似結構元的 區域結構而提升系統搜尋速度,圖4-2為使用及不使用FMS對基因規劃法搜尋速 度的影響。從圖中可以輕易分辨出兩者的差異,沒有使用FMS的模型在前期必須 花較多的時間去搜尋結構可能相似的區域結構,而使用FMS的模型則因為區域結 構由系統提供,演化速度明顯較快,找到的相似結構元品質都較不使用FMS來得 好。

圖4-2 FMS對於基因規劃模型的貢獻

另外,RMS的功能為提供相似結構元可能的胺基酸突變組合,最後找出來 的相似結構元才能較具變異性(diversity)。圖4-3為使用及不使用RMS兩種狀況 下,變異性的相似結構元佔當代找到所有相似結構元的比例。從圖中可以明顯看 出使用FMS和RMS為輸入資料的模型,再系統一開始執行後,擁有變異性相似 結構元的比例就一直保持在一定水準,而且有逐漸向上攀升的趨勢;相較之下單 只使用FMS直到演化至第九代時才開始出現變異性相似結構元,數目佔整個個體

的比例也不大。當然,在無限時間下兩個模型都能找到差不多的相似結構元,但 加了RMS的模型尋找到最佳解的速度必定比單只用FMS來得快速。

圖4-3 RMS對於系統的貢獻

確定好了實驗資料,圖4-4為基因規劃法執行時的表現。藍色線為當代最佳 的適應分數,紅色則為平均適應分數。我們可以發現大約在六十多代時系統已經 找到非常好的解,而群體則在大約一百代之後收斂,此時我們也找到夠多的候選 相似結構元提供方法模型中的第三部份:後置作業。

圖4-4 基因規劃模型的表現

表4-1 為本研究找到的相似結構元整理表,「Motif」欄位是相似結構元 的長相,「RMSD」則是將該相似結構元所包含的區域結構兩兩算出其RMSD,

再予以平均得到的值;「ACC」算法同RMSD,也是兩兩ACC的平均值。「RRMSD」

則將RMSD轉換為length indenpendnce的值。「No. of Proteins」則是該相似結構元 發生在多少蛋白質上;「No. of Fragments」是該相似結構元包含的區域結構數目;

「Fold Specificity」為該相似結構元只存在於Fold a.39的比例,值是由該相似結 構元掃描PDB中所有蛋白質的FASTA格式的胺基酸序列,統計該相似結構元在各 個不同Fold出現的比例;「Start Position」是該相似結構元包含的區域結構在胺基 酸序列上發生位置的範圍;「Length」為該相似結構元的長度;「Annotation」則 是對於該相似結構元的一些描述,主要是該相似結構元具有的特徵和PROSITE 及Foldzilla兩資料庫的比較。

DEC06 DEC05 DEC04 DEC03 DEC02 DEC01 No

[EFQKT]-[DEGHNP]-[DEPSRV]-[FILTSV]-[AKSPT]-[DFLS]-[FHIL]-[FKMY]-[AKQR]-[ABFHGK] [ADFLINTV]-[DELNQR]-[DEFKL]-[FKMTLQY]-[EKLMTV]-[AEFKPRVY]-[ALMDQV]-[DIFKLNQT]-[AFLNQSY]-[EIKLQV]-[ADEFGHMV]-[ADEGILMV]-[KLRNTV]-[ACDEGIHST]-[ACEGILST] [DGLNRT]-[EKPT]-[ADGKSNV]-[EGVTY]-[ALVW]-[ADQR]-[DERSV]-[ILMVW]-[FIKM]-[EGKNS]-[EKMR]-[AKLFV]-D-[AILKR]-[DEN]-[EGKNST]-[DKN] [AEGLSPNMT]-[ADEKLQS]-[ADEGLRNTQY]-[EILV]-[FHTLV]-[AFKLSMQY]-[DEIKLRQTMV]-[AEFGKMLV]-[EFIKVMSLY]-[ADKMNRQS]-[ADEFGSNKHT]-[ADEFGTSPINV]-[CDGFKLVNTS] [DK]-[EFV]-[FKQT]-[FLRST]-[DQRV]-[FLMY] [EFNLT]-[EKSNT]-[DEIFL]-[AEIGK]-[DFGKNT]-[AITV]-[FLMY]-[DEFHGN]-[DEKQMS]-[AIKY]-[ADIKS] Motif

0.919 1.98 2.506 1.804 0.799 1.387 RMSD

0.983 0.952 0.959 0.954 0.966 0.962 ACC

0.14 0.68 0.30 0.65 0.28 0.23 RRMSD

6 10 5 13 5 8 No. of Proteins

7 10 5 14 5 8 No. of Fragments

100% 50.9% 82.6% 17.9% 2.4% 80.9% Fold Specificity

93-107 68-84 47-61 24-52 10-27 2-13 Start

Position

10 15 29 13 6 11 Length

Fold-Signature

S,Casein kinase II phosphorylation si Fold-Signature S,Casein kinase II phosphorylation si

G is the N - myristoylation

site],N-myristoylation site Fold-Signature EF-hand calcium-binding domain Fold-Signature EF-hand calcium-binding domain Fold-Signature Annotation

表4-1 本研究所找到的相似結構元

DEC12 DEC11 DEC10 DEC09 DEC08 DEC07 No

[FPQ]-[RV]-[QR]-L-G D-[SV]-D-[RT]-[ST]-G-[KT]-[IL]-G-[FS]-[ES]-E-[FL] [AGR]-[DST]-[GST]-[FR]-[IKR]-[IR]-[TV]-[KL] [IKNPV]-[KLRT]-[FPQR]-[EIMN]-[EIKLV]-[DNRTV]-[ACKV]-[ELT]-[KLSRT]-[AILQT] [DFIK]-[AQS]-[EIKR]-[ELNV]-[ADCE]-[ESV]-L-[ELY]-[IKL]-[DGVW]-[ALTV] [DT]-[FKNR]-[DE]-[DHNR]-[DNST]-[GN]-[CIKMT]-[ILMS]-[DGNR]-[DFKR]-[ENQ]-[ADEY]-[FGL]-[IKLS] Motif

0.213 0.369 1.892 1.247 1.375 1.908 RMSD

0.998 0.982 0.9560 0.961 0.963 0.955 ACC

0.063 0.04 0.32 0.35 0.27 0.34 RRMSD

3 1 3 5 4 5 No. of Proteins

3 2 3 5 4 5 No. of Fragments

2% 35% 84.6% 35.1% 59.1% 100% Fold Specificity

231-246 150-180 176-190 140-147 117-125 102-108 Start

Position

5 8 13 10 11 14 Length

None Fold-Signature EF-hand calcium-binding domain Fold-Signature Fold-Signature Fold-Signatur Fold-Signature EF-hand calcium-binding domain Annotation

表4-1 本研究所找到的相似結構元

詳細的相似結構元資訊,可以到http://aneta.no-ip.com/drawmotifs.php查 看,我們將於後面討論的章節詳細探討找到的相似結構元之性質。

相關文件