討論 - 結論與討論 - 利用演化式計算找尋蛋白質結構之相似結構元

第五章結論與討論

5.2 討論

本研究的結果和其他三個性質相似研究的結果相互比較，表 5-1 為四篇研究找到的相似結構元比較表，另外各個資料庫相似結構元的詳細資料分別於附錄中詳細紀錄。

DataBase No. Of

Avg. Length (a.a) (http://us.expasy.org/prosite/)上所提供的「Scan PROSITE」工具，PROSITE 會依據最新版資料庫資料，將每條胺基酸序列有的相似結構元回報給使用者。透過此便利的工具，將所得到的結果稍加整理，便能得到適合我們實驗資料的相似結構元。Foldzilla 及 Wangikar 兩資料庫的相似結構元則是直接由其網頁或論文上擷取。其中，RPOSITE、Foldzilla、及本研究的實驗資料為 SCOP40 所屬的蛋白質，而Wangikar 則為 PDB95，包含了將近 256 個(全部 a.39 的蛋白質數量) 蛋白質結構。

由表5- 我們可以觀察到 PROSITE 的相似結構元屬於較短、較普遍、但結構卻最不相似；而本研究 PRODEC 找到的相似結構元特性則是結構相似度最高、長度也長、但普遍性上卻是最差的；Foldzilla 則夾在 PROSITE 和 PRODEC 之中；Wangikar 只找到ㄧ個相似結構元，數量太少而無法觀察其整體特性。

除了上述的巨觀比較外，相似結構元還可就蛋白質功能區域(Function Site) 及蛋白質分類專一性(Fold-Specifivity)兩方面來討論。

蛋白質功能區域

在相似結構元的內容方面，PROSITE 全部的相似結構元都有其生物上的意義，17 個相似結構元中有 10 個是蛋白質功能區域，Foldzilla 則是 4 個中有 2 個包含了蛋白質功能區域，而本研究每一個相似結構元中都有部分或全部的子結構，和 PROSITE 或 Foldzilla 相似結構元的子結構重疊，部分相似結構元甚至是PROSITE 或 Foldzilla 的子相似結構元(sub-Motif)，子相似結構元的意思是指該相似結構元包含的所有子結構都出現於另一個子結構較多的相似結構元中。表5-2 為四個資料庫關於 EF-hand 找到的相關相似結構元：

DataBase Motif No. of Proteins

No. of

Fragments RMSD ACC Length

PROSITE PS00018 33 51 6.67 0.58 23 MTF00052 20 33 4.37 0.87 29 Foldzilla

MTF00053 7 7 2.71 0.93 17 Wangikar Fa.39.1.3.5.523 36 63 N/A N/A 8

DEC02 5 5 0.80 0.97 6 DEC04 5 5 2.51 0.96 28 DEC07 5 5 1.91 0.96 14 PRODEC

DEC11 1 2 0.37 0.98 8 表5-2 四個資料庫找到 EF-hand 相關的相似結構元

PRODEC 找到的四個和 EF-hand 相關的相似結構元，圖 5-1 為編號 DEC02 其所包含的區域結構及PROSITE、Foldzilla 兩者相關區域結構的示意圖。

圖5-1 DEC0 在胺基酸序列上與 PROSITE、Foldzilla 比較

不同顏色區塊代表來自不同資料庫的區域結構，區塊上的數字則為其在胺基酸序列所發生的位置。其中，只有1EXR 為三個資料庫都有找到，有三個和 Foldzilla 相重疊，且重疊的部份傾向於 Foldzilla 的前半部。圖 5-2 為三個資料庫分別在蛋白質結構上所分布的區域。透過此結構的示意圖，我們可以發現 DEC02 找到的結構區段是在 Helix 的部分，相較於其他兩者其包含的 EF-hand 是不完整的。可能之一是Loop 及接續的 Helix 在結構上變異性比較大的，另外一個原因為DEC02 包含了其他並沒有 EF-hand 但結構相似的其他結構。

圖5-2 PROSITE、Foldzilla、PRODEC 在蛋白質 1EXR 所找到的 EF-hand 左-PROSITE、中-Foldzilla、右-PRODEC

圖5-3 及圖 5-4 則為 DEC04 在序列及結構上的示意圖。

圖5-3 DEC04 在胺基酸序列上與 PROSITE、Foldzilla 比較

圖5-4 PROSITE、Foldzilla、PRODEC 在蛋白質 2SAS 所找到的 EF-hand 左-PROSITE、中-Foldzilla、右-PRODEC

DEC04 和 Foldzilla 是完全重疊，五個區域結構中有四個是 PROSITE 也有找到的。從結構圖我們可以發現PROSITE 找到的 EF-hand 少了一個 Helix，而

Foldzilla 及 PRODEC 找到的是完整的 EF-hand。

圖5-5 及圖 5-6 則為 DEC07 在序列及結構上的示意圖。

圖5-5 DEC07 在胺基酸序列上與 PROSITE、Foldzilla 比較

圖5-6 PROSITE、Foldzilla、PRODEC 在蛋白質 1DGU 所找到的 EF-hand 左-PROSITE、中-Foldzilla、右-PRODEC

DEC07 和 PROSITE 及 Foldzilla 的重疊部份也很多，尤其是和 Foldzilla，

只不過找到的區域結構較短。從結構圖上來看，三者都有包含EF-hand 的兩個

圖5-7 及圖 5-8 則為 DEC011 在序列及結構上的示意圖。

圖5-7 DEC11 在胺基酸序列上與 PROSITE、Foldzilla 比較

圖5-8 PROSITE、Foldzilla、PRODEC 在蛋白質 1ALV 所找到的 EF-hand 左-Foldzilla、右-PRODEC

DEC11 所包含的 EF-hand 在 PROSITE 中並沒有被標註，但卻有被 Foldzilla 標明，不過因為PDB 檔案中有缺漏值，部份連續的胺基酸沒有空間座標可以視覺化，因此呈現的結構圖是不連續的。但，不論是從胺基酸序列或是結構上來看，DEC11 找到的區域結構被包含在 Foldzilla 裡面，因此長度也較短。

從以上關於EF-hand 相關的四個相似結構元的深入探討，我們可以發現除了DEC02 外，其餘三個結構相似元相較於其他兩者，雖然包含的區域較小，但

還是都能有效的將EF-hand 中兩個 Helix 及一個 Loop 給囊括。至於 PROSITE 或是Foldzilla 有找到的區域 PRODEC 卻沒辦法包含，原因是那些區塊的結構變異性是比較大的(ACC<0.95)，所以不管是在基因規劃模型或是後置作業中，都無法被納入相似結構元中。

除了上述四個相似結構元外，其他一些相似結構元的部份區域結構也和 PROSITE 所標註的區域結構有所重疊，上ㄧ章紀錄相似結構元的表格有予以標註。由於這些被包含的蛋白質功能區域屬性是非常普遍且長度短的，因此就不再就蛋白質功能面討論。

蛋白質分類專一性域

相似結構元除了在功能方面外，本研究也計算了每個相似結構元在蛋白質分類上的專一性(Fold-Specificity)。在 12 個相似結構元中，有 7 個的分類專一性大於50%，若把低於 50%但相較於其他 Fold 仍為最高的則有 10 個，分類專一性過低的通常都為較短的相似結構元，往往出現在其他為數眾多的蛋白質分類中，此種相似結構元在實用性及意義上就比較少，例如DEC02 及 DEC12。

本研究的目標是找結構相似的相似結構元，結構元的篩選標準是以結構相似度為條件，但相似的結構並未必有相同的功能、具有相同功能的結構也未必一定很相似，因此以結構相似的前提下所找到的子結構中，就容易發生只有部分子結構擁有蛋白質功能區域，或是同ㄧ個結構卻擁有不同的功能，這情形也同時發生在PROSITE 及 Foldzilla 的相似結構元中。

是子結構卻是四者最低的，也就相似結構元在Fold 中的普遍性相較之下是最低的。主要的原因是模型中對於蛋白質結構相似度的門檻值設定較嚴苛(ACC >=

0.95)，所包含的子結構數目自然就會較少、普遍性較低。門檻值的設定是很自由的，端看使用者的需求。若是使用者希望能找到普遍性較高且結構不需要太相似的相似結構元，只需把門檻值降低到適當值便能找到想要的相似結構元。

另外一個造成普遍性過低的原因是在系統的後置作業子模型中，依據胺基酸上發生的位置來篩選過濾，因此擁有相似結構但發生位置差太多的區域結構就非常容易被過濾掉，造成最後相似結構元只包含了較少的子結構。當然，不同的篩選機制會產生不同的相似結構元，但不管使用者的目標和所設定的篩選條件為何，在候選相似結構元眾多的子結構支持下，都會有不錯的結果。

雖然在後置作業模型中是以區域結構在胺基酸上發生的位置來篩選，理當每個相似結構元都會有其各自的區域，不過由結果我們可以發現每個相似結構元發生的位置不是個定值，而是一個範圍。這符合了蛋白質演化過程中，結構相似的區域會因為胺基酸的插入(insertion )和消失(deletion)所造成發生位置的位移。另外，細看每個相似結構元發生位置的區段，可以發現到其實是有部分重疊的，但若再加上蛋白質資訊，重疊的部份都是發生在不同的蛋白質上，也就是沒有任何區域結構是重疊，這又再次說明了蛋白質演化過程中的自然現象，也說明了本研究之第三階段的分群過程是可信任的，

5.2.1 資訊科學上的貢獻

本研究模型中的基因規劃及後置作業兩個子模型所包含的概念及作法，以資訊科學角度來看，和傳統的分群方法想解決的問題、解決的方法極為相同。

圖5-9 為傳統分群方法和本研究模型方法的比較流程圖。

圖 5-9 典型分群法和本研究流程比較圖

一般的分群方法必須事先人為去訂定分群的群數(k)、及選擇每一群的起始中心點(center)，不同的預設值會大大影響最後的分群結果，這也是目前大部分分群法希望能改善之處。本研究結合了基因規劃法自我學習的優點，透過適應性函數讓系統能自動地學習並找出分群數，免除掉人為憑直覺設定所產生的缺點。表5-3 為傳統分群法和結合基因規劃法的分群法比較表：

Typical Clustering Method Combine GP and Clustering

# of Clusters Try and error Learning

Cluster Center Determine by random No center Order of input object Sensitive Insensitive

Noise Data Sensitive Insensitive

表5-3 典型分群法和本研究模型比較表

5.2.2 生物學上的貢獻

5.2.2.1 解決過去研究上的問題及瓶頸

一般尋找蛋白質相似結構元的方法中，多重結構比對時的比對順序、比對標準的選定(reference)，或是相似結構元中胺基酸突變允許的範圍等等老問題，

目前為止還沒有真正可以徹底解決的好方法，也一直深深困擾著此領域的研究學者。本研究在不同的模型階段中，提供了一個可以解決了上述傳統老問題的方法。

多重結構比對時會因為比對順序不同而有不同的比對結果。本研究後置作業的「產生代表性相似結構元」步驟中，從數個相似但不同的結構元所包含的區域結構中，依照區域結構在胺基酸序列上發生的位置挑選出可能的區域結構組合，若此組合不符合相似結構元的標準再逐一刪去最不像的區域結構。有別於過去方法是判斷子結構是否相似，相似的再歸類為同ㄧ相似結構元，本研究以反向思考，先找出可能相似的一群子結構，再逐一刪去最不相像的，因此比對區域結構順序的不同便不會構成影響最終結果的因素。

在上述步驟中也同時解決了選定比對標準的困難。比對過程中是以整體的

在文檔中利用演化式計算找尋蛋白質結構之相似結構元 (頁 56-69)

討論

第五章 結論與討論

5.2 討論

第五章結論與討論