• 沒有找到結果。

蛋白質相似結構元找尋法概述

第二章 文獻探討

2.1 蛋白質相似結構元找尋法概述

2.1.1 Sequence / Structure Alignment

胺基酸序列或是蛋白質結構的比對,是最基本、簡單且行之有年的做法,概 念來自於DNA 序列的比對。胺基酸序列比對發展的早,原理是將所要比對的胺 基酸序列才列在一起,透過不同的序列比對(sequence alignment)演算法,並考慮 胺基酸彼此之間的化性、物性、及分類,找出序列相似的區域,並以不同的方式 呈現出來,構成所謂的Motif。圖 2-1 為有名的 ClustalW[Gibson et al, 1994]序列 比對工具的實際比對圖:

圖2-1 胺基酸序列比對工具 ClustalW

蛋白質結構的比對因為牽涉到空間座標所以較為複雜。蛋白質結構資料中會 紀錄每個原子在空間的X 軸、Y 軸、Z 軸座標位置,但因在蛋白質解構的過程中 並無統一的座標系統,所以在結構比對前必須先將預比對的結構全部轉換至同一 個參考座標,通常是取蛋白質的質心位置,再調整質心位置為同一個座標位置,

其他原子再與以位移,此步驟稱為 Superimpose。堆疊好預比對的結構後,先找 出相應的原子,再計算相應原子的位置差距。有名的Swiss-Port 資料庫有提供相 關工具來方便使用者做蛋白質結構比對。

不管是胺基酸序列或是蛋白質比對,最大的問題發生在預比對的對象超過兩 個,即所謂的 Multiple Alignment。共同的問題是比對的順序不同,會影響最後 比對的結果。另外,結構比對因為是立體空間,原先制定的座標系統方向並無統 一,導致原本比對不像的結構,很可能只要轉個角度就比對上了。

因此,單純的比對雖然簡單、方便,但是因為比對演算法本身的一些限制導 致比對出來的結果並不是很精確,除了不斷改善最基礎的比對方法外,科學家們 更是努力的尋找非比對演算法概念的其他方法。

2.1.2 Structure Alphabet

結構代號(Structure Alphabet)是一建立在序列比對的概念上,融入部分的空 間立體結構資訊,是介於胺基酸序列比對及蛋白質結構比對之間的方法。胺基酸 總共有20 種,不同的胺基酸代號隱含著胺基酸的化性、物性,不同的胺基酸代 號依序著發生次序一字排開而形成了蛋白質最基本的胺基酸序列。以此概念為基 礎,將紀錄胺基酸化性物性的代號,改變成紀錄空間結構的另一組代號並依序排 開,就形成了一條紀錄蛋白質空間結構的序列,最後再將轉換好的兩條或多條結 構代號序列比對,找出序列相似的區域,即所謂結構的相似區域。

相關研究例如SA-Search [Etchebest et al, 2005]、Foldzilla[Hwang et al, 2004]

等資料庫,即以自訂的結構代號轉換原始的胺基酸序列,再將多條的結構代號序

此方法的優點在於將原本非常複雜的結構比對,透過結構代號的轉換,比對 難度降低至序列比對。最後比對的成功與否,除了序列比對演算法本身的優缺點 外,最重要的是結構代號的轉換。執行結構代號轉換前,必須將蛋白質結構區段 與以分群,分群後的群數及內容主宰了最後的相似結構元品質。當分群的群數越 多,也就表示小結構種類越多,那麼最後相似結構元的精準度就會較高,相對的 較少結構種類的結構代號會造成相似結構元不夠精準。隨著精準度的要求提高,

小結構分群的複雜性就越高,所需要的成本就越多。

2.1.3 Clustering

分群法(Clustering)是電腦科學中發展已久的演算法。概念是透過物件彼此 之間的距離衡量,將距離小的、也就是性質相似的歸為一類,非常適合來將胺基 酸序列或是蛋白質結構相似的小片段劃分在同一群中。

分群法成敗的關鍵在於序列或結構之間的距離衡量方式,另外,分群依據的 特性選擇與順序也非常重要。以胺基酸序列及蛋白質結構的為例,可以僅以序列 或結構特性來分群,也可以將兩者特性順序前後不同來分群。蛋白質結構預測領 域中非常著名的 David Baker,在 1998 年提出的模型便是先將相似的胺基酸序 列分群,分群好的序列再每一群自己以結構資訊再分群[Baker et al, 1998]。

另一著名的研究為 Wangikar 等人針對長度為 8 個胺基酸的相似結構元,篩 選 56 個蛋白質相關屬性進行 Clustering [Wangikar et al, 2004]。

此類方法優點是能避免掉序列或結構比對的缺點,分群時所需的蛋白質特性 是依據研究者自己的認知來挑選。但,分群法傳統的一些問題在此應用上也無法

避免。例如,必須先事先決定分群的群數,這就和尋找相似結構元的背景知識相 衝突,在分群前是無法知道此群蛋白質中到底有多少相似結構元。

2.1.4 Discovery

隨著被找出來的蛋白質相似結構元越來越多時,此領域發展的較後期出現了 有別於前述三者的方法。聰明的科學家將眾多相似結構元資料庫予以整理歸納,

找出形成相似結構元的一些規則,再加上生物背景知識的支援,訂定出有可能的 相似結構元模型(templates),再計算各個模型在蛋白質中出現的次數、結構相似 度等分數,來區別模型的好壞。好的模型經過整理合併,便可以得出最後的相似 結構元。最有名的是2002 年的 TRILOGY [Bradely et al, 2002],找到的相似結構 元兼具了胺基酸突變的現象,立體結構上也非常的相似。

此種以先制定模型的方式來尋找相似結構元,的確避免了前面三種方法的缺 點,但模型訂定的方式和數量卻成為新的關鍵點。除非是考慮詳細周延、且數量 夠大的模型,否則最後找得到的相似結構元數量一定會限制於模型的內容,非常 容易忽略掉沒有模型但實際存在的相似結構元。另外,模型的訂定也不可能太 大,擴充性較差。以TRILOGY 為例,模型是以三個胺基酸為基礎,若要加大的 話就得有碰巧可以合併的模型出現才能合併為包含四個胺基酸以上的相似結構 元。

相關文件