第二章 文獻探討
2.2 蛋白質結構相似度衡量方法
基於蛋白質結構的複雜性,結構相似程度是個很難精準衡量的數據。過去十 多年來的發展與修正,有了較為大眾信賴且採用的標準出現,其一是以原子之間 的距離來計算,另一個是蛋白質主幹上的旋轉角度為依據。
2.2.1 Atom Distance
原子彼此之間的距離是最直覺的衡量方式,但衡量過程稍嫌複雜,最廣為人 知的就是Root Mean Square Deviation,簡稱 RMSD。如前面所述,衡量距離前一 定要有同樣的參考座標,所以必須將所有原子的座標做重疊(superimpose)的動
其中N 為原子數目,Q 為 Rotation Matrix,也就是執行 Superimpose 時原子 需要位移的量,α 、β分別代表兩個不同原子,R 為兩原子之間的距離。
公平,因此多引用另一個指標,ACC,好更精準的去比較不同長度序列的結構相 似程度。
ACC 是由 Skolnick 在 2001 年提出。ACC 是 RMSD 去除掉長度因素的值,
概念是蒐集不等長度的區段結構並計算其RMSD,當樣本數夠大時,便能描繪出 特定長度RMSD 的統計曲線,得知 RMSD 平均值及變異數,有了這些資料後,
就能輕易的將任何長度的相似結構元,比較其RMSD 在同等長度下的表現。ACC 值介於0 到 1 之間,0 是最差,1 是最好,也就是說當某相似結構元的 ACC 值為 1,表示其結構在同等結構元中是非常相像,0 則完全不像。若是兩個不同長度 的相似結構元要比較哪一個結構相似度較高,ACC 的值也能馬上與以辨識。圖 2-2 不同長度下 ACC 值大於 0.98 的機率[Skolnick et al, 2001]:
圖2-2 不同長度之相似結構元,其 ACC>0.98 的機率
由此圖可以觀察到當結構元長度大於5 時,其 ACC>0.98 的機率快速遞減,
也就是當結構元長度大於5 個胺基酸時,要找到結構相似的機率是很低,且隨著 長度遞增,結構相似程度高的機率就越低。
2.2.2 Torsion Angle
旋轉角(Torsion Angle)指的是蛋白質結構主幹上,Cα 和兩邊相連接的原子 C 及N 之平面所夾的角度,不同的角度會造成不同形狀的蛋白質結構。連接 N 原 子的稱為Φ(phi),C 端的為 Ψ(psi),圖 2-3 為兩個夾角的示意圖:
圖2-3Φ(phi)、Ψ(psi) angle
旋轉角角度左右了蛋白質主幹的結構,知名生物學家,俄國人 G. N.
Ramachandran [Ramachandran et al, 1977]統計了不同結構的旋轉角,發現大部分 結構的旋轉角會落在特定的區域,圖2-4 為α -helix 及β-sheet 兩種結構的旋轉角 度落點,有明顯的差異。
圖2-4 Ramachandran Plot
單以旋轉角度的一致性作為衡量結構相似度標準的研究較少,通常是以
RMSD 為主,旋轉角為輔。例如,David Baker 在 1998 年提出那有名的 I-sites 資 料庫,在挑選每個分群所代表的相似結構元時,便引入mda 及 dme 兩個標準。
dme 其實就是 RMSD,mda 便是旋轉角的差異值,公式(2)和公式(3)分別為 I-sites 中兩者的計算方式: