中華大學碩士論文

(1)

中華大學碩士論文

題目：蛋白質表面結構之相似性比對方法

A Method for Approximate Matching of Protein Surfaces

系所名：資訊工程學系碩士班學號姓名：M09202009 吳明家指導教授：劉志俊助理教授

中華民國九十四年六月

(2)

(3)

(4)

(5)

(6)

(7)

(8)

內文目錄:

1. 簡介...1

2. 相關研究...4

2.1 化合物相似性...4

2.2 蛋白質序列相似性...9

2.3 蛋白質結構相似性... 11

2.4 蛋白質表面相似性...14

3. 蛋白質表面資料模型...16

4. 蛋白質表面相似性比對系統整體架構...18

5. 蛋白質表面相似性比對流程與演算法...20

5.1 找出蛋白質之所有表面α-ball 位置 ...21

5.2 Voronoi 圖的定義及搜尋演算法則...21

5.3 Delaunay Triangulation 的比對計算公式...24

5.4 兩蛋白質中兩兩Surface Patch 之比對方法 ...25

5.5 計算兩蛋白質表面整體相似度之比對方法...26

6. 實驗結果...28

(9)

6.1 蛋白質表面整體相似度比對實驗...28

6.2 蛋白質表面區域相似度比對實驗...30

7. 結論與未來工作...32

參考文獻...33

(10)

圖目錄:

圖 1: 柳酸及其衍生物...2

圖 2: 五種分子在不同分子描述呈現相似性差異之關係...4

圖 3: 由 6 個烷類分子依碳骨架偏序關係構成之化學漢斯圖...5

圖 4: 位置異構物...6

圖 5: 官能基異構物...6

圖 6: 馬來酸與雷馬酸的結構式及性質...8

圖 7: 蛋白質表面相似性比對系統整體架構...18

圖 8: 蛋白質表面相似性比對流程圖...20

圖 9: 蛋白質結構所有表面 α-ball 擷取程式...21

圖 10: 平面上 Voronoi 圖...22

圖 11: 平面上 Voronoi 圖(虛線)及其對應圖形 Delaunay Tessellation(實線) ...23

圖 12: Delaunay Tessellation(Surface Patch)示意圖...25

圖 13 歐幾里德長度個數對儲槽直方圖(histogram)...27

圖 14: MDD(1FI4)及 HSK(1FWL) 之 α-ball 表面結構示意圖...29

圖 15 CDC25 次家族與肌紅素家族之 α-ball 表面結構示意圖 ...30

(11)

圖 16 1CWS 中最接近磷酸根位置之 surface patch 與其他 surface patch 差異度統計圖 ...31

(12)

表目錄:

表1 蛋白質結構分類表...12

表2: 蛋白質表面整體相似度之比對實驗樣本 ...28

表3: 蛋白質表面整體相似度之比對結果 ...29

表4 蛋白質表面區域差異度之比對結果...31

(13)

1. 簡介

隨著人類基因圖譜的完成，後基因時代也正式的來臨，生物科技及生物資訊的研究重心逐漸由基因體(genomics)移轉至蛋白質體(proteomics)。蛋白質體研究的目標在於瞭解一個生物體內所有蛋白質的種類與其功能。由於分子生物檢驗方式的進步，使得蛋白質定序工程得以快速進展。面對數量龐大但功能不甚清楚的蛋白質序列，如何快速了解這些蛋白質序列其生物化學意義，則是生物科技與生物資訊領域一項充滿挑戰的任務。

化學結構相似的分子或化合物，擁有相近的化學性質和生物活性[14,13]，

這對於合成化學及製藥設計的應用非常重要。柳酸是一種天然化合物，可自柳樹皮提煉分離而得，是良好的止痛退燒劑，但由於本身酸性強，口服之後易造成強烈刺激感，因此，第一個人工合成的止痛藥就是柳酸的衍生物(圖 1)。這是化學家利用化合物結構相似性的改進來改善藥物的性能，以加強其功效，減少其副作用的例子之一。此外，在酶的催化反應中，酶對相似化合物具有高度分辨的能力，

亦即當受質的形狀和酶結合部位的幾何結構具高度相似性時，方能互相結合形成酶-受質複合體稱為酶的活性部位，活性部位通常位於蛋白質外層的裂縫或罅隙上。許多研究顯示同一功能分類的蛋白質其胺基酸序列確實十分相近，但蛋白質的立體結構，尤其是蛋白質表面的特定結構，與周遭物質進行生化反應[17,20]，

深深影響了蛋白質的功能。因此如何正確、適當的測量出蛋白質的立體結構，找

(14)

出蛋白質的表面原子、活性部位、並研究其對應之功能，是結構蛋白質學的核心議題。例如運用電腦快速計算的能力擷取出某個病毒表面活性部位的結構後，生物學家就可針對此部位的表面結構深入研究，加速抑制藥物與疫苗的開發，降低病毒對人體的危害。

圖1: 柳酸及其衍生物

因為蛋白質結構的重要，所以許多蛋白質立體結構與功能分類的資料庫相繼被建立。其中Protein Data Bank(PDB) [3] 蛋白質結構資料庫是收集、儲存、

整理各種由 X-ray 及NMR 實驗所得到的蛋白質巨分子結構最完整的資料庫，目前已保存三萬一千多筆蛋白質的結構資訊。但此資料庫沒有提供結構查詢以及蛋白質表面結構的模型，因此，隨著近年來蛋白質的序列與結構正被快速的解讀中，我們期望利用[25]論文中蛋白質表面結構模型及表面搜尋演算法之基礎，提

出一個蛋白質表面結構相似性比對的方法，能夠作為其他生物科學家對各種蛋白質表面結構做更深一步的研究之基礎建設。

O O H O H

O O Na O H

O O O H

O

O CH₃ O H

O O H O C

O CH₃

柳酸柳酸鈉柳酸苯酯

柳酸甲酯

乙醯柳酸

柳酸柳酸納柳酸苯醯

柳酸甲醯乙醯柳酸

(15)

本論文的架構如下：第2 節將介紹化合物及蛋白質相似性的相關研究；第 3 節則簡介蛋白質表面資料模型；第4 節說明蛋白質表面相似性比對系統之整體架構；第5 節說明蛋白質表面相似性比對流程與演算法；第 6 節為實驗結果，第 7 節為本文的結論。

(16)

2. 相關研究

2.1 化合物相似性

由[14]文獻中提到，在從事分子或化合物相似性分析時，化學家常以一組分子描述(Molecular Descripter)來表示分子或化合物特定的化學資訊。例如以分子名稱做為專一分子的代表，以分子式表示結合的原子種類及數目，以結構式表示鍵結原子連結狀態，以立體結構式呈現鍵結原子在空間的位置。因此，在圖2 中，以分子式比對而言:只能比對出三個化合物，其中 a 與 b，c 與 d 完全相符 (matching)，屬於同分異構物。而以結構式比對時:可比對出四個化合物，其中 a 與 b 仍被判別為完全相符(matching)，視為鍵結異構物。若以立體結構式做相似性辨識時，則得五種完全不同之立體結構化合物。因此可知化合物相似性分析結果，與所選擇之分子描述所內含的化學資訊有密切關係。

圖2: 五種分子在不同分子描述呈現相似性差異之關係 C F

I Cl

C F Cl I

C C

C

a b c d e

分子式

結構式

立體結構式

a b c d

a b

e

c ^d e

c d e

a ^b

(17)

又如圖3，為六個烷類化合物以碳骨架做為分子描述時，所構成一偏序關係的漢斯圖(Hasse diagram)。在圖 3 中以結構關係而言，因為異丁烷的次結構 (substructure)含蓋丙烷全部結構，且異丁烷僅有一個次結構與丙烷結構相同，滿足此類關係時稱異丁烷包含丙烷，或稱丙烷結構包含於異丁烷，圖中相鄰分子以單一短線段連接之。然而異戊烷並不包含丙烷，因為異戊烷有二個次結構與丙烷結構相同，同時兩者以短線段連接之距離為2。又圖中正丁烷與異丁烷結構關係互不包含，但兩者之間存在部分相似之關係。利用如漢斯圖所顯示之「分子描述」

化學圖的相互關係，例如兩分子在圖中距離遠近即可做為相似程度的參考依據之一。

F – 正戊烷

E – 異戊烷

D – 正丁烷

C – 異丁烷

B – 丙烷 A – 乙烷

E F

C D

B

A

F – 正戊烷

E – 異戊烷

D – 正丁烷

C – 異丁烷

B – 丙烷 A – 乙烷

E F

C D

B

A

圖3: 由 6 個烷類分子依碳骨架偏序關係構成之化學漢斯圖

分子的三度空間形狀對我們了解生命過程極其重要，因此有必要對分子的空間結構性做一探討。異構現象(isomer)是一種完全相同的分子式，有多種不同化合物的情形。異構物有兩大類:結構異構物(structural isomers)與立體異構物

(18)

官能基異構物二種。位置異構物是因原子或原子團在碳鏈上的不同位置而產生，

如圖4 所示，烷屬、鹵化烷及醇為其代表例子；兩種分子有相同分子式但有不同官能基，叫做官能基異構物，官能基異構物的例子：醇與醚、醛與酮、酸與酯，

請看圖5。

圖4: 位置異構物

圖5: 官能基異構物

(19)

異構物的第二大類是立體異構物，或謂空間異構物，與結構異構物不同的是立體異構物的原子次序與官能基完全一樣。它們所不同的是分子中原子或原子團排列空間上有所不同。因此，立體異構物有著相同的結構式，但在三度空間裡原子排列不同。有關立體異構物的知識來自它們對極化平面光之效應。極化光的波是在一個平面內振動。有些物質對極化光產生作用，即將極化光的振動平面予以旋轉。這種物質叫做光學活性物質。其旋光的大小程度可用旋光計來測量。有些光學活性物質將極化光平面右旋(就是觀察者看到的順時針方向)。這種化合物是右旋物;化合物將光旋向左(觀察者看到的逆時針方向)叫做左旋物。旋轉方向用正號(+)表示右旋物，負號(-)表左旋物。用左右兩隻手來比喻物-像不重疊的化合

物，不論您怎麼做都無法將左手疊在右手上。反之亦然。這是因為您的右手與左手都是近乎完美的互為物與鏡中像。這種”手的”性質叫做”掌性”。一物體不能與其鏡像相疊合，稱之為有掌性。一物體能與鏡像疊合(完全一樣)叫做非掌性。掌性(或手性)中心就是分子中的一個原子與四組不同物相聯，與四組不同物質相聯的碳叫做掌性碳原子。掌性分子與它的鏡像是不一樣的(不能疊合)。有單掌性中

心的分子總是有掌性的。有些分子含有一個以上的掌性中心可能為非掌性。物與像不能互相疊合(不一樣)的分子叫做對映異構物。對映異構物的物理性質與化學性質完全一樣，但它們旋轉極化光平面之角度度數相等而方向則相反。一化合物可有一個以上的掌性中心。巨分子如澱粉、纖維及蛋白質，有成百甚至上千個掌性中心。

(20)

幾何異構物不同於先前提過之異構物，它們是由於分子結構中，有一部分堅固不可彎曲，如碳-碳雙鍵，或環的出現而產生的不同。順-丁烯二酸與反丁烯二酸是有不同物理性與化學性的異構物的很好例子(圖 6)。像這樣的分子中有兩

組一樣的原子或原子團，在分子同一邊者叫順式，兩組在不同一邊的叫反式異構物。因為在順-丁烯二酸中兩羧基甚靠近，微熱之下可脫水而成酸酐。反-丁烯二酸在相同反應情況下是不會生成酸酐。但如果加熱至高溫(~300℃)，它會重排成順式，然後失去水而成酸酐。反-丁烯二酸是細胞中酵素所產生之異構物，為著名Kerbs 循環中一系列反應的產物之一。

馬來酸(順-丁烯二酸) mp 130℃

密度 1.59 克/立方公分水中溶解度 78.8 克/100 毫升

雷馬酸(反丁烯二酸) mp 287℃

密度 1.64 克/立方公分水中溶解度 0.7 克/100 毫升圖6: 馬來酸與雷馬酸的結構式及性質

對於化合物或分子傳統上皆以結構異構物、立體異構物與幾何異構物等方式做為分類的依據，但當考慮對分子或化合物做結構相似性比對時，這樣的分類方式並不能提供我們單純而統一的比對參考。

在[23]論文中，Takhashi 等人，提出一個稱為 MolSpace 的分子資料庫系 C

C

H C

OH O

H C OH

O

C C

C H

H C OH

O O

H

(21)

統。此系統使用拓樸分枝圖譜 TFS(Topological fragment spectrum)的技術，將一個化學分子的結構映射至分子特徵值空間(Molecular Feature Space) ，並使用主要元素分析(PCA, Principal Component Analysis)的技術來降彽結構特徵值的維度。他們也提出 Euclidean distance、Cosine coefficient、Tanimoto coefficient 等相似性衡量函數，來計算兩個化學分子的結構相似度。此篇論文亦發展出一種視覺化的工具，可以顯示相似化學分子在三維空間上的分佈，提供使用者快速而及時地瀏覽查詢結果的功能。

2.2 蛋白質序列相似性

在蛋白質序列分析的主題中，常見的一級蛋白質序列資料庫，有 PIR、

MIPS、SWISS-PORT、TrEMBL 及 NRL-3D 等。PIR 是源自於 Margaret Dayhoff 為了調查蛋白質間演化上關係的研究。MIPS 蒐集並處理序列資料，以協助完成 PIR 的國際蛋白質序列資料庫。SWISS-PORT 資料庫致力於提供高層次的註解資料，

包括蛋白質功能的描述和蛋白質域(domain)的結構，轉譯後修飾，變異種等。在 1996 年，針對 SWISS-PORT 進行電腦化註解的輔助機制已建立，稱為 TrEMBL。

NRL-3D 資料庫是由 PIR 從 PDB 所取得之序列產生。在蛋白質序列資料庫中，

NRL-3D 涵蓋範圍最小的，因為它僅僅反應 PDB 的資料內容，但是它的優點是具有直接關聯的結構資訊。PIR 是內容最豐富的資源，但是它的註解資料品質仍相當欠佳。SWISS-PORT 是高度結構化的資料庫，它提供良好的註解資料，但是

(22)

它的序列涵蓋度卻較PIR 為差。

研究序列已知但功能未知的蛋白質有幾種方法，其中在同一類別蛋白質胺基酸序列中尋找到此類別胺基酸序列的共同規則或樣型，稱之為蛋白質Profile、

Block 或蛋白質指紋(Protein Fingerprints) ，然後藉由這些規則或樣型來快速準確預測未知蛋白質的功能。依照此類方法所建立之蛋白質分類資料庫的相關研究主要有PRINTS[1]、Pfam[4]、PROSITE[8]、BLOCKS[10]、EMOTIF[11]等。PROSITE 的立論基礎是，蛋白質家族的特徵可以用一組保守的基序(motif)簡潔有效地予以描述，而這一組基序係由多條已知的同源序列排序推論而來。搜尋 PROSITE，

基本上可決定一個新的序列應該被歸屬於何種蛋白質家族，或是提供這個序列可能包含哪種蛋白質域(domain)或功能位置的訊息。多數蛋白質家族的特徵可以用一個以上的保守基序來代表，因此，使用這些基序集合，就構成建立家族成員關係上鑑別的標誌，即PRINTS 指紋(fingerprint)資料庫。指紋可以加入鄰近基序彼此間前後相對順序這個資訊，而提供比單一基序的鑑定方法更高的可信度。

BLOCKS 資料庫中，基序或區塊是以程式自動偵測每一個蛋白質家族的最保守域而產生:這個方法開始時只需識別三個保守胺基酸(其在序列中不需連續)；最後

產生的區塊，會被轉碼成無缺洞的區域排列，再根據 SWISS-PORT 的資料，計算出區塊形成隨機配對的可能性。隱馬可夫模型(HMM)是利用全序列排序來建立家族鑑別器的另一種方法；Pfam 資料庫提供許多蛋白質領域之 HMM 模型，

該資料庫的建立是基於二個不同類別的排序:手動編輯的種子排序(Pfam-A)及源

(23)

自SWISS-PORT 的自動排序結果(Pfam-B)。IDENTIFY 是另一個以自動化方式產生的資料庫，其資料源自BLOCKS 和 PRINTS。IDENTIFY 資料庫利用 EMOTIF 程式，採取模糊(fuzzy)方式，，將胺基酸依據其生化特徵分組，同一組的胺基酸具有類似的電荷大小等性質，因此在 EMOTIF 中可以被容許互相替換，理論上這樣產生的EMOTIF 應該仍具有生化上的意義。

2.3 蛋白質結構相似性

蛋白質分類的重點是在尋找相似化學結構的蛋白質，在[15]一書中提到，丹

麥蛋白質化學家 K. U. Linderstrom-Lang 以下列的分級來描述蛋白質結構:胺基 酸序列-主要化學鍵位置-稱為一級結構(primary structure)；螺旋體與平板狀的分配-主鏈的氫鍵樣式-稱為二級結構(secondary structure)；螺旋體與平板狀的集合及交互作用-稱為三級結構(tertiary structure)；對於由超過一種以上的次單元所構成的蛋白質，J. D. Bernal 稱這些單體的集合為四級結構(quaternary structure)。在一些實例當中，進化會導致蛋白質合併，使四級結構改變為三級結構。例如在大腸桿菌中的五種不同的酵素，在芳香胺基酸的生物合成路徑中做為催化劑，相當於麴菌(Aspergillus nidulans)中單一蛋白質的五個區域。有時候同源的單體會以不同的方式形成寡分子(oligmer)，例如球蛋白會在哺乳動物血球蛋白中形成四合體，在另一種介面下，則會在蚌(Scapharca inaequivalvis)中形成二聚體。在分級制度中也證實可以加入下列等級:

(24)

z 超二級結構(Supersecondary structure):蛋白質顯示出螺旋體及 平板狀間交互作用力的重複性樣式，在序列上相當接近。

z 區域(Domains):許多蛋白質在其單鏈的摺疊樣式中都包含有

許多緊密單元，具有獨立的安定性，這些單元稱為區域。在這個分級中，區域介於超二級結構與完整單體的三級結構間。

z 組合蛋白質(Modular proteins):組合蛋白質是一種多區域蛋白 質，通常包含許多近似區塊的重覆複製。在許多蛋白質中，區塊以各種不同的結構來作重組，亦即不同的組合蛋白質可以

「混合或配對」不同組合區域。

蛋白質結構的分類，不單只是序列與功能關聯性的橋樑，在生物資訊學上亦佔有相當重要的地位。蛋白質經常依其二級和三級結構之不同而作基本的分類，如表1 所示:

表1 蛋白質結構分類表類別特徵

α-螺旋二級結構完全是 α-螺旋 β-摺板二級結構完全是 β-摺板

α+β α-螺旋與 β-摺板分別散佈於分子之中，但沒

有 β-α-β 超二級結構

α/β 由 β-α-β 單元所組成的螺旋及摺板

α/β-線性(linear) 部分自線型的片段通過由摺板股所排列在中央的列狀結構

α/β-桶狀(barrel) 部分自線型的片段通過由摺板股所排列在中央的環狀結構

極小或無二級結構者

(25)

在以上廣泛的分類中，蛋白質結構顯現出多樣化的摺疊樣式。具有類似摺疊樣式的蛋白質，可依結構、序列及功能等特徵來作家族分類，並推導出其在演化上的關聯性。然而問題是不相關的蛋白質，卻常具有極為類似的主體結構。

很多蛋白質擁有相似結構度，這種結構的相似性反應出在某些生物共通的演化來源。演化過程包括胺基酸序列中之取代、插入和缺失。對於遺傳距離教疏遠的蛋白質來說，這些改變為數較多，而使得蛋白質的摺疊中，其二級結構的數目與方位有顯著的差異。然而，往往蛋白質功能被保留時，結構中關鍵性的活性位置胺基酸其結構環境也會被保留。

在SCOP(Structural classification of Proteins)資料庫中[12]，蛋白質以階層化方式分類，這種階層反應出它們的結構與演化關係。基本上這些階層代表的是家族(family)，超家族(super-family)和摺疊。較高的層級通常能夠代表相當清楚的結構相似度。CATH(Class、Architecture、Topology、Homology)是一個階層式且利

用序列相似性和結構相似性資訊來將蛋白質domain 分類為演化的家族與結構性的群組之資料庫，CATH 的建立始於 1993 年[21]。在 CATH 資料庫中有四種主要的蛋白質階層，這四種階層分別為蛋白質種類(Class)、組成結構(Architecture)、

拓樸形狀(Topology)/摺疊(Fold)和同源家族(Homologous Family)。在 CATH 資料庫中，那些包含顯著的序列相似性(>35%的一致性)或具有高結構相似性與些許序列相似性(>20%的一致性)的蛋白質被群聚成一演化的家族(同源家族)，並位在整

(26)

個階層中最下層的等級。結構相似性是藉由一自動方法所評估的(SSAP)，其分數 100 表示為完全相同的蛋白質，而同源蛋白質所得的分數大多高於 80 分。大部份距離較遠的摺疊結構所得到的分數高於 70 分(拓樸形狀/摺疊階層)。在 CATH 組成結構階層中，將那些在二級結構上擁有類似3D 排列的摺疊部份 (例如，槍管狀、三明治狀、或螺旋槳狀)，而且不考慮兩者之間的連線之蛋白質分為一群。

至於蛋白質種類階層則單純的反映出其二級結構 α-helix 或 β-strand 在蛋白質中的組成比例。並分出三種主要的蛋白質種類，分別為mainly-α、mainly-β 及 α-β。

而在分類以前，許多擁有多重domain 的蛋白質須先利用一致的方法照其組成的摺疊來分割。同時 CATH 系統還擁有一同源家族字典(Homologous Family Dictioary)，記載著那些屬於同源家族的每一個蛋白質其功能性資料。這些資料

包含EC 識別、SWISS-PROT 關鍵字、與從 Enzyme 資料庫或文獻中所取出的資訊。

2.4 蛋白質表面相似性

目前現有蛋白質表面結構資料庫的研究主要有[9][16][22]。SURFACE[9]資

料庫就以 SURFNET[16]程式解析蛋白質原子的座標，以產生蛋白質分子的表面與表面-表面之間的縫隙，再與 PROSITE 資料庫比較以決定此表面、縫隙的功能。SURFACE 再簡化表面、縫隙中 residues 的空間資訊，以 Cα 原子及側鏈原子的幾何中心兩點連線的向量進行區域表面比對(local surface comparison)，並儲

(27)

存大量區域表面比對的結果及功能註解的資訊，讓我們可以經由結構的比對辨識出蛋白質之間功能的關聯性。CSA[22]資料庫則專注於酵素參與生化反應過程中活性部位的解析及分類，首先利用明確定義的規則及文獻的研究資料，手動的建立酵素分子活性部位的註解資訊；再從 PDB 中取出酵素資訊與已建立的活性部位進行PSI-BLAST 及序列的比對，自動的比對出 PDB 資料庫中酵素的活性部位並建立分類及註解資訊，讓我們可以查詢酵素的活性部位及功能的資訊。

(28)

3. 蛋白質表面資料模型

本文所採用之蛋白質的表面資料模型及表面擷取演算法為依據[25]一文之方法建立所得，其內容乃利用滾動、旋轉探測球的觀念來擷取蛋白質的表面結構，在搜尋、擷取蛋白質表面時所使用的探測球是稱為α-ball 的模型，α-ball 探測球擷取出的蛋白質表面結構稱為α-surface 的表面原子模型。

關於α-ball 及α-surface 之定義如下:

定義 1：α-ball 及 closed α-ball

給定一n 個蛋白質原子的集合 P = { (pi ,ri) | pi∈R³，pi表示第i 個原子的球心座標，ri表示pi 原子之凡德瓦(van der Waals)半徑，0≤ i ≤ (n-1)}。則一個 Euclidean

三維空間上的一點O 及一個實數α (0 < α < ∞)，以 O 為球心、α為半徑所形成的α-ball B(O,α) = { P| P∈R³，且 ||PO|| < α}，||PO||代表空間上原子 P 的表面

與球體 O 之球心間的距離。以 O 為球心、α為半徑的 closed α-ball B ( O,α) 則為α-ball B(O,α)加上其圓球「表面」，即closed α-ball B ( O0,α)={P| P∈R³，且||PO||≤ α}。

定義 2：α-surface 表面模型

給定一n 個蛋白質原子的集合 P = { (pi ,ri) | pi∈R³，pi表示第i 個原子的球心座標，ri表示pi 原子之凡德瓦(van der Waals)半徑，0≤ i ≤ (n-1)}。給定一個實數 α(0 <α<∞)，則定義蛋白質集合 P 的 α-surface 為 S = { pj| pj∈P, 0 ≤j≤ (n-1)，且

(29)

對於每個蛋白質原子 pj 至少存在一個α-ball 的球心 O∈R³，使得α-ball B(O, α)∩ P =ψ，且 pj∈ B ( O,α) ∩ P }。我們稱集合 S 為蛋白質 P 由半徑為α之α-ball 所擷取出來的「表面原子」集合(surface atoms)。其中 B(O,α)∩ P =ψ，且 pj∈ B ( O, α)∩ P 代表的意義也就是 closed α-ball 與蛋白質所有原子間只有「接觸 (touch)、正切(tangent)」的關係，但沒有重疊(overlap)的關係。

(30)

4. 蛋白質表面相似性比對系統整體架構

我們的蛋白質表面相似性比對系統架構圖，如圖 7 所示，包含蛋白質結構資料庫(Protein Structure Database)、蛋白質結構資料下載(Download Protein Structure)、擷取蛋白質表面 α-ball 資料(Construct α-balls)、結構資料庫(Protein Surface Database) 、查詢介面 (Query α-Surface) 與蛋白質表面相似性比對 (Computeα-Surface Similiarity)、查詢結果(Protein Surface Query Results)等七個部分。

圖7: 蛋白質表面相似性比對系統整體架構

(31)

我們所使用的蛋白質結構來自PDB[3]。我們下載其中所有蛋白質的結構。

接著我們剖析 PDB 檔案中的原子座標，利用我們在[25]一文所提之演算法找到其表面α-ball。將這些 α-ball 座標正規化後存入資料庫中，建立出蛋白質表面結構資料庫。之後，使用者可選取任一蛋白質部分表面或全部表面作為查詢條件，

利用本文所提出之α-ball 相似性計算方法，找到擁有相似表面結構的蛋白質。

(32)

5. 蛋白質表面相似性比對流程與演算法

依據前述表面模型及表面擷取演算法，給定不同的α值即可探測到不同解析度的α-ball 表面模型，我們將此模型視為 3D 空間的一組點集合，只要利用 Voronoi 圖及 Delaunay Triangulation 的理論，就能找出空間中任意一點之所有相

鄰的點。每一點與其鄰近點將構成一 Delaunay Tesselation，在此稱之為 Surface Patch(如圖 12)。比對兩蛋白質中兩兩 Surface Patch 之相似性，就能求得兩個蛋

白質表面結構的相似性。蛋白質表面相似性比對流程圖，如圖8 所示，操作過程詳述如下各小節:

圖8: 蛋白質表面相似性比對流程圖輸入一個PDB 檔案格式之蛋白質結構以及 α-ball 之半徑參數，找出此結構所有表面之α-ball 位置

使用Voronoi Diagram 搜尋演算法, 找到每一α-ball 相鄰之 α-ball 集合

計算對應之Delaunay Triangulation

計算兩兩 Surface Patch 之相似性

計算兩蛋白質表面 D2 函數直方圖，計算兩蛋白質表面整體相似度計算兩蛋白質表面整體相似度之比對方法

計算兩蛋白質表面區域相似度之比對方法

(33)

5.1 節說明如何輸入一個 PDB 檔案格式之蛋白質結構及 α-ball 之半徑參數，

以找出此結構所有表面之α-ball 位置；5.2 節說明 Voronoi 圖的定義及搜尋演算法則；5.3 節說明 Delaunay Triangulation 的比對計算公式；5.4 節說明兩蛋白質中兩兩Surface Patch 之比對方法；5.5 節說明如何計算兩蛋白質表面整體相似度。

5.1 找出蛋白質之所有表面 α-ball 位置

我們採用[25]一文已建立之應用程式，畫面如圖 9 所示，操作時只要輸入一個 PDB 檔案格式之蛋白質結構及 α-ball 之半徑參數，就能找出蛋白質結構所有表面α-ball 的位置，同時存入資料庫中。

圖9: 蛋白質結構所有表面 α-ball 擷取程式

5.2 Voronoi 圖的定義及搜尋演算法則

(34)

圖在平面上的直觀涵義及Voronoi 圖的定義：

5.2.1 Voronoi 圖在 Euclidean 平面上的直觀敘述

在Euclidean 平面上給予一組互不重疊，點數二以上的有限點集合，找出與這些點距離最近的區域分佈，即為一符合此點集合的 Voronoi 圖。如在圖 10 中顯示符合P1~P6點的Voronoi 圖，其中五邊形的區域，表示 P 點與 P1點的距離(如圖中粗虛線)，均小於 P 點與其他 Pi點(i=2,3,4,5,6)的距離(如圖中虛線)。在圖 10 中與P1與P3等距離之P^’點恰位於邊界之直線上。Voronoi diagram 的直觀涵義為:

在每一個區域內只包含一個點，此點與其所在區域的距離最近，因此找出一組有限點集合的Voronoi 圖，即可找到此點集合中任意一點之相鄰點的集合。

圖10: 平面上 Voronoi 圖

實際上，在一平面上若以相鄰兩點做一垂直平分線，則可得兩個半平面。

若以b(Pi,Pj)代表平面上 Pi點與Pj點間之垂直平分線，則b(Pi,Pj)之數學表示式可寫為^b

(

^Pi,^Pj

)

=

{

^x| ^x−^xi = ^x−^xi

}

,^其中j≠ⁱ，b(Pi,Pj)表示與 Pi點及 Pj點等距離之所有點所成之集合。而半平面常以 H(Pi,Pj)代表，其數學表示式可寫為

(35)

(

^P ^P

) {

^x ^x ^x ^x ^x ^j ⁱ

}

H _i, _j = | − _i ≤ − _i , ≠ ，H(Pi,Pj)表示包含 Pi點之半平面。依半平面之觀念可求得一有限點集合之 m 維度空間區域分佈即Voronoi 圖。

5.2.2 在 m 維度空間上的 Voronoi 圖定義

給定一 m 維度的點集合P = {P1,…, Pn,}，其中2≤ n<∞ 且對於i≠ 恆有j

j

i x

x ≠ ，若以V(Pi)代表 m 維度空間中包含 Pi點的多面體，且 V(Pi)滿足下列方程式 ^V

( )

^Pi =

{

^x| ^x−^xi ≤ ^x−^xi

}

,^其中j≠ⁱ= ( _i, _j)

正整數j

不包含i之Ι H P P

則稱區域集合 V(P)={V(P1),…, V(Pn)}為點集合 P = {P1,…, Pn,}在 m 維度空間中的 Voronoi 圖。依定義V(

( )

P₁ =H(P₁_,P₂)Ι H(P₁_,P₃)Ι H(P₁_,P₄)，可求得包含 P1點之區域V(P1)，V(P1)為 H(P1,P2)、H(P1,P3)及 H(P1,P4)三個半平面交集之區域。

圖11 顯示，P1~P6點的Voronoi 圖(虛線圖形)及 Delaunay Tessellation(實線圖形)，兩者互為對應圖形(dual graph)。後者實際上代表 P1點與相鄰P2~P6點的相對位置，若視為α-ball 與其鄰近 α-ball 的相對位置，即表示蛋白質表面結構中某一區域的立體構形，因此在本文中，我們特別將Delaunay Tessellation 稱為 Surface Patch。由前述相關研究知蛋白質的功能常與其表面的區域結構直接相關。

(36)

本文中有關 Voronoi 圖及 Delaunay Triangulation 搜尋演算法的相關論文及原始程式，可由 http://www.csit.fsu.edu/~burkardt/cpp_src/qvoronoi/qvoronoi.html [2,5]取得。

5.3 Delaunay Triangulation 的比對計算公式

如圖12 所示，當我們找到一個蛋白質表面的 Surface Patch 時，實際上它是由多個Delaunay Triangulation 所構成，因此比對兩個 Delaunay Triangulation 的相似性，成為我們計算的基本前提。在圖12 中，以 P1點為起點，P2、P3為終點，

形成P₁P₂、P₁P₃兩向量，令 l1=_P₁_P₂ ，表向量P₁P₂ 之長度，l2=P₁P₃，表向量P₁P₃之長度，θ 代表P₁P₂、P₁P₃ 兩向量之夾角。計算 l1，θ，l2，並記錄 δ(l1,θ,l2)代表P1、P2與P3三點的Delaunay Triangulation 特徵值。

Delaunay Triangulation 特徵值 δA與 δB的比對計算公式如下:

d(δA,δB)=|l1,A-l1,B|*W1+|θA-θB|* W2+|l2,A-l2,B|*W3

其中

d(δA,δB):代表 δA與 δB的差異程度

|l1,A-l1,B|:代表 δA之 l1與 δB之 l1相減的絕對值

|l2,A-l2,B|:代表 δA之 l2與 δB之 l2相減的絕對值

|θA-θB|:代表 δA之θ 與 δB之θ 相減的絕對值

(37)

W1、W2、W3: 為可調整之權重係數

圖15

圖12: Delaunay Tessellation(Surface Patch)示意圖

5.4 兩蛋白質中兩兩 Surface Patch 之比對方法

假設Surface Patch A 有 m 個 Delaunay Triangulation，Surface Patch B 有 n 個Delaunay Triangulation，則我們比對兩兩 Surface Patch 的步驟如下:

Step1:以 Surface Patch B 為比對標的，在 Surface Patch A 中選定第 1 個

Triangulation 與 Surface Patch B 中之第 1 個 Triangulation 對齊，其餘 Triangulation 將依序對應，計算此時兩個 Patch 所有對應之 Triangulation 的 d(δA,δB)值，記錄總和值設為 d1(ＳA,ＳB)。

Step2:Surface Patch B 不動，旋轉 Surface Patch A，遞移到第 2 個

Triangulation 與 Surface Patch B 中之第 1 個 Triangulation 對齊，其餘 Triangulation 亦會依序對應，然後計算此時兩個 Patch 所有對應之 Triangulation 的 d(δA,δB)，記錄第二次對應的總和值設為 d2(ＳA,ＳB)。

Step3:重複 Step2，可得 m 個 d(ＳA,ＳB)值，記錄其中最小之 d(ＳA,ＳB)值

(38)

5.5 計算兩蛋白質表面整體相似度之比對方法

[19]一文中提到五種外型函數(Shape Functions)，可做為我們在蛋白質表面相似性比對應用上的參考，其內容敘述如下:

z A3 函數:測量 3D 模型表面任意三點所形成的夾角大小

z D1 函數:測量 3D 模型表面任意一點與此模型質量中心的歐幾里德長度 z D2 函數:測量 3D 模型表面任意兩點的歐幾里德長度

z D3 函數:測量 3D 模型表面任意三點所形成的三角形面積的均方根大小 (the square root of the area of the triangle)

z D4 函數:測量 3D 模型表面任意四點所形成的四面體體積的三次方根大小 (the cube root of the volume of the tetrahedron)

依據[19]一文，作者認為以上五種函數在模型外型比對時，均不受平移或轉

動的影響，其中又以D2 函數的比對效能最佳，因此在本文中對於蛋白質表面整體相似性的比對方法，即採用此函數做為比對的基礎。

我們利用[19]一文所提 D2 函數計算法則來計算兩蛋白質表面整體相似度，

相似度的計算步驟如下:

Step1:計算每一個蛋白質任意兩點 α-ball 之歐幾里德長度，並依據大小統 計分類，做成32 個儲槽(bin)之直方圖(histogram)。

(39)

Step2:利用下列計算公式，計算任意兩直方圖之餘弦係數值，即可求得任 意兩個蛋白質表面之整體相似度。

2

2 ( )

) (

) ) (

, (

jk ik

j

i X X

X X X

X

C ∑ ∑

•

= ∑

其中

Xi:代表第 i 個蛋白質，Xj:代表第 j 個蛋白質

Xik:代表第 i 個蛋白質其直方圖中第 k 個儲槽的統計值 Xjk:代表第 j 個蛋白質其直方圖中第 k 個儲槽的統計值

依據直方圖之餘弦係數值計算公式，求得之係數值愈大，則表示兩個蛋白質表面之整體相似度愈接近。

圖13 歐幾里德長度個數對儲槽直方圖(histogram)

(40)

6. 實驗結果

6.1 蛋白質表面整體相似度比對實驗

蛋白質表面整體相似度之實驗資料來源取自 PDB 資料庫，分別為屬於 Protein-tyrosine phosphatase(PTP)、血紅素 (hemoglobin)及肌紅素 (myoglobin)三類蛋白質，如表 2 所示。另由 [6] 一書中提到 mevalonate-5-diphosphate decarboxylase (MDD, PDB code: 1FI4)及 Methanococcus jannaschii(HSK, PDB code 1FWL)，兩者蛋白質表面結構非常相似是非常典型的例子，故本文選作為比對之參考實驗樣本。

表2: 蛋白質表面整體相似度之比對實驗樣本

蛋白質種類 PDB ID

Protein-tyrosine phosphatase

1C25, 1CWR, 1CWS, 1CWT, 1QB0, 1FPZ, 1FQ1,1LW3,1M7R,1D5R 血紅素 (hemoglobin) 1ITH,1A3N,1A4F,1DKE, 肌紅素 (myoglobin) 1MBN,101M,102M, 103M

我們利用D2 函數計算法則，比較(MDD,PDB code: 1FI4)及(HSK, PDB code 1FWL)兩蛋白質表面整體相似度，求得兩直方圖之餘弦係數值為 0.816，代表此兩個蛋白質表面結構確實十分相似，十分符合我們預期之結果。圖 14 為 MDD(1FI4)及 HSK(1FWL) 之 α-ball 表面結構示意圖。

(41)

圖14: MDD(1FI4)及 HSK(1FWL) 之 α-ball 表面結構示意圖

比對 Protein-tyrosine phosphatase(PTP) 、血紅素 (hemoglobin) 及肌紅素 (myoglobin) 三大蛋白質家族實驗結果如表 3 所示。

表3: 蛋白質表面整體相似度之比對結果

在[24]一文中，作者將(1C25,1CWR,1CWS,1CWT,1QB0)、(1FPZ,1FQ1)、

(1J4X,1VHR)及(1LW3,1M7R)分別歸類為 PTP 家族中之 CDC25、Kap、DUSP3 及MTMR2 等次家族，由我們的實驗結果發現同一次家族之蛋白質，其蛋白質表 CDC25 次家族整體相似度值高達 0.999。另由表 3 之實

(42)

驗結果也發現同屬功能相近之蛋白質，其蛋白質表面整體相似度亦相近，例如肌紅素整體相似度值高達1.000，血紅素整體相似度值為 0.964。

在表3 之實驗結果中顯示 CDC25 次家族與肌紅素家族之表面整體相似度值高達0.994，此為一特殊現象，但由圖 15 所顯示之示意圖觀察，兩者表面整體相似度確實非常相近。

1CWS 101M 圖15 CDC25 次家族與肌紅素家族之 α-ball 表面結構示意圖

6.2 蛋白質表面區域相似度比對實驗

蛋白質表面區域相似度之實驗資料來源取自 PTP 家族中，PDB ID 分別為 1CWS、1CWT、1QB0、1VHR 及 1M7R，我們將此五個蛋白質中磷酸根的座標值去除，然後再以半徑值約5.4 之 α-ball 去擷取此五個蛋白質之表面結構，由於已知磷酸根未去除前的座標值，因此我們計算擷取到之蛋白質表面α-ball 之座標值與此磷酸根之座標值的距離，以兩者距離最近之α-ball 的位置，當作原來磷酸根的所在的位置，擷取此點之surface patch 結構，比對其相似性。

利用 5.4 節所提之surface patch 相似性比對之方法，我們先擷取出 1CWS 中最接近磷酸根位置之 surface patch，當做 Query 之 surface patch，然後再與 1CWS 中其他所有 surface patch 做差異度比較，所得結果如圖 16 所示。利用此方法我們可以查詢一個蛋白質中最接近欲查詢 surface patch 的區域 surface

(43)

patch。另外比較前述五個蛋白質最接近磷酸根可能位置之 surface patch 結構，兩兩比對之結果如表 4 所示。由表 4 結果看出五個蛋白質最接近磷酸根可能位置之 surface patch 結構差異度均相近(約為 1~2 之間)，顯示其相似性非常相近。

圖16 1CWS 中最接近磷酸根位置之 surface patch 與 1CWS 中其他 surface patch 差異度統計圖

表4 蛋白質表面最接近磷酸根位置之 surface patch 差異度之比對結果 1CWS 1CWT 1QB0 1VHR 1M7R 1CWS 0 1.922 1.767 1.635 1.642 1CWT 0 2.131 2.023 2.09

1QB0 0 2.077 2.113

1VHR 0 1.517

1M7R 0

(44)

7. 結論與未來工作

在本文中，我們提出一種基於α-ball 的蛋白質表面模型及計算兩個蛋白質表面相似性的演算法。此方法可用以查詢與某個已知蛋白質擁有相似表面結構的蛋白質，亦可用以查詢具有相似活性區域的兩個蛋白質表面，對於蛋白質功能方面的研究有所助益。

在未來工作方面，我們希望除了幾何結構之外，我們的表面結構相似度計算可以與其它重要蛋白質表面化學性質(例如:陰電性、親水性、組成胺基酸等) 結合，以提供更準確的表面比對方法。此外，我們也希望能更深入明瞭 DSP 蛋白質的催化機制與活性部位細部結構，以更仔細的方式檢驗所提方法的可行性。

(45)

參考文獻

[1] Attwood, T.K., Bradley, P., Flower, D.R., Gaulton, A., Maudling, N., Mitchell, A.L.,Moulton, G., Nordle, A., Paine, K., Taylor, P., Uddin, A. & Zygouri, C."PRINTS and its automatic supplement, prePRINTS.", Nucleic Acids Research, 31(1), 400-402. (2003)

[2] Aurenhammer, F.,Voronoi diagrams - a study of a fundamental geometric data structure,ACM Computing Surveys,Volume 23, pages 345-405, September 1991.

[3] Berman, H.M. , et al.,”The Protein Data Bank”, Nucleic Acid Research, vol.28, no.1, pp.235-242, 2000.

[4] Bateman, A., et al.,”The Pfam Protein Families Database”, Nucleic Acids Research, vol.30, no.1, pp.276-280, 2001.

[5] Barber,C. B., Dobkin,D. P., Huhdanpaa,H. T., “The Quickhull algorithm for convex hulls”, ACM Transactions on Mathematical Software,December 1996.

[6] Bourne,P.E., Weissig,H.,”Structural bioinformatics”, Hoboken, N.J. : Wiley-Liss, 2003

[7] Connolly, M. L., "The Molecular Surface Package," Journal of Molecular Graphics, Vol. 11, pp. 139-141, 1993.

[8] Falquet, L., et al.,”The PROSITE Database , Its Status in 2002”, Nucleic Acids Research, vol.30, no.1, pp.235-238, 2002.

[9] Ferre¡, F. , Ausiello, G., Zanzoni, A., and Helmer-Citterich*, M. , “SURFACE: a database of protein surface regions for functional annotation,” D240~D244 Nucleic Acids Research, 2004, Vol. 32, Database issue

[10] Henikoff, S., Henikoff, J.G. and Pietrokovski, S.,”Blocks+：A Non-Redundant

(46)

Bioinformatics, vol.15, no.6, pp.471-479, 1999.

[11] Huang, J.Y. and Brutlag, D.L.,”The EMOTIF Database”, Nucleic Acid Research, vol.29, no.1, pp.202-204, 2001.

[12] Hubbard, T.J.P., Ailey, B., Brenner,S.E., Murzin, A.G.., and Chothia, C.,”SCOP：A Structural Classification of Proteins Database”, Nucleic Acids Research, vol.27, no.1, pp.254-256, 1999.

[13] Hill,John W., Baum,Stuart J., Rhonda,J.Scott-Ennis, “Chemistry and Life:An Introduction to General, Organic and Biological Chemistry”, Prentice Hall, 1999.

[14] Johnson, M.A., Maggiora (Eds.), G..M.,”Concepts and Applications of Molecular Similarity”, Wiley, New York, 1990.

[15] Lesk , A . M.., ”Introduction to Bioinformatics”, Oxford University Press, 2002

[16] Laskowski, R. A.., “Surfnet: A Program for Visualizing Molecular Surfaces, Cavities, and Intermolecular Interactions,” Journal of Molecular Graphics, 13, 323-330, 1995

[17] Laskowski,R.A., Luscombe,N.M., Swindells,M.B. and Thornton,J.M. “Protein Clefts in Molecular Recognition and Function. Protein Sci., 5, 2438-2452. 1996 [18] Okabe,A. , Boots,B., Sugihara,K., Chiu,S. N., with a foreword by Kendall.,D.G..,

“Spatial tessellations :concepts and applications of Voronoi diagrams ”, 2nd ed., Chichester ;Wiley,c2000.New York

[19] Osada,Robert , Funkhouser,Thomas, Chazelle,Bernard , Dobkin,David ,”Shape Distributions, ACM Transactions on Graphics,Volume 21, No. 4, October 2002, Pages 807–832

[20] Peters, K.P., Fauck, J., & Frömmel, C., “The automatic search for ligand binding sites in proteins of known three-dimensional structure using only geometric criteria,” J.Mol. Biol. Vol. 256, pp. 201-213, 1996

[21] Pearl, F.M.G., Lee,D., Bray,J.E. , Sillitoe,I. , Todd,A.E. , Harrison,A.P. ,

(47)

Thornton,J.M. and Orengo,C.A.,”Assigning Genomic Sequences to CATH”, Nucleic Acids Research, vol.28, no.1, pp.277-282, 2000.

[22] Porter,Craig T., et al., “The Catalytic Site Atlas: a resource of catalytic sites and residues identified in enzymes using structural data,” Nucleic Acids Research, Vol. 32, pp. D129-D133, 2004.

[23] Takahashi.,Yoshimasa, Konji,Mitsuru, Fujishima,Satoshi,” MolSpace: a Computer Desktop Tool for Visualization of Massive Molecular Data,” Journal of Molecular Graphics and Modelling 21 (2003) 333–339

[24] Wang,Wei-Qing, Sun, Jin-Peng and Zhang*,Zhong-Yin,”An Overview of the Protein Tyrosine Phosphatase Superfamily,” Current Topics in Medicinal Chemistry 2003, 3, 739-748

[25] 林宏仁、吳明家、江慶涵、高慧英、王鴻文、林佳璇、劉志俊, “蛋白質表面模型與蛋白質表面結構資料庫之建立,＂第一屆生物資訊研討會, 2004

[26] 吳明家、劉志俊, “蛋白質表面模型與相似性比對演算法,” 第二十二屆組合數學與計算理論研討會, 2005.

中 華 大 學 碩 士 論 文