我們發展的 GEMDOCK33-35已應用在超過 100 組的蛋白質-配體(protein-ligand)的分 子識別與 estrogen receptor38、thymidine kinase39的潛在藥物篩選。此計劃中本實驗室加 強與修改 GEMDOCK 之功能,使其適合應用於蛋白質-蛋白質分子鉗合。我們以 GEMDOCK 這套軟體核心的演化式演算法(evolution strategies)作為搜尋演算法(search algorithm),並配合先前發展的知識為基的計分函式(knowledge-based scoring function)以 及新增的經驗為基的計分函式(empirical-based scoring function),發展出一套新的預測蛋 白質-蛋白質交互作用的軟體。為加快程式執行速度,我們也加入了兩個減少計算量的 技巧,使得執行時間大幅縮短為原本的十分之一。以下將分別詳述新增的部份:
Scoring function
我們引入以知識為基礎的方式將二十種胺基酸的原子細分為 167 種,可涵蓋五種主 Steric (van-der)
20 H-bond (polar)
V6 Interactive type
Electrostatic Steric H-bond
Surface search algorithm
為降低搜尋的解空間,我們藉由比較兩個蛋白質質心的位置,限定搜尋的範圍落在 蛋白質表面的附近,如此可以大大縮短搜尋的時間,詳細步驟如下:
1. 計算兩個蛋白質的長寬高,取出三邊中最長的邊及最短的邊。
2. 將質心的距離限制在最長邊的和的一半以及最短邊的和的一半之間。
3. 若是質心距離大於最長邊的和的一半時,即表示這個解的蛋白質距離超過表面,程 式即不再計算這個解的分數。
4. 若是質心距離小於最短邊的和的一半時,即表示這個解的蛋白質距離近到重疊在一 起,由於不符合物理性質,所以直接給予極高的罰分。
Faster rotation algorithm
為了減少計算能量時做原子轉置(rotation + shift)的次數,我們將不必要的原子(距離 太遠的原子)留在原地不動,只對轉置過後會跟結合區域產生作用的原子進行轉置,如 此亦可大幅降低計算的時間。詳細步驟如下:
1. 將兩個蛋白質每邊均分為四等份,如此可將蛋白質切割為 64 塊立方格,接著計算每 一格的中心,算法為每格內所含的胺基酸 Cβ的質量中心(Gly 為 Cα)。
2. 根據 Evolution strategies 所產生的轉置矩陣,轉置兩目標蛋白質中較小者上的 64 個 質心,並計算轉置完畢後與較大的蛋白質上的 64 個質心間兩兩的距離,將小於 18Å
的格子紀錄下來。
3. 轉置剛才紀錄的較小蛋白質每一格內的胺基酸 Cβ原子座標,並計算與較大蛋白質有 紀錄的格子內胺基酸 Cβ原子間的距離,將距離小於 12Å的胺基酸紀錄下來。
4. 將有紀錄的較小蛋白質上的胺基酸中每個原子都經過轉置矩陣進行轉置,並與另一 側較大蛋白質上有紀錄的胺基酸原子計算能量。
結果與討論
Data Set: 641 Protein-Protein Complexes
我們希望建構的預測模型(model)能用於預測所有類型的蛋白質-蛋白質交互作用,
所以我們用來建構預測模型的資料集合(data set)是否具備足夠的代表性可代表自然界的 蛋白質,將影響我們建構的模型是否有所偏差(bias)。我們挑選出的資料集合總共包含 641 對蛋白質複合體(protein complex),經由這些 PDB42檔案中的注解,我們可初步了解 此資料集合中包含 G-proteins、antibody-antigen、DNA/RNA binding proteins、electron transport proteins、enzyme complex、viral proteins、transcription/translaction factors 等,
涵括了自然界中大多數類型的蛋白質複合體。藉由統計 641 對蛋白質複合體資料集合的 胺基酸組成(圖十二),我們得知胺基酸的組成在蛋白質的產生交互作用的區域與整個蛋 白質上並無顯著差異。這意味著,無法單純的只利用胺基酸組成差異來預測蛋白質的交 互作用的活性區。
Composition
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
GLY ALA VAL LEU ILE MET PHE TYR TRP SER PRO THR CYS ASN GLN LYS HIS ARG ASP GLU Amino acid
Composition in 12A Total protein composition SCOP40
圖十二. 胺基酸組成分布。由左至右分別是 641 個蛋白質複合體 data set 的交互作用區 (interface in 12 Å)、641 個蛋白質複合體 data set 的所有胺基酸組成、SCOP40 的所有胺 基酸組成。
Performance of New Knowledge-based and Empirical-based Scoring Functions
類的方式,所以無法反映出胺基酸配對時產生的能量關係,至於 20 種胺基酸分類則無 法如 167 種原子分類那樣準確的反映出原子間物理的特性,是以我們可以說 167 種原子 分類的方式,不但可以反映出原子間的物理特性,亦可以反映出胺基酸間的物理特性。
表五. 測試六種分類方式結果中前兩百名平均預測成功的次數,167 種原子分類、18 種 原子分類以及 20 種胺基酸分類,加上 2 種距離分類方式(單一距離或是 10 種距離的分 類)
Average numbers of hits in top 200
167 atom type 18 atom type 20 residue type method1a method2b method1 method2 method1 method2 Bound structure 117.82 150 0 143.41 103.58 7.76 Unbound structure 88.47 98.17 4.88 86.23 89.64 0 Hits are defined as docked structures with all main chain atoms RMSD ≦ 2.0 Å from the crystal complex.
amethod1 : a contact distance cutoff Rc=6.0 Å
bmethod2 : a contact distance cutoff Rc=12.0 Å with 1.0 Å intervals
在表六中,我們加入了物理能量(empirical-base scoring function)近似值的計分方式 (simpleS)的測試,我們可以從結果看出,在 bound structure 中,新加入的 simpleS 在預 測的準確度上更優於之前的三種分類方式,也就是說 simpleS 雖然使用簡單的物理能量 近似值,卻可以合理且準確的反映出原子間的交互作用力,因此我們可以推論原子間的 物理特性對於蛋白質交互作用具有很大的影響力,而利用統計的方式做出的以知識為基 礎的計分方式中,只要可以合理的反映出原子間的物理特性,在預測的準確度上也就會 有一定的水準。另外我們也可以從結果觀察出,在以知識為基礎的計分方式中,距離的 分類對於準確度有很大的影響,主要的原因是距離的分類隱含了表現作用力的影響,從 原子的角度來看,距離 1 Å 相對於 0.5Å,更可以合理的表現出原子間的作用力,而距離 6Å 對原子來講就太大了,反而無法充分表現出原子的特性,可是對於胺基酸而言,0.5 Å 反而是太小了,6 Å 才適合表現它的特性,這也可以解釋表六中 20 種胺基酸分類在使用 0.5Å 時預測時為何結果較差。
表六. 加入物理能量近似值的計分方式測試結果,並比較不同的原子分類及不同的距離 分類的優劣
Number of hits in top best 200 docked conformations
167 atom type 18 atom type 20 residue type simpleS Complex
name (Bound structure)
method1amethod2bmethod3cmethod1amethod2bmethod3cmethod1amethod2bmethod4d A. enzyme-inhibitor complexes
1fss 119 107 109 0 136 123 97 0 191
1mah 112 89 86 0 119 114 0 0 184
1sbn 105 161 162 0 133 127 109 0 184 1udi 118 154 156 0 144 144 119 0 182 1ugh 131 191 185 0 159 156 131 0 198 2kai 119 133 158 0 137 132 117 0 183
2ptc 122 99 150 0 151 133 126 0 184
3sic 140 124 147 0 169 166 135 0 181 B. antibody-antigen complexes
1bql 97 163 155 0 136 139 97 0 191
1jhl 82 154 149 0 116 112 83 0 151
2jel 125 156 158 0 128 126 125 0 181 3hfl 117 158 160 0 141 141 118 0 174 3hfm 131 172 164 0 149 148 0 132 155
C. other complexes
1atn 110 159 155 0 136 137 130 0 191
1gla 72 168 168 0 138 134 79 0 178
2mip 144 174 190 0 168 169 140 0 192 3hhr 159 188 185 0 178 178 155 0 182 Hits are defined as docked structures with all main chain atoms RMSD ≦ 2.0 Å from the crystal complex.
amethod1 : a contact distance cutoff Rc=6.0 Å (without distance class)
bmethod2 : a contact distance cutoff Rc=12.0 Å with 0.5 Å intervals (with distance class)
cmethod3 : a contact distance cutoff Rc=12.0 Å with 1.0 Å intervals
dmethod4 : simple empirical model system
根據文獻,抗原-抗體蛋白質的結合預測是目前 Protein-Protein 軟體的執行結果較不 好,圖十三顯示測試了 5 種抗原-抗體蛋白質的 RMSD 與使用三種計分程式(167 種原子
圖十三.抗原-抗體蛋白質的RMSD與使用三種計分程式(167種原子分類、20種原子分類及 20種胺基酸分類)的前2500名間的關係圖(a) 1bql. (b) 1jhl. (c) 2jel. (d) 3hfl. (e) 3hfm。
Docking Results of GEMDOCK for Protein-Protein Docking
圖十四為利用 GEMDOCK 進行蛋白質-蛋白質分子鉗合測試的情況,程式在執行過 程中,可以不斷的輸出演化過程中蛋白質相互的關係。以下為程式在執行時的例子,我 們以 PDB42編號 1udi 的 E chain (黃色)跟 1udi 的 I chain(紅色)進行分子鉗合試驗,在第 10 代及 100 代時輸出結果,則可以看出演化過程中的情況,黃色為 E chain 自然狀態時的 位置,紅色為 I chain 自然狀態時的位置,藍色為程式演算過程中預測 I chain 的位置。
在這個例子中,GEMDOCK 可以預測正確的分子鉗合構形,我們有系統地以 GEMDOCK 進行測試,我們已測試超過 20 個蛋白質複合體,其中也包含我們用來建構計分函式的 蛋白質複合體。由於初步測試的結果有好有壞,因此接下來的工作是自測試的結果中找 尋成功及失敗的原因,並且加入新的生物知識到計分程式上,以增加程式的準確度及穩 定性。
執行時間上,若以只輸出最後的結果來計算,處理兩個平均含三百個胺基酸的蛋白 質,population size 設為 1000,經過一百代演化的處理時間約為八到十分鐘,若未使用 方法論中加速的技巧,則處理相同的情況所花的時間,約為 90 分鐘。整體來說,加入 了前述的技巧,可以將執行時間減少至十分之一。就執行效率而言,我們新發展的方法 較現有的方法更可節省時間43,44。