在 結 果 與 討 論 中 , 我 們 將 先 說 明 訓 練 資 料 的 結 果 , 並 且 比 較 我 們 與 Juan Fernandez-Recio 不同的原子型態定義對於結果的影響,接下來是利用我們的程式在測試 資料上的預測結果,最後將針對預測結果不好的例子做說明。
Training Set Results:
我們根據前述的方法論,套用 Fernandez-Recio 所使用的 10 種原子型態以及我們所 發展的 18 種原子型態,針對訓練資料的 104 個蛋白質去做最佳化,得到的結果如表三 所示,在預測的成功率上,我們所定義的原子型態以及 Fernandez-Recio 所定義的原子 型態在 Enzyme-inhibitor 的成功率都是最高的,而在 Antibody-antigen 上的表現比較差,
在 Others 的表現是最不好的,這可以說明 Enzyme-inhibitor 的蛋白質在結合位的表現是 比較一致的。而我們定義的原子型態在預測準確度的表現上也優於 Fernandez-Recio 所 定義的原子型態,最主要的原因從圖八中可以得知, Fernandez-Recio 所定義的原子型 態可能因太偏重疏水性的計算,導致預測的結果以芳香族居多,而忽略了其他的影響 力,而我們定義的原子型態因為是從物化特性以及結構方面來看,則可以避免此類問題 發生。
表三. 不同的原子型態在 104 個蛋白質中預測的結果
Successa TP/Predictionb TP/Bindc Protein type
Our
Fernandez-Recio24 Our
Fernandez-Recio Our Fernandez-Recio Enzyme-inhibitor
79.54%
( 35/44 )
61.36%
(27/44)
67.11% 54.2% 27.91% 39.15%
Antibody-antigen
60.52%
( 23/38 )
42.11%
(16/38)
54.34% 38.65% 33.16% 37.22%
Others
45.45%
( 10/22 )
36.36%
(8/22)
45.15% 32.81% 18.11% 25.19%
a:預測成功率,預測準確度大於等於 50%的蛋白質稱為成功的預測。
b:預測準確度,預測胺基酸是結合位且確實為結合位 / 所有預測是結合位的胺基酸總
Fernandez- Recio Our
圖八. 蛋白質 2KAI,左邊是使用 Fernandez- Recio 24定義的原子型態所預測的結果,右 邊是我們所預測的結果,紅色是預測正確的結合位,黃色是未預測到的結合位,綠色是 預測錯誤的結合位,藍色是非結合位的部份。由圖可知,Fernandez- Recio 的結果幾乎 都預測在芳香族的部份,最上方的 Lys15、Ala16、Cys14 等真正屬於結合位的部份則沒 有預測到,而我們定義的原子型態則可以避免這樣的情況發生。
Testing Set Results:
我們針對了 56 個蛋白質做測試,並且比較了相關兩篇論文的結果,詳細的資料如 表四所示,我們的平均預測準確度為 47.4%,比 Neuvirth 23的 51.7%稍微低了一點,但 是比 Fernandez-Recio24的 37.84%要好,而在平均涵蓋率上,我們是 15.7%,高於 Neuvirth 的 12.96%,而 Fernandez-Recio 則未列出涵蓋率,在預測成功率上,我們在 56 個蛋白質 中成功的預測了 28 個, Neuvirth 在 56 個蛋白質中成功的預測了 35 個, Fernandez-Recio 在 50 個蛋白質中成功預測了 19 個,而且我們在預測失敗的蛋白質結果中,有 4 個蛋白 質是超過 40%的準確度但還未到 50%,有 5 個蛋白質是超過 30%的準確度但還未超過 40%。由此可知,我們的預測程式在準確度上已經有不錯的水準,而在涵蓋率上則表現 的更好。
表四. 56 個蛋白質預測結果與相關的兩篇論文(ProM23and ODA24)之比較
1nos_ 0 1
Predicting rate
0.727
Predicting rate
0.157
Coverage rate
1nobA
Coverage rate
1pne_ 0.5 0.136
1a5e_
2f3gA 1
1cto_ 0
2nef_ 0.25
1cye_ 0.04
0.333
1ex3A 0
6ccp_ 0 0.048
1b1eA 0
1wer_ 0.25
1aye_ 0.09
0.917
1vin_
0.147
1avu_
1selA 0.8
1aueA 0.22
0.083
1poh_ 1
1acl_ 0
1pco_ 0 0.031
1a2pA
2bnh_ 0.65
1bip_ 0
0.444
1qqrA
0.261
1aje_
Predicting rate Coverage
rate
粉紅色、灰色和藍色的部份是預測準確度未超過 50%的蛋白質
* : No ODA hot spots --- : No PDB prediction
在預測的結果中,有幾個蛋白質是完全沒有預測到結合位的,在此以 1CTO 以及 1NOS 做為例子說明,如圖九所示,1CTO 是屬於膜蛋白的一種,所以它是一端插在細胞 膜上而另一端與其他蛋白質產生交互作用,在圖中黃色的部份是我們預測的結合位,雖然 我們沒有預測到與綠色的蛋白質產生交互作用的結合位,但是我們預測到的是 1CTO 插在 細胞膜上的部份,仍然屬於結合位的一種。
Membrane protein
圖九. 蛋白質 1CTO,綠色是 1CD9:A,藍色是 1CTO,黃色是我們預測的結果,1CTO 是屬於膜蛋白的一種,所以黃色的部份是 1CTO 插在細胞膜上的一端,仍然屬於結合位 的一種。
我們預測的蛋白質 1NOS 的結果如圖十所示,圖的左半部是以 1NOS 與其對應的複 合體結晶 1NOC:A 做結構比對,從圖上可知,1NOS 本身在結合位的結晶就不完全,所 以預測出來的結果自然不好,而 1NOC:A 中原本有一個 HEM,我們在預測 1NOS 時並 未考慮 HEM,而預測結果如圖右半部所示,我們將 HEM 的位置預測成了結合位,所以 雖然沒有辦法預測到真正與蛋白質交互作用的部份(因為結合位的結晶不完全),但是我 們仍舊可以預測到其他種類的結合位。
HEM No structure
Blue : bound Purple : unbound
圖十. 蛋白質 1NOS,左半部的藍色是複合體 1NOC:A,紫色是 1NOS,右半部的藍色是 1NOS,綠色是 1NOC:B,黃色是我們預測結果,紅色是 HEM 的結構,由圖可知 1NOS 本身在結合位的結晶就不完全,所以預測出來的結果自然不好,但是我們將 HEM 的位 置預測成了結合位,所以雖然沒有辦法預測到真正與蛋白質交互作用的部份(因為結合 位的結晶不完全),但是我們仍舊可以預測到其他種類的結合位。
未來研究
我們將持續發展改進預測程式的準確度,不只是從結構或是物化特性上來做預測,
並希望能加入同源(homologous)的觀念來增加預測的準確度。另外我們也將整合預測程 式與之前發展的蛋白質嵌合(docking)程式,希望透過預測的結合位實際做嵌合,由最後 嵌合的結果是否合理,來判斷兩個蛋白質是否可能產生交互作用,最終的目的是幫助第 一部份的研究,篩選出最有可能的蛋白質交互作用。