在本研究中,我們提出SRP 以結合環境為導向的概念來探索已知藥物的潛在可能結 合蛋白質,研究中使用了530 個與 FDA 核准藥物共結晶的蛋白質結構來建構 SRP 並對 蛋白質結構資料庫進行搜尋,進而了解SRP 概念的運行以及對已知藥物尋找潛在結合蛋 白的研究。對於說明SRP 如何作用,首先我們給予一評估標準驗證 SRP 的合理性。其 次,研究中提出實例說明將結構比對範圍縮小至只在結合環境這樣的概念與過往使用整 體蛋白質結構的差異、SRP 片段數量以及片段的二級結構組成影響搜尋結果的問題。最 後,對於FDA-530 資料集的 SRP 建構與搜尋資料,我們建置網站收錄 FDA-530 的搜尋 結果。
一、SRP 的合理性
我們以兩項常見描述蛋白質結構的資訊SCOP sccs id、CATH id,以及描述序列關 係上的UniProt AC,從結構角度以及序列角度來觀察 SRP 在搜尋具有相同或相似蛋白質 結構或序列時的表現。並且我們統計結晶相同化合物的蛋白質結晶結構數量,以此來評 估SRP 搜尋結合相同化合物結晶結構的表現。
從表一結果顯示對於描述蛋白質結構的兩項指標SCOP sccs id、CATH id 在搜尋相 同家族蛋白質結構,其覆蓋率(recall)的表現分別為 31%及 22%,在準確率(precision)的 表現為 62%及 82%。結果表示對於被 SCOP 或 CATH 分成同一家族的蛋白質結構,以 SRP 的概念能部分找回相同家族的成員,而從準確率可以得知對於整體或部分區域相似 的蛋白質,結果擁有一定程度可信的準確度。我們觀察到即使在SCOP sccs id 或者 CATH id 將蛋白質鏈分在同一群家族的情形下,由於蛋白質鏈在結合位上仍有明顯差異,SRP 表一、SRP 評估指標表現
Overalla SCOP CATH UACb Ligand Recall 0.22 0.31 0.22 0.80 0.54 Precision 0.88 0.62 0.82 0.36 0.03
a綜合統計SCOP, CATH, UAC, Ligand 註解
b代表UniProt AC
13 AC 的不同的蛋白質而不被列入,使得準確率下降。例如蛋白質 cCMP-specific 3’,5’-cyclic phosphodiesterase(Gene name PDE5A)與 Viagra(HET group id VIA)的結晶結構(PDB code 1tbf, chain A),其蛋白質 UniProt AC 是 O76074(Human),以此結構做搜尋我們能夠找到 蛋白質cAMP and cAMP-inhibited cGMP 3',5'-cyclic phosphodiesterase 10A(Gene name PDE10A) 結晶結構(PDB code 2ouu, chain A),以 DALI 進行結構比對 RMSD 0.7、Z-score 9.2,其 UniProt AC 是 Q9Y233(Human)。從 Gene name 以及結構比對結果均表示兩蛋白 質來自相同祖先且結構高度相似,而因我們在計算時只針對完全相同的UniProt AC,因 Estradiol(HET group id: EST)的結晶結構(PDB code 1a27,chain A),我們對該結晶結構做 搜尋後,搜尋結果中有一結構同為蛋白質Estradiol 17-beta-dehydrogenase 1(Gene name HSD17B1),其結晶的化合物為 Equilin(HET group id: EQI)的結晶結構(PDB code 1equ, chain A),兩者擁有非常相似的化合物構型(圖六),而由於我們只計算含完全相同化合物 HET group 的結構,因此該結構也沒有將之列入計算。同時除了結晶相似結構化合物的 結構不被我們統計以外,沒有結晶化合物但擁有相似結合環境的結構也不被我們計算。
最後,統整SCOP sccs id、CATH id、UniProt AC 以及 Ligand 的綜合表現上,在準確率 的部份因可互相彌補修正統計結果而有88%的表現。在覆蓋率的部份雖然只有 28%,但 也可觀察出在UniProt AC 以及 Ligand 部分均在 50%以上,唯在結構表現 SCOP sccs id、
CATH id 的部份為 31%和 26%表現較低。
14
圖六、SRP 結構比對結果[以 PDB code 1a27(chain A)為模板]
圖六、SRP 結構比對結果。圖中為以蛋白質結構 PDB code 1a27(chain A)為模板,建構 的SRP 蛋白質片段組(粉紅、粉橘、黃、綠、粉藍)搜尋到 PDB code 1equ(chain A) 蛋白 質鏈(深藍色蛋白質片段組)的結構比對結果。可見模板所結晶化合物 EST(紫)與搜尋結 果所結晶化合物EQI(青藍)結構相當相似。
15
同時,我們從ExPASy Prosite[20]所提供已知的序列樣板與 SRP 做探討,來說明 SRP 建構出片段組的合理性。以在研究上較為所知的蛋白激酶做實例,藉由 FDA-530 中的 酪氨酸蛋白質磷酸激酶c-KIT 對藥物 Imatinib 建構 SRP 並比較對於該蛋白已知的序列樣 板(圖七A),並且我們由 FDA-530 資料集中舉出由五個不同蛋白激酶-藥物的結晶結構,
使用CLUSTAL W 對其做多重序列排序並將所建構出的 SRP 資訊與 ExPASy Prosite 已知 序列樣板做比較(圖 7B)。從不同蛋白激酶對不同藥物下建構的 SRP 及對已知序列樣板 的比較,在蛋白激酶上的實例,SRP 建構出的片段組都能從蛋白質整體結構中擷取出包 含ExPASy Prosite 所定義的已知序列結構樣板,反映出 SRP 在建構片段組上的合理性。
16
圖七、SRP 與 ExPASy Prosite 片段序列之比較
…
PS00109; Tyrosine protein kinases specific active-site signature PS00240; Receptor tyrosine
kinase class III signature PS00107, Protein kinases
ATP-binding region signature PS00107, Protein kinases
ATP-binding region signature
PS00240; Receptor tyrosine kinase class III signature
A
B
圖七、SRP 與 ExPASy Prosite 片段序列之比較。(A)SRP 片段組[以 PDB code 1t46(chain A) 為模板],其中建構的 SRP 結構片段組包含了三項 ExPASy Prosite 定義區塊(cartoon form),分別為 Protein kinases ATP-binding region signature(紅色以及天空藍)、 Receptor tyrosine kinase class III signature(黃色)、Tyrosine protein kinases specific active-site signature(綠色)。(B)以 FDA-530 資料集中五個蛋白激酶做多重序列排序,SRP 片段組(上 色區塊)對 ExPASy Prosite 定義序列樣板之比較。
17
二、SRP 搜尋結果分析
本節我們以數個實例來說明SRP 如何作用以及實作時所發現的問題。其一在某些實 例上我們發現即使蛋白質鏈被分類在相同的SCOP 家族底下,SRP 能因結合位的差異而 區分出不同的”binding-site family”。同時我們初步討論 SRP 對於「舊藥新用」可行性。
此外,我們列舉兩個實例探討在SRP 建構出含有較多片段或者片段中含二級結構比例過 高時,對於搜尋結果的影響。
(一)、蛋白質分類問題
病毒神經胺酸水解酶 (viral neuraminidase)與瑞樂沙(Zanamivir)
神經胺酸水解酶(neuraminidase)為 glycoside hydrolase enzyme (EC 3.2.1.18),用以切 開神經胺酸上的glycosidic linkage 並此蛋白分佈於許多不同物種。一般最為認識的即為 存在於流感病毒表面的病毒神經胺酸水解酶,促使病毒顆粒釋出宿主細胞。神經胺酸水 解酶為一種已知治療流感病毒的目標蛋白質,當流感病毒在感染複製時,同樣存在於病 毒表面上的流感血凝素(hemagglutinin)會辨認宿主細胞表面醣蛋白上的 sialic acid 而與宿 主細胞結合,而為了讓病毒脫離宿主細胞,神經胺酸水解酶則會將宿主細胞表面醣蛋白 上的sialic acid group 予以切除,使病毒顆粒能離開宿主細胞繼續感染其他細胞。
瑞樂沙(Zanamivir, 上市名稱 Relenza)為近年被十九個國家核准用以治療及預防 A
型及B 型流感病毒的口腔吸入式粉狀藥物,是第一個上市針對流感病毒在感染過程中必
須的神經胺酸水解酶的競爭型抑制劑,其結構與神經胺酸水解酶的催化化合物sialic acid 高度相似,作用機制為藉由與神經胺酸水解酶結合,抑制病毒脫離宿主細胞及感染其他 細胞。
我們以流感病毒A 型中的神經胺酸水解酶與藥物瑞樂沙(HET group id: ZMR)的結 晶結構(PDB code 2htq,chain A)為模板建構 SRP,並對蛋白質結構資料庫做搜尋。表二中 顯示14 筆同樣與 ZMR 結合的蛋白質結晶結構,其中 11 筆為流感病毒的神經胺酸水解 酶,CATH 分類為 2.120.10.10;2 筆為人類第三型副流感病毒蛋白,其蛋白質為同時擁 有流感血凝素與神經胺酸水解酶功能的Hemagglutinin-neuraminidase glycoprotein;1 筆 為人類sialidase-2(NEU2),其結構與蛋白質功能與神經胺酸水解酶相似,用以催化 sialic acid 的水解。
14 個蛋白結構中我們搜尋到 11 筆,9 筆為流感病毒 A 型神經胺酸水解酶,2 筆為 B
18
型流感病毒神經胺酸水解酶。結果顯示對於結晶相同化合物ZMR、擁有相同 CATH、相
似物種的蛋白質鏈能被 SRP 找到,且結構比對軟體的結果也顯示都擁有相似結合位環
境,且在序列保留性也相似(圖八),說明我們的方法能辨認出結合環境相似的蛋白質結 構 ; 相 對 地 , 另 外 三 筆 蛋 白 為 人 類 Hemagglutinin-neuraminidase glycoprotein 以 及 sialidase-2 沒有被 SRP 所辨認出來,而結構比對軟體結果也顯示這兩種蛋白在結合環境 上與我們的模板病毒神經胺酸水解酶有較大的差別(RMSD 3.9 and 4.3),且在序列保留性 上也有較大的差異,且在病毒神經胺酸水解酶與瑞樂沙交互作用中可能產生氫鍵的胺基 酸中僅有一個胺基酸Arg118具有保留性(圖八)。
同時,由於近年來多起因使用克流感及瑞樂沙而導致神經精神系統失調和死亡的病 例報導,使這些藥物被認為除了會與病毒神經胺酸水解酶結合以外,也可能會抑制參與 調控sialic acid 機制中的酵素,例如 sialidase、sialyltransferase 及 CMP-synthase。近期文 獻針對此問題以克流感及瑞樂沙對目前已知存在於人類的四個 sialidase(NEU1-4)做活 性測試,IC50實驗指出瑞樂沙需在μM 等級的濃度才會對人類的 sialidase 有影響(NEU1:
2,713 μM, NEU2: 16.4 μM, NEU3: not determined, NEU4: 487 μM),而對於病毒神經胺酸 水解酶則只需要 nM 等級即可抑制(H1N1: 1.56 nM, H3N2: 2.66 nM, H5N3: 3.97 nM)[21]。
因此,從SRP 搜尋的結果以及文獻的實驗結果可以發現,即使蛋白質因整體或部分 區域結構相似而被已知的蛋白質結構分類方式如SCOP 或 CATH 分成同一群,這些分類
指標卻無法對於真正執行催化功能區域上的變異加以辨別區隔。某種程度說明著 SRP
對於結合環境有相當高的敏銳判別度,因此可能以「binding-site family」專注於蛋白質 與化合物結合環境的角度對蛋白質做分類,如圖八中因流感病毒的神經胺酸水解酶與人 類的sialidase-2 在結合環境上的不同被分成兩個家族,從而提供更著重於交互作用的分 類方法。
19
表二、SRP 搜尋結果 [以 PDB code 2htq(chain A)為模板]
表二、SRP 搜尋結果[以 PDB code 2htq(chain A)為模板]
PDBIDa #b SCOP CATH UniProt
AC Gene
name Species Protein description DALI
RMSD Z
score SI(%)
2htq_A 3D - 2.120.10.10 Q07599 NA Influenza A virus
(strain A/Duck/Ukraine/1/1963 H3N8) Neuraminidase 0.0 19.0 100 3ckz_A 3D - 2.120.10.10 Q6DPL2 NA Influenza A virus
(strain A/Viet Nam/1203/2004 H5N1) Neuraminidase 0.5 16.7 67 3b7e_B 3D - 2.120.10.10 Q9IGQ6 NA Influenza A virus
(strain A/Brevig Mission/1/1918 H1N1) Neuraminidase 0.5 16.8 66 3b7e_A 3D - 2.120.10.10 Q9IGQ6 NA Influenza A virus
(strain A/Brevig Mission/1/1918 H1N1) Neuraminidase 0.5 16.9 66 2cml_A 3D - 2.120.10.10 Q6XV27 NA Influenza A virus
(strain A/Duck/England/1/1956 H11N6) Neuraminidase 1.1 15.7 62 2cml_C 3D - 2.120.10.10 Q6XV27 NA Influenza A virus
(strain A/Duck/England/1/1956 H11N6) Neuraminidase 1.1 15.7 62 2cml_D 3D - 2.120.10.10 Q6XV27 NA Influenza A virus
(strain A/Duck/England/1/1956 H11N6) Neuraminidase 1.1 15.7 62 2cml_B 3D - 2.120.10.10 Q6XV27 NA Influenza A virus
(strain A/Duck/England/1/1956 H11N6) Neuraminidase 1.1 15.6 62 1nnc_A 3D b.68.1.1 2.120.10.10 P03472 NA Influenza A virus
(strain A/Tern/Australia/G70C/1975 H11N9)
Neuraminidase 1.2 15.6 56 1a4g_A 3D b.68.1.1 2.120.10.10 P27907 NA Influenza B virus (strain B/Beijing/1/1987) Neuraminidase 1.4 14.5 42
1a4g_B 3D b.68.1.1 2.120.10.10 P27907 NA Influenza B virus (strain B/Beijing/1/1987) Neuraminidase 1.4 14.5 42 1v3e_A - b.68.1.1 - Q6WJ03 - Human parainfluenza virus 3 Hemagglutinin-neuram
inidase glycoprotein 3.9 3.1 14 1v3e_B - b.68.1.1 - Q6WJ03 - Human parainfluenza virus 3 Hemagglutinin-neuram
inidase glycoprotein 3.9 3.1 14
2f0z_A - b.68.1.1 - Q9Y3R4 NEU2 Homo sapiens Sialidase-2 4.3 2.4 9
a 前四碼代表 PDB code, 最後一碼代表 chain
b 是否被 SRP 辨別為結合環境相似蛋白, 3D 為可能具相似結合環境的蛋白
20
圖八、DALI 結構比對結果[以 PDB code 2htq(chain A)為模板]
Neuraminidase
Influenza B virus (strain B/Beijing/1/1987)
Sialidase-2
Homo sapiens
1.56 – 3.97 nM 16400 nM
IC50
Structure alignment of
DALI Protein Name
Species
Family 1 Family 2
Query : 2htq (Influenza A virus)
圖八、DALI 結構比對結果[以 PDB code 2htq(chain A)為模板]. 分別為模板對流感病毒 Neuraminidase (PDB code 1a4g) 結構比對以及對人類 Sialidase-2 (PDB code 2f0z) 結構 比對結果。
21
(二)、舊藥新用應用探討
酪氨酸蛋白質磷酸激酶 c-Kit(Tyrosine-protein kinase c-Kit)與 Imatinib
c-Kit 是幹細胞因子(stem cell factor)受器,為酪氨酸蛋白質磷酸激酶的一種,負責觸 發細胞生長與增生的訊息傳遞。過去研究了解對於 c-Kit 的突變會導致某些酪氨酸蛋白 質磷酸激酶活化而引起胃癌(gastrointestinal stromal tumor) [22]。
c-Kit 是幹細胞因子(stem cell factor)受器,為酪氨酸蛋白質磷酸激酶的一種,負責觸 發細胞生長與增生的訊息傳遞。過去研究了解對於 c-Kit 的突變會導致某些酪氨酸蛋白 質磷酸激酶活化而引起胃癌(gastrointestinal stromal tumor) [22]。