• 沒有找到結果。

中 華 大 學

N/A
N/A
Protected

Academic year: 2022

Share "中 華 大 學"

Copied!
71
0
0

加載中.... (立即查看全文)

全文

(1)

中 華 大 學 碩 士 論 文

結構字元應用於蛋白質骨架重建之研究 A Study of Protein Backbone Reconstruction

by Applying Structural Alphabet

系 所 別:生物資訊學系碩士班 學號姓名:M10020001葉 融 指導教授:董 其 樺 博 士

中 華 民 國 103 年 7 月

(2)

i

中文摘要

在後基因體時代中,結構基因體學蓬勃的發展,帶動了更多蛋白質三度空間 結構被決定出來。然而,在蛋白質資料庫(Protein Data Bank, PDB)中會常見一種 僅含 Cα 原子座標的蛋白質結構或是骨架結構出現問題的蛋白質。為了解決這種 蛋白質立體結構不完整的問題,已發展出許多快速蛋白質骨架重建的演算法。但 由於這些重建結構的準確度尚有改進空間,本研究因而對此設計出一個骨架重建 演算法,稱為 REconstructing protein Backbone using Structural Alphabet, REBSA。

REBSA 採用前人所用之 Kappa 角與 Alpha 角分群及結構字元(Structural Alphabet),

用拼圖的方式將兩 Cα 原子間的 C、O 與 N 三個原子的座標從空間上的各種位置 與位向,透過旋轉和平移準確地疊合,讓一個原本只有含 Cα 原子結構的蛋白質 最終被重建成具有完整骨架結構的蛋白質。研究結果顯示,與其他方法相比,

REBSA 有更高的準確度,可增進結構重建後的 RMSD 平均值最多 0.07Å 。我們 相信本研究對分子生物學及結構生物學等相關領域具有顯著貢獻。

關鍵字:結構字元、結構疊合、蛋白質骨架重建、結構生物資訊

(3)

ii

Abstract

In the post-genomic era, due to the exuberance in the development of structural genomics numerous three-dimensional structures of proteins has been determined.

However, in the Protein Data Bank (PDB), there are problems about certain proteins containing Cα-only atomic coordinates and disordered backbone conformation. For proteins whose structures are still incomplete, many algorithms have been developed to fast reconstruction of protein backbone using Cα-only atomic coordinates.

However, the accuracy of reconstructing structures still need to be improved. In this study, we design a novel backbone reconstruction algorithm, named as REconstructing protein Backbone using Structural Alphabet (REBSA). REBSA applies previous studies of Kappa-Alpha angle and Structural Alphabet to superimpose local structure accurately for C, O and N atoms between two Cα atoms through rotation and translation matrix. The purpose of this research is to rebuild the complete backbone structure of a protein with the Cα-only atomic structure. The results show that REBSA has higher accuracy compared with other methods. The improvement of average RMSD may be up to 0.07Å . We believe that this study may provide significant contribution to molecular biology and structural biology.

Keyword: Structural Alphabet, superimpose, protein backbone reconstruction, structural bioinformatics

(4)

iii

致謝

在研究的過程中,真的非常感激我的指導老師-董其樺,剛進實驗室的時候,

根本沒有能力設計程式,但是老師卻願意循循善誘的教導我,並以寬宏大量的心 包容我所犯下的各種錯誤,而且無論我碰到何種問題,老師都願意撥時間盡心盡 力的給予解答,使我在研究期間學到了我本來沒有能力或機會學到的東西。

另外要謝謝一直與我同甘共苦的凱傑同學,這期間無論遇到任何研究上的辛 酸或是困難都多虧他鼎力相助與支持,研究進行才能順利。也要謝謝啟婷同學教 我一些軟體上的操作、偉聖同學提供程式設計的建議、喜偉同學推薦的筆記型電 腦、宜慧同學和日旭同學協助我處理外務。還要謝謝冠甫、利偉與葉王三位學弟 幫忙分擔了很多實驗室的雜務,讓我有更充裕的時間做研究。

這裡先謝謝高中時期的同學嘉新,在我寫論文時提供了許多意見。最後,要 感激親人辛苦的賺錢,使我能在生活上無後顧之憂的進行研究,同時也要謝謝他 們對於精神上的鼓勵與支持,讓我在面對研究上的瓶頸時,依然有信心和動力去 克服。

(5)

iv

目錄

中文摘要... i

Abstract ... ii

致謝... iii

目錄... iv

表目錄... vi

圖目錄... vii

第一章、緒論... 1

1.1 研究動機... 1

1.2 研究目的... 1

第二章、相關文獻探討... 3

2.1 結構生物資訊學... 3

2.2 結構疊合... 4

第三章、研究方法... 5

3.1 材料的來源與取得方式... 5

3.1.1 訓練資料(Training set)與測試資料(Testing set)的來源 ... 5

3.1.2 擷取方式與常見問題... 5

3.2 結構片段資料庫的建立... 9

3.2.1 篩選擷取的結構片段... 9

3.2.2 結構片段的分群... 10

3.3 空間中的旋轉和位移... 15

3.3.1 旋轉矩陣的由來... 15

3.3.2 空間向量的轉動與疊合... 18

3.3.3 結構片段間的疊合... 23

3.4 重建演算法的設計... 26

(6)

v

3.4.1 檔案與數據的輸入... 27

3.4.2 挑選合適的結構片段... 28

3.4.3 輸出重建後的檔案... 30

第四章、結果與討論... 31

4.1 實驗環境... 31

4.2 實驗結果... 31

4.2.1 第一組測試資料的結果... 31

4.2.2 第二組測試資料的結果... 34

4.3 結果探討... 41

4.3.1 MaxSprout 與 REBSA v4 重建比較 ... 41

4.3.2 SABBAC 與 REBSA v4 重建比較 ... 49

4.3.3 重建準度與結構尺寸的關係... 56

4.3.4 實例重建... 57

第五章、研究結論與未來展望... 58

參考文獻... 60

(7)

vi

表目錄

表 3-1、訓練資料與測試資料的下載條件與數量表 ... 5

表 3-2、結構片段 Cα3 至 Cα4 距離統計表 ... 9

表 4-1、第一組測試資料重建準度表 ... 32

表 4-2、第二組測試資料重建準度表 ... 34

表 4-3、第二組測試資料重建時間表 ... 38

(8)

vii

圖目錄

圖 1-1、從僅 Cα 結構重建出骨架結構之示意圖 ... 2

圖 3-1、單結構片段定義之示意圖 ... 6

圖 3-2、結構片段擷取示意圖 ... 6

圖 3-3、PDB 檔案疑問示意圖 ... 8

圖 3-4、胺基酸 Proline 局部結構圖 ... 10

圖 3-5、Kappa 角、Alpha 角與 Cα1245 角之定義 ... 11

圖 3-6、Kappa 角與 Alpha 角分群實例圖: α-helix 為例 ... 12

圖 3-7、Kappa 角與 Alpha 角分群實例圖: β-sheet 為例 ... 14

圖 3-8、分群檔案方格示意圖 ... 15

圖 3-9、平面極座標示意圖 ... 16

圖 3-10、平面向量旋轉示意圖 ... 18

圖 3-11、空間向量旋轉示意圖 ... 19

圖 3-12、向量繞 Y 軸旋轉疊合示意圖 ... 20

圖 3-13、向量繞 X 軸旋轉疊合示意圖 ... 21

圖 3-14、向量繞 Z 軸旋轉疊合示意圖 ... 22

圖 3-15、旋轉函式流程圖 ... 25

圖 3-16、結構片段疊合示意圖 ... 25

圖 3-17、重建演算法流程圖 ... 27

圖 3-18、挑選合適片段示意圖 ... 29

圖 3-19、挑選儲存結構片段的分群檔案之示意圖 ... 30

圖 4-1、各類二級結構重建之 RMSD 統計折線圖 ... 33

圖 4-2、MaxSprout 重建 3WCQ_A 之結構比對圖 ... 43

圖 4-3、REBSA v4 重建 3WCQ_ A 之結構比對圖... 44

圖 4-4、MaxSprout 重建 4H07_A 之結構比對圖 ... 45

(9)

viii

圖 4-5、REBSA v4 重建 4H07_A 之結構比對圖 ... 46

圖 4-6、MaxSprout 重建 4HF3_A 之結構比對圖 ... 47

圖 4-7、REBSA v4 重建 4HF3_A 之結構比對圖... 48

圖 4-8、SABBAC 重建 4KY2_B 之結構比對圖 ... 50

圖 4-9、REBSA v4 重建 4KY2_B 之結構比對圖 ... 51

圖 4-10、SABBAC 重建 4JCK_A 之結構比對圖 ... 52

圖 4-11、REBSA v4 重建 4JCK_A 之結構比對圖 ... 53

圖 4-12、SABBAC 重建 4K6B_A 之結構比對圖 ... 54

圖 4-13、REBSA v4 重建 4K6B_A 之結構比對圖 ... 55

圖 4-14、從各演算法探討蛋白質大小與準度的關係散佈圖 ... 56

圖 4-15、PDB ID:2LZH 之 A 鏈重建前後的結構圖 ... 57

(10)

1

第一章、緒論

1.1 研究動機

隨著科技的進步,透過科技探究生命的好奇心自然越來越強。因此人們會想 了解遺傳與環境交互作用後對整個生物體會產生什麼影響,甚至進一步了解生、

老、病與死和遺傳與環境間存在什麼樣的關聯。

自從人類基因體計畫(Human Genome Project, HGP)完成後,人類的完整基因 體雖然被解碼,但是一個問題的解答引發了更多問題,許多始料未及的問題等著 我們去解答,後基因體時代的序幕就此揭開。這些問題都是由非常多筆數量龐大 的數據組成,唯有將資訊科技做結合才能解釋數據背後的生物意義,於是誕生了 生物資訊這塊新領域。

基因有何種表現完全是看它經轉錄與轉譯後所誕生的最終產物會行使何種 功能,又是否會與其他產物形成交互作用,以及在生化反應和生理作用中扮演何 種角色等,經一系列推導、探究與驗證歸納所有基因在生物體上的表現。而基因 誕生的最終產物主要是以蛋白質為形式,而推測出蛋白質的功能最好的線索是瞭 解其結構的形狀。唯有從此著手,才能經過後續的探究,瞭解其生物的意義。

1.2 研究目的

現今有個專門儲存蛋白質的資料庫,稱為蛋白質資料庫(Protein Data Bank, PDB)[2],裡面儲存以實驗方法所測定的蛋白質原子結構座標。但是由於實驗方 法都有可能因數據上的誤差或是其他人為上的疏失導致呈像結構出現問題,因此,

會希望有個能夠將結構重新建構的平台,讓研究者改善這類問題。

實驗上的誤差與人為上的疏失難免,蛋白質資料庫就會一直存在有問題的結 構,例如有些不完整的蛋白質結構檔案(PDB ID: 2LZH)裡只記錄 Cα 原子座標而 未包含其他主鏈或側鏈的原子座標。由於想認識一個蛋白質,只有從瞭解其結構

(11)

2

著手,但是當結構有問題時,根本無法進一步去探討它的功能,後續的深究也難 以進行。為了克服這種問題,本研究設計一套演算法,能夠做到讓一個僅包含 Cα 原子結構的蛋白質,重建出完整骨架(主鏈)結構的蛋白質(圖 1-1)。有了高準度的 結構重建,透過結構去瞭解功能的過程才會更加可靠,也才能繼續深入探討這些 不完整的蛋白質。

圖 1-1、從僅 Cα 結構重建出骨架結構之示意圖。左圖為僅 Cα 原子的結構,右圖 則為重建出含有 Cα、C、O 與 N 原子的完整主鏈骨架結構。本圖以 PyMOL 軟體 繪製[3]。

(12)

3

第二章、相關文獻探討

市面上許多研究者提出了各種方法,試圖解決蛋白質資料庫中,因實驗上的 誤差與人為上的疏失而產生結構不完整的蛋白質,而這些方法設計的理念主要是 蒐集已知的蛋白質結構,並將這些結構中的片段原子座標原封不動的取出來,透 過 分 子 交 互 作 用 的 能 量 方 程 式 (energy-based) 、 胺 基 酸 序 列 之 同 源 結 構 (homology-based)與立體幾何結構標準(geometric criteria) [4, 5]等方法,作為分群 建立結構資料庫(library)和重建過程中篩選最佳結構的依據。

2.1 結構生物資訊學

根據 Gront et al. [4]的研究結果,Levitt et al. [6]進一步設計了一個演算法,

在其結構資料庫底下,將長度 3~4 個胺基酸的結構片段分成 40 群,成為結構重 建的依據,進行結構重建。Payne et al. [7]則先統計骨架結構片段位能的的分數,

再用動態規畫法做最佳化計算。MaxSprout[8]依自己的動態規畫演算法可以選出 最佳的結構重疊。SABBAC[9]以 HMM[10]設計的 27 個結構字元為分群的依據,

並以貪婪法[11]搜尋最佳的組合進行重建。本研究引用結構字元的概念為基礎[1, 12, 13],設計開發蛋白質骨架結構重建的演算法。其中結構字元是由 Kappa 角與 Alpha 角所分的 648 群取代表,再依最相鄰分群(NNC)演算法[1]將 648 個代表歸 納成 23 群,並以不同英文字母命名而形成結構字元。依 DSSP[14]定義統計結構 字元與二級結構的關係如下:

1. α-helix 所屬字元:A、Y、B、C 與 D。

2. 類似α-helix 所屬字元:G、I 與 L。

3. β-sheet 所屬字元:E、F 與 H。

4. 類似β-sheet 所屬字元:K 與 N。

5. 其他(coil 或 loop)所屬字元:M、P、Q、R、S、T、V、W、X 與 Z。

(13)

4

2.2 結構疊合

依蒐集已知且通過分群的結構片段重建出蛋白質骨架,這種理念在 Milik et al. [15]以及更早之前的研究[16],已被提出並實際應用至今。在 Gront et al. [4]

也可看到,他們定義的結構片段長度皆為 4 個胺基酸,是由 4 個 Cα 原子與位於 第二和第三個 Cα 之間的 C、O 與 N 原子組成。而分群則是以 Cα 的三段內部距 離為依據,以第一個 Cα 和第三個 Cα 為第一段內部距離,第二和第四 Cα 為第二 段,第一和第四 Cα 為第三段,三段內部距離可用來詮釋整個結構片段 4Cα 的構 型。但此詮釋的方式,卻有對掌性的問題存在。解決方法是以 把第三段內部距離分成正負,區別互為對掌 性的結構,建立一個類似三維空間座標的結構片段資料庫[4, 15]。至於 Wang et al.

[5],對結構片段的定義與 Milik et al.和 Gront et al.相同,但是分群上則是先依據 後三個胺基酸的所有排列組合分成 8000 群,再由片段中所有內部距離做細分。

另一方面,重建時為了讓兩個位向與位置不同的片段能夠平移旋轉至結構重 疊,必須在每個片段中定義一個可以描述該結構片段在空間上的位置與位向的支 點與向量。在 Milik et al. [15]和 Gront et al. [4]皆以第二個 Cα 為支點,並由此延 伸三個互相垂直的單位向量 、 、 。Milik et al.是以第二和第三個 Cα 形成的外 積 第三和第四個 形成 得 ,再依序外積出 、 ;Gront et al. [4]則用第 一與第二個 Cα 形成 和第二與第三個 Cα 形成 做加減,先得到 與 ,再接 著用 外積 得 。實際上,C、O 與 N 原子會位於第二和第三個 Cα 之間,以 Milik et al.的方式會使 與 重疊而非 ,這可能會對重建時產生不良的影響,C、

O 與 N 原子可能會在疊合的過程中,疊在錯誤的位置上。

事實上,這些重建演算法皆以速度上的突破為優先,往往準度無法獲得太大 的改善。但是,若要明白蛋白質在生物上的意義,結構的正確性非常重要,由此 推測的功能才會被接受與認可。因此,演算法的設計應以準度的改良為重,再提 升速度,對結構生物學才有實質上的貢獻。

(14)

5

第三章、研究方法

欲重建蛋白質結構骨架(backbone structure),伺服器內必須具備數量龐大、

種類眾多且經過構型分群的蛋白質結構片段(fragment)。輸入的蛋白質結構檔案 內僅有 Cα 座標,而演算法可依 Cα 構型從結構片段資料庫(fragment library)中篩 選構型最像的片段,在將該片段中的 Cα 座標重疊到輸入的 Cα 座標上。最後程 式輸出一個完整且高準確度的蛋白質結構骨架檔案。

3.1 材料的來源與取得方式

3.1.1 訓練資料(Training set)與測試資料(Testing set)的來源

為了蒐集大量且形狀複雜的蛋白質結構片段,我們到蛋白質資料庫(Protein Data Bank ,PDB)下載發表時間較早的蛋白質結構檔案為訓練資料如表 3-1。另外,

要確實評估演算法的品質,則必須用發表時間較新且不與訓練資料重複的蛋白質,

做為測試資料。訓練資料與測試資料下載後皆分別得到多筆 PDB 檔案與一份記 載所有蛋白質名稱的清單。

表3-1、訓練資料與測試資料的下載條件與數量表

下載條件與數量 訓練資料 測試資料

取得時間 2012/08/01 前 2012/08/01 後 X-ray 繞射解析度(Å ) 小於 1.6 小於 1.6

R-factor 小於 2.5 小於 2.5

序列彼此間相似度上限 90% 90%

蛋白質(資料)數量 2013 71

三級結構(鏈)數量 3031 90

擷取的結構片段數量 648428 -

3.1.2 擷取方式與常見問題

由於 PHP 這套程式語言經常被用來做字串的處理以及架設網頁和資料庫,

因此本研究以 PHP 為開發環境。實驗室對蛋白質結構片段的定義如下圖 3-1:五

(15)

6

個 Cα 原子(總長視為五個胺基酸),其中第三與第四個 Cα 原子間有 C 原子、O 原子與 N 原子,能在重建過程產生 Cα-only 的骨架結構。每個片段皆從 PDB 檔 案中擷取各原子的 XYZ 座標。

圖 3-1、單結構片段定義之示意圖。綠球皆是 Cα 座標,綠線是 Cα 原子間連線(距 離)。在 與 間紅區是 O 原子座標、藍區是 N 原子座標, 、O 原子座標 與 N 原子座標所延伸的三條綠線交點是 C 原子座標,位於 與 間的 C、O、

N 與綠線表示結構骨幹(backbone)。

圖 3-2、結構片段擷取示意圖。灰點是 Cα 座標、紅點是 O 原子座標、藍點是 N 原子座標而 C 原子座標則是白點,C、O、N 與黑線表示結構骨幹,僅與灰點連 接且標明 R 的紫色方框是側鏈(side chain),最上面的結構是三級結構的第一段,

藍色虛線框是第一個擷取的範圍,符合片段定義的原子座標被複製到藍色實線框 中,虛線框會沿黑色箭頭由藍色移到綠色,綠色虛線框中的結構片段被貼到綠色

Cα1

Cα2

Cα3 C

O Cα4

N Cα5

R R

R

R

R

R

R

R

(16)

7

實線框中,第二個結構片段被擷取。往後以此類推,依序擷取到整個結構。

先從記載所有蛋白質名稱的清單開始讀取 PDB 檔名,接著依檔名開啟檔案,

讀取其中成為結構片段的原子座標(圖 3-2)。因一個結構片段有五個 Cα 原子,讀 完第五個胺基酸的所有骨幹原子(N、Cα、C、O)後,必須將一個結構片段該有的 原子座標整理在一起。接著,讀完第六個胺基酸的骨幹原子後,第二個結構片段 會由第二至第六個 Cα 原子、第四個 C 原子與 O 原子加上第五個 N 原子組成,

以下類推。如此依序整理(擷取)到一段三級結構的鏈(chain)結束為止。

過程中會碰到讀檔上的問題,共分四種情形。如以下說明:

1. 重複結晶:某些原子會在檔案出現兩個或兩個以上可能的座標位置(圖

3-3-a),檔案中以相異英文字母區別同一原子的不同座標。我們選擇其中 第一個原子座標(字母標示為 A)做為結構片段的輸入。

2. 結晶失誤:結晶結構的實驗,可能應實驗上的誤差,而導致胺基酸上的

原子遺漏。檔案中可能少了 N、C 與 O 其中一個或數個原子座標,甚至 是遺漏多個胺基酸分子。以蛋白質 1DKI 為例,GLU 只剩兩個原子(圖 3-3-b),我們程式會將此現象視為鏈與鏈之間的斷點,從而避免資料取錯 的情況。

3. 異構分子:這是因蛋白質組成上包含了一個非 20 種標準胺基酸的組成物 質(圖 3-3-c),PDB 檔案中會以 HETATM 表示。由於非標準胺基酸與標準 胺基酸只有側鏈有所不同,因此若只取其 N、Cα、C 與 O 並不影響結構 片段的品質。本論文中會將之視為標準胺基酸,其中屬於主鏈的組成原 子照常擷取。

4. 單檔案多實驗模型:此情形指一個 PDB 檔案出現兩個以上的實驗做出來 的蛋白質模型(如 NMR 的結構),不同實驗的模型間以 ENDMDL 區隔(圖 3-3-d)。本論文以此字串為斷點,避免重複取到相同蛋白質的結構片段。

(17)

8

圖 3-3、PDB 檔案疑問示意圖。(a)此圖為 PDB ID: 1BXO,其中 A 鏈的第一個胺 基酸的 Cα 有兩種可能的座標,分別在其胺基酸名稱左以 A 和 B 區分(第四欄紅 框所示),本研究只考慮標示 A 的座標(第十欄紅框所示)。(b) 此圖為 PDB ID:

1DKI,紅框線內 GLU 胺基酸只剩 N 和 Cα 兩原子,在擷取過程必須視為斷鏈(斷 點為 GLU 胺基酸),避免取到異常的結構片段。(c)此圖為 PDB ID: 1TXO,某胺 基酸經化合後形成的非胺基酸物質,在第一欄皆以 HETATM 表示,以此檔為例 形成 MSE,由於不影響蛋白質結構,依舊擷取其中的片段原子。(d)此圖為 PDB ID: 1M0M,一個蛋白質結構有多個模型記錄在相同檔案,以紅框中的 ENDMDL 表示上一個模型的原子座標結尾。

此外,下載的 PDB 檔案中很可能是複合物型態的蛋白質或者根本不是蛋白 質,其中會包含非蛋白質的子結構(subunit),這些非蛋白質的子結構長度一定小 於四十個胺基酸,當依序擷取完一個三級結構上所有的結構片段後會依此結構的 長度判斷是否為蛋白質結構,若胺基酸的數量大於或等於四十,擷取的結構片段 及其座標值與相關數據會全部記錄到一個檔案上,反之則不做,如此可避免取到 非蛋白質的結構片段。

(a)

(b)

(c)

(d)

(18)

9

3.2 結構片段資料庫的建立

3.2.1 篩選擷取的結構片段

由於蛋白質結晶結構檔案中,經常發生斷鏈(chain break),意即胺基酸號碼 發生不連續的情況。因此在擷取結構片段時,可能會因忽略斷鏈,而擷取成不正 確的片段。我們的做法為,在擷取完成之後,從所有的結構片段統計其第三與第 四個 Cα 原子間距,判斷其長度是否在合理範圍內。若其距離超出主鏈上兩個碳 原子常見的間距,則將其片段視為不正確並捨棄。我們在擷取結構片段的過程中 會計算其 Cα 原子間距,由於 N、C 與 O 是在第三個與第四個 Cα 原子間(結構片 段的第三個距離),考慮此距離的長度是否合理才能確定結構片段的正確性。

首先,將結構片段的第三個距離的間距之平均值與標準差算出來,以標準差 為組距分成六組觀察其長度的數量分佈(表 3-2),大約九成以上的長度落在平均 值加減一個標準差的範圍內,加減三個標準差範圍外的數量次之,而加減一個到 三個標準差之間的最少。因此我們設定長度大於平均值加三個標準差者視為斷鏈,

必須選擇剔除。此外,若長度小於平均值減三個標準差者,且此結構片段第四個 胺基酸為 Proline(圖 3-4)時,因其側鏈會與胺基端形成環,並與前一個胺基酸成 為β-turn 形狀,導致容易與前一個胺基酸形成較短距離,因此我們會視其為正常 情況予以保留。其餘不合乎條件者則剔除。

表3-2、結構片段 距離統計表 距離分佈(Å ) 數量

~2.97 1217 2.97~3.25 727 3.25~3.53 27 3.53~3.81 378265 3.81~4.09 268450 4.09~4.37 11 4.37~4.65 7

4.65~ 683

(19)

10

圖 3-4、胺基酸 Proline 局部結構圖。此圖為 PDB ID: 1DKI 的 B 鏈第 82~84 個 胺基酸,分別是 histidine、proline 與 lysine,粗線畫的結構是 proline,黃色虛線 是 proline 的 Cα 至左右相鄰胺基酸的 Cα 間距,其中和 histidine 的 Cα 距離 3.0Å , 一般 Cα 間距都像 proline 與 lysine 的 Cα 間距為 3.8Å,距離過短的主因在於 proline 的側鏈與其胺基端形成環狀。

3.2.2 結構片段的分群

為了在重建時能從大量的結構片段挑出適合的參考片段,本論文研究先將構 型相似的結構片段進行分群。分群的依據是結構片段用五個 Cα 座標推算的三種 角度,分別是 Kappa 角、Alpha 角與 Cα1245 角(圖 3-5),將結構片段根據這三種 角度進行分類。

Kappa 角是片段中第一個 Cα 至第三個 Cα 連線與第三個 Cα 至第五個 Cα 連 線,兩連線之夾角,其角度範圍是 0°~180°。這種角度可描述結構片段的彎折 程度;Alpha 角是片段中第二、三與四個 Cα 形成的面與第三、四與五個 Cα 形成 的面所夾的二面角,其角度範圍是-180°~180°,此種角度可將兩互為對掌性的 結構片段區分成不同群;Cα1245 角為片段中第一個 Cα 至第二個 Cα 的向量與第 四個 Cα 至第五個 Cα 的向量形成的夾角,其角度範圍是 0°~180°,利用這種角 度來描述結構片段的緊縮程度。

Cα Cα

Cα Cβ

Cδ Cγ

N

C

O O

C

N

(20)

11

圖 3-5、Kappa 角、Alpha 角與 Cα1245 角之定義。黑色虛線形成的夾角為 Kappa 角,綠色面與橘色面所夾的二面角為 Alpha 角,淺藍色箭頭夾 Cα1245 角。

原先僅使用 Kappa 角和 Alpha 角兩種角度分群時,重建蛋白質結構的準確度 較差。經過深入研究後發現,結構片段的組成中,只以兩種角度分群會產生群中 有群,也就是即便相同的 Kappa 角和 Alpha 角,亦有可能出現兩種以上完全不同 的結構片段。因此我們多設計了 Cα1245 角做為第三維度的分群,才進一步改善 結構重建的效果。發現群中有群的過程中,觀察到諸多例子,最明顯的如圖 3-6,

圖 3-6-a~c 列出的片段皆為實際蛋白質的結構片段。其中綠色片段(圖 3-6-a)來自 PDB ID:1A2P 的 A 鏈 中 第 39~43 個 胺 基 酸 的 範 圍 , 其 序 列 為 ASN-LEU-ALA-ASP-VAL,Kappa 角與 Alpha 角分別是 109.3°與 51.1°;黃色片 段(圖 3-6-b)來自 PDB ID:1DBF 的 B 鏈中第 100~104 個胺基酸的範圍,其序列為 PRO-GLN-ASP-GLN-ILE,Kappa 角與 Alpha 角分別是 108.7°與 50.3°;紫色片段 (圖 3-6-c)來自 PDB ID:1WLI 的 A 鏈中第 38~42 個胺基酸的範圍,其序列為 VAL-LEU-ASP-GLY-ASN,Kappa 角與 Alpha 角分別是 108.7°與 51°。由此可知,

三者片段的 Kappa 角與 Alpha 角差不多,若僅以此兩角為依據,會將三片段分成 同群。但在圖 3-6-e~f 中可看到紫色片段的 5Cα 構型明顯不同於其他兩者(與綠色 和黃色的片段的 5Cα RMSD 分別為 3.49Å 與 3.45Å ),而綠色和黃色的片段則較

Cα1

Cα2

Cα4

Cα5

Cα3

α

Cα1245 angle

K

(21)

12

為相似(5Cα RMSD 是 0.12Å )如圖 3-6-d。

圖 3-6、Kappa 角與 Alpha 角分群實例圖: α-helix 為例。(a~c)分別來自 PDB ID:

1A2P、1DBF 與 1WLI,這三種片段經 Kappa 角與 Alpha 角分群後會在同一群。

(d~f)為三種片段彼此做結構疊合比對,無論疊合的 5Cα 構型還是 RMSD 都顯示 紫色的片段不該和綠色與黃色片段同群。(最粗的 Cα 連線是 與 的原子間 距)。

只用 Kappa 角為連線形成的夾角,無法確實區分這兩種結構不相似的片段。

為了避免此種情形,我們嘗試多設計一種向量形成的夾角來改善此問題。最後,

我們定義出 Cα1245 角,而綠色、黃色與紫色片段的 Cα1245 角分別是 62.2°、61.8

(a) (d)

(c) (b)

(f) (e)

5Cα RMSD: 0.12 Å

5Cα RMSD: 3.45 Å 5Cα RMSD: 3.49 Å

(22)

13

°與 161.2°。因此我們可利用 Cα1245 角將三者進一步分群,綠色與黃色片段依 舊同群,紫色片段會在另一群。以上是代表α-helix 的實際案例加入 Cα1245 角的 圖。

此外,在β-sheet 中也出現諸多群中有群的情況,如圖 3-7 為例。綠色片段(圖 3-7-a)來自 PDB ID:1R45 的 A 鏈中第 182~186 個胺基酸的範圍,其序列為 SER-ASP-MET-GLN-ILE,Kappa 角與 Alpha 角分別是 18.0°與 165.4°;黃色片段 (圖 3-7-b)來自 PDB ID:2BF6 的 A 鏈中第 217~221 個胺基酸的範圍,其序列為 LYS-PHE-LEU-GLY-ILE,Kappa 角與 Alpha 角分別是 19.4°與 165.5°;紫色片段 (圖 3-7-c)來自 PDB ID:1DBF 的 C 鏈中第 5~9 個胺基酸的範圍,其序列為 GLY-ILE-ARG-GLY-ALA,Kappa 角與 Alpha 角分別是 19.8°與 164.1°。以上三片 段的 Cα1245 角分別是 25.5°、27.5°與 56.9°,圖 3-7-d~f 的 5Cα RMSD 分別為 0.47 Å 、1.53 Å 與 1.29 Å ,綜觀圖 3-6~3-7 印證由向量形成的 Cα1245 角可以克服只 使用兩種角度時重建蛋白質結構所碰到的瓶頸。

分群的過程,會將三種角度差不多的結構片段視為同一分群,存到同一個檔 案。例如:當一群結構片段的 Kappa 角為 180°、Alpha 角為 10°而 Cα1245 角為 60°時,它們會記錄在同一個檔案中。我們以 10°為一個檔案(圖 3-8),在同一個 檔案中,同一種角度最大的差距是 9.9°(統一將計算的角度算到小數第一位)。而 檔名命名為「Kappa 編號-Alpha 編號-Cα1245 編號-結構字元(structural alphabet)」, Kappa 編號等於 Kappa 角/10、Alpha 編號是(Alpha 角+180)/10、Cα1245 編號為 Cα1245 角/10(三者皆無條件捨去至整數)。因此上述例子會被存到 17-19-06-Z,

在此檔案 Kappa 角的範圍在 170°~179.9°、Alpha 角在 10°~19.9°間、Cα1245 角在 60°~69.9°間。根據檔名取法,此例的 Kappa 角本應存到 Kappa 編號 18,

但是 180°為角度範圍的上限,且出現率低,自成一群有違常理,故將 180°統一 視為 179°存到 Kappa 編號 17,Alpha 與 Cα1245 也不例外。因此,Kappa 編號與 Cα1245 編號範圍皆為 0~17,Alpha 編號範圍皆為 0~35,共可分成 11664 個檔

(23)

14

案,其中擁有結構片段的檔案僅有 4543 個,實際擁有結構片段的總數是 648428,

平均每一個檔案會記載 142.73 個結構片段的座標數據。

圖 3-7、Kappa 角與 Alpha 角分群實例圖: β-sheet 為例。(a~c)分別來自 PDB ID:

1R45、2BF6 與 1DBF,這三種片段經 Kappa 角與 Alpha 角分群後會在同一群。

(d~f)為三種片段彼此做結構疊合比對,疊合的結果顯示紫色的片段不該和綠色與 黃色片段同群。(最粗的 Cα 連線是 與 的原子間距)。

(a)

(b)

(c)

(d)

(e)

(f)

5Cα RMSD: 0.47 Å

5Cα RMSD: 1.53 Å

5Cα RMSD: 1.29 Å

(24)

15

圖 3-8、分群檔案方格示意圖。一個方塊代表一個分群檔案,每個方塊的邊長表 示角度的範圍,所有檔案方塊合在一起看時,長為 Kappa 角、寬為 Alpha 角而高 為 Cα1245 角,事實上,有些檔案不會儲存結構片段,白色是空檔案,藍色則是 有儲存結構片段的檔案。依照角度的定義,此方格共有 18*36*18=11664 格,其 中非空檔案的格子為 4543 格。

本實驗室的結構字元是沿用前人過去所開發的 3D-BLAST[13]之核心方法,

當初為了快速將蛋白質 3D 結構轉成結構字元序列,採用了 23 個英文字母為結 構字元分群並詮釋各種 Kappa 角和 Alpha 角的 5Cα 結構片段,並把二級結構與 結構字元的關係歸納出來。本研究亦參考此關係,可以靠分群檔案名稱上最右邊 的結構字元之英文字母知道此檔內群分出的結構片段是屬於何種二級結構。

3.3 空間中的旋轉和位移

3.3.1 旋轉矩陣的由來

基本上立體空間可由平面推廣,座標系統可以三角函數和極座標的概念理解,

Kappa angle :

Alpha angle :

|-180°~-170.1°||-170°~-160.1 ° |-160°~-150.1 ° |

||

0 ° 9.9 °

~||

10 ° 19.9 °

~||

20 ° 29.9 °

10 °~19.9 ° 20 °~29.9°

0 °~9.9°

Cα1245 angle :

(25)

16

因此先從平面的極座標認識最為適合。已知平面上任意點到原點的距離為 r,任 意點到原點的連線與 X 軸夾 ψ 角(圖 3-9-a),依長度 r 和角度 ψ 可知任意點座標 為 。當任意點到原點的連線逆時針轉 θ(圖 3-9-b),此點的 座標會變成 ,也就是 (圖 3-9-c)。

圖 3-9、平面極座標示意圖。(a)令平面上任意點座標為 ,此點到原點的距離 為 r 與其連線與 X 軸夾ψ角為已知,可依長度 r 與ψ角的正弦和餘弦推出任意點 座標值。(b)當此任意點與其連線逆時針旋轉 角,會得新的任意點 。(c)根 據新的任意點與其連線長度 r,加上連線和 X 軸夾 ψ 角可用(a)的方式推出 新的任意點座標。

根據正弦和餘弦的和角公式(3-1)和(3-2) [17],經旋轉後,新的任意點座標可 分別依公式(3-2)和(3-1)推導出(3-3)與(3-4),若接著依上述兩公式(3-3)與(3-4)寫成 矩陣形式得公式(3-5)。

………(3-1) ………(3-2) ………..(3-3) ………(3-4)

………..(3-5) 往後在平面上旋轉的運算,已知旋轉前的座標,欲求旋轉後的座標,務必先 知道逆時針旋轉的角度,反之亦然,並依公式(3-5)即可求其解。若平面上有一個

(26)

17

向量 ,要透過旋轉成為與另一個向量 同向來達成重疊的效果,但 是 (圖 3-10-a),旋轉後, 變成 ,算式如(3-6)。

………(3-6)

經公式(3-6)可得知 旋轉成與 同向的 時,長度不變,且形成兩向量重疊 的狀態(圖 3-10-b),若此時平面上還有向量 和 同步旋轉(圖 3-10-c),也就是轉 一樣的方向和角度,要推出 旋轉後的向量 (圖 3-10-d),將 和 代入公式(3-5) 解二元一次得正弦和餘弦,接著把 、正弦和餘弦代入公式(3-5)做矩陣相乘可直 接求出 。若一開始選擇用 和 代入公式(3-5)後得到的正弦和餘弦與 代回公 式(3-5),必須將矩陣相乘後的向量再代入公式(3-6)才能求出 ,之所以要再通 過公式(3-6)是因 所致。平面上若想求得兩向量的夾角 ,無論兩向量長 度是否相同,代入公式(3-5)得正弦和餘弦後,再依正弦和餘弦推出正割的反三角 函數即可得到 ,如公式(3-7)。

………(3-7)

(27)

18

圖 3-10、平面向量旋轉示意圖。(a)藍色的向量為 ,橘色的向量為 ,兩向量 長度與方向皆異,且夾 角。(b)當 逆時針轉 角與 重疊,兩者方向相同,座 標的比例(藍色虛線與橘色虛線之長寬比)也相同,將 與兩向量長度代入公式 (3-6)得到 。(c)紫色實線箭頭的向量為 ,要和 同步逆時針轉 角,會變成 紫色虛線箭頭的向量 。(d)將 座標和 角代入公式(3-5)可直接算出 。

3.3.2 空間向量的轉動與疊合

立體空間中,一樣可用平面旋轉來詮釋,因為三維空間有 X、Y、Z 三個互 相垂直的軸,三個軸會倆倆成一面,形成三個互相垂直的平面(X-Y 面、Y-Z 面 和 Z-X 面),空間的向量 進行旋轉時,垂直投影到上述三個垂直面的其中一面,

再使向量隨著自己的投影向量 (也稱正射影)沿著平面旋轉(圖 3-11),若投影至 X-Y 面並沿著 Z 軸逆時針轉 ψ 角(圖 3-11-a),如公式(3-8);若投影至 Z-X 面,則 沿著 Y 軸逆時針轉 角(圖 3-11-b),如公式(3-9);若投影至 Y-Z 面,則沿著 X 軸

 

 

 

1 1

1

' '

y x V V V

V

 

X Y

θ θ

X

(c) Y (d)

θ

X Y

X

(a) Y (b)

 

 

  y Vx

 

 

  ' ' '

y Vx

 

 

  ' ' '

y Vx



 



1 1

1 ya

Va xa

 

 

  ya

Va xa

 

 

1 1

1

ya

Va xa

(28)

19

逆時針轉φ 角(圖 3-11-c),如公式(3-10)。

..………(3-8)

...………(3-9)

………(3-10)

圖 3-11、空間向量旋轉示意圖。空間座標系統中有三條互相垂直的主軸(本研究 採用右手座標系),分別為 X、Y、Z 軸,向量旋轉時,沿某一軸逆時針旋轉,也 就是垂直投影至其餘兩軸形成的面,應用平面旋轉的概念讓空間向量 隨著投影 向量 轉動。(a)空間向量 投影至 X-Y 面並沿著 Z 軸旋轉 ,將 與 代入公式(3-8) 會算出旋轉後的空間向量 。(b)與(c)則是分別將 與其旋轉角度(分別為 與 φ) 代入公式(3-9)與(3-10)求出各自的 。

知道如何使空間的向量旋轉後,由於之後會讓兩相異位向的結構片段經旋轉 和平移重疊在一起,在此須知如何把兩相異位向的向量經旋轉而重疊。令 表示起始向量, 代表目標向量,為了讓 經旋轉重疊至 ,必

Y Z

ψ

X

VV

p

V

r p

V

r Y X

Z Z

X

Y

θ

φ

(a) (b)

(c)

VV

p

V

r p

V

r

VV

p

V

r p

V

r

(29)

20

須將公式(3-8)、(3-9)、(3-10)應用其中,而這三條公式的先後並不影響結果,本 研究使用公式的順序是(3-9)、(3-10)、(3-8)。因此我們將 先投影至 Z-X 面, 的

投影向量 會沿 Y 軸轉到 的投影向量 (圖 3-12-a、圖 3-12-b),

當兩投影向量在 Z-X 面重疊後, 變成 ,其算式為(3-11),欲求兩投影向量旋 轉前的夾角,將 與 代入公式(3-9)可推出正弦和餘弦,再將正弦和餘弦代入公 式(3-7)即為所求。

圖 3-12、向量繞 Y 軸旋轉疊合示意圖。藍色實線箭頭是 ,藍色虛線箭頭是其 投影向量 ,橘色實線箭頭是 ,橘色虛線箭頭是其投影向量 ,紅色箭頭實線 是 ,紅色箭頭虛線是 。(a)藍色箭頭朝橘色箭頭轉動前。(b)藍色箭頭朝橘色 箭頭轉動後,其實線與虛線變成紅色箭頭 與 。

接著,將 與 正射影至 Y-Z 面(圖 3-13-a、圖 3-13-b),當 隨其投影向量

V

0

V

0p

V

t

p

V

t

X Y

Z

(a)

V

1

V

1p

X Y

Z

V

t

p

V

t (b)

(30)

21

旋轉,兩投影向量 與 重疊後,使 變成 ,其算式為(3-12)。再將

與 代入公式(3-10)求出正弦和餘弦,再將正弦和餘弦代公式(3-7)即可求出兩 投影向量旋轉前的夾角。

圖 3-13、向量繞 X 軸旋轉疊合示意圖。承接圖 3-12。(a)同圖 3-12-b 藍色箭頭朝 橘色箭頭轉動前。(b)藍色箭頭朝橘色箭頭轉動後, 與 變成 與 。

最後,將 與 正射影至 X-Y 面(圖 3-14-a、圖 3-14-b),當 隨其投影向量

旋轉,兩投影向量重疊後, 變成 ,其算式為(3-13),將 與 代入

公式(3-8)求出正弦和餘弦,再將正弦和餘弦代入公式(3-7)即可求出兩投影向量旋

V  1

V

1p

V

t p

V

t

X

Y

(a)

Z

V

2

V

2p

V

t p

V

t

X

Y Z

(b)

(31)

22

轉前的夾角。

……….(3-11)

………(3-12)

………...(3-13)

圖 3-14、向量繞 Z 軸旋轉疊合示意圖。承接圖 3-13。(a)同圖 3-13-b 藍色箭頭朝 橘色箭頭轉動前。(b)藍色箭頭朝橘色箭頭轉動後, 與 變成 與 。

會出現公式(3-11)~(3-13)是為了應對進行旋轉和將被重疊兩者的投影向量

(32)

23

長度不同的情況,有如上一節後面所講的公式(3-6)。這次的情況是在三維空間中,

會因繞不同的轉軸而延伸出三種算式,不過,都一樣是做長度復原的動作,投影 向量的長度復原,原本的向量長度才不會被影響。若進行旋轉的投影向量或將被 重疊的投影向量為零向量時,則暫時不旋轉。當 X、Y、Z 軸都各繞過一次後,

進行旋轉的向量可能會與將被重疊的向量完全疊合,此種情形是在兩種向量其中 一種在旋轉的過程中出現正射影為零向量才會發生,否則只會相近而不會重疊。

因此若要盡可能更趨近於將被重疊的向量,必須增加繞 X、Y、Z 軸的次數。根 據經驗,通常約 5~10 次就可達到向量疊合至十分相近的效果。

3.3.3 結構片段間的疊合

為了在蛋白質結構重建時,能把適合的結構片段從各種位向轉成適當的角度,

並疊到較佳的位置,局部結構片段必須定出一個支點和三個互相垂直的單位向量 (圖 3-15)來描述該結構在立體空間的位向,以作為平移和旋轉的依據。本研究無 論結構重建或比對皆以實驗室定義的結構片段為單位進行,因此以片段中第三個 Cα 為支點,利用第三個 Cα 和第五個 Cα 連成的向量 以及第三個 Cα 和第四 個 Cα 連成的向量 進行外積,其結果為向量 ,如公式(3-14)。接著再以 與 外積,求得其結果為向量 ,如公式(3-15)。最後用 與 外積,其結果為向量 , 如公式(3-16) [15]。根據我們的定義, 最後會剛好在結構片段第三個 Cα 和第四 個 Cα 連線上。

………(3-14) ……….(3-15) ………..(3-16) 通過公式(3-14)~(3-16)可從結構片段的支點(第三個 Cα)延伸出三條互相垂 直的單位向量分別是 、 、 ,這三條單位向量本身是描述結構片段於空間上的 位向,欲改變結構片段的位向,則需從其中的 、 、 進行結構旋轉疊合。當兩

(33)

24

相異結構片段皆位於空間上相異位向,而須疊合在一起時,一個結構片段做旋轉,

轉成與另一個結構片段相同的位向並將旋轉的那一方平移,即完成重疊的動作。

旋轉前,要算出支點到片段上所有將進行旋轉的原子座標形成的向量(稱為 原子向量),讓所有的原子向量跟著主旋轉向量轉相同的角度,主旋轉向量是 、 、 其中一條帶頭旋轉的向量,旋轉時,本研究先以 為主旋轉向量,並依序沿 著 Y、X、Z 軸轉向目標結構片段(被重疊的結構片段)的 ,在轉的同時, 、 和 所有的原子向量會跟主旋轉向量一起轉,且繞相同的軸,轉同樣的角度。在繞過 三個軸以後,主旋轉向量會變成 ,以相同方式往目標結構片段的 轉去,其他 的向量( 、 和所有的原子向量)會和主旋轉向量同步旋轉。最後,換 為主旋轉 向量帶領其他向量朝著目標結構片段的 轉去,當 、 、 都先後當過一次主旋 轉向量便是繞了一回(圖 3-15)。事實上,回數和次數(主旋轉向量沿 Y、X、Z 軸 朝目標向量繞的數量)皆可依需求或狀況而修改。做結構片段重建時,要求高準 確度,回數與次數愈高,兩結構片段疊的位置愈佳。

此外,每一回的最後一個主旋轉向量一定要 ,因為每一回結束後,往往最 後一個主旋轉向量疊得最好,如此一來 剛好在結構片段第三個 Cα 和第四個 Cα 連線上,這正是蛋白質結構重建時需要填補的原子 C、O、N 的位向,因此這有 助於提升結構重建時的準確度(圖 3-16)。以圖 3-16 為例,從 PDB ID: 1TXO 的 A 鏈上第 113~117 個胺基酸的片段上重建時觀察,原先以 外積 產生的 、 、 作旋轉和平移時,第三個 Cα 與 C、O、N 的 RMSD 為 0.52Å 。但若換成現 在的定義( 外積 )後重建後的 RMSD 則為較佳的 0.32Å 。

(34)

25

圖 3-15、旋轉函式流程圖。將進行旋轉與被重疊的向量,包含三條互相垂直的單 位向量 、 、 與結構片段支點至所有原子的向量座標,加上旋轉回數與次數等 全部輸入,可以使兩相異位向的結構片段旋轉成為相同位向。

圖 3-16、結構片段疊合示意圖。此圖為 PDB ID: 1TXO 的片段疊合。(a)以 外 積 產生的 、 、 進行旋轉平移的結果,黃色片段的 backbone 無法疊得很好。

(b)以 外積 產生的 、 、 進行旋轉平移的結果,黃色片段的 backbone 在重疊時得到較佳的結果。

×旋轉回數

×旋轉次數

×旋轉次數

×旋轉次數 旋轉回數與次數

所有旋轉向量 所有目標向量

旋轉z向量轉向目標z向量:

沿Y軸轉、沿X軸轉、沿Z軸轉 旋轉x向量轉向目標x向量:

沿Y軸轉、沿X軸轉、沿Z軸轉

旋轉y向量轉向目標y向量:

沿Y軸轉、沿X軸轉、沿Z軸轉

旋轉後的原子向量

(a) (b)

(35)

26

當進行旋轉的結構片段所轉的位向已經與目標結構片段相同,便可平移。平 移量是目標結構片段與旋轉結構片段的支點座標之差,而旋轉結構片段上所有的 原子向量必須還原成原子座標,全部要加上旋轉結構片段的支點座標。平移量加 上還原後的原子座標,等於旋轉結構片段上所有的原子向量與目標結構片段的支 點座標之和,其為平移後的原子座標。旋轉與平移完成後,若要知道彼此的相似 度,則求出每一對原子距離平方和再除以總原子對數,最後全部開根號,可得出 方均根偏差(root mean square deviation,RMSD),如公式(3-17)[1]。

…………(3-17)

3.4 重建演算法的設計

此演算法(圖 3-17)要讓僅 Cα 的結構變成骨架結構。其中,資料庫中欲進行 疊合的結構片段是用三種可以描述一個 5Cα 構型的角度-Kappa 角、Alpha 角與 Cα1245 角來分群。因此,依序算出輸入的 5Cα 片段上 Kappa 角、Alpha 角與 Cα1245 角後,去資料庫找到對應的分群檔,並從中挑選構型最相似的結構片段進行疊合。

若碰到空的分群檔,則從相鄰的分群檔做選擇。以此流程,依序將主鏈上每個胺 基酸的原子一一重建,直到整條鏈都變成蛋白質骨架,最終可輸出骨架結構的結 果檔。

(36)

27

圖 3-17、重建演算法流程圖。輸入僅含有 Cα 座標的三級結構,依序算出 5Cα 片 段上的 Kappa 角、Alpha 角與 Cα1245 角,再依這三種角度去資料庫搜尋對應的 分群檔。若搜尋到空檔,從相鄰分群檔找起,直到發現儲存結構片段的分群檔為 止。從中挑選疊合最佳的片段依序重建出整條蛋白質鏈的骨架。

3.4.1 檔案與數據的輸入

輸入一個 PDB 檔案裡的 Cα 座標後,用第 3.1.2 節依序擷取 5Cα 座標,並推 出 Kappa 角、Alpha 角與 Cα1245 角(定義於第 3.2.2 節結構片段的分群)。隨後則 依據這三種角度,從結構片段資料庫挑出合適的結構片段,再用公式(3-14)~

(3-16)算出三條互相垂直的旋轉向量 、 、 ,作為旋轉的指標。

是 結構片段資料庫 輸入 :PDB Cα-only

輸出 :

PDB backbone 檔案 依Kappa、Alpha和

Cα1245搜尋

確認結構片段的 存在

選擇最佳的片段 重建出骨架

(37)

28

3.4.2 挑選合適的結構片段

根據第 3.2.2 節(結構片段的分群)將分群的三種角度(Kappa 角、Alpha 角與 Cα1245 角)轉成編號與結構片段資料庫下的檔名形式,並開啟此檔。若此檔案內 有記錄結構片段,會從中選出若干個結構片段出來重建。選取的方式有以下兩 種。

第一種,統一選擇十個結構片段,並分別計算其與目標 5Cα 結構片段的 RMSD(依公式 3-17),最後從十個片段中選取 RMSD 值最小的結構片段進行重建。

以 4PTI 的 PDB 檔案為例,去資料庫中挑 RMSD 最小的結構片段疊上其 A 鏈的 第 8~12 胺基酸的片段,圖 3-18 中的範例說明挑選並重建的結果,其 RMSD 為 0.1 Å ,顯示疊合結果良好。

第二種挑選方式則考慮此檔所屬的二級結構。根據[1, 12]的分類方式,若檔 案的結構字元是屬於 α-helix,則挑選五個結構片段來進行檢驗與重建;若屬於 loop,則挑選二十個結構片段並從中挑選最佳的片段來重建;不屬於上述兩者,

仍舊從挑選十個結構片段,並選擇 RMSD 最佳的片段進行重建。第二種挑選方 式在片段上的種類與數量會如此制定,是因為我們在第一種觀察到屬於 α-helix 的結構片段普遍疊得非常相似,loop 則反之,故分別在挑選的數量上減少與增加 兩倍,希望可使得重建準確度得到更進一步的改善。事實上,loop 相較於 α-helix 與 β-sheet,其形狀非常多樣化,唯有增加挑選的數量才能改善屬於 loop 的結構 片段重建之情形,但是會花上較多的時間。而 α-helix 本身形狀相當固定,減少 挑選的數量對準確度的影響極小,但可節省結構疊合的運算時間。

若碰到檔案無存取結構片段,我們會選擇相同 Cα1245 編號,而 Kappa 編號 與 Alpha 編號不完全相同的分群檔案(如圖 3-19 所示)。當同一層的分群內出現了 記錄有片段的檔案,則會選擇存取數量最多的檔案。檔案的片段數量多表示自然 界的蛋白質結構片段多屬此類,因此可預期選擇此檔的結構片段做重建最為適 合。

(38)

29

圖 3-18、挑選合適片段示意圖。(a)分群檔:01-00-08-E 前十個片段以及各自和目 標片段疊合後的 5Cα RMSD。(b)PDB ID: 4PTI 第 8~12 胺基酸的片段重建情形。

由圖(a)可知,與分群檔中的第 4 個片段最像,選此片段重建後,結構形狀明顯 顯示 backbone 的部分疊得很好。

1

3

5

7

9

2

4

6

8

10 (a)

5Cα RMSD : 0.83 Å

5Cα RMSD : 0.88 Å

5Cα RMSD : 0.93 Å 5Cα RMSD : 0.74 Å

5Cα RMSD : 1.74 Å 5Cα RMSD : 1.47 Å

5Cα RMSD : 0.94 Å

5Cα RMSD : 1.89 Å 5Cα RMSD : 1.43 Å

5Cα RMSD : 0.78 Å

Cα1

Cα2

Cα3

Cα4

Cα5 N

O C

(b)

(39)

30

圖 3-19、挑選儲存結構片段的分群檔案之示意圖。圖中的每一個方塊代表一個分 群檔,白色是未儲存結構片段的分群檔,藍色是有儲存結構片段的分群檔,箭頭 是搜尋和挑選分群檔的方向,紅色箭頭是相鄰分群檔的第一圈。若如圖中所示,

第一圈全是空的分群檔,則會再透過橘色箭頭往相鄰分群檔的第二圈進行挑選。

綠色箭頭顯示儲存最多結構片段的分群檔(以深藍色方塊表示),因此最後從該分 群檔裡挑選結構片段進行重建。

3.4.3 輸出重建後的檔案

挑出合適的結構片段後,算出所有片段的原子向量,並依據公式(3-14)~

(3-16)算出三條互相垂直的旋轉向量 、 、 ,逐一往目標 5Cα 結構片段重疊(其 過程可參照第(結構片段間的疊合)與第(空間向量的轉動與疊合)),當輸入的 Cα 結構重建完成,會按照 PDB 檔案的格式將重建後的所有原子座標輸出,輸出的 原子座標包含原輸入的 Cα 座標以及經旋轉平移後重疊的 C、O、N 原子座標。

結果檔案即為一個記錄蛋白質主鏈的結構檔。

| Alpha number |

Kappa number

|

|

(40)

31

第四章、結果與討論

為了驗證本研究設計的重建演算法(REBSA)之結果是否符合預期,與其他演 算法用相同測試資料比較。

4.1 實驗環境

桌上型電腦:

製造商:ASUS

處理器:Intel(R)Xeon(R) CPUX3330 2.66GHz(4CPUs) 安裝的記憶體(RAM): 2.67GHz,3.5GB 的 RAM

作業系統(Operating System): Windows XP Professional(5.1,Build 2600) Service Pack 3(2600.xpsp_sp3_gdr.130307-0422)

系統類型:32 位元作業系統

4.2 實驗結果

4.2.1 第一組測試資料的結果

我們參考前人研究 PBRP[5]中記載的測試資料來鑑定重建演算法的品質,引 用論文中測試的數據結果和 REBSA 一起比較,如表 4-1(MaxSprout、Adcock's method 與 SABBAC[8, 9, 18]的數據皆由 PBRP 直接引用)。延續第 3.3.2(挑選合適 的結構片段),從結構片段資料庫的檔案中,統一取前十個結構片段挑選 5Cα 構 型最像的來重建是表 4-1 中的 REBSA v1,將此方法依據五大種二級結構分類[1, 12, 13]所有結構片段的 C、O 與 N 原子重建的 RMSD 佔的比例做統計,如圖 4-1。

其中α-helix 中 RMSD 值小於 0.2Å 的比例最高,大於 0.9Å 的比例最低,顯示其 重建狀況最佳;loop 中 RMSD 值大於 0.9Å 的比例最高,小於 0.2Å 的比例偏低,

明顯表示 loop 重建時效果較差。這與 loop 具有結構多形性,α-helix 結構單一性 的論點相應。

(41)

32

表4-1、第一組測試資料重建準度表

PDB ID

Number of residues

RMSD (Å ) Max

Sprout

Adcock's

method SABBAC PBRP REBSA v1

REBSA v2

REBSA v3

REBSA v4 4PTI 58 0.44 0.51 0.53 0.42 0.51 0.51 0.51 0.51 5CPA 307 - 0.48 0.41 0.34 0.44 0.41 0.41 0.40 5NLL 138 0.46 0.42 0.37 0.39 0.46 0.42 0.42 0.41 2CTS 437 0.45 0.37 0.4 0.34 0.41 0.40 0.40 0.40 1TIM 247 0.6 0.56 0.59 0.54 0.56 0.54 0.54 0.54 111M 154 0.42 0.31 0.29 0.26 0.24 0.25 0.22 0.22 1IGD 61 0.44 0.34 0.36 0.36 0.44 0.45 0.45 0.41 1OMD 107 0.41 0.39 0.35 0.39 0.33 0.32 0.33 0.33 2LYM 129 0.44 0.32 0.38 0.29 0.39 0.35 0.35 0.36 2PCY 99 0.54 0.48 0.42 0.33 0.51 0.52 0.52 0.53 1CTF 68 0.73 0.41 0.43 0.42 0.42 0.44 0.44 0.44 1SEMA 58 0.34 0.5 0.48 0.45 0.45 0.37 0.37 0.37 1UBQ 76 0.38 0.37 0.35 0.37 0.33 0.33 0.32 0.32 2MHR 118 0.54 0.33 0.5 0.39 0.32 0.32 0.32 0.32 2OZ9 104 0.42 0.24 0.3 0.22 0.23 0.22 0.22 0.23 1PXZA 346 0.54 - 0.55 0.53 0.52 0.49 0.49 0.49 1S7LA 177 0.36 - 0.29 0.38 0.32 0.33 0.33 0.33 1T70A 255 0.5 - 0.42 0.48 0.51 0.50 0.50 0.50 1TXOA 235 0.38 - 0.41 0.44 0.39 0.40 0.40 0.40 1V0ED 666 0.45 - 0.48 0.4 0.50 0.49 0.49 0.48 1V7BA 175 0.41 - 0.3 0.37 0.23 0.26 0.26 0.25 1VB5B 275 0.42 - 0.34 0.41 0.30 0.31 0.31 0.30 1VKCA 149 0.33 - 0.28 0.37 0.34 0.30 0.30 0.31 1VR4A 103 0.59 - 0.47 0.47 0.41 0.41 0.41 0.41 1VR9A 121 0.45 - 0.42 0.49 0.38 0.34 0.34 0.34 1WMHA 83 0.28 - 0.27 0.38 0.26 0.26 0.26 0.26 1WPBG 168 0.35 - 0.37 0.43 0.37 0.36 0.36 0.36 1WMIA 88 0.42 - 0.41 0.5 0.40 0.43 0.43 0.43 1X6JA 88 0.36 - 0.43 0.49 0.22 0.23 0.23 0.23 1XB9A 108 0.51 - 0.46 0.53 0.44 0.42 0.42 0.42 1XE0B 107 0.62 - 0.61 0.55 0.51 0.49 0.49 0.49 Mean 0.45 0.4 0.41 0.41 0.39 0.38 0.38 0.38 Standard

Deviation 0.12 0.09 0.09 0.08 0.10 0.09 0.09 0.09

(42)

33

圖 4-1、各類二級結構重建之 RMSD 統計折線圖。(a) α-helix 中各種結構片段 RMSD 佔的比例。(b) Helix like 中各種結構片段 RMSD 佔的比例。(c) β-sheet 中 各種結構片段 RMSD 佔的比例。(d) Sheet like 中各種結構片段 RMSD 佔的比例。

(e) Loop 中各種結構片段 RMSD 佔的比例。

因此,我們改將結構片段資料庫中屬於 α-helix 的檔案,只從前五個結構片 段比較出 5Cα 構型最像的來重建,而屬於 loop 的檔案則從前二十個比較出 5Cα 構型最像的重建,其餘照舊,此種方式為表 4-1 中的 REBSA v2。結果可知,總 共 31 筆測試資料中,REBSA v2 有 20 筆做得比 REBSA v1 好,RMSD 平均值 0.38 也優於 REBSA v1 的 0.39。另外,與其他四個前人的方法相比,RMSD 平均值優 於其他四者,有超過一半的測試資料都重建得更佳。與 MaxSprout 相比有 22 筆

0 0.1 0.2 0.3 0.4 0.5

Frequency

RMSD

Alpha helix

0 0.1 0.2 0.3 0.4 0.5

Frequency

RMSD

Helix like

0 0.1 0.2 0.3 0.4 0.5

Frequency

RMSD

Beta sheet

0 0.1 0.2 0.3 0.4 0.5

Frequency

RMSD

Sheet like

0 0.1 0.2 0.3 0.4 0.5

Frequency

RMSD

Other loop

(a)

(d)

(e)

(b)

(c)

(43)

34

更佳,佔全部的 73%;與 Adcock's method 比較,9 筆更佳且佔 60%;與 SABBAC 相較,22 筆更佳且佔 71%;與 PBRP 則有 20 筆更佳並佔 65%。

REBSA v3 與 REBSA v4 是以 REBSA v2 為基礎所改良,改良處是減少重建 過程中空間旋轉的回數與次數,從而提升速度,REBSA v2 的回數與次數分別是 20 和 5,而 REBSA v3 與 REBSA v4 的回數與次數分別是 10 和 5 以及 5 和 2,整 體而言,準度並沒下降,依舊優於其他演算法,關於準度與速度會在第二組測試 資料(挑選條件如表 3-1)做進一步的比較和探討。

4.2.2 第二組測試資料的結果

由於目前還能在網路上進行使用伺服器,僅剩 MaxSprout 與 SABBAC,因 此第二組測試資料只以此兩者為比較的對象。將 MaxSprout、SABBAC 與 REBSA 重建第二組測試資料後,結果如表 4-2 所示。從 RMSD 平均值來看,REBSA v2 至 v4 的最好,有超過六成的實驗數據重建結果較其他兩者更佳。若以 REBSA v4 來看,比 MaxSprout 好的有 62 筆,佔 69%;比 SABBAC 好的有 57 筆且佔 63%。

表4-2、第二組測試資料重建準度表

PDB ID

Number of residues

RMSD (Å ) Max

Sprout SABBAC REBSA v1 REBSA v2 REBSA v3 REBSA v4 3W06_A 267 0.39 0.29 0.35 0.37 0.37 0.36 3W07_A 215 0.42 0.32 0.39 0.39 0.39 0.38 3W4P_A 266 0.35 0.37 0.40 0.39 0.39 0.38 3W5H_A 272 0.43 0.39 0.40 0.39 0.39 0.38 3WAR_A 334 0.40 0.36 0.39 0.38 0.38 0.38 3WCQ_A 97 0.60 0.57 0.49 0.44 0.44 0.44 3WDN_A 125 0.33 0.43 0.33 0.34 0.34 0.34 3ZIY_A 457 0.49 0.45 0.48 0.45 0.45 0.45 4B9P_A 166 0.39 0.40 0.38 0.37 0.37 0.37 4BCT_A 201 0.45 0.43 0.50 0.48 0.48 0.48 4BFO_A 106 0.40 0.38 0.45 0.44 0.44 0.44

(44)

35

PDB ID

Number of residues

RMSD (Å ) Max

Sprout SABBAC REBSA v1 REBSA v2 REBSA v3 REBSA v4 4BT7_A 236 0.46 0.42 0.43 0.42 0.42 0.42 4H07_A 154 0.27 0.22 0.20 0.17 0.17 0.17 4H4N_A 62 0.35 0.37 0.32 0.31 0.31 0.31 4H7W_A 187 0.45 0.32 0.34 0.34 0.35 0.35 4HE6_A 89 0.30 0.44 0.38 0.33 0.33 0.32 4HF3_A 257 0.27 0.45 0.48 0.46 0.47 0.47 4HGU_A 40 0.28 0.33 0.31 0.29 0.29 0.29 4HNO_A 285 0.40 0.39 0.40 0.37 0.37 0.37 4HS1_A 84 0.34 0.30 0.32 0.29 0.29 0.29 4HTK_A 129 0.37 0.39 0.40 0.39 0.39 0.39 4HZ8_A 439 0.47 0.38 0.38 0.34 0.34 0.34 4I8H_A 223 0.23 0.53 0.40 0.39 0.39 0.39 4INW_A 140 0.33 0.26 0.24 0.26 0.26 0.26 4IPS_A 394 0.37 0.28 0.28 0.28 0.28 0.28 4J74_A 86 0.37 0.32 0.21 0.22 0.22 0.22 4JCC_A 284 0.37 0.35 0.32 0.28 0.28 0.28 4JCK_A 138 0.48 0.51 0.37 0.36 0.36 0.35 4JED_A 212 0.33 0.33 0.40 0.40 0.41 0.41 4JF5_A 242 0.44 0.41 0.39 0.35 0.35 0.33 4JFM_A 128 0.39 0.37 0.42 0.44 0.44 0.44 4JHT_A 201 0.35 0.33 0.41 0.37 0.37 0.37 4JIU_A 105 0.37 0.30 0.36 0.35 0.35 0.35 4JL7_A 91 0.39 0.23 0.42 0.36 0.35 0.35 4JMW_A 289 0.32 0.33 0.37 0.35 0.35 0.35 4JN7_A 395 0.49 0.37 0.39 0.40 0.40 0.40 4JU9_A 524 0.45 0.38 0.38 0.37 0.38 0.37 4K7Y_A 399 0.38 0.43 0.37 0.39 0.39 0.39 4KQP_A 230 0.38 0.32 0.42 0.43 0.43 0.43 4KXV_A 620 0.43 0.35 0.43 0.41 0.41 0.41 4L05_A 154 0.45 0.50 0.50 0.50 0.50 0.49 4L8A_A 159 0.39 0.34 0.30 0.36 0.36 0.35 4LF0_A 340 0.46 0.43 0.48 0.46 0.46 0.46 4LWR_A 196 0.45 0.45 0.41 0.37 0.37 0.37 4M51_A 402 0.41 0.32 0.38 0.39 0.39 0.38 4MIJ_A 302 0.32 0.32 0.31 0.31 0.31 0.31

(45)

36

PDB ID

Number of residues

RMSD (Å ) Max

Sprout SABBAC REBSA v1 REBSA v2 REBSA v3 REBSA v4 4MNC_A 305 0.37 0.33 0.34 0.33 0.34 0.34

4MX6_A 305 0.37 0.35 0.30 0.30 0.30 0.30 3VZ9_B 103 0.45 0.37 0.37 0.39 0.39 0.39 3VZ9_D 60 0.38 0.34 0.36 0.33 0.33 0.33 3W9V_A 376 0.45 0.43 0.45 0.42 0.42 0.42 3W9V_B 376 0.45 0.44 0.45 0.44 0.44 0.43 3WDC_A 147 0.50 0.34 0.29 0.30 0.30 0.30 3ZIT_A 74 0.39 0.48 0.39 0.33 0.33 0.32 3ZIT_B 78 0.30 0.37 0.34 0.29 0.29 0.29 4B9G_A 146 0.36 0.49 0.45 0.42 0.41 0.41 4B9G_B 146 0.44 0.37 0.42 0.39 0.39 0.39 4BS0_A 299 0.33 0.37 0.36 0.35 0.35 0.35 4HE9_A 99 0.35 0.38 0.41 0.34 0.34 0.37 4HE9_B 99 0.44 0.38 0.36 0.35 0.35 0.35 4HL2_B 242 0.43 0.37 0.49 0.45 0.45 0.45 4HRO_A 87 0.35 0.37 0.28 0.29 0.29 0.29 4HRO_B 88 0.27 0.44 0.34 0.31 0.31 0.32 4HSX_A 137 0.34 0.24 0.15 0.15 0.15 0.15 4HSX_B 137 0.30 0.30 0.24 0.23 0.23 0.18 4HVW_A 61 0.69 0.36 0.39 0.37 0.37 0.37 4HY7_A 170 0.42 0.44 0.49 0.44 0.44 0.44 4I4O_A 146 0.50 0.51 0.49 0.50 0.50 0.50 4I4O_B 146 0.39 0.50 0.50 0.47 0.46 0.46 4INC_A 101 0.38 0.46 0.39 0.43 0.43 0.43 4INC_B 112 0.38 0.41 0.43 0.46 0.46 0.46 4J5O_A 111 0.37 0.32 0.38 0.33 0.33 0.33 4J5O_B 109 0.38 0.28 0.34 0.33 0.32 0.32 4J8C_A 44 0.29 0.19 0.14 0.15 0.15 0.15 4J8C_B 44 0.38 0.23 0.23 0.23 0.23 0.23 4JK8_A 220 0.36 0.32 0.31 0.30 0.30 0.31 4JK8_B 221 0.34 0.30 0.31 0.30 0.30 0.30 4KGD_A 586 0.38 0.37 0.37 0.34 0.34 0.34 4KGD_B 585 0.37 0.38 0.37 0.33 0.33 0.33 4KY2_A 116 0.36 0.33 0.35 0.32 0.32 0.32 4KY2_B 115 0.31 0.35 0.27 0.26 0.26 0.26

(46)

37

PDB ID

Number of residues

RMSD (Å ) Max

Sprout SABBAC REBSA v1 REBSA v2 REBSA v3 REBSA v4 4L9D_A 82 0.36 0.38 0.32 0.30 0.30 0.31 4L9D_B 81 0.57 0.41 0.39 0.39 0.39 0.37 4MAK_A 73 0.35 0.43 0.39 0.40 0.40 0.40 4MAK_B 76 0.40 0.43 0.46 0.39 0.39 0.39 4K6B_A 154 0.46 0.38 0.48 0.46 0.46 0.46 4I3B_C 138 0.38 0.40 0.41 0.35 0.35 0.35 4I3B_D 138 0.42 0.40 0.37 0.35 0.34 0.34 4I3B_E 139 0.47 0.41 0.41 0.39 0.39 0.39 4I3B_F 137 0.44 0.44 0.44 0.41 0.41 0.41 Mean 0.39 0.38 0.37 0.36 0.36 0.36 Standard

Deviation 0.07 0.07 0.08 0.07 0.07 0.07

雖然整體來說,REBSA v4 的準度優於 MaxSprout 與 SABBAC,但是仍有少 部分重建情況不佳的資料。為了進一步探討彼此間的優劣,我們從第二組測試資 料中各挑三筆相異且優劣分明的蛋白質三級結構進行觀察討論。

與 MaxSprout 相比的例子分別是 PDB ID:3WCQ 的 A 鏈,如圖 4-2 與 4-3;

PDB ID:4H07 的 A 鏈,如圖 4-4 與 4-5;PDB ID:4HF3 的 A 鏈,如圖 4-6 及 4-7。

其中 3WCQ 與 4H07 是 REBSA v4 優於 MaxSprout 的例子,MaxSprout 重建的 3WCQ 其 RMSD 為 0.6Å ,而 REBSA v4 為 0.44Å ,雖然 REBSA v4 在此例重建 的結果沒特別好,但不至於差到像 MaxSprout 一樣;MaxSprout 重建的 4H07 其 RMSD 為 0.27Å ,REBSA v4 為 0.17Å ,兩者皆重建得不錯,只是 REBSA v4 更 佳,由此可清楚得知 REBSA v4 在準度上的突破;4HF3 則是 MaxSprout 優於 REBSA v4 的例子,前者重建的 RMSD 為 0.27Å ,後者為 0.47Å ,我們會以此探 討 REBSA v4 為何在此例有較差的準確度。

另外,與 SABBAC 相比較的例子則分別為 PDB ID:4KY2 的 B 鏈,如圖 4-8 與 4-9、PDB ID:4JCK 的 A 鏈,如圖 4-10 與 4-11;與 PDB ID:4K6B 的 A 鏈,如

參考文獻

相關文件

• There are important problems for which there are no known efficient deterministic algorithms but for which very efficient randomized algorithms exist.. – Extraction of square roots,

• There are important problems for which there are no known efficient deterministic algorithms but for which very efficient randomized algorithms exist. – Extraction of square roots,

There are many ways to compose music in the green book. Can you tell me about the ways are used to compose

In taking up the study of disease, you leave the exact and certain for the inexact and doubtful and enter a realm in which to a great extent the certainties are replaced

However, there exist functions of bounded variation that are not continuously differentiable.... However, there exist bounded functions that are not of

Laser Microdissection Microdissection for pure DNA, RNA, for pure DNA, RNA, Proteins and Living Cells Proteins and Living

Then, it is easy to see that there are 9 problems for which the iterative numbers of the algorithm using ψ α,θ,p in the case of θ = 1 and p = 3 are less than the one of the

• There are important problems for which there are no known efficient deterministic algorithms but for which very efficient randomized algorithms exist.. – Extraction of square roots,