中華大學碩士論文

(1)

中華大學碩士論文

測定蛋白質模板中不連續片段之結構相似度 Determining the similarity of discrete fragments

in protein structural motif

系所別：生物資訊學系碩士班學號姓名：M10020004 楊凱傑指導教授：董其樺博士

中華民國 103 年 7 月

(2)

中文摘要

在目前結構比對領域中，有許多研究者致力於開發高效率、高準確性比對蛋白質的結構演算法，但較少演算法可提供在空間中多個不連續片段的結構比對。本論文針對此議題提出一個利用距離幾何演算法應用於比對多片段在空間的所形成的幾何構形，進而探究蛋白質模板結構相似度計算與評估。本論文之方法主要為研究點座標在三維空間中構形的相似程度，演算過程中考慮所有可能出現的子幾何形狀組合，利用旋轉矩陣進行平移疊合，再透過比對相似度判斷應剔除的點座標，進而輸出在空間中正確對應的 motifs 結構，確認其結構相似度。在我們所設計的測試結果中顯示，利用隨機產生的資料透過演算法計算，本方法的平均準確度可達 93%。未來本方法可整合至快速的蛋白質模板搜尋比對，計算蛋白質功能性位置周圍局部結構之相似度。

關鍵字: 局部結構比對、分子距離幾何、蛋白質模板搜尋

(3)

ABSTRACT

In the area of structural bioinformatics, many researchers dedicated to develop protein structure alignment algorithms which are highly efficient and accurate, but fewer algorithms may provide capability to align discrete segments in the space. This researd proposed a methodology of distance geometry that is applied to superimpose discriminative fragments by exploring and calculating protein structure motifs similarity.

In this study, the conformation similarity of the coordinates in Euclidean space is identified. We considered all combinations of sub-graph geometry, and applied rotation matrix to superpose sub-graphs. Then, we distinguished the selectivity of coordinates in multiple fragments by the similarity, and obtain the set of correct motifs. The results demonstrate that the average accuracy of this method is up to 93%. In the future, this method can be integrated into the rapid search of protein motifs by calculating the similarity of the local structure around the functional sites.

Keywords: Local structure alignment, Molecular distance geometry, Protein motif search

(4)

致謝

這 3 年在中華大學生物資訊碩士班一路走來感謝許多幫助過我的教授、同窗朋友以及家人的全力支持，在此，獻上無盡的感謝。

首先，感謝我的指導教授董其樺-老師，在我研究遇到瓶頸時，指導我研究方法與方針，給予我正確的研究方向，讓我的碩士論文能夠順利完成，在研究的過程中，

教授給了我很大的空間投入想法，一再刷新了我對於研究過程只有苦澀的刻板印象，

在專業研究領域上，教授往往也尊重我的興趣，讓我能夠盡情發揮，給予我足夠的提問與探討空間，也讓我體會到研究過程不僅僅只有辛苦，也能夠在逆境中求突破，

在其中獲得成就感，同時也在論文撰寫上給了我許多寶貴的建議，讓我的論文內容更顯完整且更具研究的實質意義，也感謝曾文慶教授與陸志豪教授擔任我的口試委員給予我論文指導與指教。

再來，感謝實驗室中的葉融同學，在我碩士研究的這 3 年中，在研究上有個夥伴能夠和我一同探討研究中所碰到的難題，相互給予建議，試圖解決困難，相互的鼓勵，也形成了良性競爭，讓我更能時時警惕自己使得研究進度和心態不會因此而怠慢鬆懈，還有，感謝實驗室同學偉聖，啟婷，喜偉，宜慧，日旭，學弟妹冠甫，

利偉，幸珊與學姐們與助理的從旁協助，讓我研究的路更為順遂，無後顧之憂。

最後，要感謝我的家人爸爸、媽媽與老妹在精神上給了我最大的鼓舞，做我最強大的後盾，支持著我，讓我在研究生涯中能夠將心力全部投注在研究上，還有很多幫助過我的貴人與朋友，僅以本篇論文謝謝你/妳們的曾經的幫助，也豐富了我的碩士生活。

(5)

表目錄

表 3.1、幾何圖形組合產生數量表。 ... 13

表 3.2、挑選 RMSD 最佳值的組合數量對照表。 ... 23

表 3.3、組合幾何圖形與其 RMSD 值(以 5 個點座標為例)。 ... 24

表 3.4、參考編號組合數。 ... 28

表 4.1、組合幾何圖形與其 RMSD 值(以 6 個點座標為例)。 ... 32

表 4.2、各組合 250 筆測試資料之平均準確度。 ... 35

表 4.3、蛋白質 1aj6_A 結構片段之重心座標。 ... 39

表 4.4、組合幾何圖形與其 RMSD 值(以 1aj6_A 為例)。 ... 39

表 4.5、蛋白質結構 2wfz_A 片段之重心座標。 ... 41

表 4.6、蛋白質結構 1acj_A 片段之重心座標。 ... 41

表 4.7、2wfz_A-1acj_A 組合幾何圖形與其 RMSD 值。 ... 42

(8)

圖目錄

圖 2.1、蛋白質模板於配體結合部位之示意圖。 ... 5

圖 3.1、論文研究方法流程。 ... 9

圖 3.2、演算法中輸入及輸出的形式與定義。 ... 10

圖 3.3、測試資料產生之流程圖。 ... 12

圖 3.4、(C⁵₅)組合幾何形狀與重心示意圖。 ... 14

圖 3.5、(C⁵4)組合幾何形狀與重心示意圖。 ... 15

圖 3.6、(C⁵3)組合幾何形狀與重心示意圖。 ... 15

圖 3.7、重心代表向量 X、Y 與 Z 向量產生示意圖。 ... 17

圖 3.8、空間座標系。 ... 18

圖 3.9、向量旋轉: 產生示意圖。 ... 19

圖 3.10、向量旋轉: 產生示意圖。 ... 19

圖 3.11、向量旋轉: 產生示意圖。 ... 20

圖 3.12、Overlapping 向量旋轉示意圖。 ... 21

圖 3.13、計算兩兩對應片段之間彼此的距離示意圖。 ... 22

圖 3.14、Q₁，Q₂，Q₃與 IQR 示意圖。... 26

圖 3.15、研究方法之實例。 ... 30

圖 4.1、研究結果之實例(以 n=6、k=1 為例)。 ... 34

圖 4.2、幾何圖形示意圖，以 n=8、k=2 為例。 ... 37

圖 4.3、幾何圖形結構疊合示意圖，以 n=8、k=2 為例。 ... 37

圖 4.4、結構片段比對示意圖，以 1aj6_A 為例。 ... 40

圖 4.5、1acj_A 完整的蛋白質及模板之局部結構圖。 ... 43

圖 4.6、2wfz_A 完整的蛋白質及模板之局部結構圖。 ... 44

圖 4.7、2wfz_A 與 1acj_A 局部結構幾何圖形之疊合示意圖。 ... 45

(9)

第 1 章緒論

1.1 研究背景

近二十年來生物資訊學領域的興起，使得人類及其他生物的基因體定序提早完成解碼，更讓許多蛋白質序列資訊也一一被挖掘出來，因而提供大量的相關資訊去幫助蛋白質結構的決定。結構生物資訊學相關的資料累積的速度日漸飆漲，而相關的研究技術與知識也在全球成為主流導向。而為了要全面了解各種基因體時代後所得到的各種蛋白質之功能，經常須透過結構的預測及比對。因此結構的預測與相似度的比較，就成了結構生物資訊學家追逐的目標。

在龐大的蛋白質結構資料海當中，要找尋這些蛋白質在結構生物資訊上所扮演的角色，設計與開發蛋白質結構快速又準確的搜尋是必要的。就以現階段的生物資訊領域裡，蛋白質結構與功能相關性的研究已不僅僅是局限於 α-helices 和 β-strands 等二級結構的框架中，利用蛋白質整體在空間上的形狀，或是縮小視野專注在執行功能的局部部位之構形，來進行蛋白質功能的預測和探討，以及相似度識別與歸類，這些都是現今資訊科技領域跨領域結合至生物學領域上的當紅應用。

因此，本研究論文希望能利用相關的程式撰寫與蛋白質幾何空間相似程度的計算及應用提出一些貢獻。在未來，亦可能的延伸本研究，進一步分析與判別各個蛋白質局部部位在空間中彼此間的相似程度。

1.2 研究動機

就比較和分類蛋白質的三維（3D）結構，以分子生物學的角度來看，能確定蛋白質功能與其演化關係。而傳統上，三維結構被分類在同一家族，主要是根據他們序列相似度來分組分群。然而，蛋白質儲存在這些不同結構家族中，大量結構在家族之間的多個層級通常不易清楚劃分。此外，不同的結構家族之間，是否共有一個相似的模板形樣(motifs)，亦不容易讓傳統的全結構比對工具來回答。

(10)

因此，前人的研究中透過 3D-BLAST 的工具，以結構字元(Structural Alphabet, SA) 之定義[1, 2]將三維結構轉化成一維(1D)結構字元序列後，再個別搜尋比對局部結構的一維序列。但為了將兩組的一維序列進行比對觀察彼此相似程度時，需要依靠額外的程式：DALI 的輔助計算，才可精確定位每一段蛋白質局部結構片段[3]。因此，

本研究動機在於希望能夠開發出一套創新的演算法，結合空間中幾何圖形的重疊比對以及統計歸納、邏輯判斷等方法，實現蛋白質局部結構之模板比對的目的。

1.3 研究目的

在現今的生物資訊研究領域裡，分類蛋白質相似程度與分析蛋白質結構與功能，

已經成為主流的研究方向。而比對蛋白質相似程度與分類蛋白質功能結構的方法眾多，本論文將主要的研究目的著重於蛋白質內具有特定功能的部位，探討該部位周圍所形成的模板(motifs)具有何種構形，而透過局部結構片段之組合以及構形疊合的分析，得以分辨出模板比對中適當或不適當的局部結構片段。

本研究的核心概念主要是讀入兩組空間中數量相同的(X,Y,Z)點座標，將點座標所形成的幾何圖形利用演算法進行疊合並運算判斷後，輸出兩幾何圖形的相同之處與相異之處。

本研究的流程架構主要為，使用者輸入模板資料後，將片段內 Cα 的座標簡化為重心點。這些重心點所形成的幾何圖形再透過旋轉矩陣的計算，獲得 Root-mean-square deviation(RMSD)之結構相似性。接著根據各幾何圖形組合的結構相似性，以邏輯與統計的方式來判斷其正確而適當的構形。最後輸出模板中的哪個片段重心是離群的點片段而該被剔除。

(11)

第 2 章相關文獻回顧

2.1 結構生物學

2.1.1 蛋白質結構之測定

蛋白質三級結構是描述蛋白質形狀及骨幹一個非常重要的形式。在蛋白質結構資料庫中大多數存在的結構模型都是透過X-ray結晶繞射(X-ray diffraction)或核磁共振 (Nuclear magnetic resonance, NMR)等實驗技術產生。以X-ray結晶繞射來說，其技術是先將蛋白質結晶成晶體固態結構，再利用X光來探測晶體內每個原子的位置。由於比起液相形態，固態結構較容易讓X光測定。這是因為固態晶體是以整齊且有順序的形式排列，如此一來整個晶體結構就能夠更容易被了解與分析，並獲得高正確性的蛋白質結構。這也是大多數蛋白質結構的產生，都是利用X-ray結晶繞射的實驗技術而來。

但X-ray結晶繞射實驗最大的缺點，就是部分蛋白質不容易取得固態結晶結構，各種不同蛋白質純化或結晶的實驗條件差異甚大，需要耗費時間與心力測試正確的條件。

目前已有相關研究結合實驗方法與生物資訊軟體，提出高通量、自動化的技術，快速測定蛋白質結構，可在一天內確定許多蛋白質配體複合物之立體結構[4, 5]。

以核磁共振 NMR 而言，它是決定蛋白質結構的重要工具之一，是測定蛋白質三級結構的第二大來源。NMR 是核子自旋與外交加磁場之相互作用所生成，NMR 核磁共振可從細微的分子結構型態來判定此蛋白質的整體結構。NMR 可允許在溶液中測定蛋白質的三維結構，無須事先結晶成固體[6, 7]。NMR 應用領域廣泛、產生的結構辨識效果強，對結構判斷的靈敏度高，這些特點可以得到更多有關研究蛋白質分子更龐大結構與結構特異性等資訊。然而，NMR 的缺點是決定蛋白質結構較耗時間，透過圖譜分析結構時的工作更是費時，干擾因素多且也較為複雜，而比起 X-ray 結晶繞射，NMR 只能解析結構較小的蛋白質。此外，NMR 所測定的蛋白質結構，一般會在結構檔裡包含多個不同的模型(models)，研究學者通常只需其中

(12)

一個模型進行研究，無意參考所有模型。

2.1.2 蛋白質結構比對

PDB(Protein Data Bank )這類重要的蛋白結構資料庫中，截至 2014 年 5 月 13 日為止，目前已收錄了多達 92774 個蛋白質結構[8]。而由於基因體學、蛋白質體學和結構生物資訊等領域的發展，蛋白質結構的數量持續以等比級數累積成長中。因為蛋白質結構相關資訊的充沛，所以才相繼有序列搜尋、結構比對、功能分析、蛋白質分類等工具軟體或資料庫出現。

其中，結構比對常用的工具，例如 DALI [9]與 CE [10]，可以提供非常準確的蛋白質三級結構比對，但缺點是計算量龐大、運算比對很花費時間，因此多半需要搭配優良的電腦硬體設備。而後來不斷有新的研究提出改進，發展出高效能的蛋白質結構搜尋工具，例如： TOPSCAN [11]、YAKUSA [12]、iSARST [13]與 3D-BLAST [1, 2]等。其優點為整體執行效能高，但缺點是這些方法之核心精神是將蛋白質的立體結構轉換成一級序列，並利用各種序列比對的方法去比對兩結構。而轉換的過程中勢必會遺失一些結構的資訊，並且也無法以立體空間片段或幾何圖形的形式進行結構相似性之比對。

2.2 發掘蛋白質空間中模板結構

2.2.1 蛋白質功能及其模板

蛋白質是生物體中主要具有功能性的分子，也是細胞內最為豐富的分子之一。

蛋白質能夠在細胞內發揮多樣性的功能，範圍包含了細胞活動的各層級方面，例如：

催化作用(catalysis)，這種蛋白質又稱為酶或稱酵素(enzyme)。在生物體中幾乎所有化學反應都必須藉由酶這類蛋白質來催化，有助於加速化學反應的進行。蛋白質也具有儲存與運輸的功能，如血紅蛋白攜帶氧。生物體內的分子、離子，可藉由蛋白

(13)

質的結合儲存於體內，肝臟中鐵蛋白可將鐵離子儲存在體內。此外蛋白質還有防禦、

接受器等功能。

蛋白質結構中，會依照執行生化功能的胺基酸位置或配體(ligands)結合部位來定義模板。模板通常為多個局部結構的片段所組成，並且這些片段在空間中是分散的，並未連續排列，如圖 2.1。在探討蛋白質功能時，除了探究整體蛋白質結構之外，

亦逐漸有研究方向朝向專注於局部的模板結構，只探討重要的胺基酸以及其周圍附近的結構片段[3]。

圖 2.1、蛋白質模板於配體結合部位之示意圖。圖 2.1 以 PyMOL 軟體繪製[14]。圖 中紅色為配體，並結合在 GYRASE(螺旋酶)1aj6_A 內部。其結合部位的周圍環境，

共有四段在空間中不連續的局部片段，分別為藍色(39~57)、綠色(66~80)、橘色 (90~101)、黃色(158~172)。這些局部結構共同形成一個具功能性的蛋白質模板。

2.2.2 結構字元集(Structural Alphabets，SA)

為了描述蛋白質模板(motifs)的結構，有相關研究 HMM-SA(Hidden Markov Model-Structural Alphabet)利用隱馬爾可夫模型並結合結構字元進行蛋白質結構的建立[15, 16]。該研究中是由 27 個長度為四的胺基酸組成的結構字元集來描述模板

PDB:1aj6_a

(14)

結構[15]。這個方法的最大優勢之處是強調無特定形狀的環狀結構(loop)在重建的過程中的重要性。由於蛋白質具功能性的部位中，環狀結構約佔 50%。比起 α-helices 和β-strands，環狀結構，顯得非常多變且不穩定。而且較長的環狀結構(long loops) 常暴露於蛋白質表面，更容易發生構形的變異。傳統結構比對或預測的方法中，loop 結構的比對或預測都是困難之處[17]。而 HMM-SA 方法可簡化 loop 的描述，且具有良好的準確性[18, 19]。

有別於其他研究者對於結構字元集的定義，本實驗室所定義的結構字元表乃是將一個長度為五的三維結構的蛋白質局部片段進行編碼，可透過一長串的結構字元來代表一個蛋白質立體結構。在定義中，本實驗室是用了 23 個英文字母代表結構字元，用來描述蛋白質局部結構的形狀[1, 2]。

這 23 種結構字元之英文字母代表的立體結構片段以及所對應的二級結構，大致可分為以下五類：

（1） Helix（A，Y，B，C 和 D)

（2） Helix-like (G，I 和 L)

（3） Strand (E，F 和 H)

（4） Strand-like (K 和 N)

（5）其他(S，T，V，W，X，M，P，Q，R 與 Z) 一般來說，相同的結構字元通常代表有相同的立體形狀。

2.2.3 利用結構字元集發掘模板

利用具有功能性的模板來分類蛋白質家族，是很常見的研究方法，並且常以此作為預測蛋白質功能的工具。在過去幾年，許多研究者利用結構字元來發掘模板，

定義蛋白質活性部位在三維空間中的位置，並以該部位為中心，在周圍找出具結構 保留性的模板結構。利用結構字元為基礎研究模板結構有下述幾個優點[20]：

（1）簡化結構的結構字元序列，可有效率處理許多個結構。將複雜的立體結構轉

(15)

換為相對應的一級結構序列，再進行演算或觀察，可省下更多研究時間，或降低運算資源的硬體成本。

（2）模板結構的比對，如利用結構字元時可不需結構比對，不用調整多種參數或評分函數，僅透過序列比對即可搜尋出一致性的模板結構。並且其一級序列之結構容易可視化，具可閱讀性。

（3）結構字元序列所描述的模板結構具有通用性，不僅可應用於在蛋白質酵素的活性中心與催化部位，或是蛋白質和它們所結合的配體相互作用的區域，甚至是金屬離子的結合位，都可利用結構字元來定義其三維立體模板結構。

2.2.4 發掘具功能性模板結構的重要性

大多數方法尋找三維模板結構時，需要一個已知的模板來搜索其他類似結構及功能，或是透過結構中關鍵的胺基酸來搜尋模板。具功能性的模板有助於快速預測或評斷一種新的蛋白質結構與已知的蛋白質家族之間有何關係。一個具有功能性模板除了包括參與催化蛋白質內特定胺基酸之外，還需有多個局部結構片段來構成，

這是為了要與配體結合或保持功能部位的結構完整性。此外，對於蛋白質的折疊，

穩定性和或具功能性的三維結構，也都可與其中的功能模板結構息息相關[21]。

因此，在立體空間中，如何幫助研究者快速且正確判斷模板所屬的位置，以及兩模板間的相似程度，正是蛋白質結構生物學領域中，不斷被追逐的研究目標。已有相關研究發現，某些整體結構極為不同的蛋白質，但彼此之間卻具有相似的結合部位之立體結構，而且具有相同的結合配體。所以若能證明這些結合相同配體的蛋白質，其立體空間中的結合位置具有相似性，即能進而探討它們是否具有相似的功能，以及探究它們之間的演化關係[22]。而本研究的目的，就是要能夠判斷兩模板在三度空間座標中進行比對後，可探知其相似性或不相似性，以彌補單純全結構比對的不足之處。

(16)

第 3 章研究方法

在此章節裡，會針對研究整體流程與定義做出具體且詳細的敘述，透過計算空間中的點座標彼此間距離，以及在空間座標在形成幾何形狀的環境下做平移堆疊，

來為兩組結構在空間中相似的程度做出詮釋與註解。

3.1 實驗設計

Motifs 是在整體蛋白質中可能具有功能性區塊，在空間中搜尋比對具功能性的質 motifs，是當前被廣泛用於研究藥物開發以及結構比對領域裡一項重要的技術。

本論文提供距離幾何演算(distance geometry algorithms)，來判定具功能性蛋白質 motifs 區域片段的組成，對研究蛋白質 motifs 結構預測技術與評估具重要性。

本論文之方法主要為研究點座標在三維空間中構型相似程度的問題。在空間中隨機產生 n=3~9 個(X,Y,Z)點座標，藉以模擬為一段蛋白質片段的重心。每個點座標限定在一定的範圍內隨機亂數產生，此動作是為了模擬蛋白質 motifs 中各個片段的相對位置。接著，我們提出了一個有效計算方法，將蛋白質 motifs 片段的幾何形狀進行疊合後輸出，再透過比對相似度判斷應剔除哪些 motifs 片段，進而挑選與判斷在空間中正確對應的 motifs 結構，由此進一步確認蛋白質 motifs 結構相似度的顯著性。正確的判定蛋白質空間中 motifs 相似的程度，可用於分類或註解新蛋白質的功能和蛋白質之間的演化關係。

(17)

3.2 研究架構與方法

3.2.1 研究方法流程

圖 3.1、論文研究方法流程。第一步為隨機產生點座標做為輸入。第二步為產生幾 何圖形組合。第三步為挑選測試資料。第四步重心組合及向量計算。第五步為構型旋轉疊合。第六步為選擇正確的疊合結果。第七步為數據統計分析。第八步輸出結果片段。

(18)

本研究方法的流程如圖(3.1)所示。首先，一開始在空間中隨機產生 n=3~9 個 (X,Y,Z)點座標做為輸入資料。接著，產生所有可能出現的幾何圖形組合做為測試資料(testing set)，再計算各幾何圖形組合重心與(X,Y,Z)三個垂直的轉軸。透過旋轉矩陣將各幾何圖形組合重疊並求出其各組合中最佳的 RMSD 值。最後，利用統計定義離群值，並分析找出離群組合與對應編碼，最後輸出正確的片段組合結果。

圖 3.2、演算法中輸入及輸出的形式與定義。使用者需輸入兩組數量相等的點座標 集合，經過演算法的計算，將兩組構型經平移旋轉後，找出最佳的疊合位相。最後輸出疊合結果。以圖中為例，使用者輸入兩組各五個點座標，經過計算後得知，經由紅色虛線切割示意後得知，其中編號第 4 號的點構型不吻合整體 motif 的幾何形狀。

3.2.2 使用者輸入與輸出的形式與定義

使用者輸入資訊(Input):兩組(X,Y,Z)點座標，兩組點數量相同，為 3 至 9 個點。

每一個點座標代表一個 motif 片段的重心點。

演算法輸出資訊(Output):組合間 RMSD 值與對應點的編號。並且輸出正確構型的點編號及構型不相似的點編號。

1

2

3 4

5 Input

1’

2’

3’

5’

4’

Output

疊合平移

1

2

3 5

4 4’

(19)

圖(3.2)說明演算法中輸入及輸出的示意圖。使用者輸入兩組點數相對應的 5 個(X,Y,Z)點座標，各視為一個 motif 片段的重心。然後透過演算法，進行堆疊的動作，再計算統計學上的四分位距（Inter Quartile Range，簡寫為 IQR）來與演算法相輔，試圖找出在空間幾何形狀中的離群(X,Y,Z)點座標與對應編碼(也就等同於是 motifs 片段的重心)，讓整體幾何形狀堆疊達到最佳化。使用者透過輸出的資訊便能得知哪個(X,Y,Z)點座標與對應編碼是離群值，而得知剔除依據與參考。

3.2.3 產生測試資料(testing set)

在圖(3.3)中描述我們如何產生測試資料，用以測試演算法的準確度。測試資料的產生步驟如下：

定義測試資料(testing set) 是在空間中隨機產生 n=3~9 個(X,Y,Z)點座標，

1. 隨機亂數產生一組 n 個(X,Y,Z)點座標，隨機亂數範圍值界定於(-13,13)。此範圍的設計是符合蛋白質內 motifs 各個片段之間的平均距離。

2. 接著，隨機產生旋轉角度，原點與產生的點座標形成向量後投影到 Z-X 面延著 Y 軸轉 theta 角，再接著投影到 X-Y 面上沿著 Z 軸轉 phi 角，其亂數範圍值為 0 度至 360 度，使得構型旋轉，產生出新一組點座標。接著，新一組點座標再以座標系原點為主軸整組座標進行平移，平移的距離亦為亂數產生，

其範圍值界定於-13~-5 或 5~13 的平移量，目的是為了讓第一步隨機亂數產生的 n 個(X,Y,Z)點座標能夠全數的旋轉平移生成第二組 n 個(X,Y,Z)點座標。

3. 最後，在第二組 n 個(X,Y,Z)點座標中，挑選<=n/2 個(X,Y,Z)點座標再次隨機平移不同的偏移量，而隨機亂數平移範圍值界定於-5~-2 或 2~5。

最終產生出來的測試資料，主要是為了在空間中產生兩組相同數量的 (X,Y,Z) 點座標構成的相異幾何形狀，爾後測試程式的成效。

(20)

圖 3.3、測試資料產生之流程圖。(A)空間中生成五個點座標，隨機旋轉 phi 與 theta 角亂數旋轉角度，再隨機平移亂數範圍值(-13,-5)，(5,13)平移量(藍色虛線箭頭表示隨機平移量) 即為第二組空間中的五個點座標， 1 就是我們定義的位移量範圍。(B) 隨機挑選<=n/2 的(X,Y,Z)點座標再次平移隨機亂數值界在(-5,-2)，(2,5) (藍色虛線箭頭表示隨機平移量)， 2 是我們定義的位移量範圍的閥值。(C)中紅色點的位置是再次平移的點。

1

2

3 4 5

1’

5’

3’

4’

2’

(-13,-5)，(5,13)

B.

1’

3’

2’

4”

5’

4’

2

(-5,-2)，(2,5)

C.

1

2

3 4 3 5

4

5

A.

theta

phi Y

Z

(21)

3.2.4 產生幾何圖形組合

n、m 與 k 的定義:

n：空間中一個幾何圖形(X,Y,Z)點座標的個數

m：做各種組合時，m>=n/2，因此若 n 為偶數，用公式(3-1)，n 為奇數，用公式(3-2)，

...(3-1)

...(3-2) 所有可能如下表所示:

表 3.1、幾何圖形組合產生數量表。

條件判斷組合情形

n=9 ,5<=m<=9 n=8 ,4<=m<=8

n=7 ,4<=m<=7 n=6 ,3<=m<=6 n=5 ,3<=m<=5 n=4 ,2<=m<=4

n=3 ,2<=m<=3

k：為了產生與第一組形狀相異的幾何圖形，會再挑出<=n/2 個點座標再次隨機亂數平移，所以 k<=n/2。

做這個動作的目的，是為了要能找出在空間中，本來就是應該被挑出的點座標，讓空間中的幾何形狀平移堆疊達到最佳化的形態，但或許需要被挑出的(X,Y,Z)點座標不只一個，所以才會定義 m>=n/2 所有可能出現的組合都必須透過旋轉矩陣進行平移堆疊的動作。

(22)

3.2.5 產生重心與 X,Y,Z 三個垂直的轉軸

在演算法進行幾何圖形組合所有可能的情況後，找出各種組合下所劃分的子幾何圖形的重心，讓程式在運作時，能夠計算所有幾何圖形的重心到各個(X,Y,Z)點座標的連線距離，再依據連線距離長短，依序由長到短將兩連線選為一組，進行向量的外積，最後決定出子幾何圖形的「重心代表向量」。

而有幾何圖形組合是因為各組座標點編號在各種不同組合情形在空間中就會有不同的重心位置，而程式透過這樣窮舉法的支持，將大部份的組合全部考慮與計算各幾何圖形組合的向量，來找出標準答案，這也是我們演算法必須將所有組合列出，

並算各組合重心的由來。

以下我們以 motifs 中共有五個片段為範例，來說明本研究如何產生各種片段的組合。五個片段各自依照胺基酸的Cα 座標形成一個重心(Cα 點座標的平均即為幾何圖形的重心)，因此產生出一組五個點座標的幾何形狀。接著我們窮舉出所有可能的組合型態，數量共為 16 個(C⁵₅+C⁵₄+C⁵₃)。每一個幾何形狀，會有重心點及重心代表向量。在(C⁵5)組合幾何形狀中只會有 1 種重心產生，如圖 3.4 所示。而在(C⁵4)的組合幾何形狀與重心形式共會有 5 種重心產生，如圖 3.5 所示。最後如圖 3.6 所示，(C⁵₃) 組合幾何形狀與重心形式會有 10 種重心產生。

圖 3.4、(C⁵₅)組合幾何形狀與重心示意圖。

(X,Y,Z)點座標1

(X,Y,Z)點座標2

(X,Y,Z)點座標3 (X,Y,Z)點座標4 (X,Y,Z)點座標5

(X,Y,Z)點座標1

(X,Y,Z)點座標2

(X,Y,Z)點座標3 (X,Y,Z)點座標4 (X,Y,Z)點座標5

組合1

(23)

圖 3.5、(C⁵4)組合幾何形狀與重心示意圖。

圖 3.6、(C⁵₃)組合幾何形狀與重心示意圖。

(X,Y,Z)座標1

(X,Y,Z)座標5 (X,Y,Z) 座標2

1

5

4 2

1

5

4 3

5

4 3

2 1

3 4 2

1

5

3

2 重心1

重心5

重心4

重心3 重心2

(X,Y,Z) 座標3 (X,Y,Z) 座標4

1

2

3 4

5

1

2

5 1

2

3

5 2

4

2

4 3 1

4 5 1

4 3

1

2

4 4 3

5

2

3 5

1

3 5

(組合1)

(組合2)

(組合3)

(組合4)

(組合5) (組合6)

(組合7) (組合8) (組合9)

(組合10)

(24)

3.2.6 計算重心代表向量、與

我們會計算所有任兩點的點座標到重心的距離，並依照最長至最短距離的向量排列後，以依序選擇兩向量為一組，進行向量外積。此時即得單位向量。接著一組向量中較短的向量再與外積，求得。最後、兩向量外積，求得，因而得到一重心代表向量。一個組合幾何形狀，會依照 m 個點座標而得到共多個重心代表向量，

其數量如下所述。

倘若點座標數數量為奇數個(m=3/5/7/9)，則忽略最短距離的向量，因此共得到個重心代表向量。若點座標數量為偶數個(m=4/6/8)，幾何形狀(X,Y,Z)點座標重心至全部的(X,Y,Z)點座標向量都納入考量，則共得到組重心向量。

向量外積之公式[23]如下所述。以圖(3.7)為範例，單位向量將由與外積而得：

...(3-3) 接著以和進行外積，算式如下：

...(3-4) 最後以與外積出，將與重疊，如下：

...(3-5)

以 5 個(X,Y,Z)點座標的幾何圖形為例(圖 3.7 A)，令 為重心到離重心最遠(X,Y,Z) 點座標形成的向量，是長度僅次於的重心到(X,Y,Z)點座標的向量，將兩向量代入公式(3-3)得，再將與代入公式(3-4)得，最後把和代入公式(3-5)得，以上的、與是此幾何圖形的第一組轉軸，第二組、與則以第三與第四長的重心到 (X,Y,Z)點座標的向量(分別是、 )代入公式(3-3) ～(3-5)即可如(圖 3.7 B)所以有兩個重心代表向量。

(25)

圖 3.7、重心代表向量 X、Y 與 Z 向量產生示意圖。圖中範例之組合幾何形狀(五個 點座標)共會產生兩個重心代表向量。圖 A 為第一個重心代表向量。圖 B 為第二個 重心代表向量。

3.2.7 利用旋轉矩陣重疊幾何圖形點座標

為了將各種組合的幾何圖形疊到另一個相對應的圖形，在兩兩重疊的過程，必須把其中一個幾何圖形旋轉成與另一個圖形相同的位向，再通過平移達到重疊的目的並求得 RMSD，之後才可透過 RMSD 值的運算判斷各組合的幾何圖形間相似的程度。

在本實驗室，皆以支點(闡述空間中一組幾何座標的中心座標，在此為一幾何圖形的重心)延伸出來的三條互相垂直的單位向量(重心代表向量，此指、與 )描述一組空間座標(可以是幾何圖形、結構片段或者更多可能，本實驗是指幾何圖形)在整個立體空間形成的一種角度(位向)。若想讓兩對應幾何圖形的位向相同，只要將其中一組重心代表向量、與轉成和另一組重心代表向量一樣即可。旋轉疊合完成後，

進行旋轉的幾何圖形中所有原子座標則套用該旋轉矩陣。旋轉矩陣的運算如後所述。

1

2 3 4

5

1

2 3 4

5 v 

2

v 

1

x 

z  y 

(重心代表向量)

v 

3

v 

4

z 

y 

x 

(重心代表向量)

A. B.

(26)

圖 3.8、空間座標系。描述所有點、線、面、體在空間的分佈情形，原點為(0,0,0)，

在 X 軸的所有點是(X,0,0)，Y 軸與 Z 軸分別是(0,Y,0)與(0,0,Z)，X 軸與 Y 軸形成 X-Y 面，Z 軸與 X 軸形成 Z-X 面，Y 軸與 Z 軸形成 Y-Z 面

在空間座標系，原點為(0,0,0)，從原點延伸三條直角座標軸分別為 X 軸(X,0,0)、

Y 軸(0,Y,0)與 Z 軸(0,0,Z)，這三條軸會兩兩成直角座標面如 Z-X 面、Y-Z 面與 X-Y 面(圖 3.8)，在此座標系中，一個向量轉到與另一個向量重疊時，兩向量會先投影到同一面(直角座標面)上，算出兩投影向量的夾角後，進行旋轉的向量會與自身投影向量旋轉此夾角，轉動的投影向量自然重疊到另一個投影向量，此概念需依公式(3-6)、

(3-7)與(3-8)計算[24, 25]：

...(3-6)

...(3-7)

...(3-8)

(27)

圖 3.9、向量旋轉: 產生示意圖。

在空間中有兩條相異的向量，分別為與 (圖 3.9A 的黃色與紅色向量)，此兩個向量投影到 Z-X 面上分別生成投影向量與 (圖 A 灰色向量)，代入公式(3-6)，

得知導出與在 Z-X 面上的夾角為，意即繞 Y 軸旋轉角可疊在上。根據角度，我們將繞 Y 軸旋轉角，得到。此比更貼近 (如圖 3.9 B)。

圖 3.10、向量旋轉: 產生示意圖。

接著，與兩個向量(圖 3.10 A 藍色與紅色向量)投影到 Y-Z 面上分別生成投

X Y

Z

(A) (B)

V 

1

V 

t

V 

₁p p

V 

t

X Y

Z

V 

2

V 

t

V 

₁p p

V 

t

X

Y Z

V 

2

V 

t

V 

₂p

p

V 

t

X

Y Z

(B)

V 

₂p p

V 

t

V 

3

V 

t

(A)

(28)

影向量與 (圖 3.10 A 灰色向量)，代入公式(3-7)，導出與在 Y-Z 面上的夾角

，表示沿 X 軸轉角疊在上。以此角度，繞 X 軸旋轉角得到，使其更往貼近(如圖 3.10 B)。

圖 3.11、向量旋轉: 產生示意圖。

最後，與此兩個向量(圖 3.11 A 綠色與紅色向量)投影到 X-Y 面上分別生成投影向量與 (圖 3.11 A 灰色向量)，代入公式(3-8)，導出與在 X-Y 面上的

夾角，這表示繞 Z 軸轉動角即疊在上。利用角沿 Z 軸旋轉後得到，更往貼近(如圖 3.11 B)。經過上述步驟反覆地執行數輪之後，啟始向量將逐漸收斂，最終與疊合在一起，或者極端靠近。

本研究中，欲疊合的兩幾何圖形會分別將各自的三個重心代表向量依序旋轉疊合。先讓要疊合的重心代表向量繞著 X,Y,Z 軸旋轉共五次，使其貼合至被疊合的重心代表向量。重心代表向量旋轉的同時，與也會跟著旋轉。同理，要疊合的重心代表向量旋轉五次後貼合至欲疊合的。此時，與會跟著轉，也可能使得先前已經疊合完成的產生偏移。最後，進行疊合的往將被重疊的旋轉五次，其餘兩進行旋轉的向量須跟著轉。以上整個過程做完稱為一輪(如圖 3.12)，旋轉次數與輪數皆

X Y

Z

(A) (B)

V 

3

V 

t

V 

₃p p

V 

t

X Y

Z

V 

4

V 

t

V 

₃p p

V 

t

(29)

為參數可自訂。目前研究發現，旋轉次數為 5 次，輪數為 10 次的參數條件下，整體 overlapping 的準確度最佳。旋轉成相同位向後，兩幾何圖形會進行平移疊合，完成一次 overlapping。

圖 3.12、Overlapping 向量旋轉示意圖。

3.2.8 篩選各組合重心代表向量中最佳 RMSD 值

完成疊合的幾何圖形，可透過公式(3-9)求得 RMSD 值，來判斷兩幾何圖形是否正確疊合或構形相似。在公式(3-9)中，表示兩重疊的幾何圖形中第 i 對(X,Y,Z) 點座標間的距離，n 是兩重疊幾何圖形中所有成對(X,Y,Z)點座標的數量。

...(3-9) 也正因為考慮到各種空間上點座標的數量，在運算各種組合時會產生不只一組的、與重心代表向量進行重疊測試，所以必須從中挑出一組、與重心代表向量疊合情況最好的 RMSD 做為參考依據，以及後續統計樣本的數據。

以組合 C⁵₅+C⁵₄+C⁵₃情況為例。首先，C⁵₅產生 1 種組合幾何形狀，其重心須與 2 個(X,Y,Z)點座標形成一組、與重心代表向量，一共產生兩組(5/2=2.5 無條件捨去)。在旋轉疊合之後，因而得到共 2 個 RMSD 值，再從中選取最佳的結果。

接著，C⁵4產生 5 種組合幾何形狀，依照同定理，其重心必須與 2 個(X,Y,Z)點沿y-axis旋轉

沿x-axis旋轉沿z-axis旋轉

沿y-axis旋轉沿x-axis旋轉沿z-axis旋轉

繞繞繞

x5 x5 x5

x10 =1 次Overlapping

x  y 

y 

x  z 

z 

(30)

座標才能夠形成一組、與重心代表向量，每種組合一共產生兩組、與垂直重心代表向量外積重疊測試(所以 4/2=2)，在旋轉疊合之後，因而得到共 10 個 RMSD 值，各重疊組合從中各挑存取較佳的 RMSD 值，取得 5 個最佳 RMSD 值。

依此類推，C⁵₃產生 5 種組合幾何形狀，其重心必須與 2 個(X,Y,Z)點座標才能夠形成一組、與重心代表向量進行重疊測試，每種組合一共產生兩組、與垂直重心代表向量外積重疊測試(3/2=1.5 無條件捨去)，因此，每種組合產生 1 組、與重心代表向量外積重疊測試，每種組合有 1 個 RMSD 值產生，最後，會得到 10 個 RMSD。

所以，最後在 C⁵5+C⁵4+C⁵3 情況中共會得到 1+5+10=16 個 RMSD 最佳值。藉此，

我們能推論哪些(X,Y,Z)點座標可能不屬於正確的結構構形組合而需排除在外，讓整體幾何圖形在平移堆疊後，達到更佳的重疊結果。

值得注意的是，當遇到 C⁴₂與 C³₂的組合情況時，因為兩個(X,Y,Z)點座標在空間中無法產生幾何圖形，只能生成點與點之間的長度距離。所以我們直接計算兩兩對應片段之間彼此的距離，做為相似程度的標準參考依據(圖 3.13)，求得的值是利用兩兩(X,Y,Z)點座標形成的距離中心點重疊。如此可以避免當片段夾角為 180 度時，

無法形成外積的 xyz 向量。因此，藉由上述的方法，也可準確地將兩片段的距離算出，以兩片段中心為重心重疊，計算片段距離的差距，在組合情況 C⁴2與 C³2的情況下演算法會套用這個方法。

圖 3.13、計算兩兩對應片段之間彼此的距離示意圖。

(31)

參照上述的定義，表 3.2 彙整出各種組合經過挑選後會得到的 RMSD 最佳值的數量。

表 3.2、挑選 RMSD 最佳值的組合數量對照表。

組合情形產生的組數註解

C C C C C 1+9+36+84+126=256 C C C C C 1+8+28+56+70=163 C C C C 1+7+21+35=64 C C C C 1+6+15+20=42 C C C 1+5+10=16

C C C 1+4+6=11 C⁴₂點之間的長度距離

C C 1+3=4 C³2點之間的長度距離

而透過演算法與旋轉矩陣，我們有了以上各組合所產生的最佳 RMSD 值之參考，

接著還需要一個合理且依統計為基礎的方法來詮釋構形疊合的結果，試圖從中找出所為離群值(outliers)的點座標與其對應的組合編碼。我們採用四分位距（Inter Quartile Range，簡寫為 IQR）與我們演算法產生的 RMSD 值做運算歸納，以達成本研究論文最終的目的。

3.2.9 離群值統計與分析

在做結果分析時，必須清楚的知道片段所有組合形式，以及個別經過旋轉矩陣平移堆疊後產生的 RMSD。接著我們再做統計分析，試圖找出正確的組合片段。以 5 個點座標的幾何圖形為例，其中 n=5、3≦m≦5，共有 C⁵5+C⁵4+C⁵3=16 種組合。

每一種組合皆求出結構疊合後的 RMSD 值。表 3.3 詳列所以可能的組合，以及 RMSD 值，並依照 RMSD 由小到大排序。其中 RMSD 最小(4.61E-05 Å )的組合為 135，表 示編號第 1、3、5 號的點座標所形成的幾何圖形，兩者相疊合的 RMSD 最佳。而 RMSD 最大的值為 3.8137653 Å ，其組合形式為 234，表示當幾何圖形為第 2、3、4

(32)

號三個點座標進行構形結合時，其兩形狀的相似性最低。

表 3.3、組合幾何圖形與其 RMSD 值(以 5 個點座標為例)。

片段組合形式 RMSD(Å ) 135 4.61E-05 1235 7.16E-05 123 8.47E-05 125 8.73E-05 235 1.06E-04 134 0.0265339 12345 0.1607387 245 0.1657059 1345 0.1727501 124 0.1879061 345 0.1981631 1245 0.2249648 2345 0.239902

145 0.9872777 1234 1.2416941 234 3.8137653

RMSD 經排序後，有助於我們更清楚的執行與運作分析。我們利用四分位距

（Inter Quartile Range，簡寫為 IQR）的統計原理來做離群值的計算。挑出離群值，

代表過濾掉構形不相似的點座標，只挑選構形正確的點座標組合，以符合本研究的目的。

(33)

四分位距是統計學中普遍使用的計算方法，將測試資料中所有數值由小到大排列，利用三個分割點將資料區分成四等份。這三個分割點位置的數值就是四分位距，

可顯示一群數值資料中間百分之五十的資料分散的程度關係[26, 27]。而本研究利用四分位距（Inter Quartile Range)的方法，藉以挑出數值間的離群關係，找出偏離整體數據的 RMSD 值，以及對應的 (X,Y,Z)點座標編碼並剔除之。

四分位距的計算，是在ㄧ群資料裡找到 3 個數值將整群資料區分成四部份，這四個部份的資料個數基本呈現相同數量。這 3 個數值分別稱為第 1、2、及第 3 四分位數，這裡分別記為 Q₁、Q₂、Q₃。其中 Q₁代表為一群資料第 25 百分位數，也就是說至少有四分之ㄧ的資料小於或等於 Q1，且有四分之三的資料大於或等於 Q1。Q2

則為這一群資料的第 50 百分位數，換句話說就是這群資料的中位數。而 Q₃則為這一群資料第 75 百分位數，也就是至少有四分之三的資料小於或等於 Q3，且有四分之一的資料大於或等於 Q₃。

以六個點座標為例，在一群待測統計資料共有 i 個數值(i=C⁶6+C⁶5+C⁶4+C⁶3

=1+6+15+20=42)，四分位數的計算方法如下:

1. 將這群數值資料由小到大排列。

2. 計算 i× ，i× ，i× 的值，並令此值為 j。

3. 若 j 不是整數，則取下一個最近的整數。若 j 是整數，則排在第 j 位與 j＋1 位的資料值的算術平均數。以此分別計算 Q₁、Q₂、Q₃。

例如:

，

， = ，

四分位距之計算則為第 3 四分位數與第 1 四分位數的相減[26, 27]。

...(3-10)

(34)

圖 3.14、Q1，Q2，Q3與 IQR 示意圖。此圖說明我們透過統計學上四分位距的方法與定義，來計算 Q₁，Q₂，Q₃與 IQR，並以此決定離群值的範圍。

當數值大於或小於即表示為離群值。圖(3.14)中紅色點代表離群值，在圖 3.14 我們看見 X₁落在外我們視為離群值，而 Xn落在也被視為離群值，X2與 Xn則座落在離群值定義範圍內。

同樣利用上述表 3.3 範例，以五個片段的重心點座標做為例子，演算法先輸入 n=5、3≦m≦5、片段所有組合數 i=C⁵5+C⁵4+C⁵3。經過構形疊合後，計算 RMSD 值且依大小排列。接著，演算法運算四分位距，分別求得、、及。

，，

在此範例之下，離群值的界定條件[Q₁-1.5 IQR, Q₃+1.5 IQR]即為:

Q1 Q2 Q3

IQR

1.5 X IQR 1.5 X IQR

X2 Xn

X1 離群值離群值

Xn-1

(35)

有了這些資訊後，便能進一步的的往下尋找出離群的(X,Y,Z)點座標組合，得知哪些點座標的構形並不相似，並且判斷在哪些點座標的參與之下，整體結構疊合會呈現最佳的情況。

參考前幾組編碼組合，除了是根據 n 的數量外，同時也針對已知要疊合點的個數一併納入考量。當 n 的數量較大，而參與疊合的點數較多(離群去除的點較少)時，

欲參考組合編號的筆數便需要多一些。參考筆數的設計，則是透過幾番推斷與嘗試，

讓演算法輸出組數符合研究定義，並且獲得較良好的方法準確性。不至於發生少參考一組而判斷挑不出應剔除的離群點座標編碼，或者多參考一組但卻無法提供任何幫助。參考組合編號數量之定義如下所述。

n 表示隨機產生的 3~9 個(X,Y,Z)點座標。

r 表示就是已知需被剔除的點數，也就是 r n/2。

若 n 不能被 2 整除，則 (四捨五入至整數位)；若 n 能被 2 整除，則。

當，則參考組合編碼數

當，則參考組合編碼數 ...(3-11) 在經過多次嘗試下，發現目前 n=3~9 個(X,Y,Z)點座標，與已知需被剔除的點數 r，透過演算法所印出的參考組合編號組數 s 的定義，研究結果表現最佳。

表 3.4 定義不同數量(X,Y,Z)點座標，在已知參與疊合點的個數下，演算法須參考多少筆編碼組合，以利後續判斷與推論。

(36)

表 3.4、參考編號組合數。

點座標個數(n) 已知參與疊合個數(s) 參考前幾筆編號組合(r) n=3 3 個點參與疊合 3 筆編號組合

2 個點參與疊合 1 筆編號組合 n=4 4 個點參與疊合 4 筆編號組合 3 個點參與疊合 3 筆編號組合 2 個點參與疊合 1 筆編號組合 n=5 5 個點參與疊合 4 筆編號組合

4 個點參與疊合 3 筆編號組合 3 個點參與疊合 1 筆編號組合 n=6 6 個點參與疊合 5 筆編號組合 5 個點參與疊合 4 筆編號組合 4 個點參與疊合 3 筆編號組合 3 個點參與疊合 1 筆編號組合 n=7 7 個點參與疊合 5 筆編號組合 6 個點參與疊合 4 筆編號組合 5 個點參與疊合 3 筆編號組合 4 個點參與疊合 1 筆編號組合 n=8 8 個點參與疊合 6 筆編號組合 7 個點參與疊合 5 筆編號組合 6 個點參與疊合 4 筆編號組合 5 個點參與疊合 3 筆編號組合 4 個點參與疊合 1 筆編號組合

(37)

點座標各數(n) 已知參與疊合個數(s) 參考前幾筆編號組合(r) n=9 9 個點參與疊合 6 筆編號組合

8 個點參與疊合 5 筆編號組合 7 個點參與疊合 4 筆編號組合 6 個點參與疊合 3 筆編號組合 5 個點參與疊合 1 筆編號組合

就以 5 個點座標 5 為例，如表 3.3。當某一組隨機測試資料 n=5，並且已知剔除的點數為 1 時，根據演算法計算後，依照 RMSD 數值由小到大排序。接著，根據排序後 RMSD 值來計算得知，此一測試資料中定義離群值的範圍是落在。演算法則以此來判定是否何種編碼組合屬於離群。

如表 3.4 所述，當 n=5，且要剔除點數的數量為 1(意即 4 個點參與疊合)時，演算法須挑選前 3 筆參考編碼組合，用以判斷欲剔除的點為何。如表 3.3 與圖 3.15 所示，此例中 RMSD 最小的值為 4.61 Å ，其編碼組合為 135。RMSD 次之者為 7.16 Å ，其編碼組合為 1235。再次之者為 123，RMSD 值為 8.47 Å 。 我們的演算法根據上述這些編碼組合，歸納推論得知，構形疊合較佳的編碼組合中，有編碼 1、2、3、5 等點座標，而編號 4 的點座標卻沒有出現在前三筆編碼組合中。因此，我們便透過此線索明確斷定當有編碼 4 的出現時，是幾何圖形疊合後的 RMSD 較差的主要原因。因此推論編碼 4 是該被剔除的點座標。而從實際結果中 可知，在編碼組合 234 的 RMSD 值高達 3.814 Å ，顯示我們的推論無誤。

若從 RMSD 最小的數值中無法做得完整的推論，則我們會再參考 RMSD 大於離群值範圍的編碼組合，我們稱之為 Maximum Outliers。進一步參考這些離群的編碼後，綜合前者推論，則可決定該被剔除的點座標為何。

最後，我們為了印證演算法執行結果無誤，本研究會統計演算法預測的準確度，

(38)

觀察程式執行預測的結果是否可正確反應測試資料所設計的偏移點。

圖 3.15、研究方法之實例。當 n=5，要挑去點數的數量為 1 時的情況下，找出 RMSD 值最小的三筆編碼組合。以此推斷編碼 4 的點座標是離群，應該被剔除不進行構形疊合。

Q1 Q2 Q3

Q1-1.5X IQR Q3+1.5X IQR

-0.348408141 9.67769 0.232433389

0.580938306 135(4.61 )

1235(7.16 ) 123(8.47 )× 10⁵

× 10⁵

(39)

第 4 章結果與討論

我們利用本論文研究架構的演算法，將所需要幾何形狀預測的隨機空間(X,Y,Z) 點座標(點座標的限制是 3~9 個點)做為測試資料，計算出各種(X,Y,Z)點座標與對應編碼組合所構成的 RMSD 值，與其幾何圖形兩兩相互對應的相似程度，做為評估程式執行結果的準確性。

4.1 實驗環境

桌上型電腦:

處理器:Intel(R)Xeon(R) CPUX3330 2.66GHz(4CPUs) 記憶體(RAM): 2.67GHz，3.5GB 的 RAM

作業系統(Operating System): Windows XP Professional(5.1,Build 2600) Service Pack 3(2600.xpsp_sp3_gdr.130307-0422)

系統類型:32 位元作業系統

4.2 實驗結果

4.2.1 研究範例

在設計演算法研究時，我們發現透過上個章節敘述程式輸出參考組合編碼參考組數的定義，在某些情況下，仍然需要猜測哪些(X,Y,Z)點座標編碼才是真正首要被剔除。針對這個部分我們透過 Maximum Outliers 做修正與條件判斷，來降低這種情況的發生，讓整體的演算法能夠達到更高的準確性。

以下我們以 6 個點片段空間(X,Y,Z)點座標做為例子，程式必須先執行列出 n=6，

3≦m≦6，C⁶6+C⁶5+C⁶4+C⁶3，(X,Y,Z)點座標與編碼對應的所有組合型態，並且已知要剔除的(X,Y,Z)點座標數的數量為 1 時的情況。

C⁶6+C⁶5+C⁶4+C⁶3所有組合編碼共 42 組，其構形疊合後依照 RMSD 值由小排到

(40)

大，如表 4.1 所示。

表 4.1、組合幾何圖形與其 RMSD 值(以 6 個點座標為例)。

片段組合形式 RMSD 125 5.52E-05 1245 5.54E-05 124 6.32E-05 245 6.84E-05 1456 8.91E-05 2456 0.0001123

146 0.0001234 12456 0.0001264 156 0.0001301 256 0.0001305 246 0.0001409 126 0.000149 1246 0.0001528 1256 0.0001529 456 0.0005473 134 0.1158714 356 0.1933203 135 0.223854 345 0.2344448 3456 0.2724591 236 0.2808691 23456 0.2976365

(41)

片段組合形式 RMSD 1345 0.3280056 12346 0.3693949 13456 0.3754974 234 0.3889112 1346 0.4031537 12345 0.4438982 12356 0.4556302 136 0.4616912 1236 0.521334 1356 0.5864924 1234 0.5869633 1235 0.6773214 123456 0.7890555 123 0.8285761 346 0.9175515 145 1.3758845 2356 1.4581593 2345 1.5203292 2346 1.8608722 235 2.2778874

而我們的研究中也定義當 n=6，要挑去點數的數量為 1 時的情況，須利用前 4 組參考編碼組合做為評估。

(42)

圖 4.1、研究結果之實例(以 n=6、k=1 為例)。我們在 n=6，要挑去點數的數量為 1 時的情況必須印出四組參考編碼組合，再進行編碼剔除的動作。

由圖 4.1 可知，當 n=6，要挑去點的數量為 1 時，演算法輸出前 4 組 RMSD 最小數值與編碼組合的對應關係分別是：125(5.52 )、1245(5.54 )、

124(6.32 )、245(6.84 )。我們可以很清楚的發現，當 RMSD 值較佳 的情形與對應編碼組合，出現編碼 1、2、4、5，而 3、6 卻沒有出現。接著，我們進一步將其中的 Maximum Outliers 輸出，再觀察 3、6 這兩個編碼，在這些 Maximum Outliers 的 RMSD 值與對應編碼組合中，哪個編碼出現的次數較多，用以斷定它或許就是成幾何形狀堆疊不佳的主要原因。在本例中，這組測試資料中找到三個 Maximum Outliers，RMSD 數值與編碼組合的對應關係分別是：2345(1.5203292Å )、

2346(1.8608722Å )、235(2.2778874Å )。

接著程式再將 3 與 6 出現在 Maximum Outliers 中出現次數分別累加，並輸出在 Maximum Outliers 中出現次數較多的編碼。在這個例子我們可以看到，編碼 3 出現了 3 次，編碼 6 出現 1 次，於是演算法最終的輸出結果是 3，因此判定應當要被剔除的(X,Y,Z)點座標編碼為 3。

Q1 Q2 Q3

Q1- Q3+

125(5.52 ) 1245(5.54 )

124(6.32 )

-0.87938626608 1.46601961006 245(6.84 )

Maximum Outliers 2345(1.5203292 )

2346(1.8608722 ) 235(2.2778874 )

× 10⁵

1.5 X IQR 1.5 X IQR

(43)

4.2.2 預測準確度

為了證實我們設計的演算法，在執行效能上能夠一定的準確度，於是我們針對每一種組合(C⁹₉、C⁹₈、C⁹₇、C⁹₆、C⁹₅、C⁸₈、C⁸₇、C⁸₆、C⁸₅、C⁸₄、C⁷₇、C⁷₆、C⁷₅、 C⁷4、C⁶6、C⁶5、C⁶4、C⁶3、C⁵5、C⁵4、C⁵3、C⁴4、C⁴3、C⁴2、C³3、C³2)，各隨機產生 250 組測試資料進行驗證，來觀察與證實透過我們的演算法的確能找出幾何形狀中的離群(X,Y,Z)點座標對應編碼。

表 4.2、各組合 250 筆測試資料之平均準確度。

(X,Y,Z)點座

標數量準確判斷回傳準確率

n=3 C³₃=100% C³₂=100%

n=4 C⁴4=85% C⁴3=100% C⁴2=98%

n=5 C⁵₅=90% C⁵₄=99% C⁵₃=95%

n=6 C⁶6=73% C⁶5=95% C⁶4=100% C⁶3=92%

n=7 C⁷₇=75% C⁷₆=96% C⁷₅=100% C⁷₄=100%

n=8 C⁸8=70% C⁸7=92% C⁸6=90% C⁸5=100% C⁸4=99%

n=9 C⁹₉=80% C⁹₈=96% C⁹₇=97% C⁹₆=100% C⁹₅=99%

在表 4.2 各組合測試 250 筆資訊的準確度中能夠看出，在有些情況在我們的演算法執行後，整體正確率回傳的結果較差，如 C⁶₆、 C⁷₇、 C⁸₈、 C⁹₉等，這是因為，

當在 n 的個數越大且需要剔除的點座標越少的情況下，演算法輸出的組合編號組數參考表組數可能不足，於是造成判斷上的錯誤。此外，當 n=8，C⁸₇(就是 8 個點中剔除 1 個點的測試)與 n=8，C⁸6(8 個點中剔除 2 個點的測試)，我們的演算法整體判斷準確性僅達 92%與 90%，在整體情況看起來是還有進一步改善的空間。

此上述為例，當 n=8，C⁸6其中 1 組範例，是 8 個點中剔除 2 個編號為 2 與 8 的

(44)

點。當 n=8，要挑去點的數量為 2 時，演算法輸出前 4 筆 RMSD 最小數值與編碼組合的對應關係，分別是:

3467(6.1676 )、1346(6.3678 )、13467(7.1312 )、1367(7.2509 )。

從這 4 組參考編碼組合之結果，演算法判斷出沒有編碼 2、5、8 的出現。接著進行 Maximum Outlier 計算，來判斷哪個編碼才是真正該被剔除。從該例中得知，離群值界定範圍為[-2.0501, 4.3248]。但由於在這組測試中，所有組合經過旋轉矩陣疊合後，

所有 RMSD 值都小於 4.3248，因此在沒有 Maximum Outlier 的結果之下，演算法便判斷應該被剔除的編碼為 2、5、8。儘管預測的答案中的一部分，仍對應了正確答案，但因此判斷結果並未完全回答正確(正確答案僅為 2 與 8)，而視為預測錯誤。

造成演算法判斷錯誤的情形，我們歸納了以下兩種原因：

(1) 演算法輸出參考編碼組合數量的限制：測試資料樣本中因為演算法輸出參考編碼組合組數的定義與限制，造成有些編碼所對應的 RMSD 值很小，卻沒排列在輸出參考編碼組合組數的限制內，就以 n=8、C⁸₈+C⁸₇+C⁸₆+C⁸₅+C⁸₄共 163 個 RMSD 值為例，其中一組測試資料中，RMSD 前 4 組最小值的對應組合編碼都並沒有編碼 2、5、8 的出現，但若繼續往下觀察第 5 組 RMSD 值與對應組合編碼時，便出現 4567 (8.36 )，因此便可排除編碼 5，而得到 2 與 8 的正確結果。

此外，我們觀察在這筆測試資料中，發現依順序在第 23 組 RMSD 值與對應組合編碼中，才開始出現編碼 2，組合情形與 RMSD 值的情形為 1234567

(0.207254Å )。而在第 48 組 RMSD 值與對應組合編碼中，才開始出現編碼 8，組合 情形與 RMSD 值的情形為 1245678 (0.466767Å )。這可清楚說明，若這兩個點座標進 行幾何圖形的結構疊合時，RMSD 值便會明顯變大。因此，演算法的疊合與判斷的定義無誤，預測錯誤的原因則是受到演算法輸出參考編碼組合數量的限制所影響。

如圖 4.2、4.3 所示，兩個幾何圖形各別有 8 個點座標，此測試資料是設計其中編號 2 與 8 兩點在結構疊合時，需要排除的兩點，方可將其他 6 個點進行正確的疊合。

中 華 大 學 碩 士 論 文