模型架構

第三章方法論

3.3 模型架構

本研究的模型可分為三個子模型，分別為實驗資料(Input Data)的前置作業、

中間部分的基因規劃法(Genetic Programming)、及最後相似結構元整理(Motif Refinement)的後置作業。圖 3-4 為模型的架構圖，其中包含了三個子模型：

圖3-4 本研究模型總流程圖

實驗資料模型為準備系統需要的各種資料，並輸入接續的基因規劃法模型中尋找相似結構元，最後後置作業模型將找到的相似結構元做最後的整頓及處理。

各個子模型將會在後面小節詳細敘述。

3.3.1 前置作業

這個小節中，將介紹本研究模型所需的實驗資料格式、來源、以及收到這些資訊後的處理方法。

本子模型的來源資料可分為Frequency-Motif Seeds (FMS) 及 Random-Motif Seeds (RMS)兩個部份，兩者代表意義及特性將在後面將以詳細說明。圖 3-5 為實驗資料子模型的流程示意圖：

圖3-5 Input Data 子模型流程圖

本研究的目的是希望能找出一個蛋白質分類中具有代表性的一群相似結構元，因此參考SCOP 資料庫中對蛋白質的分類。SCOP 對於蛋白質分類總共有四個層級，從上到下依序為Class、Fold、Superfamily、及 Family 等四層，本研究以第二層級- Fold 為分類標準。選擇 Fold 層級的理由是依據 SCOP 對於四個分類

的 Class，分類的結構標準太寬鬆粗略，下一層的 Superfamily 則嚴謹至同原 (homologous)的蛋白質功能(Protein Function)或結構。因此選擇 Fold 為標準是最符合本研究之需求。

取得了屬於同一Fold 的蛋白質 PDB ID 資料後，便根據 PDB ID 至 DSSP 資料庫中下載完整的蛋白質資料。選擇下載DSSP 資料庫的原因是系統在找尋答案的過程中會使用到蛋白質主幹的扭轉角(Torsion Angle)的資訊，DSSP 檔案格式中便包含了已算好的扭轉角數據，不需自行再計算，節省系統建置時程並可避免自行計算可能發生的錯誤。

取得了以上屬於同一 Fold 的蛋白質資料後，每一條蛋白質序列逐一掃描，

以長度 3 為單位，一次位移一個胺基酸，取出不同的小結構片段，即為 Frequency-Motif Seeds (FMS)。圖 3-6 為 FMS 擷取過程示意圖：

表3-6 FMS 從蛋白質序列擷取過程示意圖

Random-Motif Seeds (RMS)則是系統隨機產生。根據前面章節 3.2.2 系統相似結構元語言定義中，系統隨機產生再翻譯出來的相似結構元有較大的機會是包含 '[ ]'、'{ }' 符號，較複雜且具有彈性，能包含胺基酸突變的情形。

FMS 和 RMS 各自有其對系統的影響及貢獻。FMS 是已經存在於目標蛋白質中的較小相似結構元，提供了基因規劃法較佳的搜尋起始點，能縮短系統整個

搜尋時程，提高效率。RMS 則是提供了相似結構元各種變異的可能性，使得最後找到的相似結構元能有機會包含蛋白質演化過程中胺基酸突變(Mutation)的情形。表3-3 為 FMS、RMS 功能整理表：

FMS RMS

Source Real protein sequences Random

Objective provide good starting search point provide motif-evolution potential Contributions speed up the system consider a.a. mutation situation

表3-3 FMS 與 RMS 比較圖

實驗資料包含FMS、RMS 除了上述的優點外，另外兩者合併使用，會擴大互相競爭生存的解數量，激烈的競爭往往能提升最後解的品質。這也符合了過去生物演化過程所觀察到的現象：太相近的物種互相繁殖，容易有家族疾病；不同人種或物種交配，繁衍的後代通常品質會較好，變異性較高，較能抵抗突然而來的意外狀況。基因規劃法的研究中，也有部份學者致力於探討互相競爭的解數量和最後找到解之間的關係，研究結果顯示，基因規劃法的確在演化過程中也遵守著自然界的現象，當互相競爭的解的數量越多，找到最佳解的速度也會越快。

3.3.2 基因規劃法

基因規劃的概念是針對一個可能解的族群(putative solution)，透過演化中交換及突變等過程尋找最佳解。圖3-7 為基因規劃法的流程圖，大致上和其他演化式計算的流程相同。

圖3-7 基因規劃法流程圖

第一代，也就是流程圖中的初始代(Initial Population)，由實驗資料章節中所描述的FMS 及 RMS 組成，族群中的每一個個體(Individual)即代表著一個相似結

構元，將每一個個體以適應函數(Fitness Function)計算其適應分數(Fitness)，也就是每個相似結構元的品質，這些分數作為選擇下一代族群的基準，從上一代到下一代的過程中可能經過交換(Crossover)、突變(Mutation)、或是單純的複製 (Reproduction)等步驟。重複上述的演化過程直到我們訂定的演化終止條件。由於我們希望找到的是一群不錯的相似結構元，所以在演化的過程中若出現夠好的相似結構元，意即符合預設條件(何謂「夠好」的 Motif，將在下面章節詳細討論)，

即把這相似結構元輸出儲存。

下面的小章節將根據基因規劃法系統中的小細節作更進一步的詳細介紹。

3.3.2.1 基因規劃系統中之參數

基因規劃系統中的參數及其名稱，和其他演化式計算演化法是相同的。以下是簡單的整理及介紹：

1. Generation：意指繁衍的代數

2. Population：每一代所包含的全部解的統稱 3. Individual：一個解即為一個 individual (個體) 4. Selection：選取某個 individual 的方式

5. Fitness：individual 的適應性分數 6. Fitness Function：算出 Fitness 的函式

7. Crossover：兩個 individual 交配產生新的 individual 8. Mutation：一個 individual 上的某處突然改變 9. Reproduction：完全複製選定的 individual 10. Population Size：參數，每一代所包含解的個數

11. Crossover Rate：參數，每一代 individual 以 Crossover 方式產生下一代的機

12. Mutation Rate：參數，每一代 individual 以 Mutation 方式產生下一代的機率 13. Reproduction Rate：參數，每一代 individual 直接複製產生下一代的機率

3.3.2.2 適應函數(Fitness Function)

適應函數是主宰任何演化式計算成功與否的最重要關鍵因素，不同的適應函構相似程度的分數；為Occurrence Score，相似結構元在實驗資料中的蛋白質結構中發生次數的分數(Occurrence)，也可看作此相似結構元包含了多少個區域結構(Fragments)；為有多少個蛋白質結構包含此相似結構元；最後為相似

結構元長度的分數；、、、則為各個分數的權重，以下會一一詳細

Torsion Angle P-value Score，目的在於評斷一個相似結構元所包含的各個區域結構(Fragment)是否彼此結構相似。本研究使用扭轉角度相似程度為基準而不是傳統的RMSD，理由除了前面第二章許多研究指出扭轉角度是影響蛋白質結構的因素之一外，RMSD 和 Torsion Angle P-value 所需要的計算量相差是非常大的。在相同的系統環境設定下，執行一世代所需要的計算時間，RMSD 花費 1.5 小時，Torsion Angle P-value 只要 4 分鐘，兩者相差了 22 倍之多。因此，在執行時間及最後結果兩個考量因素下，選擇以Torsion Angle P-value 為衡量結構是否相似的基準。

Torsion Angle P-value 的計算方式非常簡單。系統執行前先將實驗資料中所有的蛋白質結構，胺基酸序列逐一掃描後，把相同序列、相等長度的子結構集合在一起並算其扭轉角度的統計值，包括了 phi-angle 平均值、phi-angle 變異數、

psi-angle 平均值、psi-angle 變異數四個統計值。當我們建立了不同長度的背景扭轉角度統計資料後，便能輕易算出系統開始執行後所找到的相似結構元，其結構

相似結構元的要求。有找到Fragments 2.Torsion Angle 分數 > 0.5。方程式(2)至(5)為四個子分數的公式，圖3-8 為各個子分數算法的例子：

V ：average of motif phi variance for all motifs with same length、 Φ

σΦ：variance of motif phi variance for all motifs with same length、

V ：motif psi variance、 ψ

V ：average of motif psi variance for all motifs with same length、 Ψ

σΨ：variance of motif psi variance for all motifs with same length

)

(

allmotifslength

)

Max

3.3.2.3 挑選母代機制(Selection)

挑選母代在演化過程中扮演非常重要的角色，被挑選到的母代會進行複製 (Reproduction)、交換(Crossover)、突變(Mutation)等不同運算子的操作而產生子代，因此挑選母代機制的好壞，會影響子代的表現，進而影響整個系統的搜尋效能。好的挑選方式將會大大降低系統整體的搜尋時間，減少不必要的搜尋。

挑選母代機制的方式大可分成三種，隨機選取(Random Selection)、輪盤選取 (Roulette Wheel Selection)、及競賽選取(Tournament Selection)。隨機挑選，顧名思義即由系統隨機挑選，沒有考慮個體(individual)因素。輪盤選取法是考慮個體的適應分數，分數越好的被挑選到的機率越高。而競賽選取則為包含隨機及輪盤選取兩種方法的特性，先隨機挑出 N 個個體，再比較彼此的適應分數。三種方法各有其優缺點，隨機選取較少人採用，因選取時沒有考量個體的優劣，即喪失了適應分數的功效，也不符合「適者生存」定理。輪盤選取則是完全沒有隨機概念，

大者恆大，很容易落入區域性最佳解(local optimal)。因此，競爭選取法保留了隨機機制，也符合「適者生存」定理，是目前最普遍採用的選取方法。本研究即採用競爭選取法，N 則設定為大部分研究最常設定的 7。

3.3.2.4 交換運算子(Crossover)

此運算子事交換兩個母代個體中一個節點(node)或是一顆子樹(subtree)。圖 3-9 為節點交換及子樹交換的示意圖：

(a) (b)

圖3-9 Crossover 實例操作 (a)子樹交換 (b)節點交換

不論是哪一種交換，都可以達到產生新個體的功用。不過特別注意的是，本研究使用的是樹狀資料結構，兩棵樹交換的情形，相較於其他字串資料結構的交換會較複雜，也會有較多限制。不過本模型中中間節點和末端節點所記載的資訊是不同的，不管是節點之間、節點與子樹、或子樹之間的交換，都不會出現不合法的狀況，頂多是發生機率極小的無效交換。圖3-10 為無效的交換實例：

圖3-10 無效的 Crossover (a) 無效的節點交換(b) 無效的子樹交換

(a) (b)

3.3.2.5 突變運算子(Mutation)

突變運算子的設計除了傳統認知的可以幫助脫離區域性最佳解(local optimal) 外，在本實驗還能微調已經找到的相似結構元，使其更加接近最佳解。例如：現階段找到的相似結構元為 [AT]-D-[KO]，包含的子結構有 ADK、ADO、TDK、

TDO 四種，假設其中 ADK、ADO 事實上是雜訊，和其他兩個結構上並沒有非常相似，反倒是 IDK、IDO 這兩個子結構和 TDK、TDO 更為相似，那麼藉由突變運算子的演化下，便有機會演化出[IT]-D-[KO]這個真正的相似結構元。

突變運算子和交換運算子相同，在樹狀資料結構上會有較彈性的變化，和較多的限制，其方式可分為點突變(Point Mutation)及子樹突變(Tree Mutation)。圖 3-11 為突變運算子操作的實例及限制條件：由圖可知，並不是所有的突變動作都

在文檔中利用演化式計算找尋蛋白質結構之相似結構元 (頁 28-47)

第三章 方法論

3.3 模型架構

(

)

第三章方法論