• 沒有找到結果。

第四章 研究方法

4.2 GPRM

GPRM 為本實驗室在 2002 年所提出的一套系統,此研究提出一套十分有彈性 的核醣核酸結構表示語言,並能針對一個核醣核酸家族,利用基因規畫方法尋找 其共同結構。

4.2.1 核醣核酸結構描述語言

GPRM 使用三種參數來定義核醣核酸的二級結構,即莖幹的個數、莖幹在結 構中的相對位置以及每個莖幹及環線的長度範圍。

(1) 莖幹個數

表示在此結構中含有幾段雙股區域。

(2) 莖幹在結構中的相對位置

若 將 所 有 的 雙 股 區 段 由 5’ 端 到 3’ 端 的 順 序 加 以 編 號 , 如 1,2,3,…,2N,其中 N 為莖幹個數,則各種區段間的配對組合便形成了各種 不 同 的 結 構 。 如 圖 表 4 即 為 過 去 許 多 語 言 所 無 法 描 述 的 擬 節 結 構 (pseudoknot)。這種簡單的結構是由兩段單股環線連接兩段雙股區域所組 成,即所謂的 H-式/(H-type)髮夾型(hairpin)擬節,由圖可看出,每一個 髮夾環線緊接著一段單股區域。

圖表 4. 擬節結構

以此種結構為例,由 5’端到 3’端將所有莖幹編為 1 號,2 號,3 號及 4 號區段。擬節結構則是 1 號與 3 號,2 號與 4 號區段形成雙股結構,如圖 表 5 所示。此種配對方式即是 soil-borne mosaic virus 家族共同的二級結 構。

圖表 5. 擬節結構中莖幹的相對位置

(3) 每個莖幹及環線的長度範圍

GPRM 並不考慮末端的單股區域,因此,每個結構的開始與結束皆是莖 幹,且兩個莖幹之間會被一個環線所隔開。由於不同的核醣核酸雖擁有相同 的二級結構,但所形成的雙股區域長度可能有些微的差異,因此,使用長度 上限與下限來指定莖幹與環線在此家族中可能出現的長度,只要在長度範圍 [Min, M ax]內者都算是合法的莖幹與環線。Min 是指此莖幹最短的長度,Max 則是最長可出現的長度。

圖表 6 為 soil-borne mosaic virus 中的兩條核醣核酸序列,由此圖可 看出,不同的核醣核酸雖然擁有相同的二級結構,但莖幹與環線的長度卻不 同。因此,若以 GPRM 對 soil-borne mosaic virus 家族預測它的共同二級 結構,所得到的長相為 [3,6] (0,3) [4,10] (0,1) [3,6] (0,6) [4,10]。

1 2 3 4

圖表 6. 相同結構,但莖幹、環線長度不同

下述為一個完整描述結構的範例。

莖幹個數 : 2

莖幹相對位置:(1, 3)(2, 4)

莖幹與環線長度範圍:[3,6] (0,3) [4,10] (0,1) [3,6] (0,6) [4,10]

> PKB188

CAUGUCGGGCUGAGACAUGU CGU UG CCGUC ACG AUA GACGG AGCCGCUGG

> PKB189

GAAAAUA GUCU A ACAUGUC GGGC UGA GACAUGU CGUUGCCGUCACGAUAGA

4.2.2 GPRM 模型架構

GPRM 利用基因規畫的方法來尋找某核醣核酸家族的共同結構,主要概念是 先隨機產生許多可能的結構,再透過突變、交換與複製的機制來改變這些結構。

此外,再設計一套評分方式,比較每個結構的優劣。藉由分數直接反應出此結構 便是解答的可能性,得分愈高者表示愈可能是此家族的共同結構。下圖即為 GPRM 流程圖。

圖 4.4 GPRM 流程圖

圖表 7. GPRM 系統流程圖 產生第一代族群

計算每個個體的適應分數

挑選親代

突變、交換、重製

產生子代

4.2.3 細部修改

本系統整合了 GPRM,但為了符合此研究的須求,我們在某些步驟做了修改,

例如前置處理、適應函數與產生下一個子代等等,在之後的幾個章節會陸續提 及。在此,我們先說明在產生子代時所做的變更。

GPRM 使用競賽(tournament)的方式來挑選親代,勝出者會依照使用者所設 定的突變率、交換率來決定執行突變或交換運算子,甚至是直接保留到下一代。

執行突變者會產生一個新子代,交換運算子則有兩個子代產生。本系統維持與 GPRM 相同的突變與交換機制,但為了加快收斂的速度,我們規定唯有適應分數 高於其親代的子代才會納入新的世代,否則便捨棄此子代,重新執行原本的運算 子。然而,受限於程式執行時間,重覆執行運算子的次數限定在三次內,若超過 三次,則一律將此子代納入新的世代中。圖表 8 為突變機制的流程。

圖表 8. 突變運算子

親代

是 否

突變運算子

子代

子代之適應分 數低於親代?

重複執行次 數大於 3?

納入新世代

相關文件