• 沒有找到結果。

同時考慮序列排比與摺疊的資訊來預測核醣核酸的共同結構元 11

第二章、 文獻探討

2.2 預測核醣核酸結構的相關方法

2.2.3 同時考慮序列排比與摺疊的資訊來預測核醣核酸的共同結構元 11

針對原始的 Sankoff algorithm 加了一些限制,而能在預測核醣核酸的共同結構元 時仍有不錯的表現。

2.2.3.1 Foldalign [Gorodkin J et al., 1997]

Foldalign 可被視為一個區域性排比(local alignment)與鹼基配對數最大化 (maximum number of base-pairs) 演 算 法 的 混 合 體 , 它 使 用 了 與 CLUSTAL 和 CONSENSUS 相似的啟發式方法(heuristics),由兩條序列的排比與鹼基配對的關係 建立了分數矩陣(scoring matrix),使用由 Sankoff algorithm 延伸的動態程式規劃法 求出兩條最佳配對排比結果(pairwise alignment)。而系統將所有序列兩兩成對個別

Foldalign 被專門設計來預測短區域的調控共同結構元,例如 IREs(iron response element)中的髮夾結構(hairpin structures),因此在找尋全域性(global)的結 構與多分支環狀結構上的表現不佳。

2.2.3.2 Dynalign [Mathews D et al., 2002]

Dynalign 結 合 了 自 由 能 最 小 化 (free energy minimization) 與 比 較 序 列 分 析 (comparative sequence analysis),依此找出兩條序列低自由能的共同結構。系統先 對兩條序列進行排比,再分別對兩條序列進行摺疊,而摺疊的結構其鹼基可以產 生配對的條件為:必須兩條序列在排比結果的同個位置上皆能產生標準鹼基對,

亦即使兩條序列可以摺疊成相同的結構。

Dynalign 的目的將整個系統的總自由能做最小化,總自由能的求法為:

G

totalo

∆ 表示整個系統的總自由能,

G

sequenceo 1

G

sequenceo 2分別為序列 1

與序列 2 的構造自由能(conformational free energy),

G

ogap為兩條序列排比產生

的缺口(gap)造成的處罰值(penalty),此值根據經驗設置。

Dynalign 使用全能量模型(full energy model),進行 Sankoff algorithm 的動態 程式規劃法對系統的總自由能做最小化,但在進行演算時則限制了兩條序列在進 行排比時的最大距離,即當序列 1 的第 i 個鹼基要與序列 2 第 j 個鹼基排比在一 起,則 i 與 j 的差值必須小於由使用者設定的 M 值。使用這樣的限制可以使系統 的時間複雜度降為 O(n3M3),而空間複雜度則為 O(n2M2),其中 n 為較短序列的 序列長度。

Dynalign 只能同時找兩條序列的共同結構元,儘管可以擴展至多條序列,但 會造成系統的嚴重負擔,例如當序列數為三條時,系統的時間複雜度會增至 O(n3M6),而空間複雜度則增為 O(n2M4)。

由實驗的測試結果顯示,Dynalign 在較短的且較多樣性的 tRNA 預測上有比 較好的表現。

圖 3. Carnac 演算法三步驟範例圖

2.2.3.3 Carnac [Perriquet O et al., 2003]

Carnac 同時考慮區域相似性(local similarity)、莖幹能量(stem energy)和共變關 係(covariation),產生序列的共同摺疊二級結構。此系統採用啟發式的演算法,概 略圖如圖 3.,演算法步驟如下(設有 N 條序列):

Step1: 對所有的序列分別找出每條序列所有可能的莖幹,再使用熱力學的知 識,利用動態程式規劃法計算出每條莖幹的自由能,留下能量低於預設門檻值的 所有莖幹。

Step2: 將所有的序列兩兩成對,分別建立所有可能的 N*(N-1)/2 個序列對成 對摺疊(pairwise foldings)。方法為先找出兩條序列鹼基高度相似的區域,考慮區 域相似性與共變關係找出成對的莖幹(pairwise stems),然後根據所選到的所有莖 幹,考慮能量最小化使用類似 Sankoff algorithm 的動態程式規劃法找出最佳的共 同摺疊。而此動態程式規劃法與 Sankoff algorithm 的差異點在於 Carnac 將序列的 莖幹視為基本單位元去運作,而不是像一般皆以含氮鹼基視為基本單位元。因此 找兩條序列的共同結構元的時間複雜度只需要 O(n2),所需要的空間複雜度亦為 O(n2)。

Step3: 此步驟將 Carnac 擴展至可以同時找多條序列的共同結構元。在經過 step 2 之後,每條序列皆得到 N-1 個預測結構,為了得到最有可靠度(reliable)的莖 幹,於是建立了一套新的資料結構,稱之為莖幹圖(stem graph)。在莖幹圖中的所

2.2.4.1 RNAforester [Höchsmann M et al., 2003]

RNAforester 建立樹狀排比模型(tree alignment model),依此推論核醣核酸二級 結構的多重排比,只考慮核醣核酸分子的二級結構而不需要知道其序列的相似 性。系統使用其他單一核醣核酸序列二級結構預測工具將序列轉為二級結構,再 將預測的二級結構轉換成樹狀結構(tree)或森林結構(forest)的輪廓圖(profile),之後

將 ClustalW 多重序列排比的演算法延伸為多重結構排比,以此演算法對所有序列

2.2.4.2 MARNA [Siebert S et al., 2003]

MARNA 同時考慮核醣核酸一級序列與二級結構產生 RNA 的多重排比,它

2.2.5.1 RNAshapes [Steffen P et al., 2006]

RNAshapes 是一套使用抽象形狀(abstract shapes)表示法的軟體套件,其中包含 了三項核醣核酸的分析工具:形狀代表物分析(analysis of shape representatives)、形 狀機率計算(calculation of shape probabilities)、以及找尋一致性形狀(consensus shapes)。另外,RNAshape 亦包含了一些實用的特色:如使用正確的懸蕩能量 (dangling energies)找出摺疊次佳候選解、輸出二級結構圖形、找尋形狀的配對、

以及提供了圖形化的使用者介面。

相關文件