應用 RNAMotifScan 的弧線註解序列比對演算法比較兩 RNA 結構之間

Chapter 2 Materials and Methods

2.3 應用 RNAMotifScan 的弧線註解序列比對演算法比較兩 RNA 結構之間

構之間的相似程度

RNAMotifScan 的核心是一個動態規劃（dynamic programming）

的序列比對演算法，其輸入為一對弧線註解序列。在方法中，一維序列的計分方法與傳統序列比對方法相同，鹼基對部分仿照一維序列設計一個操作的分數計算方法，加總各鹼基對操作的分數，最後再將一維序列與鹼基對的分數加總，即為比對的分數結果。 RNAMotifScan 便是尋找最高分比對結果的演算法。在搜尋方面，

RNAMotifScan 先將目標 RNA 結構依照 query 長度與鹼基對個數切成片段，再將各片段逐一與 query 比對，同時計算每個比對結果的 p-value 與偽陽性比率（false positive rate，FPR）。在這個步驟，我們修正 RNAMotifScan 演算法遞迴函式中三個未敘詳盡的部分並且修改 RNAMotifScan 的程式碼，使其可以將兩弧線註解的一維結構序列當作輸入，並且將可能的結果依照比對分數由高至低排序輸出。

對於每個鹼基對 P，將弧線左端與右端的鹼基分別命名為 Pl 與 Pr。假設 A = A[1]A[2]…A[α] 且 B = B[1]B[2]…B[β]代表含有 m 與 n 個鹼基對的弧線註解一維結構序列。此外，在進入遞迴函式前，兩

個序列個別在頭尾加上由 A[0]與 A[α+1]、B[0]與 B[β+1]構成的虛擬 鹼基對（dummy base pairs）。加上虛擬鹼基對可以減少遞迴函式起始事件的討論件數。在演算法一開始先強迫兩個虛擬鹼基對對在一起，接著在被這兩個鹼基對包含的序列區間做序列比對，比對結束後再將對在一起的虛擬鹼基對去除，就能得到原本問題的解。令P^A = 𝑃₁^𝐴 , 𝑃₂^𝐴 ,…, 𝑃_𝑚+1^𝐴 與 P^B= 𝑃₁^𝐵 , 𝑃₂^𝐵 ,…, 𝑃_𝑚+1^𝐵 分別代表在 A 與 B 中 的鹼基對集合，鹼基對序號根據 P_r 右端鹼基位置由左至右遞增排 序，若兩鹼基對右端鹼基位置相同，則依據 P_l左端鹼基位置排序。

假設在同一序列中有兩鹼基對𝑃^′ 與 P，此兩鹼基對之間的關係 可分為下列三種：（1）並列（juxtapose）：𝑃^′ 與 P 個別包含的序列 區間無重疊，且𝑃^′在 P 左側，記為𝑃^′<p P （Figure 2-6a）。（2）巢狀

（nested）：𝑃^′所包含的序列區間被 P 所包含的序列區間完全包含，

記為𝑃^′<I P （Figure 2-6b）。（3）交叉（crossing）：兩鹼基對個別包含的序列區間部分重疊，又名假結（pseudoknot），但在此不考慮此種情形（Figure 2-6c）。

Figure 2-6: 序列中之兩鹼基對關係。(a) 並列。(b) 巢狀。(c) 交叉。

在 RNAMotifScan 的方法中以（1）Loop(𝑃^𝐴)表示位於 A[𝑃_𝑙^𝐴] 與 A[𝑃_𝑟^𝐴]之間的子序列，但不包含 A[𝑃_𝑙^𝐴] 與 A[𝑃_𝑟^𝐴]。（2）Loop(𝑃^𝐴^′, 𝑃^𝐴) 表示介於兩個並列的鹼基對𝑃^𝐴^′與𝑃^𝐴之間的子序列 A[𝑃_𝑟^𝐴^′ + 1] … A[𝑃_𝑙^𝐴 − 1]，如 Figure 2-7。在遞迴函式中所使用的分數符號定義如下：（1） I(𝑃^𝐴, 𝑃^𝐵)：兩鹼基對𝑃^𝐴 與 𝑃^𝐵對起來的分數。如果𝑃^𝐴 與 𝑃^𝐵是同構鹼基對則為 match，分數較高；反之為 mismatch，分數較低。（2）

S(A[i…j],B[k…l])：在 A[i…j] 與 B[k…l]兩子序列間比對的分數。（3）

Gap(k)：在序列中插入或刪除長度為 k 的子序列的扣分分數。（4）

M[𝑃^𝐴, 𝑃^𝐵]：令𝑃^𝐴 與 𝑃^𝐵對在一起，被𝑃^𝐴 與 𝑃^𝐵包含的序列區間的最 佳比對分數，若計算 M[𝑃_{𝑑𝑢𝑚𝑚𝑦}^𝐴 , 𝑃_{𝑑𝑢𝑚𝑚𝑦}^𝐵 ]則是完整 A 與 B 序列的最 佳比對分數。

Figure 2-7: 被鹼基對包含的子序列與介於兩並列鹼基對之間的子序 列。

在 RNAMotifScan 的方法中，必須計算所有 P^A對 P^B的 M[𝑃^𝐴, 𝑃^𝐵]，且 P^A ∈ P^A、P^B ∈ P^B。M[𝑃^𝐴, 𝑃^𝐵]的計算方式如下：

M[𝑃^𝐴, 𝑃^𝐵] = Ms[𝑃^𝐴, 𝑃^𝐵] + max{Mh[𝑃^𝐴, 𝑃^𝐵], Ml[𝑃^𝐴, 𝑃^𝐵]}. (Figure 2-8)

Figure 2-8:M[𝑃^𝐴, 𝑃^𝐵]的示意圖。𝑃^𝐴與𝑃^𝐵以紅色弧線表示，𝑃^𝐴與𝑃^𝐵的左右鹼基以藍紫色表示，中間綠色表示被𝑃^𝐴與𝑃^𝐵包含的子序列區間。

其中 M_s[𝑃^𝐴, 𝑃^𝐵]是鹼基對𝑃^𝐴與𝑃^𝐵比對的分數，包含鹼基對是否為同構鹼基對與組成𝑃^𝐴與𝑃^𝐵的左右端鹼基比對的分數，算法如下：

Ms[𝑃^𝐴, 𝑃^𝐵] =

w1 × I(𝑃^𝐴, 𝑃^𝐵)+w2 × (S(A[𝑃_𝑙^𝐴], B[𝑃_𝑙^𝐵]) + S(A[𝑃_𝑟^𝐴], B[𝑃_𝑟^𝐵])).

(Figure2-9)

Figure 2-9:Ms[𝑃^𝐴, 𝑃^𝐵]的示意圖。𝑃^𝐴與𝑃^𝐵以紅色弧線表示，計算鹼

基對比對分數 I(𝑃^𝐴, 𝑃^𝐵)。𝑃^𝐴與𝑃^𝐵的左右鹼基以藍紫色表示，計算𝑃_𝑙^𝐴 對𝑃_𝑙^𝐵、𝑃_𝑟^𝐴對𝑃_𝑟^𝐵序列比對分數。

被𝑃^𝐴與𝑃^𝐵包含的子序列區間的分數計算分成兩種情況討論，並取兩 者之間最大值納入計算。第一種情況為 Mh[𝑃^𝐴, 𝑃^𝐵]，假設在此區間 沒有任何對在一起的鹼基對存在，Mh[𝑃^𝐴, 𝑃^𝐵]的計算方式如下：

M_h[𝑃^𝐴, 𝑃^𝐵] = w₃ × S(Loop(𝑃^𝐴), Loop(𝑃^𝐵)). (Figure 2-10)

Figure 2-10:M_h[𝑃^𝐴, 𝑃^𝐵]的示意圖。假設在被𝑃^𝐴與𝑃^𝐵包含的子序列區間沒有對在一起的鹼基對，因為不考慮鹼基對 insertion/deletion 的操 作，所以直接計算此區間子序列比對的分數 S(Loop(𝑃^𝐴),Loop(𝑃^𝐵)。

第二種情況為 M_l[𝑃^𝐴, 𝑃^𝐵]，假設在此區間有對在一起的鹼基對存在。假設有兩個鹼基對𝑃^𝐴與𝑃^𝐴^′且𝑃^𝐴^′ <I 𝑃^𝐴，則 Loop(𝑃^𝐴)可被分成三個部分（Figure 2-11）：（1）LoopL(𝑃^𝐴^′ , 𝑃^𝐴) = A[𝑃_𝑙^𝐴+1… 𝑃_𝑙^𝐴^′-1]。

（ 2 ） Loop(𝑃^𝐴^′) = A[𝑃_𝑙^𝐴^′+1…𝑃_𝑟^𝐴^′-1] 。（ 3 ） LoopR(𝑃^𝐴^′ , 𝑃^𝐴) = A[𝑃_𝑟^𝐴^′+1 …𝑃_𝑟^𝐴-1]。Ml[𝑃^𝐴, 𝑃^𝐵]的計算方法如下： Ml[𝑃^𝐴, 𝑃^𝐵] = maxi,j{Mc[𝑃_𝑖^𝐴, 𝑃_𝑗^𝐵] + w3 ×S(LoopR(𝑃_𝑖^𝐴, 𝑃^𝐴), LoopR(𝑃_𝑗^𝐵, 𝑃^𝐵))}. (Figure 2-12)

Figure 2-11: 𝑃^𝐴與𝑃^𝐴^′為巢狀關係，原本 Loop(𝑃^𝐴) 被分成三個部 分。右邊綠色部分為 LoopR(𝑃^𝐴^′ , 𝑃^𝐴)；左邊藍色部分為 LoopL(𝑃^𝐴^′ , 𝑃^𝐴)；中間紅色部分為 Loop(𝑃^𝐴^′)。

Figure 2-12: Ml[𝑃^𝐴, 𝑃^𝐵]的示意圖。分數由兩部分組成：（1）綠色 LoopR 區域的序列比對分數。（2）藍色 M_c[𝑃_𝑖^𝐴, 𝑃_𝑗^𝐵]部分。

Figure 2-13:Mc[𝑃_𝑖^𝐴, 𝑃_𝑗^𝐵]的示意圖。(a)~(d)依序為 Mc[𝑃_𝑖^𝐴, 𝑃_𝑗^𝐵]的第 1~4 種情況。

Mc[𝑃_𝑖^𝐴, 𝑃_𝑗^𝐵]的第一種狀況討論在𝑃^𝐴與𝑃^𝐵包含的區間只有𝑃_𝑖^𝐴與 𝑃_𝑗^𝐵有對在一起，於是在𝑃_𝑖^𝐴與𝑃_𝑗^𝐵左側（不包含𝑃_𝑖^𝐴與𝑃_𝑗^𝐵）計算序列比對的分數。另外，原本遞迴函式缺少𝑃_𝑖^𝐴與𝑃_𝑗^𝐵這個部分的最佳比對分數，我們在此將它修正。第二種情況討論在𝑃^𝐴與𝑃^𝐵包含的區間除𝑃_𝑖^𝐴 與𝑃_𝑗^𝐵有對在一起之外還有其他有對在一起的鹼基對。於是分數的計算可分成三個部分，第一個部分是𝑃_𝑥^𝐴與𝑃_𝑦^𝐵起以左的部分繼續往左討論，第二個部分是介於𝑃_𝑥^𝐴與𝑃_𝑦^𝐵、𝑃_𝑖^𝐴與𝑃_𝑗^𝐵之間的序列比對分數；第三個部份是𝑃_𝑖^𝐴與𝑃_𝑗^𝐵這個部分的最佳比對分數；第三種情況討論𝑃_𝑖^𝐴對到 𝑃_𝑗^𝐵左邊的𝑃_𝑦^𝐵的情況，在分數的計算上可以分成兩部分，第一個部分是𝑃_𝑖^𝐴與𝑃_𝑦^𝐵起以左的部分繼續往左討論，第二個部分是 Loop(𝑃_𝑦^𝐵 , 𝑃_𝑗^𝐵) 與從𝑃_𝑗^𝐵左端鹼基到右端鹼基這段序列對到另外一股的空格的分數，

在原本遞迴函式中空格長度少考慮了𝑃_𝑗^𝐵的左端與右端鹼基，我們在此將其修正補上長度 2 的空格；第四種情況跟第三種情況相反，是討論𝑃_𝑗^𝐵對到𝑃_𝑖^𝐴左邊的𝑃_𝑥^𝐴的情況，其中空格長度有錯誤的部分，我們亦將其修正。

Chapter 3 Results and Discussions

為了驗證將 RNAMotifScan 從使用一維序列修改成使用一維結構序列在辨識 RNA 結構模體上是否如我們預期的比原本的方法在執行效能上更有效率，我們實行兩組實驗來比較原本的方法與修改後的方法之間的差異。第一組實驗我們使用 RNAMotifScan 的論文中所記載的四個 RNA 結構模體：Kink-turn、Sarcin-ricin、C-loop 與 E-loop 當作 query，以及一個嗜鹽性古細菌（H. marismortui）的 23S rRNA

（1S72）當作目標結構[31]。第二個實驗中，我們使用了一個來自 H. m . rRNA 的 RNA 結構模體－α-loop 當作 query 在另一個嗜熱性

葛蘭氏陰性菌（T. thermophilus）的 30S rRNA（1N32）目標結構中 尋找相似的結構模體。我們將這些 query 與目標結構當作兩方法的輸入，並且將兩方法的輸出結果加以比較與分析。實驗結果討論以 FPR 0.01 為基準，FPR 數值小於 0.01 的結果為高分結果並討論之，或 FPR 雖大於 0.01 但 RNAMotifScan 文獻有記載的 RNAMotifScan 結果亦

列入討論範圍。

3.1 在 H. marismortui 23S rRNA 中辨識多股 RNA 結構模體

Kink-turn

Kink-turn 是一個非對稱 internal loop，（Figure 3-1a），結構的特點與命名由來為 Kink-turn 的骨架片段其中一股有大角度的彎曲

（Figure 3-1b）。Kink-turn 在 RNA 中是很重要的蛋白質辨識位置

（Figure 3-1c）[14]。在這個實驗中當作 query 的 Kink-turn 結構模體 來自 H. marismortui 的 23S rRNA [20]。

Figure 3-1:Kink-turn 結構模體。(a)query 的鹼基對示意圖。(b) query 的三級結構。(c) Kink-turn-蛋白質交互作用示意圖[14]。

我們的方法與 RNAMotifScan 個別都找到了其他文獻也記載的在 1S72 中的六個局部型 Kink-turn [14, 20, 22]。但是我們有四個結果

的 RMSD 比 RNAMotifScan 的結果小，比對的結果比較好（Table 3-1）。

Table 3-1: 我們的方法與 RNAMotifScan 分別以 Kink-turn 結構模體 在 1S72 中搜尋相似結構模體高分的結果比較。

由於 Kink-turn query 的出處即是 1S72，所以第一個搜尋結果便是 query 本身，RMSD 數值應該為 0。我們的結果是完全吻合的，但是 RNAMotifScan 結果的 RMSD 卻不為 0。我們分析發現，我們所做的實驗與 RNAMotifScan 文獻上所使用的 query 的鹼基對 pattern 是根據 Lescoute 於 2005 年所發表的文獻[20]， Lescoute 文獻中 Kink-turn 鹼基對 pattern 與 RNAVIEW 所註解的 pattern 一樣（Figure 3-2a），在我們所做的實驗中，目標結構的鹼基對是由 MC-Annotate 所註解（Figure 3-2b）。結果不同的鹼基對註解在這個區域出現一個鹼基對註解差異，由於 RNAMotifScan 的鹼基對在分數的計算上比重遠大於一維序列，所以 RNAMotifScan 選擇在 loop 區域插空格，使鹼基對能夠對起來（Figure 3-2c）。然而，我們的方法有三級結構資

RMSD FPR RMSD FPR

1 0 77-82/92-100 0.000 0.000 3.240 0.000

2 0 936-941/1025-1034 2.466 0.000 2.466 0.000

3 0 1338-1343/1311-1319 1.996 0.000 1.996 0.000

4 0 1212-1217/1146-1155 2.230 0.000 4.030 0.000

5 0 1587-1594/1600-1608 2.984 0.000 5.699 0.000

6 0 244-250/259-267 3.195 0.000 4.198 0.000

Our method RNAMotifScan No. Chain Location

訊的輔助，且三級結構資訊在結構的辨識比一維序列可靠，所以在分數計算上我們將三級結構的比重提高，使得縱使鹼基對的 pattern 有差異，但是我們三級結構資訊還是能夠反映出這個區域的結構是很相似的（Figure 3-2d）。

Figure 3-2:Kink-turn 第一個結果的比較。(a) query 的鹼基對。(b)目 標結構的鹼基對。(a)與(b)鹼基對的差異為(a)在 80-94 有一個 trans S-S 的鹼基對，(b)是在 80-95 有一個 trans S-H 的鹼基對。(c)我們的比對 結果。(d)RNAMotifScan 的比對結果。

在第四個結果中，目標結構有部分位於 stem 的鹼基對與 query 不像，RNAMotifScan 選擇在 query 插入較多空格，使 query stem 上的鹼基對能與 Figure 3-3b 上較外側的鹼基對對在一起。然而，我們的方法因為在此區域部分三級結構也是很像的，所以我們的方法沒有插入很多空格，捨棄掉部分鹼基對，但是比對的結果卻更好（Figure 3-3）。

Figure 3-3:Kink-turn 第四個結果的比較。(a)我們的方法比對結果。

(b) RNAMotifScan 的比對結果。(c)我們的方法三級結構比對結果。

(d) RNAMotifScan 三級結構比對結果。

第五與第六個結果，我們的方法比對的結果能比 RNAMotifScan 好的原因，也是因為目標結構與 query 的鹼基對有部分不像，

RNAMotifScan 選擇在 loop 區域插入許多空格。然而我們的方法，

有辦法反映出在 loop 區域三級結構的相似性，所以在整體比對上，

我們方法的表現較好（Figure 3-4 與 Figure 3-5）。在搜尋 Kink-turn 的結果顯示，我們的方法在因為註解上的差異或二級結構不像但三級結構像的例子能夠展現出其優勢。

Figure 3-4:Kink-turn 第五個結果的比較。(a)我們的方法比對結果。

(b) RNAMotifScan 的比對結果。(c)我們的方法三級結構比對結果。

(d) RNAMotifScan 三級結構比對結果。

Figure 3-5: Kink-turn 第六個結果的比較。(a)我們的方法比對結果。

(b) RNAMotifScan 的比對結果。(c)我們的方法三級結構比對結果。

(d) RNAMotifScan 三級結構比對結果。

Sarcin-ricin

Sarcin-ricin 結構模體在核醣體的大次單位中是具有高度保留性的，尤其是在其中一股骨架片段有一個「S」型的彎曲為特點（Figure 3-6 ）。 Sarcin-ricin 結構模體在蛋白質轉譯過程中會與延長因子

（elongation factor）作用而使轉譯持續進行[25]。但是 Sarcin-ricin 結構模體名稱的由來是因為它的功能會受到α-sarcin 與 ricin 兩個酵素的抑制[23, 31]。在這個實驗中當作 query 的 Sarcin-ricin 結構模體來 自 H. marismortui 的 23S rRNA（PDB id: 1JJ2）（Figure 3-6）[16]。

Figure 3-6: Sarcin-ricin 結構模體。(a) query 結構模體的鹼基對示意 圖。(b) query 結構模體的三級結構。

我們的方法一共搜尋到 10 個 FPR 數值小於 0.01 的結果，且在這十個結果中除第十個結果 RMSD 略高之外，其它的結果 RMSD 皆

在文檔中利用RNA二級與三級結構資訊識別RNA結構模體 (頁 29-0)