Chapter 2 Materials and Methods
2.3 應用 RNAMotifScan 的弧線註解序列比對演算法比較兩 RNA 結構之間
構之間的相似程度
RNAMotifScan 的核心是一個動態規劃(dynamic programming)
的序列比對演算法,其輸入為一對弧線註解序列。在方法中,一維 序列的計分方法與傳統序列比對方法相同,鹼基對部分仿照一維序 列設計一個操作的分數計算方法,加總各鹼基對操作的分數,最後 再 將 一 維 序 列 與 鹼 基 對 的 分 數 加 總 , 即 為 比 對 的 分 數 結 果 。 RNAMotifScan 便是尋找最高分比對結果的演算法。在搜尋方面,
RNAMotifScan 先將目標 RNA 結構依照 query 長度與鹼基對個數切 成片段,再將各片段逐一與 query 比對,同時計算每個比對結果的 p-value 與偽陽性比率(false positive rate,FPR)。在這個步驟,我們 修正 RNAMotifScan 演算法遞迴函式中三個未敘詳盡的部分並且修 改 RNAMotifScan 的程式碼,使其可以將兩弧線註解的一維結構序列 當作輸入,並且將可能的結果依照比對分數由高至低排序輸出。
對於每個鹼基對 P,將弧線左端與右端的鹼基分別命名為 Pl 與 Pr。假設 A = A[1]A[2]…A[α] 且 B = B[1]B[2]…B[β]代表含有 m 與 n 個鹼基對的弧線註解一維結構序列。此外,在進入遞迴函式前,兩
18
個序列個別在頭尾加上由 A[0]與 A[α+1]、B[0]與 B[β+1]構成的虛擬 鹼基對(dummy base pairs)。加上虛擬鹼基對可以減少遞迴函式起始 事件的討論件數。在演算法一開始先強迫兩個虛擬鹼基對對在一 起,接著在被這兩個鹼基對包含的序列區間做序列比對,比對結束 後再將對在一起的虛擬鹼基對去除,就能得到原本問題的解。令PA = 𝑃1𝐴 , 𝑃2𝐴 ,…, 𝑃𝑚+1𝐴 與 PB= 𝑃1𝐵 , 𝑃2𝐵 ,…, 𝑃𝑚+1𝐵 分別代表在 A 與 B 中 的鹼基對集合,鹼基對序號根據 Pr 右端鹼基位置由左至右遞增排 序,若兩鹼基對右端鹼基位置相同,則依據 Pl左端鹼基位置排序。
假設在同一序列中有兩鹼基對𝑃′ 與 P,此兩鹼基對之間的關係 可分為下列三種:(1)並列(juxtapose):𝑃′ 與 P 個別包含的序列 區間無重疊,且𝑃′在 P 左側,記為𝑃′<p P (Figure 2-6a)。(2)巢狀
(nested):𝑃′所包含的序列區間被 P 所包含的序列區間完全包含,
記為𝑃′<I P (Figure 2-6b)。(3)交叉(crossing):兩鹼基對個別包 含的序列區間部分重疊,又名假結(pseudoknot),但在此不考慮此 種情形(Figure 2-6c)。
Figure 2-6: 序列中之兩鹼基對關係。(a) 並列。(b) 巢狀。(c) 交叉。
19
在 RNAMotifScan 的方法中以(1)Loop(𝑃𝐴)表示位於 A[𝑃𝑙𝐴] 與 A[𝑃𝑟𝐴]之間的子序列,但不包含 A[𝑃𝑙𝐴] 與 A[𝑃𝑟𝐴]。(2)Loop(𝑃𝐴′, 𝑃𝐴) 表示介於兩個並列的鹼基對𝑃𝐴′與𝑃𝐴之間的子序列 A[𝑃𝑟𝐴′ + 1] … A[𝑃𝑙𝐴 − 1],如 Figure 2-7。在遞迴函式中所使用的分數符號定義如 下:(1) I(𝑃𝐴, 𝑃𝐵):兩鹼基對𝑃𝐴 與 𝑃𝐵對起來的分數。如果𝑃𝐴 與 𝑃𝐵是 同構鹼基對則為 match,分數較高;反之為 mismatch,分數較低。(2)
S(A[i…j],B[k…l]):在 A[i…j] 與 B[k…l]兩子序列間比對的分數。(3)
Gap(k):在序列中插入或刪除長度為 k 的子序列的扣分分數。(4)
M[𝑃𝐴, 𝑃𝐵]:令𝑃𝐴 與 𝑃𝐵對在一起,被𝑃𝐴 與 𝑃𝐵包含的序列區間的最 佳比對分數,若計算 M[𝑃𝑑𝑢𝑚𝑚𝑦𝐴 , 𝑃𝑑𝑢𝑚𝑚𝑦𝐵 ]則是完整 A 與 B 序列的最 佳比對分數。
Figure 2-7: 被鹼基對包含的子序列與介於兩並列鹼基對之間的子序 列。
在 RNAMotifScan 的方法中,必須計算所有 PA對 PB的 M[𝑃𝐴, 𝑃𝐵],且 PA ∈ PA、PB ∈ PB。M[𝑃𝐴, 𝑃𝐵]的計算方式如下:
20
M[𝑃𝐴, 𝑃𝐵] = Ms[𝑃𝐴, 𝑃𝐵] + max{Mh[𝑃𝐴, 𝑃𝐵], Ml[𝑃𝐴, 𝑃𝐵]}. (Figure 2-8)
Figure 2-8:M[𝑃𝐴, 𝑃𝐵]的示意圖。𝑃𝐴與𝑃𝐵以紅色弧線表示,𝑃𝐴與𝑃𝐵的 左右鹼基以藍紫色表示,中間綠色表示被𝑃𝐴與𝑃𝐵包含的子序列區 間。
其中 Ms[𝑃𝐴, 𝑃𝐵]是鹼基對𝑃𝐴與𝑃𝐵比對的分數,包含鹼基對是否為同 構鹼基對與組成𝑃𝐴與𝑃𝐵的左右端鹼基比對的分數,算法如下:
Ms[𝑃𝐴, 𝑃𝐵] =
w1 × I(𝑃𝐴, 𝑃𝐵)+w2 × (S(A[𝑃𝑙𝐴], B[𝑃𝑙𝐵]) + S(A[𝑃𝑟𝐴], B[𝑃𝑟𝐵])).
(Figure2-9)
Figure 2-9:Ms[𝑃𝐴, 𝑃𝐵]的示意圖。𝑃𝐴與𝑃𝐵以紅色弧線表示,計算鹼
21
基對比對分數 I(𝑃𝐴, 𝑃𝐵)。𝑃𝐴與𝑃𝐵的左右鹼基以藍紫色表示,計算𝑃𝑙𝐴 對𝑃𝑙𝐵、𝑃𝑟𝐴對𝑃𝑟𝐵序列比對分數。
被𝑃𝐴與𝑃𝐵包含的子序列區間的分數計算分成兩種情況討論,並取兩 者之間最大值納入計算。第一種情況為 Mh[𝑃𝐴, 𝑃𝐵],假設在此區間 沒有任何對在一起的鹼基對存在,Mh[𝑃𝐴, 𝑃𝐵]的計算方式如下:
Mh[𝑃𝐴, 𝑃𝐵] = w3 × S(Loop(𝑃𝐴), Loop(𝑃𝐵)). (Figure 2-10)
Figure 2-10:Mh[𝑃𝐴, 𝑃𝐵]的示意圖。假設在被𝑃𝐴與𝑃𝐵包含的子序列區 間沒有對在一起的鹼基對,因為不考慮鹼基對 insertion/deletion 的操 作,所以直接計算此區間子序列比對的分數 S(Loop(𝑃𝐴),Loop(𝑃𝐵)。
第二種情況為 Ml[𝑃𝐴, 𝑃𝐵],假設在此區間有對在一起的鹼基對 存在。假設有兩個鹼基對𝑃𝐴與𝑃𝐴′且𝑃𝐴′ <I 𝑃𝐴,則 Loop(𝑃𝐴)可被分 成三個部分(Figure 2-11):(1)LoopL(𝑃𝐴′ , 𝑃𝐴) = A[𝑃𝑙𝐴+1… 𝑃𝑙𝐴′-1]。
22
( 2 ) Loop(𝑃𝐴′) = A[𝑃𝑙𝐴′+1…𝑃𝑟𝐴′-1] 。( 3 ) LoopR(𝑃𝐴′ , 𝑃𝐴) = A[𝑃𝑟𝐴′+1 …𝑃𝑟𝐴-1]。Ml[𝑃𝐴, 𝑃𝐵]的計算方法如下: Ml[𝑃𝐴, 𝑃𝐵] = maxi,j{Mc[𝑃𝑖𝐴, 𝑃𝑗𝐵] + w3 ×S(LoopR(𝑃𝑖𝐴, 𝑃𝐴), LoopR(𝑃𝑗𝐵, 𝑃𝐵))}. (Figure 2-12)
Figure 2-11: 𝑃𝐴與𝑃𝐴′為巢狀關係,原本 Loop(𝑃𝐴) 被分成三個部 分。右邊綠色部分為 LoopR(𝑃𝐴′ , 𝑃𝐴);左邊藍色部分為 LoopL(𝑃𝐴′ , 𝑃𝐴);中間紅色部分為 Loop(𝑃𝐴′)。
Figure 2-12: Ml[𝑃𝐴, 𝑃𝐵]的示意圖。分數由兩部分組成:(1)綠色 LoopR 區域的序列比對分數。(2)藍色 Mc[𝑃𝑖𝐴, 𝑃𝑗𝐵]部分。
23
24
Figure 2-13:Mc[𝑃𝑖𝐴, 𝑃𝑗𝐵]的示意圖。(a)~(d)依序為 Mc[𝑃𝑖𝐴, 𝑃𝑗𝐵]的第 1~4 種情況。
Mc[𝑃𝑖𝐴, 𝑃𝑗𝐵]的第一種狀況討論在𝑃𝐴與𝑃𝐵包含的區間只有𝑃𝑖𝐴與 𝑃𝑗𝐵有對在一起,於是在𝑃𝑖𝐴與𝑃𝑗𝐵左側(不包含𝑃𝑖𝐴與𝑃𝑗𝐵)計算序列比 對的分數。另外,原本遞迴函式缺少𝑃𝑖𝐴與𝑃𝑗𝐵這個部分的最佳比對分 數,我們在此將它修正。第二種情況討論在𝑃𝐴與𝑃𝐵包含的區間除𝑃𝑖𝐴 與𝑃𝑗𝐵有對在一起之外還有其他有對在一起的鹼基對。於是分數的計 算可分成三個部分,第一個部分是𝑃𝑥𝐴與𝑃𝑦𝐵起以左的部分繼續往左討 論,第二個部分是介於𝑃𝑥𝐴與𝑃𝑦𝐵、𝑃𝑖𝐴與𝑃𝑗𝐵之間的序列比對分數;第三 個部份是𝑃𝑖𝐴與𝑃𝑗𝐵這個部分的最佳比對分數;第三種情況討論𝑃𝑖𝐴對到 𝑃𝑗𝐵左邊的𝑃𝑦𝐵的情況,在分數的計算上可以分成兩部分,第一個部分 是𝑃𝑖𝐴與𝑃𝑦𝐵起以左的部分繼續往左討論,第二個部分是 Loop(𝑃𝑦𝐵 , 𝑃𝑗𝐵) 與從𝑃𝑗𝐵左端鹼基到右端鹼基這段序列對到另外一股的空格的分數,
在原本遞迴函式中空格長度少考慮了𝑃𝑗𝐵的左端與右端鹼基,我們在 此將其修正補上長度 2 的空格;第四種情況跟第三種情況相反,是 討論𝑃𝑗𝐵對到𝑃𝑖𝐴左邊的𝑃𝑥𝐴的情況,其中空格長度有錯誤的部分,我們 亦將其修正。
25
Chapter 3
Results and Discussions
為了驗證將 RNAMotifScan 從使用一維序列修改成使用一維結 構序列在辨識 RNA 結構模體上是否如我們預期的比原本的方法在 執行效能上更有效率,我們實行兩組實驗來比較原本的方法與修改 後的方法之間的差異。第一組實驗我們使用 RNAMotifScan 的論文中 所記載的四個 RNA 結構模體:Kink-turn、Sarcin-ricin、C-loop 與 E-loop 當作 query,以及一個嗜鹽性古細菌(H. marismortui)的 23S rRNA
(1S72)當作目標結構[31]。第二個實驗中,我們使用了一個來自 H. m . rRNA 的 RNA 結構模體-α-loop 當作 query 在另一個嗜熱性
葛蘭氏陰性菌(T. thermophilus)的 30S rRNA(1N32)目標結構中 尋找相似的結構模體。我們將這些 query 與目標結構當作兩方法的輸 入,並且將兩方法的輸出結果加以比較與分析。實驗結果討論以 FPR 0.01 為基準,FPR 數值小於 0.01 的結果為高分結果並討論之,或 FPR 雖大於 0.01 但 RNAMotifScan 文獻有記載的 RNAMotifScan 結果亦
26
列入討論範圍。
3.1 在 H. marismortui 23S rRNA 中辨識多股 RNA 結構模體
Kink-turn
Kink-turn 是一個非對稱 internal loop,(Figure 3-1a),結構的特 點與命名由來為 Kink-turn 的骨架片段其中一股有大角度的彎曲
(Figure 3-1b)。Kink-turn 在 RNA 中是很重要的蛋白質辨識位置
(Figure 3-1c)[14]。在這個實驗中當作 query 的 Kink-turn 結構模體 來自 H. marismortui 的 23S rRNA [20]。
Figure 3-1:Kink-turn 結構模體。(a)query 的鹼基對示意圖。(b) query 的三級結構。(c) Kink-turn-蛋白質交互作用示意圖[14]。
我們的方法與 RNAMotifScan 個別都找到了其他文獻也記載的 在 1S72 中的六個局部型 Kink-turn [14, 20, 22]。但是我們有四個結果
27
的 RMSD 比 RNAMotifScan 的結果小,比對的結果比較好(Table 3-1)。
Table 3-1: 我們的方法與 RNAMotifScan 分別以 Kink-turn 結構模體 在 1S72 中搜尋相似結構模體高分的結果比較。
由於 Kink-turn query 的出處即是 1S72,所以第一個搜尋結果便 是 query 本身,RMSD 數值應該為 0。我們的結果是完全吻合的,但 是 RNAMotifScan 結果的 RMSD 卻不為 0。我們分析發現,我們所 做的實驗與 RNAMotifScan 文獻上所使用的 query 的鹼基對 pattern 是根據 Lescoute 於 2005 年所發表的文獻[20], Lescoute 文獻中 Kink-turn 鹼基對 pattern 與 RNAVIEW 所註解的 pattern 一樣(Figure 3-2a),在我們所做的實驗中,目標結構的鹼基對是由 MC-Annotate 所註解(Figure 3-2b)。結果不同的鹼基對註解在這個區域出現一個 鹼基對註解差異,由於 RNAMotifScan 的鹼基對在分數的計算上比重 遠大於一維序列,所以 RNAMotifScan 選擇在 loop 區域插空格,使 鹼基對能夠對起來(Figure 3-2c)。然而,我們的方法有三級結構資
RMSD FPR RMSD FPR
1 0 77-82/92-100 0.000 0.000 3.240 0.000
2 0 936-941/1025-1034 2.466 0.000 2.466 0.000
3 0 1338-1343/1311-1319 1.996 0.000 1.996 0.000
4 0 1212-1217/1146-1155 2.230 0.000 4.030 0.000
5 0 1587-1594/1600-1608 2.984 0.000 5.699 0.000
6 0 244-250/259-267 3.195 0.000 4.198 0.000
Our method RNAMotifScan No. Chain Location
28
訊的輔助,且三級結構資訊在結構的辨識比一維序列可靠,所以在 分數計算上我們將三級結構的比重提高,使得縱使鹼基對的 pattern 有差異,但是我們三級結構資訊還是能夠反映出這個區域的結構是 很相似的(Figure 3-2d)。
Figure 3-2:Kink-turn 第一個結果的比較。(a) query 的鹼基對。(b)目 標結構的鹼基對。(a)與(b)鹼基對的差異為(a)在 80-94 有一個 trans S-S 的鹼基對,(b)是在 80-95 有一個 trans S-H 的鹼基對。(c)我們的比對 結果。(d)RNAMotifScan 的比對結果。
在第四個結果中,目標結構有部分位於 stem 的鹼基對與 query 不像,RNAMotifScan 選擇在 query 插入較多空格,使 query stem 上 的鹼基對能與 Figure 3-3b 上較外側的鹼基對對在一起。然而,我們 的方法因為在此區域部分三級結構也是很像的,所以我們的方法沒 有插入很多空格,捨棄掉部分鹼基對,但是比對的結果卻更好(Figure 3-3)。
29
Figure 3-3:Kink-turn 第四個結果的比較。(a)我們的方法比對結果。
(b) RNAMotifScan 的比對結果。(c)我們的方法三級結構比對結果。
(d) RNAMotifScan 三級結構比對結果。
第五與第六個結果,我們的方法比對的結果能比 RNAMotifScan 好的原因,也是因為目標結構與 query 的鹼基對有部分不像,
RNAMotifScan 選擇在 loop 區域插入許多空格。然而我們的方法,
有辦法反映出在 loop 區域三級結構的相似性,所以在整體比對上,
我們方法的表現較好(Figure 3-4 與 Figure 3-5)。在搜尋 Kink-turn 的結果顯示,我們的方法在因為註解上的差異或二級結構不像但三 級結構像的例子能夠展現出其優勢。
Figure 3-4:Kink-turn 第五個結果的比較。(a)我們的方法比對結果。
30
(b) RNAMotifScan 的比對結果。(c)我們的方法三級結構比對結果。
(d) RNAMotifScan 三級結構比對結果。
Figure 3-5: Kink-turn 第六個結果的比較。(a)我們的方法比對結果。
(b) RNAMotifScan 的比對結果。(c)我們的方法三級結構比對結果。
(d) RNAMotifScan 三級結構比對結果。
Sarcin-ricin
Sarcin-ricin 結構模體在核醣體的大次單位中是具有高度保留性 的,尤其是在其中一股骨架片段有一個「S」型的彎曲為特點(Figure 3-6 )。 Sarcin-ricin 結 構 模 體 在 蛋 白 質 轉 譯 過 程 中 會 與 延 長 因 子
(elongation factor)作用而使轉譯持續進行[25]。但是 Sarcin-ricin 結 構模體名稱的由來是因為它的功能會受到α-sarcin 與 ricin 兩個酵素 的抑制[23, 31]。在這個實驗中當作 query 的 Sarcin-ricin 結構模體來 自 H. marismortui 的 23S rRNA(PDB id: 1JJ2)(Figure 3-6)[16]。
31
Figure 3-6: Sarcin-ricin 結構模體。(a) query 結構模體的鹼基對示意 圖。(b) query 結構模體的三級結構。
我們的方法一共搜尋到 10 個 FPR 數值小於 0.01 的結果,且在 這十個結果中除第十個結果 RMSD 略高之外,其它的結果 RMSD 皆
我們的方法一共搜尋到 10 個 FPR 數值小於 0.01 的結果,且在 這十個結果中除第十個結果 RMSD 略高之外,其它的結果 RMSD 皆