• 沒有找到結果。

應用 RNAMotifScan 的弧線註解序列比對演算法比較兩 RNA 結構之間

Chapter 2 Materials and Methods

2.3 應用 RNAMotifScan 的弧線註解序列比對演算法比較兩 RNA 結構之間

構之間的相似程度

RNAMotifScan 的核心是一個動態規劃(dynamic programming)

的序列比對演算法,其輸入為一對弧線註解序列。在方法中,一維 序列的計分方法與傳統序列比對方法相同,鹼基對部分仿照一維序 列設計一個操作的分數計算方法,加總各鹼基對操作的分數,最後 再 將 一 維 序 列 與 鹼 基 對 的 分 數 加 總 , 即 為 比 對 的 分 數 結 果 。 RNAMotifScan 便是尋找最高分比對結果的演算法。在搜尋方面,

RNAMotifScan 先將目標 RNA 結構依照 query 長度與鹼基對個數切 成片段,再將各片段逐一與 query 比對,同時計算每個比對結果的 p-value 與偽陽性比率(false positive rate,FPR)。在這個步驟,我們 修正 RNAMotifScan 演算法遞迴函式中三個未敘詳盡的部分並且修 改 RNAMotifScan 的程式碼,使其可以將兩弧線註解的一維結構序列 當作輸入,並且將可能的結果依照比對分數由高至低排序輸出。

對於每個鹼基對 P,將弧線左端與右端的鹼基分別命名為 PlPr。假設 A = A[1]A[2]…A[α] 且 B = B[1]B[2]…B[β]代表含有 m 與 n 個鹼基對的弧線註解一維結構序列。此外,在進入遞迴函式前,兩

18

個序列個別在頭尾加上由 A[0]與 A[α+1]、B[0]與 B[β+1]構成的虛擬 鹼基對(dummy base pairs)。加上虛擬鹼基對可以減少遞迴函式起始 事件的討論件數。在演算法一開始先強迫兩個虛擬鹼基對對在一 起,接著在被這兩個鹼基對包含的序列區間做序列比對,比對結束 後再將對在一起的虛擬鹼基對去除,就能得到原本問題的解。令PA = 𝑃1𝐴 , 𝑃2𝐴 ,…, 𝑃𝑚+1𝐴 與 PB= 𝑃1𝐵 , 𝑃2𝐵 ,…, 𝑃𝑚+1𝐵 分別代表在 A 與 B 中 的鹼基對集合,鹼基對序號根據 Pr 右端鹼基位置由左至右遞增排 序,若兩鹼基對右端鹼基位置相同,則依據 Pl左端鹼基位置排序。

假設在同一序列中有兩鹼基對𝑃 與 P,此兩鹼基對之間的關係 可分為下列三種:(1)並列(juxtapose):𝑃 與 P 個別包含的序列 區間無重疊,且𝑃在 P 左側,記為𝑃<p P (Figure 2-6a)。(2)巢狀

(nested):𝑃所包含的序列區間被 P 所包含的序列區間完全包含,

記為𝑃<I P (Figure 2-6b)。(3)交叉(crossing):兩鹼基對個別包 含的序列區間部分重疊,又名假結(pseudoknot),但在此不考慮此 種情形(Figure 2-6c)。

Figure 2-6: 序列中之兩鹼基對關係。(a) 並列。(b) 巢狀。(c) 交叉。

19

在 RNAMotifScan 的方法中以(1)Loop(𝑃𝐴)表示位於 A[𝑃𝑙𝐴] 與 A[𝑃𝑟𝐴]之間的子序列,但不包含 A[𝑃𝑙𝐴] 與 A[𝑃𝑟𝐴]。(2)Loop(𝑃𝐴, 𝑃𝐴) 表示介於兩個並列的鹼基對𝑃𝐴與𝑃𝐴之間的子序列 A[𝑃𝑟𝐴 + 1] … A[𝑃𝑙𝐴 − 1],如 Figure 2-7。在遞迴函式中所使用的分數符號定義如 下:(1) I(𝑃𝐴, 𝑃𝐵):兩鹼基對𝑃𝐴 與 𝑃𝐵對起來的分數。如果𝑃𝐴 與 𝑃𝐵是 同構鹼基對則為 match,分數較高;反之為 mismatch,分數較低。(2)

S(A[i…j],B[k…l]):在 A[i…j] 與 B[k…l]兩子序列間比對的分數。(3)

Gap(k):在序列中插入或刪除長度為 k 的子序列的扣分分數。(4)

M[𝑃𝐴, 𝑃𝐵]:令𝑃𝐴 與 𝑃𝐵對在一起,被𝑃𝐴 與 𝑃𝐵包含的序列區間的最 佳比對分數,若計算 M[𝑃𝑑𝑢𝑚𝑚𝑦𝐴 , 𝑃𝑑𝑢𝑚𝑚𝑦𝐵 ]則是完整 A 與 B 序列的最 佳比對分數。

Figure 2-7: 被鹼基對包含的子序列與介於兩並列鹼基對之間的子序 列。

在 RNAMotifScan 的方法中,必須計算所有 PA對 PB的 M[𝑃𝐴, 𝑃𝐵],且 PA ∈ PA、PB ∈ PB。M[𝑃𝐴, 𝑃𝐵]的計算方式如下:

20

M[𝑃𝐴, 𝑃𝐵] = Ms[𝑃𝐴, 𝑃𝐵] + max{Mh[𝑃𝐴, 𝑃𝐵], Ml[𝑃𝐴, 𝑃𝐵]}. (Figure 2-8)

Figure 2-8:M[𝑃𝐴, 𝑃𝐵]的示意圖。𝑃𝐴與𝑃𝐵以紅色弧線表示,𝑃𝐴與𝑃𝐵的 左右鹼基以藍紫色表示,中間綠色表示被𝑃𝐴與𝑃𝐵包含的子序列區 間。

其中 Ms[𝑃𝐴, 𝑃𝐵]是鹼基對𝑃𝐴與𝑃𝐵比對的分數,包含鹼基對是否為同 構鹼基對與組成𝑃𝐴與𝑃𝐵的左右端鹼基比對的分數,算法如下:

Ms[𝑃𝐴, 𝑃𝐵] =

w1 × I(𝑃𝐴, 𝑃𝐵)+w2 × (S(A[𝑃𝑙𝐴], B[𝑃𝑙𝐵]) + S(A[𝑃𝑟𝐴], B[𝑃𝑟𝐵])).

(Figure2-9)

Figure 2-9:Ms[𝑃𝐴, 𝑃𝐵]的示意圖。𝑃𝐴與𝑃𝐵以紅色弧線表示,計算鹼

21

基對比對分數 I(𝑃𝐴, 𝑃𝐵)。𝑃𝐴與𝑃𝐵的左右鹼基以藍紫色表示,計算𝑃𝑙𝐴 對𝑃𝑙𝐵、𝑃𝑟𝐴對𝑃𝑟𝐵序列比對分數。

被𝑃𝐴與𝑃𝐵包含的子序列區間的分數計算分成兩種情況討論,並取兩 者之間最大值納入計算。第一種情況為 Mh[𝑃𝐴, 𝑃𝐵],假設在此區間 沒有任何對在一起的鹼基對存在,Mh[𝑃𝐴, 𝑃𝐵]的計算方式如下:

Mh[𝑃𝐴, 𝑃𝐵] = w3 × S(Loop(𝑃𝐴), Loop(𝑃𝐵)). (Figure 2-10)

Figure 2-10:Mh[𝑃𝐴, 𝑃𝐵]的示意圖。假設在被𝑃𝐴與𝑃𝐵包含的子序列區 間沒有對在一起的鹼基對,因為不考慮鹼基對 insertion/deletion 的操 作,所以直接計算此區間子序列比對的分數 S(Loop(𝑃𝐴),Loop(𝑃𝐵)。

第二種情況為 Ml[𝑃𝐴, 𝑃𝐵],假設在此區間有對在一起的鹼基對 存在。假設有兩個鹼基對𝑃𝐴與𝑃𝐴且𝑃𝐴 <I 𝑃𝐴,則 Loop(𝑃𝐴)可被分 成三個部分(Figure 2-11):(1)LoopL(𝑃𝐴 , 𝑃𝐴) = A[𝑃𝑙𝐴+1… 𝑃𝑙𝐴-1]。

22

( 2 ) Loop(𝑃𝐴) = A[𝑃𝑙𝐴+1…𝑃𝑟𝐴-1] 。( 3 ) LoopR(𝑃𝐴 , 𝑃𝐴) = A[𝑃𝑟𝐴+1 …𝑃𝑟𝐴-1]。Ml[𝑃𝐴, 𝑃𝐵]的計算方法如下: Ml[𝑃𝐴, 𝑃𝐵] = maxi,j{Mc[𝑃𝑖𝐴, 𝑃𝑗𝐵] + w3 ×S(LoopR(𝑃𝑖𝐴, 𝑃𝐴), LoopR(𝑃𝑗𝐵, 𝑃𝐵))}. (Figure 2-12)

Figure 2-11: 𝑃𝐴與𝑃𝐴為巢狀關係,原本 Loop(𝑃𝐴) 被分成三個部 分。右邊綠色部分為 LoopR(𝑃𝐴 , 𝑃𝐴);左邊藍色部分為 LoopL(𝑃𝐴 , 𝑃𝐴);中間紅色部分為 Loop(𝑃𝐴)。

Figure 2-12: Ml[𝑃𝐴, 𝑃𝐵]的示意圖。分數由兩部分組成:(1)綠色 LoopR 區域的序列比對分數。(2)藍色 Mc[𝑃𝑖𝐴, 𝑃𝑗𝐵]部分。

23

24

Figure 2-13:Mc[𝑃𝑖𝐴, 𝑃𝑗𝐵]的示意圖。(a)~(d)依序為 Mc[𝑃𝑖𝐴, 𝑃𝑗𝐵]的第 1~4 種情況。

Mc[𝑃𝑖𝐴, 𝑃𝑗𝐵]的第一種狀況討論在𝑃𝐴與𝑃𝐵包含的區間只有𝑃𝑖𝐴與 𝑃𝑗𝐵有對在一起,於是在𝑃𝑖𝐴與𝑃𝑗𝐵左側(不包含𝑃𝑖𝐴與𝑃𝑗𝐵)計算序列比 對的分數。另外,原本遞迴函式缺少𝑃𝑖𝐴與𝑃𝑗𝐵這個部分的最佳比對分 數,我們在此將它修正。第二種情況討論在𝑃𝐴與𝑃𝐵包含的區間除𝑃𝑖𝐴 與𝑃𝑗𝐵有對在一起之外還有其他有對在一起的鹼基對。於是分數的計 算可分成三個部分,第一個部分是𝑃𝑥𝐴與𝑃𝑦𝐵起以左的部分繼續往左討 論,第二個部分是介於𝑃𝑥𝐴與𝑃𝑦𝐵、𝑃𝑖𝐴與𝑃𝑗𝐵之間的序列比對分數;第三 個部份是𝑃𝑖𝐴與𝑃𝑗𝐵這個部分的最佳比對分數;第三種情況討論𝑃𝑖𝐴對到 𝑃𝑗𝐵左邊的𝑃𝑦𝐵的情況,在分數的計算上可以分成兩部分,第一個部分 是𝑃𝑖𝐴與𝑃𝑦𝐵起以左的部分繼續往左討論,第二個部分是 Loop(𝑃𝑦𝐵 , 𝑃𝑗𝐵) 與從𝑃𝑗𝐵左端鹼基到右端鹼基這段序列對到另外一股的空格的分數,

在原本遞迴函式中空格長度少考慮了𝑃𝑗𝐵的左端與右端鹼基,我們在 此將其修正補上長度 2 的空格;第四種情況跟第三種情況相反,是 討論𝑃𝑗𝐵對到𝑃𝑖𝐴左邊的𝑃𝑥𝐴的情況,其中空格長度有錯誤的部分,我們 亦將其修正。

25

Chapter 3

Results and Discussions

為了驗證將 RNAMotifScan 從使用一維序列修改成使用一維結 構序列在辨識 RNA 結構模體上是否如我們預期的比原本的方法在 執行效能上更有效率,我們實行兩組實驗來比較原本的方法與修改 後的方法之間的差異。第一組實驗我們使用 RNAMotifScan 的論文中 所記載的四個 RNA 結構模體:Kink-turn、Sarcin-ricin、C-loop 與 E-loop 當作 query,以及一個嗜鹽性古細菌(H. marismortui)的 23S rRNA

(1S72)當作目標結構[31]。第二個實驗中,我們使用了一個來自 H. m . rRNA 的 RNA 結構模體-α-loop 當作 query 在另一個嗜熱性

葛蘭氏陰性菌(T. thermophilus)的 30S rRNA(1N32)目標結構中 尋找相似的結構模體。我們將這些 query 與目標結構當作兩方法的輸 入,並且將兩方法的輸出結果加以比較與分析。實驗結果討論以 FPR 0.01 為基準,FPR 數值小於 0.01 的結果為高分結果並討論之,或 FPR 雖大於 0.01 但 RNAMotifScan 文獻有記載的 RNAMotifScan 結果亦

26

列入討論範圍。

3.1 在 H. marismortui 23S rRNA 中辨識多股 RNA 結構模體

Kink-turn

Kink-turn 是一個非對稱 internal loop,(Figure 3-1a),結構的特 點與命名由來為 Kink-turn 的骨架片段其中一股有大角度的彎曲

(Figure 3-1b)。Kink-turn 在 RNA 中是很重要的蛋白質辨識位置

(Figure 3-1c)[14]。在這個實驗中當作 query 的 Kink-turn 結構模體 來自 H. marismortui 的 23S rRNA [20]。

Figure 3-1:Kink-turn 結構模體。(a)query 的鹼基對示意圖。(b) query 的三級結構。(c) Kink-turn-蛋白質交互作用示意圖[14]。

我們的方法與 RNAMotifScan 個別都找到了其他文獻也記載的 在 1S72 中的六個局部型 Kink-turn [14, 20, 22]。但是我們有四個結果

27

的 RMSD 比 RNAMotifScan 的結果小,比對的結果比較好(Table 3-1)。

Table 3-1: 我們的方法與 RNAMotifScan 分別以 Kink-turn 結構模體 在 1S72 中搜尋相似結構模體高分的結果比較。

由於 Kink-turn query 的出處即是 1S72,所以第一個搜尋結果便 是 query 本身,RMSD 數值應該為 0。我們的結果是完全吻合的,但 是 RNAMotifScan 結果的 RMSD 卻不為 0。我們分析發現,我們所 做的實驗與 RNAMotifScan 文獻上所使用的 query 的鹼基對 pattern 是根據 Lescoute 於 2005 年所發表的文獻[20], Lescoute 文獻中 Kink-turn 鹼基對 pattern 與 RNAVIEW 所註解的 pattern 一樣(Figure 3-2a),在我們所做的實驗中,目標結構的鹼基對是由 MC-Annotate 所註解(Figure 3-2b)。結果不同的鹼基對註解在這個區域出現一個 鹼基對註解差異,由於 RNAMotifScan 的鹼基對在分數的計算上比重 遠大於一維序列,所以 RNAMotifScan 選擇在 loop 區域插空格,使 鹼基對能夠對起來(Figure 3-2c)。然而,我們的方法有三級結構資

RMSD FPR RMSD FPR

1 0 77-82/92-100 0.000 0.000 3.240 0.000

2 0 936-941/1025-1034 2.466 0.000 2.466 0.000

3 0 1338-1343/1311-1319 1.996 0.000 1.996 0.000

4 0 1212-1217/1146-1155 2.230 0.000 4.030 0.000

5 0 1587-1594/1600-1608 2.984 0.000 5.699 0.000

6 0 244-250/259-267 3.195 0.000 4.198 0.000

Our method RNAMotifScan No. Chain Location

28

訊的輔助,且三級結構資訊在結構的辨識比一維序列可靠,所以在 分數計算上我們將三級結構的比重提高,使得縱使鹼基對的 pattern 有差異,但是我們三級結構資訊還是能夠反映出這個區域的結構是 很相似的(Figure 3-2d)。

Figure 3-2:Kink-turn 第一個結果的比較。(a) query 的鹼基對。(b)目 標結構的鹼基對。(a)與(b)鹼基對的差異為(a)在 80-94 有一個 trans S-S 的鹼基對,(b)是在 80-95 有一個 trans S-H 的鹼基對。(c)我們的比對 結果。(d)RNAMotifScan 的比對結果。

在第四個結果中,目標結構有部分位於 stem 的鹼基對與 query 不像,RNAMotifScan 選擇在 query 插入較多空格,使 query stem 上 的鹼基對能與 Figure 3-3b 上較外側的鹼基對對在一起。然而,我們 的方法因為在此區域部分三級結構也是很像的,所以我們的方法沒 有插入很多空格,捨棄掉部分鹼基對,但是比對的結果卻更好(Figure 3-3)。

29

Figure 3-3:Kink-turn 第四個結果的比較。(a)我們的方法比對結果。

(b) RNAMotifScan 的比對結果。(c)我們的方法三級結構比對結果。

(d) RNAMotifScan 三級結構比對結果。

第五與第六個結果,我們的方法比對的結果能比 RNAMotifScan 好的原因,也是因為目標結構與 query 的鹼基對有部分不像,

RNAMotifScan 選擇在 loop 區域插入許多空格。然而我們的方法,

有辦法反映出在 loop 區域三級結構的相似性,所以在整體比對上,

我們方法的表現較好(Figure 3-4 與 Figure 3-5)。在搜尋 Kink-turn 的結果顯示,我們的方法在因為註解上的差異或二級結構不像但三 級結構像的例子能夠展現出其優勢。

Figure 3-4:Kink-turn 第五個結果的比較。(a)我們的方法比對結果。

30

(b) RNAMotifScan 的比對結果。(c)我們的方法三級結構比對結果。

(d) RNAMotifScan 三級結構比對結果。

Figure 3-5: Kink-turn 第六個結果的比較。(a)我們的方法比對結果。

(b) RNAMotifScan 的比對結果。(c)我們的方法三級結構比對結果。

(d) RNAMotifScan 三級結構比對結果。

Sarcin-ricin

Sarcin-ricin 結構模體在核醣體的大次單位中是具有高度保留性 的,尤其是在其中一股骨架片段有一個「S」型的彎曲為特點(Figure 3-6 )。 Sarcin-ricin 結 構 模 體 在 蛋 白 質 轉 譯 過 程 中 會 與 延 長 因 子

(elongation factor)作用而使轉譯持續進行[25]。但是 Sarcin-ricin 結 構模體名稱的由來是因為它的功能會受到α-sarcin 與 ricin 兩個酵素 的抑制[23, 31]。在這個實驗中當作 query 的 Sarcin-ricin 結構模體來 自 H. marismortui 的 23S rRNA(PDB id: 1JJ2)(Figure 3-6)[16]。

31

Figure 3-6: Sarcin-ricin 結構模體。(a) query 結構模體的鹼基對示意 圖。(b) query 結構模體的三級結構。

我們的方法一共搜尋到 10 個 FPR 數值小於 0.01 的結果,且在 這十個結果中除第十個結果 RMSD 略高之外,其它的結果 RMSD 皆

我們的方法一共搜尋到 10 個 FPR 數值小於 0.01 的結果,且在 這十個結果中除第十個結果 RMSD 略高之外,其它的結果 RMSD 皆

相關文件