• 沒有找到結果。

第四章 研究方法

4.4 架構說明

4.4.5 後置處理

減少錯誤的正預測

本研究承襲了 GPRM 所提出的二級結構表示法,除了描述莖幹的相對位 置外,還有每段莖幹與環線的長度範圍(請參照 4.2.1 核醣核酸結構描述語 言)。根據 GPRM 的基本假設,共同結構元在每一條核醣核酸中,只會出現一 次。除了正確答案外,其它符合結構限制條件的位置,則稱為錯誤的正預測 (false positive)。

雖然核醣核酸的共同二級結構長相會有些微的差異,即某莖幹或某環線 的長度不相同,但大致上,長度的變化量應該是很小的。在本篇論文中,將 莖幹與環線的變化量總合定義為『變易度』(flexibility)。例如,以下為 GPRM 所預測出來的 soil-borne mosaic virus 家族的共同二級結構。

圖表 16.

其中第一個莖幹的長度最小是 3,最大是 6;而第一個環線的長度範圍是 0 到 3。則此二級結構的『變易度』即為

一個二級結構若堪稱是一個家族的識別標記,則在每一條核醣核酸上的 長相應該非常一致。故它的『變易度』應該非常地小。我們希望再進一步調 整二級結構元,使得它的『變易度』是所有可能的結構元中最小的。在調整

1 2 3 4

[3,6] (0,3) [4,10] (0,1) [3,6] (0,6) [4,10]

(6-3)+(3-0)+(10-4)+(1-0)+(6-3)+(6-0)+(10-4) = 28。

過程中須滿足的條件是,調整後的共同結構元,依然必須出現在每一個家族 成員中。由於莖幹與環線長度範圍限制更嚴格,便可濾掉一些錯誤的結果。

本研究利用 Branch and Bound 演算法(Narendra and Fukunaga 1977) 來搜尋『變易度』最小的二級結構元。這是一種深度優先(depth-first)的 搜尋方式,逐一地整合每條核醣核酸的一個答案,直到全部家族成員都附加 進來。此時便產生一個可能的二級結構元,比較此結構的『變易度』,若是 小於目前為止最小變易度的結構元,則更新結構元與最小變易度的結構記錄 保持者。遇到相等的情況,便取莖幹總長度最大者。例如

結構記錄保持者:[3,5](2,3)[3,5],變易度 = 5,莖幹總長 = 10 新的二級結構元:[4,6](1,2)[4,6],變易度 = 5,莖幹總長 = 12 以這兩個結構而言,最後會更新結構記錄。這是由於莖幹愈長者,結構愈穩 定,也更有可能是家族結構代表。

為了減短搜尋時間,以下任一種情況發生時,便可省去之後的探索動 作,嘗試新的搜尋方向:

(1)目前的二級結構元變易度比結構記錄中的來得大。

每整合一條核醣核酸的答案後,便要重新計算此時的二級結構變易度。

若大於結構記錄中的變易度,因為不論再怎麼結合其它成員的答案,都 不可能找到一個變易度更小的結構,故可放棄這個探查方向。

(2)目前的二級結構元會引導搜尋動作至重覆的探查路線。

以下我們舉例說明此種情況。為了行文方便,估且將核醣核酸編號為 1,

2,3。在每條核醣核酸中,亦標示出所有符合結構限制條件的答案。

圖表 17. Branch and Bound 搜尋路線

以此例子來說,我們尋找目標結構元的第一步驟會整合核醣核酸 1 的答 案 1 與核醣核酸 2 的答案 1,之後可得到一個二級結構元 [4,6](1,1)[4,6]。 再往下一層的搜尋路徑是,整合此結構元與核醣核酸 3 的答案 1,最後得到 結構元[3,6](1,3)[3,6],其變易度為 8。另一個的搜尋路徑是整合核醣核 酸 3 的答案 2,最後的結構元長相為[4,6](1,2)[4,6],變易度是 5。可發現 變易度最小的二級結構元是[4,6](1,2)[4,6],變易度最小記錄為 5。而往 上推一層,核醣核酸 1 會整合核醣核酸 2 的答案 2,得到的二級結構元依然 是[4,6](1,1)[4,6]。若再繼續往下一層搜尋,其路徑是整合核醣核酸 3 的 答案 1,與整合核醣核酸 3 的答案 2(圖中綠色虛線部份),這會得到完全相 同的結構元長相。也就是說,這是重覆的探究的路線(所得結果與圖中綠色 實線部份相同),故可省去圖中綠色虛線的比對動作,即使目前結構元的變

>核醣核酸 3

CAUGUCGGGCUGAGACAUGU CGUUAGACG AUAGCCG GACGGCUCCGUC GG 答案 1: 3–3–3 答案 2: 5–2–5

>核醣核酸 1

GAAAAUAGUCUAGGGCUGA GACAUGCCAUGUC GUUGCCGUCACGAUAGA 答案 1: 6–1–6

>核醣核酸 2

GAAAAUG GUCUAGGGC CGUCACGAUGAA AUGUCACAU GUUGCUAGA 答案 2: 4–1–4

答案 1: 4–1–4

易度尚未超過記錄中的變易度。

總而言之,由 GPRM 所預測出來的共同結構,先記錄它在此家族的所有 核醣核酸上出現的所有位置。根據下述的五個步驟來尋找『變易度』最小的 二級結構元。

步驟一:取出此核醣核酸中一個答案,若答案已全部檢視完畢,則回到前一 條核醣核酸。

步驟二:與目前的二級結構元結合。

步驟三:計算新的二級結構元的『變易度』,若比記錄中最小的『變易度』

來得大,則回到步驟一。

步驟四:溯及以往整合至本條核醣核酸中,曾出現過的二級結構元,若重覆,

則回到步驟一。

步驟五:若此家族中,尚有核醣核酸未被檢查,則任取其中一條,再回到步 驟一。反之,則表示此二級結構元在所有核醣核酸中皆有出現。計 算它的『變易度』,若它是目前最小的『變易度』,則更新記錄中的 二級結構元及『變易度』。否則便捨棄它。若變易度相等,則取莖 幹總長度最大者。

81 83 87 89 過濾相似的答案

本研究輸出分群結果時,每一個家族的序列,除了顯示序列名稱外,還 會標示出結構元出現的位置。而在相同序列上,可能會出現好幾個答案。若 要將這些結果逐一顯示,則會造成使用者的負擔,而且重要的信息往往會被 一堆無用的資訊給掩蓋住。因此須要過濾一些太相似的答案。

本研究重新定義兩個答案的相似程度,根據使用者設定的門檻值 (Basepairing overlap allowance rate)來決定兩個答案是否相似。本研究 中相似度的定義是,將兩個莖幹結合後,重疊部份的長度除以整體的總長度。

舉例來說,若有兩個莖幹分別出現在(81-87)與(83-89)的位置上,則兩者結 合後如下所示,灰色斜線區域便是重疊的部份。

圖表 18. 重疊後的兩個莖幹 重疊區域長

重疊後整體總長

相似度 = (5)

根據定義,其相似度為 0.55。

下圖的例子是,兩個長度為 2N 的莖幹,當有一半的部份重疊在一起時,重 疊區域的長度為 N,結合後的總長度是 3N,因此相似度為 0.33

3 = N

N

圖表 19. 重疊區域各占一半

若相似度通過門檻值,則認為這是兩個相同的莖幹。對兩個不同的結構答案 而言,當所有的莖幹都被視為相同時,才代表這兩個是完全相同的答案。最 後,會保留莖幹總長度較長的答案。

(87 – 83 + 1) (89 – 81 + 1)

相似度 = = 0.55

2N 2N

N 3N

分群結果解釋說明

當最終分群結果將所有序列視為相同的家族時,本系統會根據結果發生 原因提供三種可能的建議:

【情況一】

在預測家族大小時,一開始會將所有的序列視為同一家族。若所得到的 二級結構元,其拉普拉斯值通過門檻值,因個數無法再增加,故認為全部的 核醣核酸屬於相同的家族。或許使用者輸入的便是同源的核醣核酸序列,但 亦可試著提高拉普拉斯門檻值,再重新分群以驗證此想法。

【情況二】

另一種可能是結構參數設定太過寬鬆,例如合法的莖幹、環線長度範圍 太大。因此預測出一個無生物意義的二級結構元。由於此結構出現在所有的 核醣核酸中,而被錯認為家族代表結構。因此,可將莖幹或環線合法長度範 圍減小後,再重新進行分析實驗。

【情況三】

預測家族成員數目時,若嘗試所有可能的莖幹個數,依然無法找到合適 的大小,最後會將所有的核醣核酸視為相同的家族。這可能是此組資料中的 核醣核酸之間,其二級結構長相並不是非常一致,擁有非常相似結構的核醣 核酸數量不夠多。如同圖表 20 所顯示的一個成員個數非常少的群集。

圖表 20.

左邊紅色區塊為正例;右邊綠色區塊代表反例總數。

負面背景序列數目與使用者輸入的序列數目相等。

由於一開始設定的門檻值太高,當無法通過門檻值時,這一群核醣核酸 的共同結構元會被視為無意義的結構。如上圖所示,此結構元並沒有出現在 任何一條負例中,但在正例中,擁有此結構的數目過低,故認為這個結構的 出現只是一個偶然的情況。可試著降低拉普拉斯門檻值,放鬆群集大小的限 制,再重新分群。

相關文件