後置處理

第四章研究方法

4.4 架構說明

4.4.5 後置處理

減少錯誤的正預測

本研究承襲了 GPRM 所提出的二級結構表示法，除了描述莖幹的相對位 置外，還有每段莖幹與環線的長度範圍(請參照 4.2.1 核醣核酸結構描述語 言)。根據 GPRM 的基本假設，共同結構元在每一條核醣核酸中，只會出現一 次。除了正確答案外，其它符合結構限制條件的位置，則稱為錯誤的正預測 (false positive)。

雖然核醣核酸的共同二級結構長相會有些微的差異，即某莖幹或某環線的長度不相同，但大致上，長度的變化量應該是很小的。在本篇論文中，將莖幹與環線的變化量總合定義為『變易度』(flexibility)。例如，以下為 GPRM 所預測出來的 soil-borne mosaic virus 家族的共同二級結構。

圖表 16.

其中第一個莖幹的長度最小是 3，最大是 6；而第一個環線的長度範圍是 0 到 3。則此二級結構的『變易度』即為

一個二級結構若堪稱是一個家族的識別標記，則在每一條核醣核酸上的長相應該非常一致。故它的『變易度』應該非常地小。我們希望再進一步調整二級結構元，使得它的『變易度』是所有可能的結構元中最小的。在調整

1 2 3 4

[3,6] (0,3) [4,10] (0,1) [3,6] (0,6) [4,10]

(6-3)+(3-0)+(10-4)+(1-0)+(6-3)+(6-0)+(10-4) = 28。

過程中須滿足的條件是，調整後的共同結構元，依然必須出現在每一個家族成員中。由於莖幹與環線長度範圍限制更嚴格，便可濾掉一些錯誤的結果。

本研究利用 Branch and Bound 演算法(Narendra and Fukunaga 1977) 來搜尋『變易度』最小的二級結構元。這是一種深度優先(depth-first)的搜尋方式，逐一地整合每條核醣核酸的一個答案，直到全部家族成員都附加進來。此時便產生一個可能的二級結構元，比較此結構的『變易度』，若是小於目前為止最小變易度的結構元，則更新結構元與最小變易度的結構記錄保持者。遇到相等的情況，便取莖幹總長度最大者。例如

結構記錄保持者：[3,5](2,3)[3,5]，變易度 = 5，莖幹總長 = 10 新的二級結構元：[4,6](1,2)[4,6]，變易度 = 5，莖幹總長 = 12 以這兩個結構而言，最後會更新結構記錄。這是由於莖幹愈長者，結構愈穩定，也更有可能是家族結構代表。

為了減短搜尋時間，以下任一種情況發生時，便可省去之後的探索動作，嘗試新的搜尋方向：

(1)目前的二級結構元變易度比結構記錄中的來得大。

每整合一條核醣核酸的答案後，便要重新計算此時的二級結構變易度。

若大於結構記錄中的變易度，因為不論再怎麼結合其它成員的答案，都不可能找到一個變易度更小的結構，故可放棄這個探查方向。

(2)目前的二級結構元會引導搜尋動作至重覆的探查路線。

以下我們舉例說明此種情況。為了行文方便，估且將核醣核酸編號為 1，

2，3。在每條核醣核酸中，亦標示出所有符合結構限制條件的答案。

圖表 17. Branch and Bound 搜尋路線

以此例子來說，我們尋找目標結構元的第一步驟會整合核醣核酸 1 的答案 1 與核醣核酸 2 的答案 1，之後可得到一個二級結構元 [4,6](1,1)[4,6]。再往下一層的搜尋路徑是，整合此結構元與核醣核酸 3 的答案 1，最後得到結構元[3,6](1,3)[3,6]，其變易度為 8。另一個的搜尋路徑是整合核醣核酸 3 的答案 2，最後的結構元長相為[4,6](1,2)[4,6]，變易度是 5。可發現變易度最小的二級結構元是[4,6](1,2)[4,6]，變易度最小記錄為 5。而往上推一層，核醣核酸 1 會整合核醣核酸 2 的答案 2，得到的二級結構元依然是[4,6](1,1)[4,6]。若再繼續往下一層搜尋，其路徑是整合核醣核酸 3 的答案 1，與整合核醣核酸 3 的答案 2(圖中綠色虛線部份)，這會得到完全相同的結構元長相。也就是說，這是重覆的探究的路線(所得結果與圖中綠色實線部份相同)，故可省去圖中綠色虛線的比對動作，即使目前結構元的變

>核醣核酸 3

CAUGUCGGGCUGAGACAUGU CGUUAGACG AUAGCCG GACGGCUCCGUC GG 答案 1: 3–3–3 答案 2: 5–2–5

>核醣核酸 1

GAAAAUAGUCUAGGGCUGA GACAUGCCAUGUC GUUGCCGUCACGAUAGA 答案 1: 6–1–6

>核醣核酸 2

GAAAAUG GUCUAGGGC CGUCACGAUGAA AUGUCACAU GUUGCUAGA 答案 2: 4–1–4

答案 1: 4–1–4

易度尚未超過記錄中的變易度。

總而言之，由 GPRM 所預測出來的共同結構，先記錄它在此家族的所有核醣核酸上出現的所有位置。根據下述的五個步驟來尋找『變易度』最小的二級結構元。

步驟一：取出此核醣核酸中一個答案，若答案已全部檢視完畢，則回到前一條核醣核酸。

步驟二：與目前的二級結構元結合。

步驟三：計算新的二級結構元的『變易度』，若比記錄中最小的『變易度』

來得大，則回到步驟一。

步驟四：溯及以往整合至本條核醣核酸中，曾出現過的二級結構元，若重覆，

則回到步驟一。

步驟五：若此家族中，尚有核醣核酸未被檢查，則任取其中一條，再回到步驟一。反之，則表示此二級結構元在所有核醣核酸中皆有出現。計算它的『變易度』，若它是目前最小的『變易度』，則更新記錄中的二級結構元及『變易度』。否則便捨棄它。若變易度相等，則取莖幹總長度最大者。

81 83 87 89 過濾相似的答案

本研究輸出分群結果時，每一個家族的序列，除了顯示序列名稱外，還 會標示出結構元出現的位置。而在相同序列上，可能會出現好幾個答案。若要將這些結果逐一顯示，則會造成使用者的負擔，而且重要的信息往往會被一堆無用的資訊給掩蓋住。因此須要過濾一些太相似的答案。

本研究重新定義兩個答案的相似程度，根據使用者設定的門檻值 (Basepairing overlap allowance rate)來決定兩個答案是否相似。本研究中相似度的定義是，將兩個莖幹結合後，重疊部份的長度除以整體的總長度。

舉例來說，若有兩個莖幹分別出現在(81-87)與(83-89)的位置上，則兩者結合後如下所示，灰色斜線區域便是重疊的部份。

圖表 18. 重疊後的兩個莖幹 重疊區域長

重疊後整體總長

相似度 = (5)

根據定義，其相似度為 0.55。

下圖的例子是，兩個長度為 2N 的莖幹，當有一半的部份重疊在一起時，重疊區域的長度為 N，結合後的總長度是 3N，因此相似度為 0.33

3 = N

N 。

圖表 19. 重疊區域各占一半

若相似度通過門檻值，則認為這是兩個相同的莖幹。對兩個不同的結構答案而言，當所有的莖幹都被視為相同時，才代表這兩個是完全相同的答案。最後，會保留莖幹總長度較長的答案。

(87 – 83 + 1) (89 – 81 + 1)

相似度 = = 0.55

2N 2N

N 3N

分群結果解釋說明

當最終分群結果將所有序列視為相同的家族時，本系統會根據結果發生 原因提供三種可能的建議：

【情況一】

在預測家族大小時，一開始會將所有的序列視為同一家族。若所得到的二級結構元，其拉普拉斯值通過門檻值，因個數無法再增加，故認為全部的核醣核酸屬於相同的家族。或許使用者輸入的便是同源的核醣核酸序列，但亦可試著提高拉普拉斯門檻值，再重新分群以驗證此想法。

【情況二】

另一種可能是結構參數設定太過寬鬆，例如合法的莖幹、環線長度範圍太大。因此預測出一個無生物意義的二級結構元。由於此結構出現在所有的核醣核酸中，而被錯認為家族代表結構。因此，可將莖幹或環線合法長度範圍減小後，再重新進行分析實驗。

【情況三】

預測家族成員數目時，若嘗試所有可能的莖幹個數，依然無法找到合適的大小，最後會將所有的核醣核酸視為相同的家族。這可能是此組資料中的核醣核酸之間，其二級結構長相並不是非常一致，擁有非常相似結構的核醣 核酸數量不夠多。如同圖表 20 所顯示的一個成員個數非常少的群集。

圖表 20.

左邊紅色區塊為正例；右邊綠色區塊代表反例總數。

負面背景序列數目與使用者輸入的序列數目相等。

由於一開始設定的門檻值太高，當無法通過門檻值時，這一群核醣核酸的共同結構元會被視為無意義的結構。如上圖所示，此結構元並沒有出現在任何一條負例中，但在正例中，擁有此結構的數目過低，故認為這個結構的出現只是一個偶然的情況。可試著降低拉普拉斯門檻值，放鬆群集大小的限制，再重新分群。

在文檔中利用共同結構元實作核醣核酸分群 (頁 48-56)

第四章 研究方法

4.4 架構說明

4.4.5 後置處理

第四章研究方法