結論與未來研究方向 - 利用共同結構元實作核醣核酸分群

6.1 結論

儘管核醣核酸的研究愈來愈受重視，但焦點議題大多關於二級結構的預測，

無論是單一序列，或是針對一個家族。本研究最重要的貢獻是提出新的研究方向，我們希望能提出一套有系統的方法，輸入一群核醣核酸序列，預測所有家族的共同二級結構，再依據此結構元進行分群。

根據本篇研究所提出的方法，我們設計出一套核醣核酸分群的工具，可以減低生物學家進行實驗時的複雜度。使用者可以輸入未排比的核醣核酸序列，透過此系統的分析檢測程序，可以了解此組資料共有幾群不同的核醣核酸家族，並且自動預測每一個家族的共同結構元。

由 VIRUS + 16SRNA 的測試實驗來看，此系統針對共同結構元長相非常一致的資料，如 16SRNA 家族，可以有較好的分群結果，且預測出來的結構元長相也較精準。但對於 VIRUS 家族來說，因為共同結構元長相差異性較大，故容易遺漏了一些成員序列。

另外，透過 IRE + 16SRNA 與 IRE + VIRUS 兩組測試結果來看，此系統容易受到非真正結構元的影響。由於 IRE 中的序列比較長，故在非結構元區域容易形成配對結構，甚至是出現另一家族的配對結構，而影響其它家族結構元長相。例如 IRE + 16SRNA 的實驗中，預測 16SRNA 的結構元長相並不太精準，便是為了囊括某些 IRE 的序列所造成的。

對於 IRE + VIRUS 此組資料來看，雖然 IRE 家族真正的共同結構元只擁有二個莖幹，但由於本系統搜尋共同結構元是從較大的莖幹個數開始，若放鬆了結構參數設定，讓 GPRM 嘗試演化一個較大的結構，最後得到的結構雖有包含到真正的結構區域，但也多了一個不重要的莖幹。受限於 GPRM 的所有演化個體是相同莖幹數目的結構，這類的問題的確是本研究的限制。雖然正確的結構參數可以解決這樣的問題，但往往正確的結構參數是不可預知的。不過，卻可嘗試修改 GPRM，允許演化個體中存在不同莖幹個數的結構，讓真正的結構元與其它結構互相競爭。然而，這需要增加群體個數，那麼勢必會造成演化時間要更長才能收斂到正確的共同結構元。

而由人造的測試資料發現，不同的家族大小對本系統在分群與結構元預測上，並不會造成太大的困擾。即使序列數目相差懸殊，高達 1:3，依然能準確地預測出結構元，並挑出正確的家族成員。因為我們認為，決定性的因素有兩個，

其一是每個家族的共同特徵是否夠明顯，即共同的二級結構元長相是否夠一致。

而另一個關鍵在於，非結構元區域是否容易形成配對結構，這會影響分群的結果，甚至是最後預測出來的結構元長相。

6.2 未來研究方向

此章節將提出幾項在研究過程中遭遇到的困難，未來可針對這些問題進行改善與更進一步的相關研究。

6.2.1 參數設定太過寬鬆

在使用者輸入的序列中，不同家族之間的結構元可能非常不相似，但卻只用同一組參數來描述所有家族的結構元長相。而為了涵蓋這些不同結構元的特性，

會傾向設定較寬鬆的結構參數值，例如莖幹個數太多、莖幹環線長度範圍太大，

或者是不恰當的錯誤配對容忍度等等。這容易造成錯誤的正預測太高，正確的答案淹沒在一堆無用的資料中，增加使用者讀取結果的負擔。甚至更糟糕的情況是預測出不精確的結構元。

經過多次的實驗測試，我們發現過鬆的錯誤配對容忍度會造成共同結構元預測失敗。我們希望能透過演化的? 爭機制來決定此家族的共同結構是否擁有錯誤配對，因此，若是允許存在錯誤配對的情況，在產生演化個體時，擁有與不擁有錯誤配對的二級結構數量會各占一半。互相競爭的結果，擁有正確結構設定的個體會脫穎而出。透過這樣的機制，便可預測出正確的共同結構元。

除了錯誤配對容忍度，太大的莖幹長度範圍，依然會導致 GPRM 無法預測出正確的結構元。我們認為自動調整此項結構參數值可以解決這樣的問題。既然一開始設定的莖幹長度範圍太鬆，那麼就先嘗試用較嚴格的參數值，之後再逐次拉開差距。舉例來說，一開始設定的莖幹長度最小是 3，最大是 15。再選定一個梯度 5，那麼就有 10-15、5-15、3-15 這三組莖幹長度範圍需要一一檢查。每用一組參數跑完本系統的流程，就會預測出一個結構元，若此結構元的拉普拉斯值超

過門檻，或者預測出此組資料存在兩個以上的家族(即預測出某一個家族真正的成員總數且並非最大的)，則計算此結構元的平均鹼基數。最後，再從所有可能的結構元中，選平均鹼基數最大者當作家族代表的結構元。這理由便是鹼基數愈多的結構，其自由能(free energy)會愈小，結構愈穩定。

若這三組參數值預測出來的結構元拉普拉斯值都沒有超過門檻，或者家族成員個數預測皆失敗(即認為所有序列為相同家族)，則從中選擇適應分數最高者為我們的答案。因為，根據 GPRM 設計的理念，針對同樣家族的核醣核酸序列，預測出來的結構元是適應分數最高者，即偏好那種出現次數愈多的結構元。

因此，即使為了配合其它家族代表結構的設定，而被迫採用一組不恰當的結構參數，依然可預測出正確的共同結構元。

6.2.2 拉普拉斯門檻值的決定依據

在分群程序開始前，須先設定的參數其中一項為拉普拉斯門檻值。此數值是 在預估家族大小時，用來調整猜測的方向(詳細過程，可參照 4.4.3 尋找代表性 的結構元)。然而，此門檻值的選定缺乏理論的依據，太高或太低都會誤導猜測 結果，只能透過多次的實驗，來決定較好的門檻值。理論上，門檻值的大小須要根據序列內容自動調整，例如，對於那些共同結構元長相不太一致的核醣核酸，

門檻值應該降低才能預測出正確的家族大小。這雖然可減少參數設定的困擾，但卻會使得系統太過複雜，且增加程式執行的時間。目前此參數可交由使用者設定，未來可嘗試設計出一套演算法自動尋找適當的門檻值。

6.2.3 執行時間太過冗長

由於本研究在尋找共同結構元時，並沒有家族大小(答案數目)的資訊，因此採用二分逼進法來估計可能的數目。對每一個新的數值，都必須重新尋找可能的目標結構，由此答案的拉普拉斯值來決定家族大小該如何調整。故此過程須反覆執行 GPRM，如此一來，執行時間便會拉長。在 GPRM 原本的設定中，每一次結構元的預測會固定演化三十代。然而，就本研究所進行的實驗觀察中，不必三十代，

便會出現結構元的拉普拉斯值通過門檻了。故在預測家族大小時，若有此種情況發生，演化便可提早結束。雖然利用拉普拉斯值的判斷，可縮短執行時間，但往後依舊須要找出新的解決方法，能更快且依然能準確地預測出家族大小，才能再提高此系統的實用性。

6.2.4 負面背景序列的產生方式

GPRM 預測共同的二級結構時，採用監督式學習(supervised learning)，故另須一份對照的序列資料充當錯誤範例。在本系統中，主要使用一級 (first order)方式來產生反例資料，但亦曾嘗試零級(zero order)的產生方式。零級 (zero order)方式指的是，四種鹼基出現的機率是根據正例中四種鹼基的機率來決定，且在決定每個位置上的鹼基時並不會受到鄰近的鹼基類型所影響，即這些是完全獨立(i.i.d.)的序列。

當目標結構擁有兩個莖幹時，此種反例序列產生方式還算恰當。但是對於擁有三個莖幹的結構元，無論何種莖幹配對組合，在反例序列中幾乎很少出現。這浮現出的問題是，負面背景序列並沒有表現出該有的功能，亦即區分出有代表性的結構元。因此，接下來的改進目標之一是，找到一個更合適的反例序列產生方法。

在文檔中利用共同結構元實作核醣核酸分群 (頁 71-76)