• 沒有找到結果。

結論與未來研究方向

6.1 結論

儘管核醣核酸的研究愈來愈受重視,但焦點議題大多關於二級結構的預測,

無論是單一序列,或是針對一個家族。本研究最重要的貢獻是提出新的研究方 向,我們希望能提出一套有系統的方法,輸入一群核醣核酸序列,預測所有家族 的共同二級結構,再依據此結構元進行分群。

根據本篇研究所提出的方法,我們設計出一套核醣核酸分群的工具,可以減 低生物學家進行實驗時的複雜度。使用者可以輸入未排比的核醣核酸序列,透過 此系統的分析檢測程序,可以了解此組資料共有幾群不同的核醣核酸家族,並且 自動預測每一個家族的共同結構元。

由 VIRUS + 16SRNA 的測試實驗來看,此系統針對共同結構元長相非常一致 的資料,如 16SRNA 家族,可以有較好的分群結果,且預測出來的結構元長相也 較精準。但對於 VIRUS 家族來說,因為共同結構元長相差異性較大,故容易遺漏 了一些成員序列。

另外,透過 IRE + 16SRNA 與 IRE + VIRUS 兩組測試結果來看,此系統容易 受到非真正結構元的影響。由於 IRE 中的序列比較長,故在非結構元區域容易形 成配對結構,甚至是出現另一家族的配對結構,而影響其它家族結構元長相。例 如 IRE + 16SRNA 的實驗中,預測 16SRNA 的結構元長相並不太精準,便是為了囊 括某些 IRE 的序列所造成的。

對於 IRE + VIRUS 此組資料來看,雖然 IRE 家族真正的共同結構元只擁有 二個莖幹,但由於本系統搜尋共同結構元是從較大的莖幹個數開始,若放鬆了結 構參數設定,讓 GPRM 嘗試演化一個較大的結構,最後得到的結構雖有包含到真 正的結構區域,但也多了一個不重要的莖幹。受限於 GPRM 的所有演化個體是相 同莖幹數目的結構,這類的問題的確是本研究的限制。雖然正確的結構參數可以 解決這樣的問題,但往往正確的結構參數是不可預知的。不過,卻可嘗試修改 GPRM,允許演化個體中存在不同莖幹個數的結構,讓真正的結構元與其它結構互 相競爭。然而,這需要增加群體個數,那麼勢必會造成演化時間要更長才能收斂 到正確的共同結構元。

而由人造的測試資料發現,不同的家族大小對本系統在分群與結構元預測 上,並不會造成太大的困擾。即使序列數目相差懸殊,高達 1:3,依然能準確地 預測出結構元,並挑出正確的家族成員。因為我們認為,決定性的因素有兩個,

其一是每個家族的共同特徵是否夠明顯,即共同的二級結構元長相是否夠一致。

而另一個關鍵在於,非結構元區域是否容易形成配對結構,這會影響分群的結 果,甚至是最後預測出來的結構元長相。

6.2 未來研究方向

此章節將提出幾項在研究過程中遭遇到的困難,未來可針對這些問題進行改 善與更進一步的相關研究。

6.2.1 參數設定太過寬鬆

在使用者輸入的序列中,不同家族之間的結構元可能非常不相似,但卻只用 同一組參數來描述所有家族的結構元長相。而為了涵蓋這些不同結構元的特性,

會傾向設定較寬鬆的結構參數值,例如莖幹個數太多、莖幹環線長度範圍太大,

或者是不恰當的錯誤配對容忍度等等。這容易造成錯誤的正預測太高,正確的答 案淹沒在一堆無用的資料中,增加使用者讀取結果的負擔。甚至更糟糕的情況是 預測出不精確的結構元。

經過多次的實驗測試,我們發現過鬆的錯誤配對容忍度會造成共同結構元 預測失敗。我們希望能透過演化的? 爭機制來決定此家族的共同結構是否擁有錯 誤配對,因此,若是允許存在錯誤配對的情況,在產生演化個體時,擁有與不擁 有錯誤配對的二級結構數量會各占一半。互相競爭的結果,擁有正確結構設定的 個體會脫穎而出。透過這樣的機制,便可預測出正確的共同結構元。

除了錯誤配對容忍度,太大的莖幹長度範圍,依然會導致 GPRM 無法預測出 正確的結構元。我們認為自動調整此項結構參數值可以解決這樣的問題。既然一 開始設定的莖幹長度範圍太鬆,那麼就先嘗試用較嚴格的參數值,之後再逐次拉 開差距。舉例來說,一開始設定的莖幹長度最小是 3,最大是 15。再選定一個梯 度 5,那麼就有 10-15、5-15、3-15 這三組莖幹長度範圍需要一一檢查。每用一 組參數跑完本系統的流程,就會預測出一個結構元,若此結構元的拉普拉斯值超

過門檻,或者預測出此組資料存在兩個以上的家族(即預測出某一個家族真正的 成員總數且並非最大的),則計算此結構元的平均鹼基數。最後,再從所有可能 的結構元中,選平均鹼基數最大者當作家族代表的結構元。這理由便是鹼基數愈 多的結構,其自由能(free energy)會愈小,結構愈穩定。

若這三組參數值預測出來的結構元拉普拉斯值都沒有超過門檻,或者家族成 員個數預測皆失敗(即認為所有序列為相同家族),則從中選擇適應分數最高者為 我們的答案。因為,根據 GPRM 設計的理念,針對同樣家族的核醣核酸序列,預 測出來的結構元是適應分數最高者,即偏好那種出現次數愈多的結構元。

因此,即使為了配合其它家族代表結構的設定,而被迫採用一組不恰當的 結構參數,依然可預測出正確的共同結構元。

6.2.2 拉普拉斯門檻值的決定依據

在分群程序開始前,須先設定的參數其中一項為拉普拉斯門檻值。此數值是 在預估家族大小時,用來調整猜測的方向(詳細過程,可參照 4.4.3 尋找代表性 的結構元)。然而,此門檻值的選定缺乏理論的依據,太高或太低都會誤導猜測 結果,只能透過多次的實驗,來決定較好的門檻值。理論上,門檻值的大小須要 根據序列內容自動調整,例如,對於那些共同結構元長相不太一致的核醣核酸,

門檻值應該降低才能預測出正確的家族大小。這雖然可減少參數設定的困擾,但 卻會使得系統太過複雜,且增加程式執行的時間。目前此參數可交由使用者設 定,未來可嘗試設計出一套演算法自動尋找適當的門檻值。

6.2.3 執行時間太過冗長

由於本研究在尋找共同結構元時,並沒有家族大小(答案數目)的資訊,因此 採用二分逼進法來估計可能的數目。對每一個新的數值,都必須重新尋找可能的 目標結構,由此答案的拉普拉斯值來決定家族大小該如何調整。故此過程須反覆 執行 GPRM,如此一來,執行時間便會拉長。在 GPRM 原本的設定中,每一次結構 元的預測會固定演化三十代。然而,就本研究所進行的實驗觀察中,不必三十代,

便會出現結構元的拉普拉斯值通過門檻了。故在預測家族大小時,若有此種情況 發生,演化便可提早結束。雖然利用拉普拉斯值的判斷,可縮短執行時間,但往 後依舊須要找出新的解決方法,能更快且依然能準確地預測出家族大小,才能再 提高此系統的實用性。

6.2.4 負面背景序列的產生方式

GPRM 預測共同的二級結構時,採用監督式學習(supervised learning),故 另須一份對照的序列資料充當錯誤範例。在本系統中,主要使用一級 (first order)方式來產生反例資料,但亦曾嘗試零級(zero order)的產生方式。零級 (zero order)方式指的是,四種鹼基出現的機率是根據正例中四種鹼基的機率來 決定,且在決定每個位置上的鹼基時並不會受到鄰近的鹼基類型所影響,即這些 是完全獨立(i.i.d.)的序列。

當目標結構擁有兩個莖幹時,此種反例序列產生方式還算恰當。但是對於擁 有三個莖幹的結構元,無論何種莖幹配對組合,在反例序列中幾乎很少出現。這 浮現出的問題是,負面背景序列並沒有表現出該有的功能,亦即區分出有代表性 的結構元。因此,接下來的改進目標之一是,找到一個更合適的反例序列產生方 法。

相關文件