• 沒有找到結果。

第四章 實驗結果

4.2 測試資料

本研究使用五個核醣核酸家族作為實驗的測試資料,包含 GPRM 所使用過的 三個測試資料,與另兩個結構元包含許多內部環狀結構的核醣核酸家族。簡介如 下:

Archaea 16S rRNA

這組資料僅有 34 條序列,是本研究測試資料中最小的一組。其序列的平均 長度為 97 個鹼基,共同結構元包含三個莖幹結構,都不包含非對稱的環狀結構,

屬於比較單純的二級結構。

Phe-tRNA

Phe-tRNA 為攜帶胺基酸 Phe 的轉移核醣核酸,包含 74 條序列。其共同結構 元幾乎涵蓋序列,形狀看起來像四辦的苜蓿芽,包含四個莖幹結構。這個資料的 特點是並非所有的序列都擁有完整的結構元,也就是說資料本身就包含些許雜 訊,可以來測試本系統對於雜訊的處理情況。

IRE-like

IRE 的全名是 iron response element,其特色為其共同結構元在序列上與 結構上都十分一致,為長度十到十三個鹼基,包含一個突起結構的莖幹結構,使 得序列層級的分析也能很快的找到。因此,在 GPRM 的研究中,將序列做些許改 變,以增加序列排比時的複雜度。此資料的平均長度為兩百個鹼基,用來觀察本 系統對於共同結構元遠比序列小時的處理情況

C.elegans microRNA precursor

這份資料是從“The miRNA Registry"取得,屬於 Caenorhabditis elegans 所有的微核醣核酸,共 116 條序列。微核醣核酸先質的共同結構元是一個莖幹長

度很長的髮夾結構,內部包含大量對稱及非對稱環狀結構與突起結構,十分適合 來檢驗本系統處理這些結構的能力。

5SrRNA

5SrRNA 完整的資料來自“Rfam"資料庫,本研究取其“seed"的部份一共 602 條序列。這組測試資料的特色是結構元包含五個莖幹結構,並且一樣含有凌

4.3 實驗結果 種子(random seed)以確保每次實驗不會重複。

4.3.1 與 GPRM 的結果比較

表二整理了本系統對於 IRE-like, archaea 16S rRNA, tRNA 三種資料的 Matthews 相關係數及所花費的平均時間,以及 GPRM 的實驗結果。

對於共同結構元單純的 16S rRNA,本系統與 GPRM 的表現都不錯。對於較共 個鹼基的 IRE-like,本系統使用預設的寬鬆參數,無法找到正確的結構元。而 在我們參考 GPRM 所使用的參數後,雖然能夠找到正確的結構元,但因為 Mfold 有超過二十條序列無法將該區域正確的配對,導致 Matthews 相關係數僅有四成。

4.3.2 富含突起及內部環狀結構資料的實驗結果

表三列舉 C. elegans microRNA 與 5S rRNA 兩組資料的實驗結果。

Dataset Runtime Fold2GP GPRM C.ele. microRNA 17 min .84 < .6

5SrRNA 110 min for 602 seqs

45 min for 269 seqs .74 (269 seqs) < .3 (269 seqs)

表三 實驗結果二

C.elegans microRNA 的共同結構元僅有一個莖幹,不過其長度約為三十多 個鹼基,並包含許多大小不一、位置不定的突起與內部環狀結構,屬於 GPRM 處 理不佳的資料。由於的結構元的莖幹較大,因此我們將莖幹結構的限制放大到三 到三十五個鹼基,並且容許單一莖幹的最大最小值差距為二十,將莖幹內容許為 配對的鹼基調整為四。對於如此大的莖幹結構,本系統依然能找出正確的結構 元,並且在絕大部分的序列上標示出正確的位置。

最後,對於結構元複雜、包含突起與內部環狀結構以及序列數量很大的 5S rRNA,本系統依然能找到五個莖幹的正確結構元,而且花費時間在兩個小時內。

我們無法找到所有序列的正確結構,僅自“5S Ribosomal RNA database"收集 其中 269 條擁有結構資訊的序列,因此這裡的 Matthews c.c.僅計算此 269 條序 列。

第五章 結論與未來研究方向

相關文件