系統主架構

第三章、研究方法

3.3 系統主架構

下圖為本系統的主要流程圖，系統先讀入使用者輸入的序列及系統參數，根據輸入序列產生背景序列，再以預測工具對輸入序列與背景序列產生個別的二級結構，之後分析結構，將這些結構轉為本系統所使用的描述語言。接著進行系統核心的基因規劃法，由演化的方法預測出核醣核酸的共同結構元，再由後處理對預測的結果做修正，最後輸出共同結構元。

在以下的各節將做更詳細的說明：

圖 12. 系統流程圖

3.3.1 輸入序列及系統參數

一開始讀入使用者輸入的核醣核酸序列以及系統參數，使用者可以使用系統預設的參數，若使用者對於輸入的核醣核酸序列的生物背景有些了解，則可以藉由自行設定參數來使實驗達到更好的效果。

使用者可以自行定義的參數包含系統能預測的莖幹數目最大上限、莖幹內允許環狀結構的大小、負面背景資料的產生倍數等，以及在執行基因規劃法時所需要的各種參數，如族群的大小(population size)、一個個體(individual)產生突變 (mutation)的機率、兩個個體進行互交(crossover)的機率、個體產生重製(reproduction) 的機率，還有系統進行演化的代數(generation)等。

而輸入系統的核醣核酸序列檔案以 FASTA 格式表示，檔案內容第一行以大於( > )符號開始，後面則接第一條序列名稱與註解，第二行則為此序列的內容，

以各鹼基所組成的序列表示。第三、四行以同樣表示法表示第二條序列，第五、

六行以同樣表示法表示第三條序列，後面各序列皆類似。以下為 ctRNA_pND324 家族序列的一部份：

圖 13. FASTA 格式範例

3.3.2 產生背景序列

根據本研究的假設，具有生物意義的二級結構元不會任意出現在隨機產生的序列中，因此我們採用監督學習法(supervised learning)，藉由使用負面背景資料來抑制太過普遍的結構。

負面背景資料的產生方法則依據輸入序列的資料產生，負面背景序列的長度模擬輸入序列的長度，數量則以使用者輸入的倍數參數做決定，設為一至三倍。

當背景序列倍數設為三倍時，第一到三條背景序列的長度會取輸入序列第一條的長度，第四到六條背景序列的長度會取輸入序列第二條的長度，依此類推。

由於已知自然界中的核甘酸序列，相鄰的鹼基對之間是有相關性的，因此使用一級(first order)序列產生法產生背景序列的鹼基，亦即每一條序列的第一個鹼基是由四個鹼基個別出現的機率來決定，之後的每個鹼基則必須考慮前一個鹼基的種類，由條件機率決定出現的鹼基。

3.3.3 預測二級結構

目前現有許多可以將序列折疊成二級結構的預測工具可供使用，我們可將輸入的序列及系統產生的背景序列分別輸入這些工具來預測二級結構，再取得每條序列產生的數個候選結構。

當使用 Mfold 做為我們的前處理器時，Mfold 輸出的檔案有數種檔案格式，

而我們取其中的 ct 檔來使用，下頁圖 14 中為 ctRNA_pND324 家族中的 AL592102.1 序列片段，經由 Mfold 預測出來的第二個預測結構的 ct 檔。

在 ct 檔中第一列分別表示序列長度、結構能量、以及序列名稱，之後的第一行表示索引(index)、第二行為序列的鹼基、第五行則為鹼基配對的所在位置，

我們可由下頁圖中看出有(7, 19)(8, 18)(9, 17)(10, 16)四個連續的鹼基對所形成的一個莖幹。

而在本研究的實驗中，為了方便與其他相關研究做比較，因此不限於使用 Mfold 做為前處理器，亦可能使用其他的序列折疊預測工具。

圖 14. ct 檔格式範例

3.3.4 分析二級結構及轉換為描述語言

在此步驟則將前處理器產生之二級結構轉換成本系統的描述語言，讀入的檔案預設為 ct 檔，若前處理器的輸出不是 ct 檔則必須先進行轉換。系統根據 ct 檔中的鹼基配對資訊，研判產生莖幹結構長度、環狀結構長度，以及莖幹結構與環狀結構之間的相對關係。

在 ct 檔中，我們可以看出鹼基之間的配對關係，當遇見連續有配對的鹼基，

若其配對的鹼基也連續，則將這些連續的鹼基與其配對的鹼基視為一個莖幹結構；若配對的鹼基不連續，則會產生兩個以上的莖幹。當遇見不連續的鹼基，則視為環狀結構。

例如系統可以根據上頁圖 14 中序列 AL592102.1 的 ct 檔，得到如下的資料結構表示法：

圖 15. 由圖 14 所得之資料結構表示法

其對應的概念圖為：

圖 16. 對應圖 15 之概念圖

而此結構的摺疊形狀如下：

圖 17. 序列 AL592102.1(ctRNA_pND324)由 Mfold 產生之第二候選

觀察此結構，其中存在有兩莖幹間的內部環狀結構長度為 1 的情形，另外還有莖幹長度為 2 的情形發生。我們在系統的設計上，可以忽略以上的情形，也就是說，將內部環狀結構長度為 1 的兩相鄰莖幹視為一個莖幹，以及將長度小於 3 的莖幹拆開成環狀結構。如此一來，使得整個結構的莖幹數減少而降低了複雜性，亦使本系統增加了些彈性，可以找出差異性較大的共同結構元。

當略過上述的情形後，上頁圖中的概念圖可以簡化為如下：

圖 18. 簡化後之概念圖

上頁圖 18 的概念圖對應的資料結構表示法則為：

圖 19. 對應圖 18 之資料結構表示法

亦即將頂點數為 11 個的圖形資料結構簡化成 8 個點。

在文檔中利用圖形表示的基因規劃法找尋核醣核酸的共同結構元 (頁 34-40)

第三章、 研究方法

3.3 系統主架構

第三章、研究方法