• 沒有找到結果。

尋找代表性的結構元

第四章 研究方法

4.4 架構說明

4.4.3 尋找代表性的結構元

前置處理只是一般的準備程序,之後才會進行結構預測與分群的工作。此小 節我們介紹如何利用 GPRM 來預測核酸核酸二級結構。

適應函數的誤導

GPRM 考慮正確率(precession)與擷取率(recall)來評估演化群體中二 級結構的好壞,其定義為:

正確率(precession) :

N

此式即是 F 分數(F-score)(Lewis and Gale, 1994)的定義,GPRM 便是以此 當做適應函數。由上式來看,只有在正確率與擷取率都高的情況下,分數才 會較高,故 GPRM 在尋找答案時會偏好愈多序列擁有的共同結構。但若考慮 以下例子(圖表 10),便會發現這樣的搜尋方向與實際答案背道而馳:

假設使用者輸入的序列分屬兩個不同的家族,藍色斜線區塊為擁有此二 級結構的序列數目。

結構元(a) 結構元(b) 圖表 10.

若以分群結果的角度來看,很明顯可看出,結構元(a)不能區分出不同 家族的核醣核酸,反倒是有結構元(b)出現的核醣核酸比較單純,皆是家族 2 的成員。顯然,結構元(b)才是代表家族的結構元,但 GPRM 卻會偏愛結構 元(a)。這是由於 GPRM 系統的前提假設是,所有的核醣核酸序列皆為同一家 族,因此在計算擷取率時,錯把全部序列數目當作答案總數。由此例可知,

真實的共同結構元出現次數只要達到某定程度即可,並非愈多愈好,最好是 只在其家族的核醣核酸中出現。若要知道某結構的出現是否恰如其分,或只 是偶然,則可利用統計方法來檢定。為了去除 F-分數的迷思,我們必須先 預測家族成員個數,亦即目標結構元在正例中最佳的出現次數。

本研究運用拉普拉斯估計量(Laplace-estimate)(Kruskal and Tanur, 1978)來調整家族大小的猜測方向。以此作為臨界值來判斷結構元出現的次 數是否達到可接受的程度。本研究依然使用 F-分數做為選擇結構的依據,

只是 F-分數計算的方式須再加以修正。以下我們先介紹拉普拉斯估計量及 其使用時機,再說明如何調整 F-分數計算公式。

家族1

家族 2

家族1

家族 2

拉普拉斯估計量及其用處

在規則庫的建構領域中,拉普拉斯數值可用來估量符合此規則的範例個 數是否夠多。它的原始定義如下:

k N value n

Laplace c

+ value n

Laplace (3)

其中np為使用者所輸入的序列中擁有此結構的數目;

nn為負面背景序列中擁有此結構的數目;

在尋找具有代表性結構的過程中,GPRM 採用 F-分數來顯示二級結構的 好壞。透過演化的運算子來改變二級結構以期提高適應分數,最後 GPRM 會 預測出一個最好的二級結構,而其拉普拉斯值是否通過拉普拉斯門檻,則透 露出不同的訊息。接下來我們仔細探討這兩種狀況。

【情況一】通過拉普拉斯門檻

GPRM 是一個採用監督式學習(supervised learning)來獲得最佳解的系 統,因此會有一組負面背景序列來當做學習時的錯誤範例。根據假設所述,

具有代表性的共同結構不會出現在這些序列中。換言之,我們希望結構元儘 可能只在正例中出現,負面背景序列擁有此目標結構的數目愈少愈好。

對於相同家族的序列,利用 GPRM 可以尋找出它們共同的二級結構。這 種結構在負面背景序列理當不常出現。如圖表 11 所示,此結構元並沒有出 現在任何一條負例中,且在正例中,擁有此結構的數目接近一半。會造成此 結果的原因極可能是因 GPRM 所找到的共通結構太嚴格,因此,雖然沒有任 何 負 例 包 含 此 結 構 , 但 也 僅 出 現 在 少 數 正 例 中 。 換 言 之 , 這 可 能 是 (overfitting)的結果,但真正的家族成員不只這些核醣核酸,因而,必須 調高家族的大小(family size)。

圖表 11.

左邊區塊為正例個數;右邊區塊為反例總數。

負面背景序列數目與使用者輸入的序列數目相等。

【情況二】不及拉普拉斯門檻值

當有一組核醣核酸序列,其屬於不同的家族,例如,兩個大小相同的家 族,則不管是哪一個家族,其真正的結構元平均出現的次數應該都不會超過 一半,然而因 GPRM 優先選擇大量出現的結構,故演化終止時,可能會收斂 到一個不具代表性的結構,不僅這兩個家族的核醣核酸大多會擁有此種結 構,甚至在負面背景序列中亦會常出現。其拉普拉斯數值應當較低。若能透 過適當的門檻刪選,應可以過濾這些不具代表性的共通結構。

如圖表 12 所示,此二級結構元的拉普拉斯值不及門檻值,表示 GPRM 所 預測的二級結構為無意義的共同結構,其出現的核醣核酸數目太多,不但包 含了另一個家族的核醣核酸,也包含了許多序列負例,因此,我們能依此校 正 GPRM 對於家族大小的認定,修正 GPRM 的演化行為。

圖表 12.

左上紅色區塊為第一群正例;左下黑色區塊為第二群正例;

右邊綠色區塊代表反例總數。

在此範例中,負面背景序列數目與使用者輸入的序列數目相等。

家族1

家族 2

預估某家族的序列數目

本研究欲處理的資料是一組未經排比(unaligned)的核醣核酸序列。我 們希望利用共通結構元為基礎,對這些核醣核酸序列作分群。為了計算正確 的 F-分數,必須事先知曉每個家族的核醣核酸數目。我們採取二分逼近法 來預測其中某家族可能的成員個數,希望由上下夾擠的方式找出最適當的家 族大小。

一開始先假設全部的核醣核酸為同一家族,序列總數即為答案總數。此 時利用 GPRM 預測共同的二級結構,若此結構的拉普拉斯值通過門檻,雖符 合上述情況一的條件(請參照拉普拉斯估計量及其用處),但因為家族大小已 無法再擴大,則表示這群核醣核酸皆屬相同家族,且這答案便是正確的結構 元;反之,這些核醣核酸便分屬兩個以上的家族。因此,須要先估計出其中 某一家族的核醣核酸數目,有了較正確的答案總數,GPRM 才能找出正確的 二級結構元。

當結構元的拉普拉斯值不及門檻值時,則為上述情況二的條件(請參照 拉普拉斯估計量及其用處),故須將猜測數值縮小。本研究的做法是將家族 大小減為一半,再利用 GPRM 重新尋找共同的二級結構。當決定增加家族成 員數目時,便取前一次拉普拉斯值未通過門檻時的大小,與此次猜測的家族 大小的中間值;反之,須降低家族個數時,便取前一次通過門檻時的大小,

與此次猜測的家族大小的中間值。重複上述的程序,直到找到最適當的大 小。而所謂的”最適當的大小”,本研究定義為,當序列數少 1 則可通過拉 普拉斯門檻,多 1 則拉普拉斯值又嫌不足。

我們希望在預測序列數目的過程中,會如下述的劇本發展:

以下例子中,N 表示猜測的成員個數。此例中核醣核酸總數為 50。

圖表 13. 例一。

紅色數字表示拉普拉斯值不足;

藍色數字則是超過拉普拉斯門檻。

1. N=50,拉普拉斯值不足,故 N 降為 25,重新尋找共同結構。

2. N=25,超過拉普拉斯門檻,取 25 與 50 之中間值 37,重新尋找共同結構。

3. N=37,拉普拉斯值不足,故取 25 與 37 之中間值 31,重新尋找共同結構。

4. N=31,拉普拉斯值不足,故取 25 與 31 之中間值 28,重新尋找共同結構。

5. N=28,超過拉普拉斯門檻,取 28 與 31 之中間值 29,重新尋找共同結構。

6. N=29,超過拉普拉斯門檻,取 29 與 31 之中間值 30,重新尋找共同結構。

與 30 最接近且拉普拉斯值不及門檻值的成員數目為 31,因之間的差距為 1,

且成員數目為 29 的拉普拉斯值有超過門檻值,符合我們所定義的終止條 件,故此時可宣稱 30 為某家族的成員數目。

由於本研究認為成員數目須達到一定程度才足以構成一個家族,但多大 才算有意義的核醣核酸家族,我們預留設定彈性給有不同認定的使用者,故 使用者須先指定最小的家族大小(minimum cluster size)。圖表 14 所顯示 的例子是,當拉普拉斯值一直無法通過門檻值時,成員數目會一直減半,直

1 25 28 29 31 37 50

正確的成員總數 30

圖表 14. 例二。

假設一個家族至少須要 10 條序列。

1. N=50,拉普拉斯值不足,故 N 降為 25,重新尋找共同結構。

2. N=25,拉普拉斯值不足,故 N 再降一半,變成 13,重新尋找共同結構。

3. N=13,拉普拉斯值不足,故 N 再降一半,變成 7。

因為最小的家族大小為 10,此時猜測的成員數目已小於最小限制,達 到終止條件。對於這種情況,因為找不到一個適當的家族成員個數,於是便 猜測是結構參數設定的問題。

修改結構參數

2002 年本實驗室發展的 GPRM 系統,提供使用者輸入結構參數的部份,

其中之一便是莖幹個數。而在本研究中,此部份修改為輸入最少的莖幹個數 與最多的莖幹個數。正是因為使用者可能輸入不同家族的序列,這些家族的 共同結構可能莖幹個數不同。

由於 GPRM 使用 ramped half-and-half(Koza 1992)的概念產生第一代 的族群,若允許個體可以擁有不同的莖幹個數,則須要很大的族群才能囊括 所有可能的二級結構相對位置,而且須要夠長的演化時間才能收斂到正確的 答案。因此,在預測可能的共同結構時,整個族群中的個體會固定相同的莖 幹個數。

1 7 13 25 50

本研究先以最多的莖幹數目開始嘗試,在此結構參數的設定下,預測可

相關文件