尋找代表性的結構元

第四章研究方法

4.4 架構說明

4.4.3 尋找代表性的結構元

前置處理只是一般的準備程序，之後才會進行結構預測與分群的工作。此小節我們介紹如何利用 GPRM 來預測核酸核酸二級結構。

適應函數的誤導

GPRM 考慮正確率(precession)與擷取率(recall)來評估演化群體中二級結構的好壞，其定義為：

正確率(precession) :

此式即是 F 分數(F-score)(Lewis and Gale, 1994)的定義，GPRM 便是以此當做適應函數。由上式來看，只有在正確率與擷取率都高的情況下，分數才會較高，故 GPRM 在尋找答案時會偏好愈多序列擁有的共同結構。但若考慮 以下例子(圖表 10)，便會發現這樣的搜尋方向與實際答案背道而馳：

假設使用者輸入的序列分屬兩個不同的家族，藍色斜線區塊為擁有此二級結構的序列數目。

結構元(a) 結構元(b) 圖表 10.

若以分群結果的角度來看，很明顯可看出，結構元(a)不能區分出不同家族的核醣核酸，反倒是有結構元(b)出現的核醣核酸比較單純，皆是家族 2 的成員。顯然，結構元(b)才是代表家族的結構元，但 GPRM 卻會偏愛結構元(a)。這是由於 GPRM 系統的前提假設是，所有的核醣核酸序列皆為同一家族，因此在計算擷取率時，錯把全部序列數目當作答案總數。由此例可知，

真實的共同結構元出現次數只要達到某定程度即可，並非愈多愈好，最好是只在其家族的核醣核酸中出現。若要知道某結構的出現是否恰如其分，或只是偶然，則可利用統計方法來檢定。為了去除 F-分數的迷思，我們必須先預測家族成員個數，亦即目標結構元在正例中最佳的出現次數。

本研究運用拉普拉斯估計量(Laplace-estimate)(Kruskal and Tanur, 1978)來調整家族大小的猜測方向。以此作為臨界值來判斷結構元出現的次數是否達到可接受的程度。本研究依然使用 F-分數做為選擇結構的依據，

只是 F-分數計算的方式須再加以修正。以下我們先介紹拉普拉斯估計量及 其使用時機，再說明如何調整 F-分數計算公式。

家族１

家族 2

家族１

家族 2

拉普拉斯估計量及其用處

在規則庫的建構領域中，拉普拉斯數值可用來估量符合此規則的範例個數是否夠多。它的原始定義如下：

k N value n

Laplace ^c

+ value n

Laplace (3)

其中n_p為使用者所輸入的序列中擁有此結構的數目；

nn為負面背景序列中擁有此結構的數目；

在尋找具有代表性結構的過程中，GPRM 採用 F-分數來顯示二級結構的好壞。透過演化的運算子來改變二級結構以期提高適應分數，最後 GPRM 會預測出一個最好的二級結構，而其拉普拉斯值是否通過拉普拉斯門檻，則透露出不同的訊息。接下來我們仔細探討這兩種狀況。

【情況一】通過拉普拉斯門檻

GPRM 是一個採用監督式學習(supervised learning)來獲得最佳解的系統，因此會有一組負面背景序列來當做學習時的錯誤範例。根據假設所述，

具有代表性的共同結構不會出現在這些序列中。換言之，我們希望結構元儘可能只在正例中出現，負面背景序列擁有此目標結構的數目愈少愈好。

對於相同家族的序列，利用 GPRM 可以尋找出它們共同的二級結構。這 種結構在負面背景序列理當不常出現。如圖表 11 所示，此結構元並沒有出 現在任何一條負例中，且在正例中，擁有此結構的數目接近一半。會造成此結果的原因極可能是因 GPRM 所找到的共通結構太嚴格，因此，雖然沒有任何負例包含此結構，但也僅出現在少數正例中。換言之，這可能是 (overfitting)的結果，但真正的家族成員不只這些核醣核酸，因而，必須調高家族的大小(family size)。

圖表 11.

左邊區塊為正例個數；右邊區塊為反例總數。

負面背景序列數目與使用者輸入的序列數目相等。

【情況二】不及拉普拉斯門檻值

當有一組核醣核酸序列，其屬於不同的家族，例如，兩個大小相同的家族，則不管是哪一個家族，其真正的結構元平均出現的次數應該都不會超過一半，然而因 GPRM 優先選擇大量出現的結構，故演化終止時，可能會收斂到一個不具代表性的結構，不僅這兩個家族的核醣核酸大多會擁有此種結構，甚至在負面背景序列中亦會常出現。其拉普拉斯數值應當較低。若能透過適當的門檻刪選，應可以過濾這些不具代表性的共通結構。

如圖表 12 所示，此二級結構元的拉普拉斯值不及門檻值，表示 GPRM 所 預測的二級結構為無意義的共同結構，其出現的核醣核酸數目太多，不但包含了另一個家族的核醣核酸，也包含了許多序列負例，因此，我們能依此校正 GPRM 對於家族大小的認定，修正 GPRM 的演化行為。

圖表 12.

左上紅色區塊為第一群正例；左下黑色區塊為第二群正例；

右邊綠色區塊代表反例總數。

在此範例中，負面背景序列數目與使用者輸入的序列數目相等。

家族１

家族 2

預估某家族的序列數目

本研究欲處理的資料是一組未經排比(unaligned)的核醣核酸序列。我們希望利用共通結構元為基礎，對這些核醣核酸序列作分群。為了計算正確的 F-分數，必須事先知曉每個家族的核醣核酸數目。我們採取二分逼近法來預測其中某家族可能的成員個數，希望由上下夾擠的方式找出最適當的家族大小。

一開始先假設全部的核醣核酸為同一家族，序列總數即為答案總數。此時利用 GPRM 預測共同的二級結構，若此結構的拉普拉斯值通過門檻，雖符 合上述情況一的條件(請參照拉普拉斯估計量及其用處)，但因為家族大小已 無法再擴大，則表示這群核醣核酸皆屬相同家族，且這答案便是正確的結構元；反之，這些核醣核酸便分屬兩個以上的家族。因此，須要先估計出其中某一家族的核醣核酸數目，有了較正確的答案總數，GPRM 才能找出正確的二級結構元。

當結構元的拉普拉斯值不及門檻值時，則為上述情況二的條件(請參照 拉普拉斯估計量及其用處)，故須將猜測數值縮小。本研究的做法是將家族 大小減為一半，再利用 GPRM 重新尋找共同的二級結構。當決定增加家族成員數目時，便取前一次拉普拉斯值未通過門檻時的大小，與此次猜測的家族大小的中間值；反之，須降低家族個數時，便取前一次通過門檻時的大小，

與此次猜測的家族大小的中間值。重複上述的程序，直到找到最適當的大小。而所謂的”最適當的大小”，本研究定義為，當序列數少 1 則可通過拉普拉斯門檻，多 1 則拉普拉斯值又嫌不足。

我們希望在預測序列數目的過程中，會如下述的劇本發展：

以下例子中，N 表示猜測的成員個數。此例中核醣核酸總數為 50。

圖表 13. 例一。

紅色數字表示拉普拉斯值不足；

藍色數字則是超過拉普拉斯門檻。

1. N=50，拉普拉斯值不足，故 N 降為 25，重新尋找共同結構。

2. N=25，超過拉普拉斯門檻，取 25 與 50 之中間值 37，重新尋找共同結構。

3. N=37，拉普拉斯值不足，故取 25 與 37 之中間值 31，重新尋找共同結構。

4. N=31，拉普拉斯值不足，故取 25 與 31 之中間值 28，重新尋找共同結構。

5. N=28，超過拉普拉斯門檻，取 28 與 31 之中間值 29，重新尋找共同結構。

6. N=29，超過拉普拉斯門檻，取 29 與 31 之中間值 30，重新尋找共同結構。

與 30 最接近且拉普拉斯值不及門檻值的成員數目為 31，因之間的差距為 1，

且成員數目為 29 的拉普拉斯值有超過門檻值，符合我們所定義的終止條件，故此時可宣稱 30 為某家族的成員數目。

由於本研究認為成員數目須達到一定程度才足以構成一個家族，但多大才算有意義的核醣核酸家族，我們預留設定彈性給有不同認定的使用者，故 使用者須先指定最小的家族大小(minimum cluster size)。圖表 14 所顯示 的例子是，當拉普拉斯值一直無法通過門檻值時，成員數目會一直減半，直

1 25 28 29 31 37 50

正確的成員總數 30

圖表 14. 例二。

假設一個家族至少須要 10 條序列。

1. N=50，拉普拉斯值不足，故 N 降為 25，重新尋找共同結構。

2. N=25，拉普拉斯值不足，故 N 再降一半，變成 13，重新尋找共同結構。

3. N=13，拉普拉斯值不足，故 N 再降一半，變成 7。

因為最小的家族大小為 10，此時猜測的成員數目已小於最小限制，達到終止條件。對於這種情況，因為找不到一個適當的家族成員個數，於是便猜測是結構參數設定的問題。

修改結構參數

2002 年本實驗室發展的 GPRM 系統，提供使用者輸入結構參數的部份，

其中之一便是莖幹個數。而在本研究中，此部份修改為輸入最少的莖幹個數與最多的莖幹個數。正是因為使用者可能輸入不同家族的序列，這些家族的共同結構可能莖幹個數不同。

由於 GPRM 使用 ramped half-and-half(Koza 1992)的概念產生第一代的族群，若允許個體可以擁有不同的莖幹個數，則須要很大的族群才能囊括所有可能的二級結構相對位置，而且須要夠長的演化時間才能收斂到正確的答案。因此，在預測可能的共同結構時，整個族群中的個體會固定相同的莖幹個數。

1 7 13 25 50

本研究先以最多的莖幹數目開始嘗試，在此結構參數的設定下，預測可

在文檔中利用共同結構元實作核醣核酸分群 (頁 37-46)

第四章 研究方法

4.4 架構說明

4.4.3 尋找代表性的結構元

第四章研究方法