• 沒有找到結果。

第五章 實驗結果

5.5 評估方式

分群結果評估

本篇論文研究主要是提出一套核醣核酸分群的系統,在評估分群結果時,選 擇常用的擷取率(recall)與正確率(precision) 來衡量挑選到正確家族成員的 能力,其定義分別如下所示: Matthews 的相關係數評分法(Matthews correlation coefficient)(Matthews 1975)。 在本研究議題中,正確的正預測(true positives)是指,確實屬於此家族 的核醣核酸,其預測的結構元中,所包含的鹼基對亦出現在正確結構元中的鹼基

對個數;錯誤的正預測(false positives)則是,不屬於此家族的核醣核酸鹼基 對個數,以及雖被歸類在正確家族的核醣核酸,在其預測的結構元中,所包含的 鹼基對並沒有出現在正確結構元中的鹼基對個數;另外,屬於此家族之核醣核 酸,其正確結構元中的鹼基對,並沒有出現在預測的結構元中,則稱為錯誤的反 預測(false negatives)。

擷 取 率 正 確 率 Matthews 相 關 係 數

IRE 0.83 0.98 0.78

VIRUS 0.77 0.76 0.62

5.6 實驗結果

本研究以 C 語言來撰寫整個系統,執行環境為 Mandrake Linux 9.0 作業系 統,兩顆 PⅣ 2.4G Hz 的中央處理器以及 1G 記憶體。在本篇論文所進行之實驗,

其群體大小設為 1000,突變與交換率分別為 0.9 與 0.2,而反例數目為正例的 1 倍。拉普拉斯門檻值設為 0.96。

5.6.1 非結構區域序列相似度影響

在生命體中無生化功能的核醣核酸二級結構元,在不同的家族中都有出現的 可能。為了探討本系統是否會被這些結構的誤導,而預測出錯誤的共同結構元,

我們設計了此類實驗。由於在非結構區域中,若有非常相似的序列內容,且能摺 疊成二級結構,則會有較高的機會在此區域中出現共同的二級結構元,而此結構 便是無代表性的結構,但有可能誤導系統運作。我們希望藉此類資料測試本系統 的容錯能力。

此組實驗資料為 IRE like 與 soil-borne mosaic virus 混合而成的。在這 次實驗中,我們故意放鬆結構參數的設定,莖幹個數設為 2-3。表格 2 為其實驗 結果整理。

表格 2 IRE + VIRUS (2-3 個莖幹)

擷 取 率 正 確 率 Matthews 相 關 係 數

IRE 0.97 0.99 0.97

VIRUS 0.71 0.95 0.79

由表可看出,IRE 的正確率(Precision)很高,但擷取率(Recall)卻很低。

這是因為 GPRM 預測出來的共同結構擁有三個莖幹,如下所示。

實際上,IRE 共通結構元只有兩個莖幹,GPRM 雖能正確地預測出來,但也找出另 一個無意義的莖幹(上例中的綠色莖幹)。這個莖幹的長度很短,而中間所夾擠的 環線範圍很寬鬆,這對 IRE 這種序列很長的家族來說,在非結構區域有很高的機 率可以找到這種莖幹。但以這種結構元去掃描家族成員時,只挑出其中一部份的 成員,故在 IRE 這群中有很高的正確率,但擷取率卻很低。而因為遺漏掉太多的 序列,使得錯誤的反預測(false negative)太高,而拉低了 Matthews 相關係數 值。

雖然 GPRM 預測出 VIRUS 家族的結構元為擬節結構,但受限於此組資料天生 上共同的結構元長相差異性比較大的關係,擷取率依然偏低。由於 IRE 序列比較 長,有些序列在非結構區域出現擬節結構,因此,即使以 VIRUS 的結構元來掃描 家族成員,還是會挑出 IRE 的序列,而拉低了 VIRUS 的正確率。因為在搜尋共同 結構元時,還是會被 IRE 序列的影響,所有預測出來的結構元多多少少還是會與 真實的長相有所出入,再加上太多不屬於此家族的序列,而有很高的錯誤正預測 (false positive),故 VIRUS 的 Matthews 相關係數值便降低了。

若我們嚴格的限制共同結構元的莖幹個數為 2,則不僅是擷取率與正確率,

連 Matthews 相關係數也可大幅改進,實驗結果如下表所示。

[4,6] (2,2) [5,5] (7,7) [5,5] (1,1) [4,6] (0,6) [3,4] (3,9) [3,4]

擷取率 正確率 Matthews 相關係數

16SRNA 0.97 0.95 0.83

VIRUS 0.77 0.98 0.77

5.6.2 同源核醣核酸其二級結構相似度影響

我們以共同結構元的變易度來表現同源的核醣核酸,其二級結構長相的一致 性。當變易度愈小時,每一條核醣核酸的二級結構元會非常相似,且在隨機產生 的反例中,亦很少出現。

若以 GPRM 只針對 16SRNA 家族預測其共同的二級結構元,會如下所示 [8,9] (1,3) [8,14] (1,6) [8,14] (1,6) [8,14] (1,6) [8,14] (1,4) [8,9]

此結構元擁有三個很長的莖幹,在此家族的核醣核酸二級結構元的長相都滿相似 的。而 GPRM 針對 VIRUS 家族所預測出來的共同結構元是包含二個莖幹的擬節結 構,如 [3,6] (0,3) [4,10] (0,1) [3,6] (0,6) [4,10]

在 VIRUS 家族中的核醣核酸,其二級結構元相對來說差異性較大,並沒有存在一 個結構元是出現在所有序列中。因此,我們取 soil-borne mosaic virus 與 archaea 16S rRNA 混合而成此組實驗資料。在本次實驗中,莖幹個數設為 2-3,

結果如表格 4 所示。

表格 4 VIRUS + 16SRNA

因為在 16SRNA 中,序列之間的結構元比較一致,而且又有三個莖幹,因此 其共同的特徵很容易被發掘,預測出來的結構元較準確。故掃描家族成員時,便 可挑出絕大部份的序列,而有極高的擷取率、正確率以及 Matthews 相關係數值。

而 VIRUS 家族的共同結構元,因差異比較大,而無法找到一個結構元是所有 序列都有的,只能儘可能地找出一個大部份序列都出現的結構元。因此,所挑選

擷取率 正確率 Matthews相關係數

16SRNA 0.81 0.73 0.67

IRE 0.73 0.99 0.85

出來的家族成員,只是一部份的序列,故平均而言,擷取率會較低。但 16SRNA 只有少數幾條序列擁有擬節結構,故 VIRUS 還是有很高的正確率。但因為遺漏掉 一些序列,錯誤的反預測(false negative)比較高,而拉低 Matthews 相關係數 值。 GPRM 最後收斂到一個較不精確的結構元。因此,以此當成共同特徵去挑選 16SRNA 的家族成員,便會遺漏一些序列,造成較低的擷取率與較高的錯誤的反預測 (false negative)。再加上多出了 IRE 的序列,故有較高的錯誤的正預測(false positive),因此,Matthews 的相關係數值才會比較低。而預測出來的 IRE 共同 結構元長相雖然是正確的,但因為一部份的序列已經被歸到 16SRNA 家族了,故 有較高的錯誤的反預測(false negative),而拉低了 Matthews 的相關係數值。

擷取率 正確率 Matthews相關係數

相關文件