由樣本在向量空間中的分佈 - 六、實驗成果 - 蛋白質功能分析---使用新的支持向量機與核心函數

六、實驗成果

B. 由樣本在向量空間中的分佈

第二種決定PPI訓練樣本的可靠度的做法，就是由他們在樣本空間的幾何分佈情形。

如果一個PPI樣本在樣本空間中和其它的PPI 樣本都很接近的話，則他應該就是很可靠的。

反之如果一個PPI樣本在樣本空間中和其它的 PPI樣本很疏遠的話，則他就很可能是一個雜訊(outlier)，可靠度就應是比較小，由樣本在向量空間的分佈決定樣本可靠程度的做法，可分成他在『原來空間(original space)』與『特徵空間(feature space)』分佈二種情形討論:

a) 在原來空間的分佈

假設給定一組訓練樣本

x ,...,

₁

x

_N ，令

x

mean表示樣本的平均分佈(mean)，以及此樣本分佈的半徑為

圖十四：資料在RBF特徵空間的分佈。

mean i i

r_target = maxx −x

則第i個樣本的可靠程度定義為[Lin, 2002]

) 1 (

target

δ

μ

− −

= r

mean i

x x

如果第i個PPI距離

x

_mean越近，則他的可靠程度越大，反之如果第i個PPI距離

x

_mean越遠，則他的可靠程度越小。

b) 在特徵空間的分布

由於單類別SVM是將訓練樣本經由一個非線性轉換

Φ

映射到一個高維度的特徵空間 (feature space)，然後找出一個最佳的超平面分割所有的正樣本。所以第i個訓練樣本在特徵空間的分佈也可以用來決定此樣本的可靠程度，而使用高斯RBF核心函數對應的特徵空間有一個特性，就是在特徵空間中所有的樣本距離原點的距離皆是1，也就是所有的樣本都是在一個以原點為球心的球表面上，如圖十四所示。所以我們可以直接由樣本在特徵空間的內積表示他們之間的距離。則第i個樣本的可靠程度定義為

∑

≠

=

k i

k ( x , x )

μ

圖十五：使用階層模糊積分器決定PPI樣本的可靠度。

同樣的，如果第i個樣本在特徵空間中與其他樣本越接近的話，則他越可靠；反之則他越不可靠。由於一個PPI資料可能是由二種以上實驗方法探測出來，而且還要考慮他們在樣本空間中的分佈情形。最後在本計畫中，我們使用一個階層式的模糊積分器(fuzzy integration)來整合由『實驗方法』與『樣本分布』判定可靠度的資訊，最後整合出第i個PPI樣本的可靠程度。此階層式模糊積分器的架構如圖十五所示。

6.1.2 蛋白質序列核心函數

　　近年來也有些學者在研究一些新的核心函數，專門用來處理一些輸入資料樣本是離散的資料型態—例如文件資料或蛋白質序列。藉由這些新穎的核心函數的發明，讓支持向量機的功能越加強大，不再僅限制於只能處理輸入空間是尤拉空間(Euclidean space)的問題了，而且可以應用到一些無法在輸入空間定義線性函數的問題上。在本研究計畫中，我們比較使用下列生物序列的核心函數針對蛋白質交互作用的預測正確率，並透過整合數過蛋白質序列核心函數，比較整合之後的蛋白質序列函數的預測PPI 的正確率，我們比較的蛋白質序列核心函數共有

A. Fisher kernel

B. Piwise similarity kernel C. K-spectrum kernel D. K-mismatch kernel E. Local alginment kernel

表四：不同蛋白質序列核心函數的PPI預測正確率蛋白質序列

核心函數 One-class

SVM Fuzzy

One-class SVM

A 67.0 67.2 B 68.1 68.2 C 68.4 68.4 D 67.3 67.5 E 67.4 67.9

6.1.2. PPI 預測成果

在本計畫執行期間中，我們開發了一套 PPI 預測系統，自動由大量的蛋白質中預測會彼此交互作用的一對蛋白質。我們比較了單類別支持向量機以及本計畫所提出的模糊單類別支持向量機，在使用不同的蛋白質序列核心函數時的蛋白質交互作用的預測正確率，實驗結果如表四所示。

在表四中，我們可以看到本計畫所提出的模糊單類別支持向量分類機對於預測蛋白質交互作用的正確率比原來的單類別支持向量分類機來得高，由此可知，將模糊理論的概念導入蛋白質交互作用的預測是有其貢獻的。因為不同的實驗方法探測蛋白質交互作用擁有不同的解析度，所以不同實驗方法得到的 PPI 樣本的可信賴程度也就不一樣，而模糊理論可以處理現實世界中資訊其性質是『不精確的』

或『不確定的』的特性，如此可以避免訓練出來的預測模組會受到雜訊 PPI 樣本的影響。

此外，不同的蛋白質序列核心函數有不同考量依據，在計算一對蛋白質序列的內積（也就是相似度）也有不同的思考觀點，而這些不同的蛋白質序列核心函數也可以把他們整合在一起，成為一個新的蛋白質序列核心函數，

並包含原來蛋白質序列核心函數的優點。首先我們使用下面方式將 2 個蛋白質序列核心函數結合在一起：

) , ( ) , ( ) ,

( x z K

₁

x z K

₂

x z

K

_new

= +

表五：結合不同蛋白質序列核心函數的預測正確率結合 2 個蛋白質

序列核心函數

One-class SVM

Fuzzy One-class

SVM

A+B 67.5 67.7

A+C 68.0 68.4

A+D 67.2 67.4

A+E 67.2 67.3

B+C 68.4 68.5

B+D 67.8 67.9

B+E 67.9 68.1

C+D 68.1 68.3

C+E 68.2 68.3

D+E 67.4 67.5

在本計畫中，我們同時比較在結合 2 個不同的蛋白質序列核心函數後的蛋白質交互作用的預測正確率，實驗結果如表五所示。我們發現結合蛋白質序列核心函數的預測正確率，大多會落在原來 2 個蛋白質序列核心函數之間，如何提出更好的結合核心函數的方法，使得預測的正確率能比原來 2 個蛋白質序列核心函數更佳，將是我們未來的研究方向。

6.2 使用參數化不敏感區間的支持向量迴歸機應用於蛋白質殘基接觸數的預測

近年來，有學者提出另一種從蛋白質的一級結構預測其三級結構的方法。蛋白質的三級結構可以藉由測量其中每一個殘基的接觸程度(contact order)，而知道它們在空間中是如何排列的。所謂一個折疊後的蛋白質中其殘基接觸程度(contact order)是根據該分子所暴露的區域環境而量度，其定義為以該殘基分子中的 Cα(或C_β)原子為中心，在一特定的球形範圍內，所有與它距離小於某特定長度( 例如 10A^o (埃))的其它C_α(或C_β)原子的數目，然後再判斷這些接觸的數目(CN)占總殘基數目的比例為多少。

Residue-wise contact order (RWCO)是一種新的一級蛋白質結構描述遠距殘基接觸的程度，它是一個序列中的某一個殘基和其它殘基正在接觸的殘基之間做加總[Hua, 2001;

Kinjo, 2005; Kihara, 2005]。在決定蛋白質三級結構時，殘基的接觸程度提供了非常有用的資訊，例如我們可以用接觸程度決定在動態模擬蛋白質結構時的能量函數(energy function)。

因此，在本計畫中我們提出一個新穎的參數化不敏感區間的支持向量迴歸機 (par-v-SVR)來改善傳統支持向量迴歸機的缺點，並且使用他來預測氨基酸的接觸程度。由於我們提出的par-v-SVR 的不敏感區間是一個參數化(parametric)的函數所表示，所以我們的 par-v-SVR 對於這些誤差分布與輸入樣本有關的資料集可以得到更好的迴歸結果。

6.2.1 人造資料集的迴歸結果

在實驗部分我們先以簡單的實驗來說明我們新提出的par-v-SVR與原來的SVR有什麼差異。首先考慮下列資料集:

, ) 05 . 0 1 . 0 ( 3 . 0 2 . 0 ) 2 sin(

2 .

0 _k _k² _k² _k

k x x x e

y = π + + + +

, 51 ,...., 2 , 1 ), 1 ( 02 .

0 − =

= k k

x_k

此資料集也有被[Jeng, 2003]所使用。明顯的在此資料集中，誤差的分佈與輸入樣本x有關係的，x接近0時，誤差的變異量較小，x值越大，

變異量就越大。圖十六(a)與(b)分別顯示原始 SVR與我們提出的par-v-SVR得到的結果。明顯的可以看到par-v-SVR得到的迴歸結果更適合此資料集。

(a)

(b)

圖十六 (a) SVR 的結果, (b) par-v-SVR 的結果

接著我們考慮另一個更複雜、誤差的分佈與輸入樣本x 相關程度更大的資料集，如圖十七所示。此資料及最早是由[Jeng, 2003]所使用。在此資料集中，原始 SVR 完全沒有辦法可以得到較好的回歸結果，因為原始的 SVR 其不敏感區間假設是為一個管狀(tube)的形狀，而我們提出的par-v-SVR 由於不敏感區間是一個參數化(parametric)的函數所表示，所以我們的par-v-SVR 得到的迴歸結果更適合此資料集。

6.2.2

資料來源、編碼與評估方式

要研究蛋白質相關的資訊，國外有提供很多的蛋白質資料庫，較有名的資料庫有： PDB、SWISS-PROT、PIR、EMBL、SCOP 等資料庫，這些資料庫裡的蛋白質資料，都是透過X-ray 和 NMR 所得到的各種從一級到三級甚至是四級結構的資訊都顯示在上面，

(a)

(b)

圖十七 (a) SVR 的結果, (b) par-v-SVR 的結果

而且也提供每個蛋白質的3D 結構圖，提供給研究人員更詳細的資訊。本研究之資料採用和Jiangning Song 與 Kevin Burrage 這兩位學者一樣的資料集，它的來源來自SCOP 資料庫裡的ASTRAL SCOP version 1.69，裡面包含了 680 個蛋白質序列，總共有 120421 個殘基，

及各殘基所相對應的殘基接觸數(residue number)和 RWCO 值[Kihara, 2005]。

本研究採用大小為15 的 Sliding Windows 來當作輸入 SVR 訓練與測試的方法，編碼分為三部分，第一部分為local sequence(LS)，LS 是針對20 個胺基酸進行編碼，維度為 15*20。

為了得到更多的生物演化資訊，本研究採用特定位置評分矩陣(position specific scoring matrix; PSSM)來取代傳統的蛋白質編碼方式，特定位置評分矩陣(position specific scoring matrix; PSSM) 是由 PSI-BLAST(position specific iterative BLAST)所產生的，它是由

Altschul 學者以 BLAST 為基礎，再加上反覆搜尋比對的概念所設計而成。它的特性是序列模式的資料庫搜尋靈敏度較高、特異性較好，

因而可以發現一些距離較遠但結構上或功能特性相似的序列片段[Altschul, 1997]。

PSI-BLAST 會將要比對的目標蛋白質序列從所選擇的資料庫(nr、pdbaa)做搜尋比對，

找出相似度較高的蛋白質序列，然後將這些蛋白質序列做多重序列校準(multiple sequence alignment; MSA)，然後產生一個查詢序列長度的profile，而這個 profile 就是所謂的 PSSM。

特定位置評分矩陣(position specific scoring matrix; PSSM)是根據胺基酸在每個位置上出現頻率個別加重計分。該矩陣的橫軸是代表 20 個胺基酸在此位置出現機率的分數，而縱軸則是胺基酸序列的長度，矩陣上的每個位置都代表著胺基酸該此位置上出現機率的分數。

在選擇要比對的資料庫與軟體方面，本研究所選用的資料庫是NCBI 網站裡面的 pdbaa 資料庫與nr 資料庫，pdbaa 資料庫裡面所放的蛋白質序列是蒐集 PDB 資料庫裡已經被判斷出三級結構的蛋白質序列，nr 資料庫裡面所放

在文檔中蛋白質功能分析---使用新的支持向量機與核心函數 (頁 23-29)