• 沒有找到結果。

由樣本在向量空間中的分佈

六、實驗成果

B. 由樣本在向量空間中的分佈

第二種決定PPI訓練樣本的可靠度的做 法,就是由他們在樣本空間的幾何分佈情形。

如果一個PPI樣本在樣本空間中和其它的PPI 樣本都很接近的話,則他應該就是很可靠的。

反之如果一個PPI樣本在樣本空間中和其它的 PPI樣本很疏遠的話,則他就很可能是一個雜 訊(outlier),可靠度就應是比較小,由樣本在 向量空間的分佈決定樣本可靠程度的做法,可 分成他在『原來空間(original space)』與『特 徵空間(feature space)』分佈二種情形討論:

a) 在原來空間的分佈

假 設 給 定 一 組 訓 練 樣 本

x ,...,

1

x

N , 令

x

mean表示樣本的平均分佈(mean),以及此樣 本分佈的半徑為

圖十四:資料在RBF特徵空間的分佈。

mean i i

rtarget = maxxx

則第i個樣本的可靠程度定義為[Lin, 2002]

) 1 (

target

δ

μ

+

− −

= r

mean i

i

x x

如果第i個PPI距離

x

mean越近,則他的可靠程度 越大,反之如果第i個PPI距離

x

mean越遠,則他 的可靠程度越小。

b) 在特徵空間的分布

由於單類別SVM是將訓練樣本經由一個 非線性轉換

Φ

映射到一個高維度的特徵空間 (feature space),然後找出一個最佳的超平面分 割所有的正樣本。所以第i個訓練樣本在特徵 空間的分佈也可以用來決定此樣本的可靠程 度,而使用高斯RBF核心函數對應的特徵空間 有一個特性,就是在特徵空間中所有的樣本距 離原點的距離皆是1,也就是所有的樣本都是 在一個以原點為球心的球表面上,如圖十四所 示。所以我們可以直接由樣本在特徵空間的內 積表示他們之間的距離。則第i個樣本的可靠 程度定義為

=

k i

k i

i

k ( x , x )

μ

圖十五:使用階層模糊積分器決定PPI樣本的可靠度。

同樣的,如果第i個樣本在特徵空間中與其他 樣本越接近的話,則他越可靠;反之則他越不 可靠。由於一個PPI資料可能是由二種以上實 驗方法探測出來,而且還要考慮他們在樣本空 間中的分佈情形。最後在本計畫中,我們使用 一個階層式的模糊積分器(fuzzy integration)來 整合由『實驗方法』與『樣本分布』判定可靠 度的資訊,最後整合出第i個PPI樣本的可靠程 度。此階層式模糊積分器的架構如圖十五所 示。

6.1.2 蛋白質序列核心函數

   近年來也有些學者在研究一些新的核心 函數,專門用來處理一些輸入資料樣本是離散 的資料型態—例如文件資料或蛋白質序列。藉 由這些新穎的核心函數的發明,讓支持向量機 的功能越加強大,不再僅限制於只能處理輸入 空間是尤拉空間(Euclidean space)的問題了,而 且可以應用到一些無法在輸入空間定義線性 函數的問題上。在本研究計畫中,我們比較使 用下列生物序列的核心函數針對蛋白質交互 作用的預測正確率,並透過整合數過蛋白質序 列核心函數,比較整合之後的蛋白質序列函數 的預測PPI 的正確率,我們比較的蛋白質序列 核心函數共有

A. Fisher kernel

B. Piwise similarity kernel C. K-spectrum kernel D. K-mismatch kernel E. Local alginment kernel

表四:不同蛋白質序列核心函數的PPI預測正確率 蛋白質序列

核心函數 One-class

SVM Fuzzy

One-class SVM

A 67.0 67.2 B 68.1 68.2 C 68.4 68.4 D 67.3 67.5 E 67.4 67.9

6.1.2. PPI 預測成果

在本計畫執行期間中,我們開發了一套 PPI 預測系統,自動由大量的蛋白質中預測會 彼此交互作用的一對蛋白質。我們比較了單類 別支持向量機以及本計畫所提出的模糊單類 別支持向量機,在使用不同的蛋白質序列核心 函數時的蛋白質交互作用的預測正確率,實驗 結果如表四所示。

在表四中,我們可以看到本計畫所提出的 模糊單類別支持向量分類機對於預測蛋白質 交互作用的正確率比原來的單類別支持向量 分類機來得高,由此可知,將模糊理論的概念 導入蛋白質交互作用的預測是有其貢獻的。因 為不同的實驗方法探測蛋白質交互作用擁有 不同的解析度,所以不同實驗方法得到的 PPI 樣本的可信賴程度也就不一樣,而模糊理論可 以處理現實世界中資訊其性質是『不精確的』

或『不確定的』的特性,如此可以避免訓練出 來的預測模組會受到雜訊 PPI 樣本的影響。

此外,不同的蛋白質序列核心函數有不同 考量依據,在計算一對蛋白質序列的內積(也 就是相似度)也有不同的思考觀點,而這些不 同的蛋白質序列核心函數也可以把他們整合 在一起,成為一個新的蛋白質序列核心函數,

並包含原來蛋白質序列核心函數的優點。首先 我們使用下面方式將 2 個蛋白質序列核心函 數結合在一起:

) , ( ) , ( ) ,

( x z K

1

x z K

2

x z

K

new

= +

,

表五:結合不同蛋白質序列核心函數的預測正確率 結合 2 個蛋白質

序列核心函數

One-class SVM

Fuzzy One-class

SVM

A+B 67.5 67.7

A+C 68.0 68.4

A+D 67.2 67.4

A+E 67.2 67.3

B+C 68.4 68.5

B+D 67.8 67.9

B+E 67.9 68.1

C+D 68.1 68.3

C+E 68.2 68.3

D+E 67.4 67.5

在本計畫中,我們同時比較在結合 2 個不同的 蛋白質序列核心函數後的蛋白質交互作用的 預測正確率,實驗結果如表五所示。我們發現 結合蛋白質序列核心函數的預測正確率,大多 會落在原來 2 個蛋白質序列核心函數之間,如 何提出更好的結合核心函數的方法,使得預測 的正確率能比原來 2 個蛋白質序列核心函數 更佳,將是我們未來的研究方向。

6.2 使用參數化不敏感區間的支持向量迴歸 機應用於蛋白質殘基接觸數的預測

近年來,有學者提出另一種從蛋白質的一 級結構預測其三級結構的方法。蛋白質的三級 結構可以藉由測量其中每一個殘基的接觸程 度(contact order),而知道它們在空間中是如何 排列的。所謂一個折疊後的蛋白質中其殘基接 觸程度(contact order)是根據該分子所暴露的 區域環境而量度,其定義為以該殘基分子中的 Cα(或Cβ)原子為中心,在一特定的球形範圍 內 , 所 有 與 它 距 離 小 於 某 特 定 長 度( 例 如 10Ao (埃))的其它Cα(或Cβ)原子的數目,然後 再判斷這些接觸的數目(CN)占總殘基數目的 比例為多少。

Residue-wise contact order (RWCO)是一 種新的一級蛋白質結構描述遠距殘基接觸的 程度,它是一個序列中的某一個殘基和其它殘 基 正 在 接 觸 的 殘 基 之 間 做 加 總[Hua, 2001;

Kinjo, 2005; Kihara, 2005]。在決定蛋白質三級 結構時,殘基的接觸程度提供了非常有用的資 訊,例如我們可以用接觸程度決定在動態模擬 蛋白質結構時的能量函數(energy function)。

因此,在本計畫中我們提出一個新穎的參 數 化 不 敏 感 區 間 的 支 持 向 量 迴 歸 機 (par-v-SVR)來改善傳統支持向量迴歸機的缺 點,並且使用他來預測氨基酸的接觸程度。由 於我們提出的par-v-SVR 的不敏感區間是一個 參數化(parametric)的函數所表示,所以我們的 par-v-SVR 對於這些誤差分布與輸入樣本有關 的資料集可以得到更好的迴歸結果。

6.2.1 人造資料集的迴歸結果

在實驗部分我們先以簡單的實驗來說明我 們新提出的par-v-SVR與原來的SVR有什麼差 異。首先考慮下列資料集:

, ) 05 . 0 1 . 0 ( 3 . 0 2 . 0 ) 2 sin(

2 .

0 k k2 k2 k

k x x x e

y = π + + + +

, 51 ,...., 2 , 1 ), 1 ( 02 .

0 − =

= k k

xk

此資料集也有被[Jeng, 2003]所使用。明顯的在 此資料集中,誤差的分佈與輸入樣本x有關係 的,x接近0時,誤差的變異量較小,x值越大,

變異量就越大。圖十六(a)與(b)分別顯示原始 SVR與我們提出的par-v-SVR得到的結果。明 顯的可以看到par-v-SVR得到的迴歸結果更適 合此資料集。

(a)

(b)

圖十六 (a) SVR 的結果, (b) par-v-SVR 的結果

接著我們考慮另一個更複雜、誤差的分 佈與輸入樣本x 相關程度更大的資料集,如圖 十七所示。此資料及最早是由[Jeng, 2003]所使 用。在此資料集中,原始 SVR 完全沒有辦法 可以得到較好的回歸結果,因為原始的 SVR 其不敏感區間假設是為一個管狀(tube)的形 狀,而我們提出的par-v-SVR 由於不敏感區間 是一個參數化(parametric)的函數所表示,所以 我們的par-v-SVR 得到的迴歸結果更適合此資 料集。

6.2.2

資料來源、編碼與評估方式

要研究蛋白質相關的資訊,國外有提供很 多的蛋白質資料庫,較有名的資料庫有 : PDB、SWISS-PROT、PIR、EMBL、SCOP 等 資料庫,這些資料庫裡的蛋白質資料,都是透 過X-ray 和 NMR 所得到的各種從一級到三級 甚至是四級結構的資訊都顯示在上面,

(a)

(b)

圖十七 (a) SVR 的結果, (b) par-v-SVR 的結果

而且也提供每個蛋白質的3D 結構圖,提 供給研究人員更詳細的資訊。本研究之資料採 用和Jiangning Song 與 Kevin Burrage 這兩位學 者一樣的資料集,它的來源來自SCOP 資料庫 裡的ASTRAL SCOP version 1.69,裡面包含了 680 個蛋白質序列,總共有 120421 個殘基,

及 各 殘 基 所 相 對 應 的 殘 基 接 觸 數(residue number)和 RWCO 值[Kihara, 2005]。

本研究採用大小為15 的 Sliding Windows 來當作輸入 SVR 訓練與測試的方法,編碼分 為三部分,第一部分為local sequence(LS),LS 是針對20 個胺基酸進行編碼,維度為 15*20。

為了得到更多的生物演化資訊,本研究採用特 定 位 置 評 分 矩 陣(position specific scoring matrix; PSSM)來取代傳統的蛋白質編碼方 式,特定位置評分矩陣(position specific scoring matrix; PSSM) 是 由 PSI-BLAST(position specific iterative BLAST)所產生的,它是由

Altschul 學者以 BLAST 為基礎,再加上反覆 搜尋比對的概念所設計而成。它的特性是序列 模式的資料庫搜尋靈敏度較高、特異性較好,

因而可以發現一些距離較遠但結構上或功能 特性相似的序列片段[Altschul, 1997]。

PSI-BLAST 會將要比對的目標蛋白質序 列從所選擇的資料庫(nr、pdbaa)做搜尋比對,

找出相似度較高的蛋白質序列,然後將這些蛋 白質序列做多重序列校準(multiple sequence alignment; MSA),然後產生一個查詢序列長度 的profile,而這個 profile 就是所謂的 PSSM。

特 定 位 置 評 分 矩 陣(position specific scoring matrix; PSSM)是根據胺基酸在每個位置上出 現頻率個別加重計分。該矩陣的橫軸是代表 20 個胺基酸在此位置出現機率的分數,而縱 軸則是胺基酸序列的長度,矩陣上的每個位置 都代表著胺基酸該此位置上出現機率的分數。

在選擇要比對的資料庫與軟體方面,本研 究所選用的資料庫是NCBI 網站裡面的 pdbaa 資料庫與nr 資料庫,pdbaa 資料庫裡面所放的 蛋白質序列是蒐集 PDB 資料庫裡已經被判斷 出三級結構的蛋白質序列,nr 資料庫裡面所放

在選擇要比對的資料庫與軟體方面,本研 究所選用的資料庫是NCBI 網站裡面的 pdbaa 資料庫與nr 資料庫,pdbaa 資料庫裡面所放的 蛋白質序列是蒐集 PDB 資料庫裡已經被判斷 出三級結構的蛋白質序列,nr 資料庫裡面所放

相關文件