蛋白質功能分析---使用新的支持向量機與核心函數

(1)

行政院國家科學委員會專題研究計畫成果報告

蛋白質功能分析-使用新的支持向量機與核心函數(第 2 年)

研究成果報告(完整版)

計畫類別：個別型

計畫編號： NSC 96-2221-E-151-034-MY2

執行期間： 97 年 08 月 01 日至 98 年 07 月 31 日

執行單位：國立高雄應用科技大學資訊管理系

計畫主持人：郝沛毅

計畫參與人員：碩士班研究生-兼任助理人員：蔡龍表

碩士班研究生-兼任助理人員：陳育德

碩士班研究生-兼任助理人員：黃惠君

博士班研究生-兼任助理人員：周鴻儒

處理方式：本計畫可公開查詢

中華民國 98 年 10 月 29 日

(2)

行政院國家科學委員會補助專題研究計畫

5 成果報告

□期中進度報告

蛋白質功能分析-使用新的支持向量機與核心函數

計畫類別：

5 個別型計畫 □ 整合型計畫

計畫編號：

NSC 96-2221 -E-151 -034 -MY2

執行期間： 96 年 8 月 1 日至 98 年 7 月 31 日

計畫主持人：郝沛毅

共同主持人：

計畫參與人員：

成果報告類型(依經費核定清單規定繳交)：□精簡報告

5 完整報告

本成果報告包括以下應繳交之附件：

□赴國外出差或研習心得報告一份

□赴大陸地區出差或研習心得報告一份

□出席國際學術會議心得報告及發表之論文各一份

□國際合作研究計畫國外研究報告書一份

處理方式：除產學合作研究計畫、提升產業技術及人才培育研究計畫、列管

計畫及下列情形者外，得立即公開查詢

□涉及專利或其他智慧財產權，□一年□二年後可公開查詢

執行單位：國立高雄應用科技大學資管系

中華民國 98 年 10 月 31 日

(3)

行政院國家科學委員會專題研究計畫期末成果報告

蛋白質功能分析-使用新的支持向量機與核心函數

計畫編號：

NSC 96-2221 -E-151 -034 -MY2

執行期限：96 年 8 月 1 日至 98 年 7 月 31 日

主持人：郝沛毅國立高雄應用科技大學資訊管理學系

電子信箱(Email): [email protected]

一、摘要

「後基因體時代-蛋白質體學」其著重的議題是在探討蛋白質所扮演的生理功能，而蛋白質之間的交互作用提供推論蛋白質功能重大的線索。支持向量機(SVM)已被證明在預測蛋白質間交互作用有優異的正確性，與其他預測蛋白質間交互作用的計算方法一樣，SVM 必須使用正樣本與負樣本作為訓練的資料，然而高產量的探測蛋白質交互作用實驗方法，所找出的有交互作用的蛋白質(PPI)存在著高比率的偽陽性。在第一年的計畫中，我們結合模糊理論可以處理『不精確』與『含糊』等資料的特性，解決PPI 正樣本的不可靠性，並且使用單類別支持向量機僅需藉由正樣本去做訓練的特性，則可完全避免了如何選取負樣本的問題。此外，為了解決 PPI 資料庫不斷新增資料的問題，我們提出了一個增加式的學習演算法。蛋白質三度空間結構決定了能否表現其正常的生化功能，為了要執行特定的生物功能，蛋白質必須擁有特定的三度空間結構。如何從蛋白質的一級結構預測其三級結構，一直是研究蛋白質功能最重要的一件工作。在第二年的計畫中，我們提出一個新穎的『參數化不敏感區間的支持向量迴歸機』，並且使用它來預測殘基的接觸程度 residue-wise contact order (RWCO)。RWCO 是一種新的呈現蛋白質結構的方法，主要是在形容各殘基之間的接觸程度。藉由預測殘基的接觸程度(RWCO)，可提供將來推測蛋白質三級結構的重要線索。關鍵詞：生物資訊、蛋白質交互作用、蛋白質三級結構、支持向量機、單類別支持分類向量機、支持向量迴歸機。

二、計畫緣由與目的

當許多生物體之基因序列被快速解析後，生物相關學家的下一個主流研究目標將是探究基因序列中各基因所攜帶之功能為何？因此，以基因序列訊息資料庫為研究基礎的生物資訊學隨之開始蓬勃發展與應用，再加上新一代質譜技術與電腦高速運算與大量儲存能力的蓬勃發展下，以跨領域模式而新整合發展出『蛋白質體學(Proteomics)』。蛋白質體學不但掀起整體生命科學研究鎖定蛋白質的新風潮，也正式進入了「後基因體時代-蛋白質體學開始」的階段，成為21 世紀生物科技最主要的研究趨勢。也就是要藉由基因體序列理解生物體的生命系統整體是如何運作；這包含瞭解單純的基因或其轉譯的蛋白質的功能與結構，基因的調控，到蛋白質間的交互作用，基因間的交互作用到更複雜的生化代謝路徑甚至生物系統的運作。 mRNA 所攜帶的功能訊息必須再透過其轉譯後的產物『蛋白質』才能有執行其生理功能的能力(如圖一)，以複雜度來比較蛋白質體學與基因體學，基因體學像是小孩的遊戲，其研究終點很清楚：有機體DNA 的完整序列；蛋白質體學則試圖補獲生命系統中的種種活動現象。基因預估有 3~4 萬個，人類蛋白質估計高達20~200 萬。此外基因原則上終生不變，蛋白質則持續變化，視其出現的組織、年齡，甚至飲食習慣而改變。

(4)

圖一、基因體與蛋白質體之關係圖二、蛋白質與蛋白質之間的交互作用及其聯絡網蛋白質體學不像基因體學靠單一技術– 如 gene sequencers–就能稱霸，因為蛋白質的化學表現差異廣泛，一項技術難以適用於所有蛋白質。目前研究人員常用的實驗方法有三項，包含了分離蛋白質混合物、觀察其交互作用的技術、以及分析蛋白質的原子結構。

2.1 蛋白質交互作用

在功能性蛋白質體學（ functional proteomics）極需快速發展以探究複雜生命現象的當代科學中，蛋白質與蛋白質之間交互作用的研究，提供了一個瞭解蛋白質功能不可或缺的依據。在生物體中，蛋白質會彼此結合在一起，形成複合體，執行特殊的功能，這就是「蛋白質的交互作用」。功能單位有大有小，大如核糖體（ribosome）由30個以上的單位構成，小如轉錄因子（transcription factor）僅由2 個組成。生化學家發現，幾乎所有的蛋白質都會與其它的蛋白質結合，或是透過不結合的方式，達到交互作用的目的，圖三、使用蛋白質交互作用聯絡網預測蛋白質的功能這種現象出現在高等動物（哺乳類）的頻率又高於低等的動物。因此，要了解細胞如何系統性運作之前，必須先了解蛋白質複合體如何共同執行功能；要知道蛋白質群體怎樣執行功能，就要先定義出這群複合體的組成。許多生物活動仰賴蛋白質彼此間具有專一性交互作用的能力，因此基於『guilt by association』的概念認為，若能與已知功能的蛋白質結合的蛋白質，則該結合蛋白質可能與已知功能的蛋白質執行相類似的功能。其中的理念至少有：(1) 利用已知的蛋白質，以相連性 (linkage) 搜尋未知蛋白質可能的功能； (2) 得知許多已知蛋白質的未知功能； (3) 得知執行特定生物功能時，所有可能存在的蛋白質聯絡網 (包含已知或未知的相連性)；再加上結構生物學 (structural biology) 解析蛋白質之間交互作用的機轉等，最終方能探究基因體與蛋白質體的生理意義。相信唯有利用全面性探討的方式，才能促使研究的成果更為客觀，並加速發展其應用，並且建立蛋白質與蛋白質之間的交互作用及其聯絡網 (protein-protein interactions or interaction networks)，如圖二，我們即可藉此觀察細胞內蛋白質網路的變化；如果可以掌握疾病與蛋白質表現失衡的關係，我們就可以針對關鍵的蛋白質找出可能的治療方法與藥物，以協助人類

(5)

的疾病的治療並解決可能面臨的生物危機（如圖三）。功能性蛋白質體學主要分析某蛋白質其在整體生理反應中所扮演的生化功能角色，由於蛋白質間的功能差異很大，目前這方面研究方向主要鎖定在蛋白質-蛋白質交互作用鑑定分析。近來為發掘蛋白質功能，常用『guilt-by-association』方法來推論蛋白質功能，也就是說，如果兩個有交互作用的蛋白質其中之一知道其功能，就可以推論另一蛋白質應該與此功能有極大的相關性。所以建立蛋白質與蛋白質之間的交互作用及其聯絡網 (protein-protein interactions or interaction networks) 將是研究功能性基因體學與蛋白質體學的起始課題。有不同的實驗方法探測蛋白質交互作用，不同的方法擁有不同的解析度，第一種方法為原子層次觀察，通常是X光繞射或核磁共振，第二是直接觀察，例如酵母菌two hybrid，第三是複和體探測，如免疫共沈澱法，第四是細胞中交互作用，如受體與ligand的交互作用的生物檢測(bioassay)。不同的實驗方法有不同的可信賴程度[Sprinzak, 2003]。

2.2 蛋白質三度空間結構

若只將蛋質建檔以及建構出蛋白質間的互動關係，只佔了蛋白質體學三分之二的內容，而決定出蛋白質的立體空間結構也是同樣重要，因為蛋白質三度空間結構決定了能否表現其正常的生化功能。每一個蛋白質都由二十種氨基酸(amino acid)依特定的秩序串聯而成。蛋白質執行各種特定的生物功能則完全仰賴其特定的三度空間結構。為了要執行特定的生物功能，蛋白質必須擁有特定的三度空間結構。這好比是一個工具或一部機器必須有符合它功能的形狀和結構才具有用途。圖四、 (a)蛋白質的一級結構，即該蛋白質的氨基酸序列；(b)蛋白質的二級結構，螺旋的為helix，平板折疊為 strand；(c)蛋白質的三級結構，我們可以從其片段對應到二級結構。如果有某種原因令生物體內一個蛋白質的空間結構產生錯誤而使該蛋白質失去它應有的功能，其後果小則使生物體的運作輕微失調，大則導致生物體死亡。狂牛病的起因就是上述的一個典型例子。蛋白質三度空間結構的形成，背後隱藏著一個極端複雜、令人歎為觀止的過程。瞭解蛋白質結構在人類生活上有相當多的應用，例如：針對於有毒性的蛋白質，瞭解使其具有活性的結構部分，藉此設計藥物來抑制該結構，就可達到抑制該病症的療效。如何從蛋白質的一級結構(氨基酸序列)預測其三級結構，一直是研究蛋白質功能最重要的一件工作。傳統的作法是由蛋白質的一級結構先預測其較為粗略的二級結構，然後藉由二級結構的片段，產生可能的三級結構模組 (templete)，如圖四所示。目前對於此一領域的研究方法主要可分為兩大類，其一是利用實際實驗的方法來預測，內容包括以X 光繞射(X-ray diffraction)或是用核磁共振等(NMR)物理的方式來探知一蛋白質的結構；其二則是利用電腦的計算，依據理論和已知的基因序列等資訊來預測，預測的方法則包括了同源模擬法 (Homology modeling)、摺疊辨識法(Folding recognition)以及重頭起算法(Ab initio)三種。

(6)

A、實驗方法(Experiment Method) a. X 光繞射(X-ray diffraction)：利用光線的繞射特性，對已經結晶的蛋白質進行X 光繞射，然後收集 X 光的繞射圖譜後，再藉由分析繞射圖譜可以精準推算出蛋白質的正確立體空間結構。此一方法的缺點是，有些蛋白質相當不易結晶，且需要純度極高的樣本才能進行繞射偵測。 b. 核磁共振(NMR)：利用電子的自旋(Spin) 的特性，再加上外加磁場，藉此獲得蛋白質的電子雲圖，收集蛋白質中各氫、碳及氮原子間的相對距離，再利用此相對距離資料加以分析就可以推算出蛋白質的立體結構。然而，由NMR 所解出來的結構比起結晶繞射更不精確，通常NMR 一次可以解出20~40 種模型，最後須要再經過平均運算來獲得平均結構，因此在作NMR 實驗時必須要考慮到平均結構的品質為何。 B、理論模型(電腦計算) a. 同源模擬法(Homology modeling)：將未知的目標序列跟蛋白質結構資料庫(PDB)作序列比對，來尋找出最好的模板 (Template)，以此模板為模型將序列穿進去，然後再作最佳化的運算，來獲的目標序列的蛋白質結構。此一方法的缺點是遇到序列相似度很低的時候，就無法預測或是預測的結果可信度很低。 b. 摺疊辨識法(Fold recognition)：直接將目標序列套上已知蛋白質的相似摺疊模板，觀察二者之間的相容性，然後作能量的計算，依照序列順序跟結構排列的法則，來找出符合要求的分子。此方法的缺點是需要大量的計算量，且只能針對蛋白質的核心部份作預測。 c. 重頭起算法(ab initio)：利用分子動力學的原理，考慮胺基酸和溶液的所有交互作用力，找出分子間最穩定的狀態，從一級結構開始，來計算出蛋白質的三級結構。此一預測法同樣需要大量的電腦計算，且只能對小分子的蛋白質(peptide level)進行預測。綜合以上所介紹的蛋白質結構預測方式，以實驗方法來進行的預測工作，其共同的缺點便是太過耗時，且常受限於樣本的製備技術，而且蛋白質的純化及分離上仍有很多瓶頸。所以，以目前來說要解一個蛋白質的序列只要花短的時間，但是要解其結構則需要數年的時間，因此在序列和結構之間就出現了鴻溝，有待科學家的克服。即使有最好的機器，一個研究單位一年只能描繪數百個蛋白質的結晶，而尚有好幾十萬，甚至百萬個蛋白質結構待解開。目前較理想的方法是分析蛋白質序列，由現存資料庫中取得參數，透過電腦運算建造蛋白質的結構模型，並評估結構做最佳化的調整，藉此獲得蛋白質立體結構來幫助X 光繞射和 NMR 所無法克服的問題，並節省大量的時間。

2.3 支持向量機

支持向量機(Support Vector Machine ，

SVM) 是最近被提出來的一種類神經網路架構[Cortes, 1995; Vapnik, 1995]，它以 Vapnik 的統計學習理論為基礎，而具有極優良的推理能力 (Generalization ability)，SVM 不像傳統的圖訊識別技術以最小化經驗風險(Empirical Risk) 為目標 — 即使得訓練資料的分類誤差最小，SVM 以最小化結構風險(Structural Risk) 為目標 — 即使得未知的資料(即測試資料) 的分類誤差在一個機率上界以下。這種新的分類技術等同於最小化推理誤差的上界。

(7)

根據統計學習理論所提出來的 Vapnik and Chervonenkis bound ,下列不等式成立的機率為

1 −

η

,

Λ ∈ ∀ − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ₊ + ≤ λ η λ λ l h l h R R _emp 4 ln 1 2 ln ) ( ) (

(1) 其中 h 是分類機器的 VC 維度 (VC-dimension) ，而 l 訓練資料的數目，為了 降低結構風險(structural risk) 也就是說，為了得到更加的推理能力 (generalization performances)，則經驗風險以及 VC 維度對訓練資料的數目的比率都必須越小越好。 SVM 的基本原理是透過訓練資料

}

1 {

)

,

(

,

),

,

(

₁ ₁

∈

N

×

±

l l

y

R

x

y

x

_L

來估計出一個決策函數

:

N

→

{

±

1 }

R

f

，首先討論線性分類的問題，此時SVM 的目的是找出一個超平面(hyperplane)來區分二各類別，並且最大化這二個類別的的資料與超平面最短距離，也就是說

l

i

y

if

b

x

w

y

if

b

x

w

i i i i

,..,

1

1 =

−

=

−

≥

−

⋅

=

≥

−

⋅

(2) 亦等於

y

i

(

w

⋅

x

i

−

b

)

≥

1 i

=

1 ,

K

,

l

(3) 而最佳的(optimal)的超平面w⋅x−b=0, 也就是擁有最大化邊界 (margin)的超平面，其中邊界(margin)所指的是平面w⋅x−b=1與 1 − = − ⋅x b w 之間的距離。其距離為

2 2 w

where

=

∑

= n i wi w 1 2 2 (4) 圖六、(a)一般分類機器所找出的決策曲線(b)支持向量機所找出的最佳決策曲線而邊界(margin)越大，代表了此分類器的 VC 維度(VC-dimension)越小，也就是說他結構風險(structural risk)的上界也就越小。所以擁有最大化邊界(margin)的超平面也就是 SVM 中所要尋找的最佳化的超平面。(如圖六) 而SVM 透過求解下列的二次最佳化問題來找出最佳的超平面w⋅x−b=0

l

i

b

x

w

y

t

s

C

w

i i i i l i i b w

,...,

1

0

1 )

(

.

2

1 min

1 2 , ,

=

≥

+

⋅

⎟

⎠

⎞

⎜

⎝

⎛

+

∑

=

ξ

ξ (5) 其中 C > 0 是一個由使用者給定的固定的懲 罰參數，愈大的 C 值代表越不允許訓練資料的分類錯誤發生，而參數 C 也被稱為 regularization parameter，由上式可以看到， SVM 同時的最小化

∑

= = n i wi w 1 2 2 ， (6) 以找出最大邊界的超平面，同時也最小化分類錯誤

Ξ

=

{

ξ

_i

}

d_i ，而參數 C 則是負責二者最小化比重之間的調控。要求解此二次最佳化問題，我們可以使用拉哥郎莒(Lagrange multipliers)的技巧，假設

)

,...,

,

(

λ

₁

λ

₂

λ

_l

=

Λ

與

Γ

=

(

r

₁

,

r

₂

,...,

r

_l

)

為非

(8)

負的拉哥郎莒乘數(Lagrange multipliers) ，則此二次最佳化問題的最佳解將會落在下列函數的馬鞍點(saddle point)上面

[

]

_∑

∑

= = − + − + ⋅ − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ + = Γ Λ Ξ l i i i i i i i l i i r b x w y C w b w L 1 1 2 1 ) ( 2 1 ) , , , , (

ξ

λ

ξ

(7) 把上面函數微分並且設定其結果等於0，我們等到下列的公式

0 )

(

)

,

(

1

=

−

=

∂

Γ

Λ

Ξ

∂

∑

= l i i i i

y

x

w

b

w

L

_λ

(8)

0 )

,

(

1

=

∂

Γ

Λ

Ξ

∂

∑

= l i i i

y

b

w

L

_λ

(9)

0 )

,

(

₌

₋

₌

∂

Γ

Λ

Ξ

∂

i i i

r

C

b

w

L

_λ

ξ

(10)

把上列的公式(8)-(10)代入到原來的二次最佳化問題(5)，我們得到下列的對偶最佳化問題

0 0 . . 2 1 1 max ≥ Λ ≤ Λ = ⋅ Λ Λ Λ − ⋅ Λ Λ C y t s D

(11) 其中

y

=

(

y

₁

,....,

y

_l

)

，以及D 是一個l×l的對稱矩陣，其元素為

D

_ij

=

y

_i

y

_j

x

_i

⋅

x

_j，至於超平面中的權重w 可以由下列公式求出

∑

=

l i i i i

y

x

w

1 * *

_λ

₍₁₂₎

與偏移量b 可以由 Kuhn- Tucker conditions 計

算出來

*

(

*

_⋅

₊

*

)

₋

1 ₊

*

)

₌

0

i i i i

y

w

x

b

ξ

λ

(13)

(

₋

*

)

*

₌

0

i i

C

λ

ξ

(14) 圖七、高維度特徵空間中最佳的分類直線，在原來空間中就是一條最佳的分類曲線雖然 SVM 最早是提出來解決線性分類的問題，但是要將支持向量機(Support Vector Machine ， SVM) 延伸到解決非線性分割 (nonlinearly separable)的問題上，其作法是非常簡單的，藉由導入特徵空間(feature space) 的概念，我們將所有的樣本點經由一個分線性轉換(nonlinear transformation)映射到一個高維度的特徵空間

),....)

(

),...,

(

),

(

)

(

x

a

₁ ₁

x

a

₂ ₂

x

a

x

→

φ

=

φ

n

φ

n

然後在高維度的特徵空間中找出一條最佳的分類直線，而這條高維度特徵空間中最佳的分類直線，在原來空間中就是一條最佳的分類曲線，其概念如圖七

)

(

)

(

)

(

)

(

1 * * * *

∑

=

+

⇒

+

⋅

=

l i i i i

x

b

y

sign

b

w

x

sign

x

f

φ

λ

φ

(15) 藉由定義所謂的核心函數(kernel function)，我們可以不需要知道此非線性轉換

φ

的函數形式，而核心函數(kernel function)的定義如下

)

(

)

(

)

,

(

x

y

x

y

K

≡

φ

⋅

φ

(16)

(9)

表一、常見的核心函數

Type of classifier Kernel function Gaussian RBF

K

(

x

,

y

)

=

exp(

−

x

−

y

2

)

Muti-Layer Perceptron

K

(

x

,

y

)

=

tanh(

x

⋅

y

−

θ

)

Polynomial of degree d d

y

x

y

x

K

(

,

)

=

(

1 +

⋅

)

表一中整理出來較常使用到的核心函數，以及她們所對應的分類器名稱。雖然支持向量機一開始是提出來解決二元分類問題，但是也有學者提出單類別支持向量機 (one-class SVM)來解決單類別分類的問題[Tax, 1999]，並且也有學者提出支持向量迴歸機來解決迴歸的問題[Vapnik, 1995]。

三、使用增加式模糊單類別支持向量機預

測蛋白質間交互作用

支持向量機(SVM)已被證明在預測蛋白質間交互作用有優異的正確性。支持向量機與所有預測蛋白質間交互作用的計算方法一樣，都必須使用正樣本與負樣本作為訓練的資料，然而高產量的探測蛋白質交互作用實驗方法，所找出的有交互作用的蛋白質存在著高比率的偽陽性。不同的實驗方法有不同的可信賴程度[Sprinzak, 2003]。本計畫中，我們結合模糊理論可以處理『不精確』與『含糊』等資料的特性，解決正樣本的不可靠性。負樣本(無交互作用的一對蛋白質)也必需小心謹慎的選取，才能訓練出一個具有高正確率的分類機器，然而現實環境下，並沒有『標準與精確』的負樣本可供訓練[Jansen, 2004]。現存的 PPI 資料庫中(如 DIP,BIND 等)，皆僅提供正樣本而已，在網際網路上的醫學文獻資料庫，也只會告訴你哪些蛋白質間會有交互作用，而不會告訴你哪些蛋白質間不會有交互作用。而早先的預測方法，在選取負樣本的作法上都有嚴重的偏差性，例如在[Gomez, 2003]

中，他只是將沒有出現在DIP 與 BIND 等 PPI

資料庫中的每一對蛋白質，『隨機』的選取出其中一部分作為訓練的負樣本，這其實是滿不合理的，因為沒有出現在現存PPI 資料庫的某一對蛋白質，表示尚未知道它們之間是否有交互作用，而不代表他們是不會有交互作用。而在[Jansen, 2003; 2004]的方法中，也是考慮沒有

出現在DIP 與 BIND 等 PPI 資料庫中的每一對

蛋白質，再用某些條件來選取負樣本，譬如一對蛋白質要發生交互作用，必需在相同的細胞位置 (cellular localization)，因此每一對在相同細胞位置的蛋白質將不會選取為負樣本，因為在相同細胞位置的蛋白質發生交互作用的機會比較大。同樣地，這樣子選取出來的負樣本還是有偏差的。這本計畫中，我們使用單類別支持向量機僅需藉由正樣本去做訓練的特性，則可完全避免了如何選取負樣本的問題。

3.1 單類別支持向量機

單類別支持向量機[Tax, 1999]使用超球 (hyper-sphere)的方式，將樣本點經由一個非線性映射

Φ

映射到一個高維度的特徵空間，並找出一個有最小半徑的超球來包含特徵空間中所有的樣本點。而支持向量(support vector)定義出一個特徵空間中的球來圍住所有的樣本點。而且一個高維度的球在原來空間中可以是任意的形狀。單類別支持向量機方法的概念圖可用圖八表示。我們可以計算出所有點在特徵空間中到球心的距離，而畫出圖八的高度圖，距球心距離越遠則顏色越深，而由高度為球半徑的橫切線定義出一條邊界曲線來包含所有的樣本點。

(10)

圖八：單類別支持向量機的概念圖。其實單類別支持向量機與類神經網路在這裡所做的工作是一樣的，都是分類『是PPI』與『不是PPI』二個類別，但是二者最大的不同在於所需要的訓練樣本不同，類神經網路需要二類訓練樣本—正樣本(是 PPI 的樣本)與負樣本(不是 PPI 的樣本)，而單類別支持向量機則是只需要正樣本即可，眾所皆知的，現實環境下，並沒有『標準與精確』的負樣本可供訓練[Jansen, 2004]。現存的 PPI 資料庫中(如 DIP,BIND 等)，皆僅提供正樣本而已，而使用單類別支持向量機，我們可以很巧妙的避開採集負訓練樣本的困難。

3.2 模糊單類別支持向量機

在現實應用中，模糊化是必須被考慮的。當建構的模組充滿了曖昧、含糊的現象，則它就可以Zadeh 所提出的模糊系統來表示，模糊理論提供了有效的方法擷取『近似於』、『不精確』等現實世界中的獨特特性。使用模糊理論，對於處理下面的情形時會變得格外有用，例如當行程太複雜了而無法使用傳統的量化機制分析、或者當可得的資訊其性質是『不精確的』 或者是『不確定的』時。 本計畫研究出的模糊單類別支持向量機是將訓練樣本的模糊性質納入考慮，越明確越可靠的訓練樣本則越不允許訓練錯誤，反之較模糊較不可靠的訓練樣本，則我們較允許他們訓練錯誤。為了達到此一目的，我們為每一個訓練樣本定義了一個可靠度（或模糊程度）數值

0 <

μ

_i

≤

1 ,

i

=

1 ,...,

N

，

μ

_i值越大表示此訓練樣本越可靠，例如

μ

_i

=

0 .

8

表示第i 個訓練樣本有 80%的機率是正確的，而有 20%的機率是無意義或是誤差(noise)的。假設給一組訓練資料

(

x

₁

,

μ

₁

),....,

(

x

_N

,

μ

_N

)

，則模糊單類別支持向量機考慮下最佳化問題

b

C

N i i i b _i

+

∑

+

=1 2 2 1 , ,

min

μ

ξ

w

w subject to (17)

N

i

b

w

i i i

,...,

1 ,

0 ,

0 )

(

=

≥

−

≥

+

Φ

⋅

ξ

x

其中

ξ

_i表示訓練誤差的值，而參數 C 則是對訓練誤差的逞罰，而

μ

_i值越大表示對此樣本的訓練誤差逞罰越大，也就是越不允許訓練錯誤，反之

μ

_i值越小，表示對此樣本的訓練誤差逞罰越小，也就是可以允許訓練錯誤的出現，避免雜訊點對訓練的效果的影響。使用拉格郎舉(Lagrangian)理論，上面最佳化問題的最佳解會落在下面函數的馬鞍點上(saddle point)

(

_{) ∑}

∑

= = = − + + Φ ⋅ − + + = N i i i N i i i i N i i i b b C L 1 1 1 2 ) ( 2 1

ξ

β

ξ

α

ξ

μ

x w w (18) 其中 α_i 與 β_i 為非負的拉格郎舉乘數 (Lagrangian multiplier). 對 L 以 w, b 與ξ_i微分，並且設定結果為0，我們得到下面方程式

∑

= =

Φ

=

⇒

=

Φ

−

=

∂

N i i i N i i i

L

1 1

)

(

0 )

(

x

w

x

w

α

(19)

1

0

1

1 1

=

⇒

=

−

=

∂

_∑

= = N i i N i i

b

L

_α

₍₂₀₎

(11)

i i i i i i i i i C C C L

μ

α

β

μ

α

β

α

μ

ξ

≤ − = ⇒ = − − = ∂ ∂ and 0

.

(21) 將上面式子(19)-(21) 代入原來的最佳化問題，我們得到下列的對偶問題(dual problem)

∑∑

= = N i N j j i j i k x x i 1 1 ) , ( 2 1 min

α

α subject to (22) . ,..., 1 , 0 1 N i C _i i i i = ≤ ≤ =

∑

μ

α

3.3 增加式模糊單類別支持向量機演算法

既然我們只使用正訓練樣本來訓練單類別支持向量機，如何選出充足且有代表性的 PPI 訓練樣本也就變成一個很重要的問題，然而一次就選出足夠的訓練樣本是不容易的。所以一個增加式學習方法（incremental learning）就變的很必要了，如何在系統發現辨識錯誤，或著要增加新的訓練樣本時，可以只用少數的幾個步驟就能修正錯誤與學習新增加的樣本，而不用重新訓練整個系統，將對此 PPI 預測系統的強健性與適應性有大大的幫助。所以本計畫中，我們使用單類別支持向量機的一個重要特性，來幫助我們解決這個問題。由於單類別支持向量主要是解一個二次最佳化函數，而且二次矩陣是半正定及限制條件是線性的，所以他有唯一全域最佳解，而增加一個新的訓練樣本點時，我們可以用二次函數的最佳化條件(KKT Condition)，使用數學最佳化的技巧，當我們發現有一新的PPI 資料應該增加到我們的訓練樣本時，我們便可不必要重新再訓練整個系統。而單類別支持向量機的最佳化條件(KKT Condition)可以簡化成下列式子　 ⎪ ⎩ ⎪ ⎨ ⎧ = ≤ < < = = ≥ = − + − = − =

∑

i i i i i j k kj j k j ji j ii i J J i C C K K K R D R g μ β μ β β β β β ; 0 0 ; 0 0 ; 0 2 ) ( , 2 2 2 x (23) 其中Kij =K(xi,xj)。由上式，我們可以將訓練資料集 D 分割成三個不同的集合: 集合 S

由邊界向量(border support vectors)所組成，這些邊界向量皆座落在特徵空間超球的球面上

(

0 <

β

_i

<

C

μ

_i, R_J2−D_J2(x_i)=0,∀i∈S )，集合 E

由出界向量(outside support vectors)所組成，這些出界向量皆座落在特徵空間超球的球外 (

β

_i

=

C

μ

_i, R_J2−D2_J(x_i)<0,∀i∈E )，而剩餘的 集合 R 中的向量則皆落在特徵空間超球的球 內(β_i =0, R_J2−D_J2(x_i)>0,∀i∈R)。增加式單類別SVM 學習演算法的基本想法就是保持所有之前已訓練過的樣本其最佳化條件(KKT conditions)維持不變，同時『穩態 地』增加新的訓練過的樣本 c 進入系統。在集 合 D 中，在每一次 incremental step 中，所有 的邊界向量所對應的係數βi，會隨著新近樣本 c 所對應的係數βc改變而改變，以保持一個平衡(equilibrium)的狀態，也就是說，D 中所有的樣本都能滿足最佳化條件(KKT conditions)。 當新近樣本 c 所對應的係數βc改變時，我們可得到gi的改變如下 } { , 2 2 2 c D i B K K g _ic _c S j j ij i ∪ ∈ ∀ Δ + Δ + Δ = Δ

∑

∈ β β (24) 與　

∑

∈ Δ + Δ = Δ S j j c g β β (25) 其中 ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ Δ − ⋅ Δ ⋅ Δ − ⋅ ⋅ Δ − ⋅ Δ ⋅ − ⋅ Δ ⋅ Δ − Δ = Δ

∑

∈ ∈ ∈ ∈ cc c D j cj j c D j cj j c D j k kj j k D j k kj j k J K K K K K R B 2 , , 2 ) ( 2 ) ( 2 1 β β β β β β β β β 所以，在“平衡狀態(equilibrium)”時

(12)

表二、增加式學習演算法

1. Initialize

β

_c to zero;

2. If

g

_c

<

0

, terminate (c is not a border or outside vector)

3. If

g

_c

≥

0

, apply the largest possible increment

β

_c so that (the first) one of the following conditions occurs:

(a)

g

_c

=

0

: Add c to border set S, update P accordingly, and terminate;

(b)

β

_c

=

C

: Add c to outside set E, and terminate; (c)Elements of Dl migrate across S, E, and R

(“bookkeeping＂): update membership of elements and, if S changes, update P accordingly. And repeat step 3 as necessary.

⎩ ⎨ ⎧ ∈ ∀ Δ ⋅ = Δ Δ ⋅ = Δ D j c j j c ,

β

α

β

α

β

, (26) 其中　　

⎥

⎦

⎤

⎢

⎣

⎡

⋅

−

=

⎥

⎦

⎤

⎢

⎣

⎡

c s c s s s s s

K

P

l l

M

1 1

1 α

α

, (27) 而且 _{= Q}−1

P ，而 Q 為 symmetric but not

positive-definite Jacobian : 　　　

⎥

⎦

⎤

⎢

⎣

⎡

=

s s s s s s s s s s s s

K

Q

l l l l

L

O

M

L

1 1 1 1

1

0

, (28) 簡而言之，在每一次incremented step，我們計算　

⎩

⎨

⎧

∉

∀

∈

∀

Δ

=

Δ

S

i

S

i

c i i

0 β

α

β

(29) 與

⎩

⎨

⎧

∈

∀

∪

∈

∀

Δ

=

Δ

S

i

c

R

E

i

r

g

_i i c

0 }

{

2 β

(30)

( )

c D j cj j S j D k kj j k c cc S j cj j S j k kj j k J

K

R

β

α

β

α

β

α

Δ

⋅

⎟⎟

⎟

⎠

⎞

⎜⎜

⎜

⎝

⎛

+

⋅

+

⋅

+

Δ

⋅

⎟⎟

⎟

⎠

⎞

⎜⎜

⎜

⎝

⎛

+

⋅

+

⋅

=

Δ

∑

∈ ∈ ∈ ∈ ∈

2 )

(

2 )

(

, 2 , 2 (31) 最後，我們將增加式單類別SVM 學習演算法摘列在表二中

四、使用參數化支持向量區間迴歸預測蛋

白質結構

近年來，有學者提出另一種從蛋白質的一級結構預測其三級結構的方法。蛋白質的三級結構可以藉由測量其中每一個殘基的接觸程度(contact order)，而知道它們在空間中是如何排列的。所謂一個折疊後的蛋白質中其殘基接觸程度(contact order)是根據該分子所暴露的區域環境而量度，其定義為以該殘基分子中的 α C (或C_β)原子為中心，在一特定的球形範圍內，所有與它距離小於某特定長度( 例如 10Ao (埃))的其它C_α(或C_β)原子的數目，然後再判斷這些接觸的數目(CN)占總殘基數目的

比例為多少。residue-wise contact order (RWCO)

是一種新的一級蛋白質結構描述遠距殘基接觸的程度，它是一個序列中的某一個殘基和其它殘基正在接觸的殘基之間做加總[Hua, 2001; Kinjo, 2005; Kihara, 2005]。早期的相關概念是 Plaxco 等學者所提出的 contact order (CO)，它只描素蛋白質拓僕(Topology) [Jiangning, 2006; Plaxco, 1998]。以 CO 為基礎，之後 Kihara 等

學者進一步提出residue contact order(RCO)，

它是將先前的 CO 值做一個平均[Jiangning,

2006; Kihara, 2005]。最近，Kihara 等學者又進

一步提出相似的概念，它叫 residue-wise

(13)

RCO 值做一個加總，用來描素各殘基與其他鄰近殘基之間的接觸程度[Jiangning, 2006; Kinjo, 2005]。在決定蛋白質三級結構時，殘基的接觸程度提供了非常有用的資訊，例如我們可以用接觸程度決定在動態模擬蛋白質結構時的能量函數(energy function)。以前在預測氨基酸的接觸程度時，可以分成使用分類 (classification)與使用迴歸(regression)的二種方式來解決，在使用分類的方法中，例如可以由遞迴類神經網路(recurrent neural networks) 來預測氨基酸的接觸程度[Pollastri, 2001]，不過使用迴歸的方式來預測更為直接，正確率也

更高。例如Kinjo 等學者[Kinjo, 2005a]首先使

用線性迴歸的方式來預測各殘基的 RWCO

值，而[Song, 2006; Yuan, 2005]則首先使用支持向量非線性迴歸機來預測氨基酸的接觸程度。

4.1 殘基接觸程度

殘基接觸程度(residue-wise contact order, RWCO)是由 Kinjo 和 Nishikawa 兩位學者首次提出來的一種判斷蛋白質摺疊率的一種方法 [Kinjo, 2005, 2006; Yuan, 2005]，有很多的觀念都和RWCO 有關，譬如說是 CN、CO、RCO 與CM，都將在這個小章節做簡單的介紹。 4.1.1 接觸數(contact number; CN)： 殘基接觸數(contact number)可以看成是一種對蛋白質三級結構摺疊情況的描述，它的定義是以一個蛋白質三級結構中，從目標殘基的中心Cα原子和目標以外殘基的中心Cα原子接觸的數量有多少，將這些有接觸的數量做加總，就是所謂的接觸數(contact number, CN)。何為接觸呢﹖研究者會先設定一個要研究的球型半徑(例如：8Å、10Å)。如果目標殘基和其它的殘基的距離小於研究者設定的球型半徑，那就判斷該殘基與目標殘基有接觸，圖九殘基接觸數概念圖透過點對點距離的計算公式來判斷目標殘基和其它的殘基的距離[Yuan, 2005]。判斷是否接觸的點對點計算公式：

( )

_{( )}( )

⎪⎩

⎪

⎨

⎧

=

= < ≥ = > −

∑

ij ij d d j i j i r r if r r r if r M i j j j i i d

r

N

, , , , 1 0 2 | :| , σ σ

σ

(32) i d

N

：所得到的接觸數。 d

r

：研究者設定的球型半徑。例：8Å、10Å。 j i

r

_, ：第i 殘基和第 j 殘基之間的距離。 M：該蛋白質序列總殘基。如圖九所示，假設藍色的殘基為所要計算的殘基，其殘基的Cα 原子為中心，其它蛋白質序列的殘基 Cα原子若有在這個的半徑內就將它視為接觸，藍色的殘基扣掉它前後兩個位置的殘基，剩下在球型半徑範圍內殘基都視為接觸，圖中的藍色殘基的接觸數為2，紅色殘基的接觸數為3 公式(32)所得到的接觸數是整數值，若要得到浮點數的接觸數，則還要配合公式(33)才能得到浮點數值的接觸數。

∑

Δ ⋅ = N S_i _j N L CO 1 _, (33)

(14)

圖十、接觸程度(Contact Order ;CO)概念圖 L：所有殘基之間接觸的數目。 N：蛋白質的序列長度。 j i

S

_,

Δ

：若第i 殘基和第 j 殘基之間在設定的範圍內有接觸，則第i 殘基和第 j 殘基之間的距離相減。根據先前學者的研究，CO 值越高則摺疊率 (folding rate)越低，CO 值越低則摺疊率(folding rate)越高[Bonneau, 2002; Faisca, 2002; Plaxco, 1998; Zhou, 2002]。如圖十顯示，蛋白質 a 的 CO 值計算方式如下：

(

) (

)

(

) (

)

(

) (

)

(

) (

)

(

) (

)

(

)

36 . 0 18 21 17 22 16 23 15 24 14 25 13 26 12 27 11 28 8 11 7 12 6 13 5 14 4 15 3 16 2 17 1 18 28 16 1 = ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ − + − + − + − + − + − + − + − + − + − + − + − + − + − + − + − × = a CO 以此類推，蛋白質b 的 CO 值計算方式如下：

(

) (

)

(

) (

)

(

) (

)

(

) (

)

(

) (

)

(

)

39 . 0 23 31 22 32 21 33 20 34 19 35 18 36 17 37 16 38 8 16 7 17 6 18 5 19 4 20 3 21 2 22 1 23 38 16 1 = ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ − + − + − + − + − + − + − + − + − + − + − + − + − + − + − + − × = b CO 蛋白質c 的 CO 值計算方式如下：　

(

) (

)

(

) (

)

(

) (

)

(

) (

)

(

) (

)

(

)

53 . 0 28 31 27 32 26 33 25 34 24 35 23 36 22 37 21 38 8 31 7 32 6 33 5 34 4 35 3 36 2 37 1 38 38 16 1 = ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ − + − + − + − + − + − + − + − + − + − + − + − + − + − + − + − × = c CO 4.1.2 殘基接觸程度(Residue-wise Contact Orders; RWCO)： 在談 RWCO 時，先談談 RCO(Residue

Contact Order)，RCO 和 CO 不同，RCO 是只考慮單一殘基在整個蛋白質裡和其它殘基之間所接觸的程度，包括相鄰的前後兩個殘基 [Kihara, 2005]，其計算 RCO 的公式為：

( )

( ) ( )

⎪⎩

⎪

⎨

⎧

−

=

< = ≥ = ≠

∑

d j i j i d j i j i r r if r r r if r j i L j i j i

i

j

r

n

RCO

, , , , 1 0 , ,

1

σ σ

σ

其中

(34) L：胺基酸序列的長度。 n：所有殘基之間接觸的數目。 i：要計算的目標殘基。 j：除了目標殘基以外的殘基。

( )

r

i,j

σ

：以第

i

殘基中的

C

_β(或叫

C

_α)原子為中心，將其中心為基準畫出設定的球型半徑圓

r

_d(

r

d= 6Å 或 8Å)，若第

j

殘基在設定的球型半徑內，則為1。若在設定的球型半徑外，則為0。

而RWCO 是由 Kinjo 和 Nishikawa 兩位學者首

次提出來的判斷蛋白質摺疊率的另一種方法，它的特性就是可以透過公式的計算來判斷

(15)

殘基與殘基之間接觸的遠近程度，RWCO 與 RCO 的差異就在於 RWCO 它不考慮目標殘基前後的兩個殘基，並且根據兩個殘基在胺基酸序列位置的遠近，而計算出來的值也有所不同，例如目標殘基為第 5 個殘基，它在與第 10 個殘基接觸所計算出來的 RWCO 值與和與第20 個殘基接觸所計算出來的 RWCO 值是不

同的[Kinjo, 2005-2006; Yuan, 2005; Song,

2006]。其計算 RWCO 的公式為：

( )

( ) ( ) ⎪⎩ ⎪ ⎨ ⎧ − = < = ≥ = > −

∑

d j i j i d j i j i r r if r r r if r j i M i j j i i j r M RWCO , , , , 1 0 , 2 | :| | | 1 σ σ σ 其中

(35) M：所有殘基的數目。 i：要計算的目標殘基。 j：除了目標殘基以外的殘基。

( )

r

i,j

σ

：以第

i

殘基中的

C

_β(或叫

C

_α)原子為中心，將其中心為基準畫出設定的球型半徑圓

r

_d(

r

_d= 6Å 或 8Å)，若第j殘基在設定 的球型半徑內(

r

_i_,_j

<

r

_d)，則

σ

( )

r_i,_j 為1。若j 殘基在設定的球型半徑外(r_i,_j >r_d)，則σ

( )

ri,j 為0。為了讓蛋白質的RWCO值較平滑，Kinjo學者提出了一個能夠讓計算出來的RWCO值變的較平滑，其公式如下：

( )

_[

₍

₎

_]

d j i j i

r

w

r

−

+

=

, ,

exp

1

1 σ

(36) w：為常數值，一般設為3。 d

r

：為研究者設定的球型半徑值，一般設為12Å。圖十一：支持向量迴歸機的概念圖。

4.2 支持向量迴歸機(

ε

-SVR)

首先我們簡介支持向量迴歸機的基本概念，假設現在給定一組訓練資料集合 R y y),...,( N, N)}⊂ℵ× , {(x1 1 x ，其中ℵ表示輸入向量(input vector) 的空間，例如 n R 。則在 ε-SVM regression [Vapnik, 1995]中，其目標是 找到一條最佳的迴歸函數 f(x)使得對於所有的 訓練資料而言，它與

y

_i的差異最多只有ε的誤差。換句話說，在訓練這條迴歸函數時，我們並不關心這些小於ε的誤差，但是不允許大於

ε

的誤差出現，若誤差大於

ε

時，則我們必須加以處罰。在ε-SVM regression 中我們使用下

ε

不敏感懲罰函數(ε-insensitive loss function)

　　　 ⎪⎩ ⎪ ⎨ ⎧ − ≤ = otherwise if ε ξ ε ξ ξ_ε: 0 (37) 來懲罰迴歸錯誤，只有當錯誤超過ε-不敏感的管狀區域(

ε

-insensitive tube)時，我們才加以懲罰(如圖十一)。ε-SVM regression 所找出的是一條線性的迴歸函數 f(x)= w⋅x +b，要延伸到非線性迴歸，其概念也是很簡單，我們只需把所有的訓練資料經由一非線性轉換Φ 映射到一高維度的特徵空間(feature space)，然後在高維度特徵空間中找出一條最佳的線性迴歸函數 f(x)= w⋅Φ(x) +b，而在高維度特徵空間中的最佳線性迴歸函數，在原來空間中即是一條最佳的非線性迴歸函數。我們可以用一個最佳化的問題來描述它　

(16)

. 0 , ) ) ( ( ) ) ( ( to subject ) ( 2 1 minimize * * 1 * 2 , , , * i y b b y C i i i i i t i i t i N i i i b i i ∀ ≥ − ≤ − + Φ − ≤ + Φ − + +

∑

= ξ ξ ξ ε ξ ε ξ ξ ξ ξ x w x w w w (38) 其中 _, * i i ξ ξ 為鬆弛變數(slack variable)，表示迴歸函數與訓練資料差異的程度，而 w2則是在 SVM 理論中，用來表示模組的複雜性 (model complexity)。模組越複雜，學習的能力越強，但是相對的過度學習(overfitting)的機會也越大。使用 Lagrangian 理論，上面最佳化問題的最佳解會落在下面函數的馬鞍點上 (saddle point)

(

)

(

)

∑

= = = = = − − + − − + Φ ⋅ + + − + Φ ⋅ − + + + = N i i i N i i i N i i i i i N i i i i i N i i i y b b y C L 1 * * 1 1 * * 1 1 * 2 ) ) ( ( ) ) ( ( ) ( 2 1 ξ β ξ β ξ ε α ξ ε α ξ ξ x w x w w (39) 其中

α

_i,

α

_i*與

β

_i,

β

_i*為非負的拉格郎舉乘數(Lagrangian multiplier). 對 L 以 w, b, ξ_i 與

ξ

_i*微分，並且設定結果為0，我們得到下面方程式

∑

= = = Φ − = ⇒ = Φ + Φ − = ∂ ∂ N i i i i N i N i i i i i L 1 * 1 1 * ) ( ) ( 0 ) ( ) ( x w x x w w α α α α (40) 0 ) ( 0 1 * 1 * 1 = − ⇒ = − = ∂ ∂

∑

= = = N i i i N i i N i i b L

α

(41) C C C L i i i i i i ≤ − = ⇒ = − − = ∂ ∂ α β α β α ξ and 0

.

(42) C C C L i i i i i i ≤ − = ⇒ = − − = ∂ ∂ * * * * * * and 0

α

β

α

β

α

ξ

₍₄₃₎ 將上面式子(40)-(43)代入原來的最佳化問題 (38)，我們可以轉化成下面的對偶問題(dual porblem)： ⎪ ⎩ ⎪ ⎨ ⎧ ∈ = − ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ − + + − Φ ⋅ Φ − − −

∑

= = = = ] , 0 [ , 0 ) ( to subject ) ( ) ( ) ( ) ( ) )( ( 2 1 maximize * 1 * 1 * 1 * 1 , * * , 2 1 C y i i N i i i i i i i N i i i N j i j i j j i i i i α α α α α α α α ε α α α α α α l x x (44) 其中 _, * i i α α 為Lagrange multipliers。在解出最佳解後，那些對應 (*) _>0 i α 的訓練樣本點稱為支持向量(support vector)，而迴歸函數 f(x)中的 權重 w 可以由支持向量的線性組合求得：

∑

−

Φ

=

i i i i

)

(

)

(

*

x

w

α

(45) 最終我們找到的迴歸函數如下：　

(

)

(

)

(

,

)

.

1 *

∑

=

+

−

=

N i i i i

k

b

f

x

α

x

(46) 在介紹完支持向量迴歸機的概念後，接下來我們介紹傳統支持向量迴歸機的隱含缺陷以及在本研究計畫中，我們所提出來的改善方法，使它能在預測接觸數時，達到更好的正確率。如圖十二所示，傳統支持向量迴歸機的隱含缺陷包含： 1. 參數

ε

是使用者給定的一個參數，參數

ε

的數值對於最終迴歸的正確率有很大的影響，然而如何決定最佳的

ε

數值，並不是一件很容易的工作，除非我們能夠事先確定在多少誤差以內的錯誤我們不去關心它。

(17)

(a) (b) (c) 圖十二、(a)誤差的分佈與輸入向量 x 有關係的例子,(b)使用原來SVM regression 的結果,(c)真正合理的迴歸結果。 2. 在支持向量迴歸機中，不敏感區域 (insensitive zone)被假定是一個管狀(tube) 的區域。也就是說，他假設誤差的分佈， 與輸入向量 x 無關，亦即每個輸入向量 都是一樣重要的。然而這與現實世界中的狀況並不一樣，事實上誤差的分佈是 與輸入向量 x 有關係的，而且每個輸入 向量的重要性並不一樣，有的樣本較可靠，可允許的迴歸誤差較少，有的樣本較不可靠，則可允許的迴歸誤差較多。

4.2 使用參數化不敏感區間的支持向量迴

歸機

(par-v-SVR) 在本計畫中，我們研究出一個新的參數化不敏感區間的支持向量迴歸機學習演算法，並且希望能夠不需要事先知道誤差的機率分佈，就可以得到此任意區間的迴歸函數。在本研究中，我們假設不敏感區域是任意形狀的，而我們以 一個函數 g(x)來描述他，換句話說我們希望能 找出一條迴歸函數使的所有的訓練樣本點都 在 f(x)-g(x)與 f(x)+g(x)的區間之內（如圖十三 所示），我們可以用一個最佳化的問題來描述它圖十三、使用參數化不敏感區間的支撐向量迴歸機.

(

)

_⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ₊ ₊ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ₊ ⋅ +

∑

= N i i i d b N d v C i i 1 * 2 2 , , , , , 1 2 1 2 1 minimize_* ξ ξ ξ ξ w c c w subject to (47)

(

w⋅Φ(xi) +b

) (

+ c⋅Φ(xi) +d

)

≥ yi −

ξ

i

(

₍ ₎

) (

₍ ₎

)

* i i i i +b − ⋅Φ +d ≤ y +

ξ

Φ ⋅ x c x w

0 ,

*

_≥

i i

ξ

for i=1,…,N. 使用 Lagrangian 理論，上面最佳化問題的最佳解會落在下面函數的馬鞍點上(saddle point)

(

)

(

)

(

)

(

)

(

)

∑

= = = = = − − ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ + + + Φ ⋅ + + Φ ⋅ − − ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ + − + Φ ⋅ + + Φ ⋅ − ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ + + ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ₊ ⋅ + = N i i i N i i i N i i i i i i N i i i i i i N i i i y d b y d b N d v C L 1 * * 1 1 * * 1 1 * 2 2 ) ( ) ( ) ( ) ( 1 2 1 2 1 ξ β ξ β ξ α ξ α ξ ξ x c x w x c x w c w

, (

48) 其中

α

_i,

α

_i*與

β

_i,

β

_i*為非負的拉格郎舉乘數(Lagrangian multiplier). 對 L 以 w, b, c, d, i ξ 與

ξ

_i*微分，並且設定結果為0，我們得到下面方程式

0 )

(

)

(

1 * 1

=

Φ

+

Φ

−

=

∂

_∑

= = N i i i i N i i

L

_w

_x

w

α

(18)

⇒

∑

=

Φ

−

=

N i i i i 1 *

₎

₍

₎

(

x

w

α

,

(49)

(

)

(

*

)

(

)

0

1

=

Φ

+

−

⋅

=

∂

_∑

= i i N i i

v

C

L

_c

_x

c

α

⇒

∑

=

Φ

+

⋅

=

N i i i i

v

C

1 *

₎

₍

₎

(

1 x

c

α

,

(50)

0

1 * 1

=

+

−

=

∂

_∑

= = N i i N i i

b

L

_α

⇒

(

)

0

1 *

₌

−

∑

= N i i i

α

,

(51)

0

1 * 1

=

−

⋅

=

∂

_∑

= = N i i N i i

v

C

d

L

_α

⇒

C

v

N i i i

+

=

⋅

∑

=1 *

₎

(

α

,

(52)

0 =

−

=

∂

i i i

N

C

L

_α

_β

ξ

⇒

N

C

N

C

i i i

=

−

β

α

≤

α

and

,

(53) 0 * * * = − − = ∂ ∂ i i i N C L

_α

_β

ξ

⇒

N

C

N

C

i i i

=

−

≤

* * *

_β

_and

_α

α

.

(54) 將上面式子代入原來的最佳化問題，我們可以轉化成下面的對偶問題(dual porblem)：

∑

∑∑

= = = = = − + + + − − − − N i i i i N i N j j i j j i i N i N j j i j j i i i i y k Cv k 1 * 1 1 * * 1 1 * * * ) ( ) , ( ) )( ( 2 1 ) , ( ) )( ( 2 1 maximize , α α α α α α α α α α α α x x x x subject to (55)

,

0 )

(

1 *

∑

=

−

N i i i

α

,

)

(

1 *

v

C

N i i i

+

=

⋅

∑

=

α

.

,

0 ,

*

⎥⎦

⎤

⎢⎣

⎡

∈

N

C

i i

α

其中 _, * i i α α 為Lagrange multipliers。在解出最佳解後，那些對應 (*) _>0 i α 的訓練樣本點稱為支持向量(support vector)，而迴歸函數 f(x)與 g(x) 中的權重 w 與 c 可以由支持向量的線性組合 求得：

∑

− Φ = i i i i ) ( ) ( * x w α α (56)

∑

= Φ + ⋅ = N i i i i v C ₁ *₎ ₍ ₎ ( 1 x c α α (57) 而迴歸函數 f(x)與 g(x)中的偏移量 b 與 d 則可 以由Karush-Kuhn-Tucker (KKT) conditions 得到： 0 ) ( ) ( = ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ + − + Φ ⋅ + + Φ ⋅ i i i i i y d b ξ α x c x w

(58)

0 )

(

)

(

* *

₌

⎟

⎠

⎞

⎜

⎝

⎛

+

Φ

⋅

+

−

Φ

⋅

−

i i i i i

y

d

b

ξ

α

x

c

x

w

(59)

0 =

⎟

⎠

⎞

⎜

⎝

⎛

₋

i i

N

C

_α

_ξ

,

(60)

0

* *

_⎟

₌

⎠

⎞

⎜

⎝

⎛

₋

i i

N

C

_α

_ξ

. (61) 最後偏移量 b 與 d 則可以由下列公式得到： ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ − − Φ ⋅ − Φ ⋅ + Φ ⋅ + Φ ⋅ − = j i j i j i y y b ( ) ( ) ) ( ) ( 2 1 x c x c x w x w , (62) ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ + − Φ ⋅ + Φ ⋅ + Φ ⋅ − Φ ⋅ − = j i j i j i y y d ( ) ( ) ) ( ) ( 2 1 x c x c x w x w , (63) 其中 i, j 使得 ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ∈ N C j i, 0, * α α . 最終我們找到的迴歸函數如下：　　

蛋白質功能分析---使用新的支持向量機與核心函數

行政院國家科學委員會專題研究計畫 成果報告

蛋白質功能分析-使用新的支持向量機與核心函數(第 2 年)

研究成果報告(完整版)

計 畫 類 別 ： 個別型

計 畫 編 號 ： NSC 96-2221-E-151-034-MY2

執 行 期 間 ： 97 年 08 月 01 日至 98 年 07 月 31 日

執 行 單 位 ： 國立高雄應用科技大學資訊管理系

計 畫 主 持 人 ： 郝沛毅

計畫參與人員： 碩士班研究生-兼任助理人員：蔡龍表

碩士班研究生-兼任助理人員：陳育德

碩士班研究生-兼任助理人員：黃惠君

博士班研究生-兼任助理人員：周鴻儒

處 理 方 式 ： 本計畫可公開查詢

中 華 民 國 98 年 10 月 29 日

行政院國家科學委員會補助專題研究計畫

5

成果報告

□期中進度報告

蛋白質功能分析-使用新的支持向量機與核心函數

計畫類別：

5

個別型計畫 □ 整合型計畫

計畫編號：

NSC 96-2221 -E-151 -034 -MY2

執行期間： 96 年 8 月 1 日 至 98 年 7 月 31 日

計畫主持人：郝沛毅

共同主持人：

計畫參與人員：

成果報告類型(依經費核定清單規定繳交)：□精簡報告

5

完整報告

本成果報告包括以下應繳交之附件：

□赴國外出差或研習心得報告一份

□赴大陸地區出差或研習心得報告一份

□出席國際學術會議心得報告及發表之論文各一份

□國際合作研究計畫國外研究報告書一份

處理方式：除產學合作研究計畫、提升產業技術及人才培育研究計畫、列管

計畫及下列情形者外，得立即公開查詢

□涉及專利或其他智慧財產權，□一年□二年後可公開查詢

執行單位：國立高雄應用科技大學 資管系

中 華 民 國 98 年 10 月 31 日

行政院國家科學委員會專題研究計畫期末成果報告

蛋白質功能分析-使用新的支持向量機與核心函數

計畫編號：

NSC 96-2221 -E-151 -034 -MY2

執行期限：96 年 8 月 1 日至 98 年 7 月 31 日

主持人：郝沛毅 國立高雄應用科技大學資訊管理學系

電子信箱(Email): [email protected]

一、摘要

二、計畫緣由與目的

2.1 蛋白質交互作用

2.2 蛋白質三度空間結構

2.3 支持向量機

1

−

η

}

1

{

)

,

(

,

),

,

(

∈

×

±

y

R

x

y

x

L

:

→

{

±

行政院國家科學委員會專題研究計畫成果報告

計畫類別：個別型

計畫編號： NSC 96-2221-E-151-034-MY2

執行期間： 97 年 08 月 01 日至 98 年 07 月 31 日

執行單位：國立高雄應用科技大學資訊管理系

計畫主持人：郝沛毅

計畫參與人員：碩士班研究生-兼任助理人員：蔡龍表

處理方式：本計畫可公開查詢

中華民國 98 年 10 月 29 日

執行期間： 96 年 8 月 1 日至 98 年 7 月 31 日

執行單位：國立高雄應用科技大學資管系

中華民國 98 年 10 月 31 日

主持人：郝沛毅國立高雄應用科技大學資訊管理學系

_L