• 沒有找到結果。

蛋白質功能分析---使用新的支持向量機與核心函數

N/A
N/A
Protected

Academic year: 2021

Share "蛋白質功能分析---使用新的支持向量機與核心函數"

Copied!
33
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會專題研究計畫 成果報告

蛋白質功能分析-使用新的支持向量機與核心函數(第 2 年)

研究成果報告(完整版)

計 畫 類 別 : 個別型

計 畫 編 號 : NSC 96-2221-E-151-034-MY2

執 行 期 間 : 97 年 08 月 01 日至 98 年 07 月 31 日

執 行 單 位 : 國立高雄應用科技大學資訊管理系

計 畫 主 持 人 : 郝沛毅

計畫參與人員: 碩士班研究生-兼任助理人員:蔡龍表

碩士班研究生-兼任助理人員:陳育德

碩士班研究生-兼任助理人員:黃惠君

博士班研究生-兼任助理人員:周鴻儒

處 理 方 式 : 本計畫可公開查詢

中 華 民 國 98 年 10 月 29 日

(2)

行政院國家科學委員會補助專題研究計畫

5

成果報告

□期中進度報告

蛋白質功能分析-使用新的支持向量機與核心函數

計畫類別:

5

個別型計畫 □ 整合型計畫

計畫編號:

NSC 96-2221 -E-151 -034 -MY2

執行期間: 96 年 8 月 1 日 至 98 年 7 月 31 日

計畫主持人:郝沛毅

共同主持人:

計畫參與人員:

成果報告類型(依經費核定清單規定繳交):□精簡報告

5

完整報告

本成果報告包括以下應繳交之附件:

□赴國外出差或研習心得報告一份

□赴大陸地區出差或研習心得報告一份

□出席國際學術會議心得報告及發表之論文各一份

□國際合作研究計畫國外研究報告書一份

處理方式:除產學合作研究計畫、提升產業技術及人才培育研究計畫、列管

計畫及下列情形者外,得立即公開查詢

□涉及專利或其他智慧財產權,□一年□二年後可公開查詢

執行單位:國立高雄應用科技大學 資管系

中 華 民 國 98 年 10 月 31 日

(3)

行政院國家科學委員會專題研究計畫期末成果報告

蛋白質功能分析-使用新的支持向量機與核心函數

計畫編號:

NSC 96-2221 -E-151 -034 -MY2

執行期限:96 年 8 月 1 日至 98 年 7 月 31 日

主持人:郝沛毅 國立高雄應用科技大學資訊管理學系

電子信箱(Email): [email protected]

一、摘要

「後基因體時代-蛋白質體學」其著重的 議題是在探討蛋白質所扮演的生理功能,而蛋 白質之間的交互作用提供推論蛋白質功能重 大的線索。支持向量機(SVM)已被證明在預測 蛋白質間交互作用有優異的正確性,與其他預 測蛋白質間交互作用的計算方法一樣,SVM 必須使用正樣本與負樣本作為訓練的資料,然 而高產量的探測蛋白質交互作用實驗方法,所 找出的有交互作用的蛋白質(PPI)存在著高比 率的偽陽性。在第一年的計畫中,我們結合模 糊理論可以處理『不精確』與『含糊』等資料 的特性,解決PPI 正樣本的不可靠性,並且使 用單類別支持向量機僅需藉由正樣本去做訓 練的特性,則可完全避免了如何選取負樣本的 問題。此外,為了解決 PPI 資料庫不斷新增資 料的問題,我們提出了一個增加式的學習演算 法。 蛋白質三度空間結構決定了能否表現其 正常的生化功能,為了要執行特定的生物功 能,蛋白質必須擁有特定的三度空間結構。如 何從蛋白質的一級結構預測其三級結構,一直 是研究蛋白質功能最重要的一件工作。在第二 年的計畫中,我們提出一個新穎的『參數化不 敏感區間的支持向量迴歸機』,並且使用它來 預 測 殘 基 的 接 觸 程 度 residue-wise contact order (RWCO)。RWCO 是一種新的呈現蛋白 質結構的方法,主要是在形容各殘基之間的接 觸程度。藉由預測殘基的接觸程度(RWCO), 可提供將來推測蛋白質三級結構的重要線索。 關鍵詞:生物資訊、蛋白質交互作用、蛋白質 三級結構、支持向量機、單類別支持分類向量 機、支持向量迴歸機。

二、計畫緣由與目的

當 許 多 生 物 體 之 基 因 序 列 被 快 速 解 析 後,生物相關學家的下一個主流研究目標將是 探究基因序列中各基因所攜帶之功能為何? 因此,以基因序列訊息資料庫為研究基礎的生 物資訊學隨之開始蓬勃發展與應用,再加上新 一代質譜技術與電腦高速運算與大量儲存能 力的蓬勃發展下,以跨領域模式而新整合發展 出『蛋白質體學(Proteomics)』。蛋白質體學 不但掀起整體生命科學研究鎖定蛋白質的新 風潮,也正式進入了「後基因體時代-蛋白質 體學開始」的階段,成為21 世紀生物科技最 主要的研究趨勢。也就是要藉由基因體序列理 解生物體的生命系統整體是如何運作;這包含 瞭解單純的基因或其轉譯的蛋白質的功能與 結構,基因的調控,到蛋白質間的交互作用, 基因間的交互作用到更複雜的生化代謝路徑 甚至生物系統的運作。 mRNA 所攜帶的功能訊息必須再透過其 轉譯後的產物『蛋白質』才能有執行其生理功 能的能力(如圖一),以複雜度來比較蛋白質體 學與基因體學,基因體學像是小孩的遊戲,其 研究終點很清楚:有機體DNA 的完整序列; 蛋白質體學則試圖補獲生命系統中的種種活 動現象。基因預估有 3~4 萬個,人類蛋白質 估計高達20~200 萬。此外基因原則上終生不 變,蛋白質則持續變化,視其出現的組織、年 齡,甚至飲食習慣而改變。

(4)

圖一、基因體與蛋白質體之關係 圖二、 蛋白質與蛋白質之間的交互作用及其聯絡網 蛋白質體學不像基因體學靠單一技術– 如 gene sequencers–就能稱霸,因為蛋白質的化 學表現差異廣泛,一項技術難以適用於所有蛋 白質。目前研究人員常用的實驗方法有三項, 包含了分離蛋白質混合物、觀察其交互作用的 技術、以及分析蛋白質的原子結構。

2.1 蛋白質交互作用

 

在 功 能 性 蛋 白 質 體 學 ( functional proteomics)極需快速發展以探究複雜生命現 象的當代科學中,蛋白質與蛋白質之間交互作 用的研究,提供了一個瞭解蛋白質功能不可或 缺的依據。在生物體中,蛋白質會彼此結合在 一起,形成複合體,執行特殊的功能,這就是 「蛋白質的交互作用」。功能單位有大有小, 大如核糖體(ribosome)由30個以上的單位構 成,小如轉錄因子(transcription factor)僅由2 個組成。生化學家發現,幾乎所有的蛋白質都 會與其它的蛋白質結合,或是透過不結合的方 式,達到交互作用的目的, 圖三、 使用蛋白質交互作用聯絡網預測蛋白質的功能 這種現象出現在高等動物(哺乳類)的頻率又 高於低等的動物。因此,要了解細胞如何系統 性運作之前,必須先了解蛋白質複合體如何共 同執行功能;要知道蛋白質群體怎樣執行功 能,就要先定義出這群複合體的組成。 許多生物活動仰賴蛋白質彼此間具有專 一性交互作用的能力,因此基於『guilt by association』的概念認為,若能與已知功能 的蛋白質結合的蛋白質,則該結合蛋白質可能 與已知功能的蛋白質執行相類似的功能。其中 的理念至少有:(1) 利用已知的蛋白質,以相 連性 (linkage) 搜尋未知蛋白質可能的功能; (2) 得知許多已知蛋白質的未知功能; (3) 得 知執行特定生物功能時,所有可能存在的蛋白 質聯絡網 (包含已知或未知的相連性);再加 上結構生物學 (structural biology) 解析蛋白 質之間交互作用的機轉等,最終方能探究基因 體與蛋白質體的生理意義。相信唯有利用全面 性探討的方式,才能促使研究的成果更為客 觀,並加速發展其應用,並且建立蛋白質與蛋 白 質 之 間 的 交 互 作 用 及 其 聯 絡 網 (protein-protein interactions or interaction networks),如圖二,我們即可藉此觀察細胞內 蛋白質網路的變化;如果可以掌握疾病與蛋白 質表現失衡的關係,我們就可以針對關鍵的蛋 白質找出可能的治療方法與藥物,以協助人類

(5)

的疾病的治療並解決可能面臨的生物危機(如 圖三)。 功能性蛋白質體學主要分析某蛋白質其在 整體生理反應中所扮演的生化功能角色,由於 蛋白質間的功能差異很大,目前這方面研究方 向主要鎖定在蛋白質-蛋白質交互作用鑑定分 析 。 近 來 為 發 掘 蛋 白 質 功 能 , 常 用 『guilt-by-association』方法來推論蛋白質功 能,也就是說,如果兩個有交互作用的蛋白質 其中之一知道其功能,就可以推論另一蛋白質 應該與此功能有極大的相關性。所以建立蛋白 質 與 蛋 白 質 之 間 的 交 互 作 用 及 其 聯 絡 網 (protein-protein interactions or interaction networks) 將是研究功能性基因體學與蛋白質 體學的起始課題。有不同的實驗方法探測蛋白 質交互作用,不同的方法擁有不同的解析度, 第一種方法為原子層次觀察,通常是X光繞射 或核磁共振,第二是直接觀察,例如酵母菌two hybrid,第三是複和體探測,如免疫共沈澱法, 第四是細胞中交互作用,如受體與ligand的交 互作用的生物檢測(bioassay)。不同的實驗方法 有不同的可信賴程度[Sprinzak, 2003]。

2.2 蛋白質三度空間結構

若只將蛋質建檔以及建構出蛋白質間的 互動關係,只佔了蛋白質體學三分之二的內 容,而決定出蛋白質的立體空間結構也是同樣 重要,因為蛋白質三度空間結構決定了能否表 現其正常的生化功能。每一個蛋白質都由二十 種氨基酸(amino acid)依特定的秩序串聯而 成。蛋白質執行各種特定的生物功能則完全仰 賴其特定的三度空間結構。為了要執行特定的 生物功能,蛋白質必須擁有特定的三度空間結 構。這好比是一個工具或一部機器必須有符合 它功能的形狀和結構才具有用途。 圖四、 (a)蛋白質的一級結構,即該蛋白質的氨基酸序 列;(b)蛋白質的二級結構,螺旋的為helix,平板折疊為 strand;(c)蛋白質的三級結構,我們可以從其片段對應 到二級結構。 如果有某種原因令生物體內一個蛋白質 的空間結構產生錯誤而使該蛋白質失去它應 有的功能,其後果小則使生物體的運作輕微失 調,大則導致生物體死亡。狂牛病的起因就是 上述的一個典型例子。蛋白質三度空間結構的 形成,背後隱藏著一個極端複雜、令人歎為觀 止的過程。瞭解蛋白質結構在人類生活上有相 當多的應用,例如:針對於有毒性的蛋白質, 瞭解使其具有活性的結構部分,藉此設計藥物 來抑制該結構,就可達到抑制該病症的療效。 如何從蛋白質的一級結構(氨基酸序列)預測 其三級結構,一直是研究蛋白質功能最重要的 一件工作。傳統的作法是由蛋白質的一級結構 先預測其較為粗略的二級結構,然後藉由二級 結 構 的 片 段 , 產 生 可 能 的 三 級 結 構 模 組 (templete),如圖四所示。 目前對於此一領域的研究方法主要可分為 兩大類,其一是利用實際實驗的方法來預測, 內容包括以X 光繞射(X-ray diffraction)或是用 核磁共振等(NMR)物理的方式來探知一蛋白 質的結構;其二則是利用電腦的計算,依據理 論和已知的基因序列等資訊來預測,預測的方 法 則 包 括 了 同 源 模 擬 法 (Homology modeling)、摺疊辨識法(Folding recognition)以 及重頭起算法(Ab initio)三種。

(6)

A、實驗方法(Experiment Method) a. X 光繞射(X-ray diffraction):利用光線的繞 射特性,對已經結晶的蛋白質進行X 光繞 射,然後收集 X 光的繞射圖譜後,再藉由 分析繞射圖譜可以精準推算出蛋白質的正 確立體空間結構。此一方法的缺點是,有 些蛋白質相當不易結晶,且需要純度極高 的樣本才能進行繞射偵測。 b. 核磁共振(NMR):利用電子的自旋(Spin) 的特性,再加上外加磁場,藉此獲得蛋白 質的電子雲圖,收集蛋白質中各氫、碳及 氮原子間的相對距離,再利用此相對距離 資料加以分析就可以推算出蛋白質的立體 結構。然而,由NMR 所解出來的結構比 起結晶繞射更不精確,通常NMR 一次可 以解出20~40 種模型,最後須要再經過平 均運算來獲得平均結構,因此在作NMR 實驗時必須要考慮到平均結構的品質為 何。 B、理論模型(電腦計算) a. 同源模擬法(Homology modeling):將未知 的目標序列跟蛋白質結構資料庫(PDB)作 序列比對,來尋找出最好的模板 (Template),以此模板為模型將序列穿進 去,然後再作最佳化的運算,來獲的目標 序列的蛋白質結構。此一方法的缺點是遇 到序列相似度很低的時候,就無法預測或 是預測的結果可信度很低。 b. 摺疊辨識法(Fold recognition):直接將目標 序列套上已知蛋白質的相似摺疊模板,觀 察二者之間的相容性,然後作能量的計 算,依照序列順序跟結構排列的法則,來 找出符合要求的分子。此方法的缺點是需 要大量的計算量,且只能針對蛋白質的核 心部份作預測。 c. 重頭起算法(ab initio):利用分子動力學的 原理,考慮胺基酸和溶液的所有交互作用 力,找出分子間最穩定的狀態,從一級結 構開始,來計算出蛋白質的三級結構。此 一預測法同樣需要大量的電腦計算,且只 能對小分子的蛋白質(peptide level)進行預 測。 綜合以上所介紹的蛋白質結構預測方式, 以實驗方法來進行的預測工作,其共同的缺 點便是太過耗時,且常受限於樣本的製備技 術,而且蛋白質的純化及分離上仍有很多瓶 頸。所以,以目前來說要解一個蛋白質的序 列只要花短的時間,但是要解其結構則需要 數年的時間,因此在序列和結構之間就出現 了鴻溝,有待科學家的克服。即使有最好的 機器,一個研究單位一年只能描繪數百個蛋 白質的結晶,而尚有好幾十萬,甚至百萬個 蛋白質結構待解開。目前較理想的方法是分 析蛋白質序列,由現存資料庫中取得參數, 透過電腦運算建造蛋白質的結構模型,並評 估結構做最佳化的調整,藉此獲得蛋白質立 體結構來幫助X 光繞射和 NMR 所無法克服 的問題,並節省大量的時間。

2.3 支持向量機

支 持 向 量 機(Support Vector Machine ,

SVM) 是最近被提出來的一種類神經網路架 構[Cortes, 1995; Vapnik, 1995],它以 Vapnik 的統 計學習理論為基礎,而具有極優良的推理能力 (Generalization ability),SVM 不像傳統的圖訊 識別技術以最小化經驗風險(Empirical Risk) 為目標 — 即使得訓練資料的分類誤差最 小,SVM 以最小化結構風險(Structural Risk) 為目標 — 即使得未知的資料(即測試資料) 的分類誤差在一個機率上界以下。這種新的分 類技術等同於最小化推理誤差的上界。

(7)

根據 統計學習理 論所提出來的 Vapnik and Chervonenkis bound ,下列不等式成立的機率 為

1

η

,

Λ ∈ ∀ − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ + + ≤ λ η λ λ l h l h R R emp 4 ln 1 2 ln ) ( ) (

(1) 其 中 h 是 分 類 機 器 的 VC 維 度 (VC-dimension) ,而 l 訓練資料的數目,為了 降低結構風險(structural risk) 也就是說,為了 得 到 更 加 的 推 理 能 力 (generalization performances),則經驗風險以及 VC 維度對訓 練資料的數目的比率都必須越小越好。 SVM 的基本原理是透過訓練資料

}

1

{

)

,

(

,

),

,

(

1 1

N

×

±

l l

y

R

x

y

x

L

來估計出一個決策函數

:

N

{

±

1

}

R

f

,首先 討論線性分類的問題,此時SVM 的目的是找 出一個超平面(hyperplane)來區分二各類別,並 且最大化這二個類別的的資料與超平面最短 距離,也就是說

l

i

y

if

b

x

w

y

if

b

x

w

i i i i

,..,

1

1

1

1

1

=

=

=

(2) 亦等於

y

i

(

w

x

i

b

)

1

i

=

1

,

K

,

l

(3) 而最佳的(optimal)的超平面wxb=0, 也就是擁有最大化邊界 (margin)的超平面,其 中邊界(margin)所指的是平面wxb=1與 1 − = − ⋅x b w 之間的距離。其距離為

   

2 2 w

where

=

= n i wi w 1 2 2 (4) 圖六、(a)一般分類機器所找出的決策曲線(b)支持向量機 所找出的最佳決策曲線 而邊界(margin)越大,代表了此分類器的 VC 維度(VC-dimension)越小,也就是說他結構風 險(structural risk)的上界也就越小。所以擁有 最大化邊界(margin)的超平面也就是 SVM 中 所要尋找的最佳化的超平面。(如圖六) 而SVM 透過求解下列的二次最佳化問題 來找出最佳的超平面wxb=0

l

i

b

x

w

y

t

s

C

w

i i i i l i i b w

,...,

1

0

1

)

(

.

.

2

1

min

1 2 , ,

=

+

+

+

=

ξ

ξ

ξ

ξ (5) 其中 C > 0 是一個由使用者給定的固定的懲 罰參數,愈大的 C 值代表越不允許訓練資料 的 分 類 錯 誤 發 生 , 而 參 數 C 也 被 稱 為 regularization parameter,由上式可以看到, SVM 同時的最小化

= = n i wi w 1 2 2 , (6) 以找出最大邊界的超平面,同時也最小化分類 錯誤

Ξ

=

{

ξ

i

}

di ,而參數 C 則是負責二者最小 化比重之間的調控。 要求解此二次最佳化問題,我們可以使用 拉哥郎莒(Lagrange multipliers)的技巧,假設

)

,...,

,

(

λ

1

λ

2

λ

l

=

Λ

Γ

=

(

r

1

,

r

2

,...,

r

l

)

為 非

(8)

負的拉哥郎莒乘數(Lagrange multipliers) ,則 此二次最佳化問題的最佳解將會落在下列函 數的馬鞍點(saddle point)上面

[

]

= = − + − + ⋅ − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ + = Γ Λ Ξ l i i i i i i i l i i r b x w y C w b w L 1 1 2 1 ) ( 2 1 ) , , , , (

ξ

ξ

λ

ξ

(7) 把上面函數微分並且設定其結果等於0,我們 等到下列的公式

0

)

(

)

,

,

,

,

(

1

=

=

Γ

Λ

Ξ

= l i i i i

y

x

w

w

b

w

L

λ

(8)

0

)

,

,

,

,

(

1

=

=

Γ

Λ

Ξ

= l i i i

y

b

b

w

L

λ

(9)

0

)

,

,

,

,

(

=

=

Γ

Λ

Ξ

i i i

r

C

b

w

L

λ

ξ

(10)

把上列的公式(8)-(10)代入到原來的二次最佳 化問題(5),我們得到下列的對偶最佳化問題

0 0 . . 2 1 1 max ≥ Λ ≤ Λ = ⋅ Λ Λ Λ − ⋅ Λ Λ C y t s D

(11) 其中

y

=

(

y

1

,....,

y

l

)

,以及D 是一個l×l的對 稱矩陣,其元素為

D

ij

=

y

i

y

j

x

i

x

j,至於超 平面中的權重w 可以由下列公式求出

 

=

=

l i i i i

y

x

w

1 * *

λ

(12)

與偏移量b 可以由 Kuhn- Tucker conditions 計

算出來

     

 

*

(

(

*

+

*

)

1

+

*

)

=

0

i i i i

y

w

x

b

ξ

λ

(13)

   

(

*

)

*

=

0

i i

C

λ

ξ

(14) 圖七、高維度特徵空間中最佳的分類直線,在原來空間中就是 一條最佳的分類曲線 雖然 SVM 最早是提出來解決線性分類的問 題 , 但 是 要 將 支 持 向 量 機(Support Vector Machine , SVM) 延 伸 到 解 決 非 線 性 分 割 (nonlinearly separable)的問題上,其作法是非 常簡單的,藉由導入特徵空間(feature space) 的概念,我們將所有的樣本點經由一個分線性 轉換(nonlinear transformation)映射到一個高維 度的特徵空間

),....)

(

),...,

(

),

(

(

)

(

x

a

1 1

x

a

2 2

x

a

x

x

φ

=

φ

φ

n

φ

n

然後在高維度的特徵空間中找出一條最佳的 分類直線,而這條高維度特徵空間中最佳的分 類直線,在原來空間中就是一條最佳的分類曲 線,其概念如圖七

   

)

)

(

)

(

(

)

)

(

(

)

(

1 * * * *

=

+

+

=

l i i i i

x

x

b

y

sign

b

w

x

sign

x

f

φ

φ

λ

φ

(15) 藉由定義所謂的核心函數(kernel function),我 們可以不需要知道此非線性轉換

φ

的函數形 式,而核心函數(kernel function)的定義如下

)

(

)

(

)

,

(

x

y

x

y

K

φ

φ

(16)

(9)

表一、常見的核心函數

Type of classifier Kernel function Gaussian RBF

K

(

x

,

y

)

=

exp(

x

y

2

)

Muti-Layer Perceptron

K

(

x

,

y

)

=

tanh(

x

y

θ

)

Polynomial of degree d d

y

x

y

x

K

(

,

)

=

(

1

+

)

表一中整理出來較常使用到的核心函數,以及 她們所對應的分類器名稱。 雖然支持向量機一開始是提出來解決二元分 類問題,但是也有學者提出單類別支持向量機 (one-class SVM)來解決單類別分類的問題[Tax, 1999],並且也有學者提出支持向量迴歸機來 解決迴歸的問題[Vapnik, 1995]。

三、使用增加式模糊單類別支持向量機預

測蛋白質間交互作用

支持向量機(SVM)已被證明在預測蛋白 質間交互作用有優異的正確性。支持向量機與 所有預測蛋白質間交互作用的計算方法 一 樣,都必須使用正樣本與負樣本作為訓練的資 料,然而高產量的探測蛋白質交互作用實驗方 法,所找出的有交互作用的蛋白質存在著高比 率的偽陽性。不同的實驗方法有不同的可信賴 程度[Sprinzak, 2003]。本計畫中,我們結合模糊 理論可以處理『不精確』與『含糊』等資料的 特性,解決正樣本的不可靠性。 負樣本(無交互作用的一對蛋白質)也必 需小心謹慎的選取,才能訓練出一個具有高正 確率的分類機器,然而現實環境下,並沒有『標 準與精確』的負樣本可供訓練[Jansen, 2004]。現 存的 PPI 資料庫中(如 DIP,BIND 等),皆僅提 供正樣本而已,在網際網路上的醫學文獻資料 庫,也只會告訴你哪些蛋白質間會有交互作 用,而不會告訴你哪些蛋白質間不會有交互作 用。而早先的預測方法,在選取負樣本的作法 上都有嚴重的偏差性,例如在[Gomez, 2003]

中,他只是將沒有出現在DIP 與 BIND 等 PPI

資料庫中的每一對蛋白質,『隨機』的選取出 其中一部分作為訓練的負樣本,這其實是滿不 合理的,因為沒有出現在現存PPI 資料庫的某 一對蛋白質,表示尚未知道它們之間是否有交 互作用,而不代表他們是不會有交互作用。而 在[Jansen, 2003; 2004]的方法中,也是考慮沒有

出現在DIP 與 BIND 等 PPI 資料庫中的每一對

蛋白質,再用某些條件來選取負樣本,譬如一 對蛋白質要發生交互作用,必需在相同的細胞 位置 (cellular localization),因此每一對在相同 細胞位置的蛋白質將不會選取為負樣本,因為 在相同細胞位置的蛋白質發生交互作用的機 會比較大。同樣地,這樣子選取出來的負樣本 還是有偏差的。這本計畫中,我們使用單類別 支持向量機僅需藉由正樣本去做訓練的 特 性,則可完全避免了如何選取負樣本的問題。

3.1 單類別支持向量機

單類別支持向量機[Tax, 1999]使用超球 (hyper-sphere)的方式,將樣本點經由一個非線 性映射

Φ

映射到一個高維度的特徵空間,並 找出一個有最小半徑的超球來包含特徵空間 中所有的樣本點。 而支持向量(support vector)定義出一個特 徵空間中的球來圍住所有的樣本點。而且一個 高維度的球在原來空間中可以是任意的 形 狀。單類別支持向量機方法的概念圖可用圖八 表示。我們可以計算出所有點在特徵空間中到 球心的距離,而畫出圖八的高度圖,距球心距 離越遠則顏色越深,而由高度為球半徑的橫切 線定義出一條邊界曲線來包含所有的樣本點。

(10)

圖八: 單類別支持向量機的概念圖。 其實單類別支持向量機與類神經網路在 這裡所做的工作是一樣的,都是分類『是PPI』 與『不是PPI』二個類別,但是二者最大的不 同在於所需要的訓練樣本不同,類神經網路需 要二類訓練樣本—正樣本(是 PPI 的樣本)與負 樣本(不是 PPI 的樣本),而單類別支持向量機 則是只需要正樣本即可,眾所皆知的,現實環 境下,並沒有『標準與精確』的負樣本可供訓 練[Jansen, 2004]。現存的 PPI 資料庫中(如 DIP,BIND 等),皆僅提供正樣本而已,而使用 單類別支持向量機,我們可以很巧妙的避開採 集負訓練樣本的困難。

3.2 模糊單類別支持向量機

在現實應用中,模糊化是必須被考慮的。當 建構的模組充滿了曖昧、含糊的現象,則它就 可以Zadeh 所提出的模糊系統來表示,模糊理 論提供了有效的方法擷取『近似於』、『不精確』 等現實世界中的獨特特性。使用模糊理論,對 於處理下面的情形時會變得格外有用,例如當 行程太複雜了而無法使用傳統的量化機制分 析、或者當可得的資訊其性質是『不精確的』 或者是『不確定的』時。 本計畫研究出的模糊單類別支持向量機 是將訓練樣本的模糊性質納入考慮,越明確越 可靠的訓練樣本則越不允許訓練錯誤,反之較 模糊較不可靠的訓練樣本,則我們較允許他們 訓練錯誤。為了達到此一目的,我們為每一個 訓練樣本定義了一個可靠度(或模糊程度)數 值

0

<

μ

i

1

,

i

=

1

,...,

N

μ

i值越大表示此訓 練樣本越可靠,例如

μ

i

=

0

.

8

表示第i 個訓練 樣本有 80%的機率是正確的,而有 20%的機 率是無意義或是誤差(noise)的。假設給一組訓 練資料

(

x

1

,

μ

1

),....,

(

x

N

,

μ

N

)

,則模糊單類別 支持向量機考慮下最佳化問題

b

C

N i i i b i

+

+

=1 2 2 1 , ,

min

μ

ξ

ξ

w

w subject to (17)

N

i

b

w

i i i

,...,

1

,

0

,

0

)

(

=

+

Φ

ξ

ξ

x

其中

ξ

i表示訓練誤差的值,而參數 C 則 是對訓練誤差的逞罰,而

μ

i值越大表示對此 樣本的訓練誤差逞罰越大,也就是越不允許訓 練錯誤,反之

μ

i值越小,表示對此樣本的訓 練誤差逞罰越小,也就是可以允許訓練錯誤的 出現,避免雜訊點對訓練的效果的影響。使用 拉格郎舉(Lagrangian)理論,上面最佳化問題 的最佳解會落在下面函數的馬鞍點上(saddle point)

(

) ∑

= = = − + + Φ ⋅ − + + = N i i i N i i i i N i i i b b C L 1 1 1 2 ) ( 2 1

ξ

β

ξ

α

ξ

μ

x w w (18) 其 中 αi 與 βi 為 非 負 的 拉 格 郎 舉 乘 數 (Lagrangian multiplier). 對 L 以 w, b 與ξi微 分,並且設定結果為0,我們得到下面方程式

= =

Φ

=

=

Φ

=

N i i i N i i i

L

1 1

)

(

0

)

(

x

w

x

w

w

α

α

(19)

1

0

1

1 1

=

=

=

= = N i i N i i

b

L

α

α

(20)

(11)

i i i i i i i i i C C C L

μ

α

β

μ

α

β

α

μ

ξ

≤ − = ⇒ = − − = ∂ ∂ and 0

.

(21) 將 上 面 式 子(19)-(21) 代 入 原 來 的 最 佳 化 問 題,我們得到下列的對偶問題(dual problem)

 

∑∑

= = N i N j j i j i k x x i 1 1 ) , ( 2 1 min

α

α

α subject to (22) . ,..., 1 , 0 1 N i C i i i i = ≤ ≤ =

μ

α

α

3.3 增加式模糊單類別支持向量機演算法

既然我們只使用正訓練樣本來訓練單類 別支持向量機,如何選出充足且有代表性的 PPI 訓練樣本也就變成一個很重要的問題,然 而一次就選出足夠的訓練樣本是不容易的。所 以一個增加式學習方法(incremental learning) 就變的很必要了,如何在系統發現辨識錯誤, 或著要增加新的訓練樣本時,可以只用少數的 幾個步驟就能修正錯誤與學習新增加的 樣 本,而不用重新訓練整個系統,將對此 PPI 預測系統的強健性與適應性有大大的幫助。 所以本計畫中,我們使用單類別支持向量 機的一個重要特性,來幫助我們解決這個問 題。由於單類別支持向量主要是解一個二次最 佳化函數,而且二次矩陣是半正定及限制條件 是線性的,所以他有唯一全域最佳解,而增加 一個新的訓練樣本點時,我們可以用二次函數 的最佳化條件(KKT Condition),使用數學最佳 化的技巧,當我們發現有一新的PPI 資料應該 增加到我們的訓練樣本時,我們便可不必要重 新再訓練整個系統。而單類別支持向量機的最 佳化條件(KKT Condition)可以簡化成下列式 子   ⎪ ⎩ ⎪ ⎨ ⎧ = ≤ < < = = ≥ = − + − = − =

i i i i i j k kj j k j ji j ii i J J i C C K K K R D R g μ β μ β β β β β ; 0 0 ; 0 0 ; 0 2 ) ( , 2 2 2 x (23) 其中Kij =K(xi,xj)。由上式,我們可以將訓練 資料集 D 分割成三個不同的集合: 集合 S

由邊界向量(border support vectors)所組成,這 些邊界向量皆座落在特徵空間超球的球面上

(

0

<

β

i

<

C

μ

i, RJ2−DJ2(xi)=0,∀iS ),集合 E

由出界向量(outside support vectors)所組成,這 些出界向量皆座落在特徵空間超球的球外 (

β

i

=

C

μ

i, RJ2−D2J(xi)<0,∀iE ),而剩餘的 集合 R 中的向量則皆落在特徵空間超球的球 內(βi =0, RJ2−DJ2(xi)>0,∀iR)。 增加式單類別SVM 學習演算法的基本想 法就是保持所有之前已訓練過的樣本其最佳 化條件(KKT conditions)維持不變,同時『穩態 地』增加新的訓練過的樣本 c 進入系統。在集 合 D 中,在每一次 incremental step 中,所有 的邊界向量所對應的係數βi,會隨著新近樣本 c 所對應的係數βc改變而改變,以保持一個平 衡(equilibrium)的狀態,也就是說,D 中所有 的樣本都能滿足最佳化條件(KKT conditions)。 當新近樣本 c 所對應的係數βc改變時,我們可 得到gi的改變如下 } { , 2 2 2 c D i B K K g ic c S j j ij i ∪ ∈ ∀ Δ + Δ + Δ = Δ

∈ β β (24) 與  

∈ Δ + Δ = Δ S j j c g β β (25) 其中 ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ Δ − ⋅ Δ ⋅ Δ − ⋅ ⋅ Δ − ⋅ Δ ⋅ − ⋅ Δ ⋅ Δ − Δ = Δ

∈ ∈ ∈ ∈ cc c D j cj j c D j cj j c D j k kj j k D j k kj j k J K K K K K R B 2 , , 2 ) ( 2 ) ( 2 1 β β β β β β β β β 所以,在“平衡狀態(equilibrium)”時

(12)

表二、增加式學習演算法

1. Initialize

β

c to zero;

2. If

g

c

<

0

, terminate (c is not a border or outside vector)

3. If

g

c

0

, apply the largest possible increment

β

c so that (the first) one of the following conditions occurs:

(a)

g

c

=

0

: Add c to border set S, update P accordingly, and terminate;

(b)

β

c

=

C

: Add c to outside set E, and terminate; (c)Elements of Dl migrate across S, E, and R

(“bookkeeping"): update membership of elements and, if S changes, update P accordingly. And repeat step 3 as necessary.

⎩ ⎨ ⎧ ∈ ∀ Δ ⋅ = Δ Δ ⋅ = Δ D j c j j c ,

β

α

β

β

α

β

, (26) 其中    

=

c s c s s s s s

K

K

P

l l

M

M

1 1

1

α

α

α

, (27) 而 且 = Q−1

P , 而 Q 為 symmetric but not

positive-definite Jacobian :      

=

s s s s s s s s s s s s

K

K

K

K

Q

l l l l

L

O

M

M

L

L

1 1 1 1

1

1

1

1

0

, (28) 簡而言之,在每一次incremented step,我們計 算  

Δ

=

Δ

S

i

S

i

c i i

0

β

α

β

(29) 與

Δ

=

Δ

S

i

c

R

E

i

r

g

i i c

0

}

{

2

β

(30)

( )

c D j cj j S j D k kj j k c cc S j cj j S j k kj j k J

K

K

K

K

K

R

β

α

β

α

β

β

α

α

α

Δ

⎟⎟

⎜⎜

+

+

+

Δ

⎟⎟

⎜⎜

+

+

=

Δ

∈ ∈ ∈ ∈ ∈

2

)

(

2

)

(

, 2 , 2 (31) 最後,我們將增加式單類別SVM 學習演算法 摘列在表二中

四、使用參數化支持向量區間迴歸預測蛋

白質結構

近年來,有學者提出另一種從蛋白質的一 級結構預測其三級結構的方法。蛋白質的三級 結構可以藉由測量其中每一個殘基的接觸程 度(contact order),而知道它們在空間中是如何 排列的。所謂一個折疊後的蛋白質中其殘基接 觸程度(contact order)是根據該分子所暴露的 區域環境而量度,其定義為以該殘基分子中的 α C (或Cβ)原子為中心,在一特定的球形範圍 內 , 所 有 與 它 距 離 小 於 某 特 定 長 度( 例 如 10Ao (埃))的其它Cα(或Cβ)原子的數目,然後 再判斷這些接觸的數目(CN)占總殘基數目的

比例為多少。residue-wise contact order (RWCO)

是一種新的一級蛋白質結構描述遠距殘基接 觸的程度,它是一個序列中的某一個殘基和其 它殘基正在接觸的殘基之間做加總[Hua, 2001; Kinjo, 2005; Kihara, 2005]。早期的相關概念是 Plaxco 等學者所提出的 contact order (CO),它 只描素蛋白質拓僕(Topology) [Jiangning, 2006; Plaxco, 1998]。以 CO 為基礎,之後 Kihara 等

學者進一步提出residue contact order(RCO),

它是將先前的 CO 值做一個平均[Jiangning,

2006; Kihara, 2005]。最近,Kihara 等學者又進

一 步 提 出 相 似 的 概 念 , 它 叫 residue-wise

(13)

RCO 值做一個加總,用來描素各殘基與其他 鄰 近 殘 基 之 間 的 接 觸 程 度[Jiangning, 2006; Kinjo, 2005]。在決定蛋白質三級結構時,殘基 的接觸程度提供了非常有用的資訊,例如我們 可以用接觸程度決定在動態模擬蛋白質結構 時的能量函數(energy function)。以前在預測氨 基 酸 的 接 觸 程 度 時 , 可 以 分 成 使 用 分 類 (classification)與使用迴歸(regression)的二種 方式來解決,在使用分類的方法中,例如可以 由遞迴類神經網路(recurrent neural networks) 來預測氨基酸的接觸程度[Pollastri, 2001],不 過使用迴歸的方式來預測更為直接,正確率也

更高。例如Kinjo 等學者[Kinjo, 2005a]首先使

用線性迴歸的方式來預測各殘基的 RWCO

值,而[Song, 2006; Yuan, 2005]則首先使用支 持向量非線性迴歸機來預測氨基酸的接觸程 度。

4.1 殘基接觸程度

殘基接觸程度(residue-wise contact order, RWCO)是由 Kinjo 和 Nishikawa 兩位學者首次 提出來的一種判斷蛋白質摺疊率的一種方法 [Kinjo, 2005, 2006; Yuan, 2005],有很多的觀念 都和RWCO 有關,譬如說是 CN、CO、RCO 與CM,都將在這個小章節做簡單的介紹。 4.1.1 接觸數(contact number; CN): 殘基接觸數(contact number)可以看成是一 種對蛋白質三級結構摺疊情況的描述,它的定 義是以一個蛋白質三級結構中,從目標殘基的 中心Cα原子和目標以外殘基的中心Cα原子接 觸的數量有多少,將這些有接觸的數量做加 總,就是所謂的接觸數(contact number, CN)。 何為接觸呢﹖研究者會先設定一個要研究的 球型半徑(例如:8Å、10Å)。如果目標殘基和 其它的殘基的距離小於研究者設定的球型半 徑,那就判斷該殘基與目標殘基有接觸, 圖九 殘基接觸數概念圖 透過點對點距離的計算公式來判斷目標殘基 和其它的殘基的距離[Yuan, 2005]。判斷是否 接觸的點對點計算公式:

( )

( )( )

⎪⎩

=

= < ≥ = > −

ij ij d d j i j i r r if r r r if r M i j j j i i d

r

N

, , , , 1 0 2 | :| , σ σ

σ

(32) i d

N

:所得到的接觸數。 d

r

:研究者設定的球型半徑。例:8Å、10Å。 j i

r

, :第i 殘基和第 j 殘基之間的距離。 M:該蛋白質序列總殘基。 如圖九所示,假設藍色的殘基為所要計算的殘 基,其殘基的Cα 原子為中心,其它蛋白質序 列的殘基 Cα原子若有在這個的半徑內就將它 視為接觸,藍色的殘基扣掉它前後兩個位置的 殘基,剩下在球型半徑範圍內殘基都視為接 觸,圖中的藍色殘基的接觸數為2,紅色殘基 的接觸數為3 公式(32)所得到的接觸數是整數 值,若要得到浮點數的接觸數,則還要配合公 式(33)才能得到浮點數值的接觸數。

     

Δ ⋅ = N Si j N L CO 1 , (33)

(14)

圖十、接觸程度(Contact Order ;CO)概念圖 L:所有殘基之間接觸的數目。 N:蛋白質的序列長度。 j i

S

,

Δ

:若第i 殘基和第 j 殘基之間在設定的 範圍內有接觸,則第i 殘基和第 j 殘基之間 的距離相減。 根據先前學者的研究,CO 值越高則摺疊率 (folding rate)越低,CO 值越低則摺疊率(folding rate)越高[Bonneau, 2002; Faisca, 2002; Plaxco, 1998; Zhou, 2002]。如圖十顯示,蛋白質 a 的 CO 值計算方式如下:

(

) (

) (

)

(

) (

) (

)

(

) (

) (

)

(

) (

) (

)

(

) (

) (

)

(

)

36 . 0 18 21 17 22 16 23 15 24 14 25 13 26 12 27 11 28 8 11 7 12 6 13 5 14 4 15 3 16 2 17 1 18 28 16 1 = ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ − + − + − + − + − + − + − + − + − + − + − + − + − + − + − + − × = a CO 以此類推,蛋白質b 的 CO 值計算方式如下:

(

) (

) (

)

(

) (

) (

)

(

) (

) (

)

(

) (

) (

)

(

) (

) (

)

(

)

39 . 0 23 31 22 32 21 33 20 34 19 35 18 36 17 37 16 38 8 16 7 17 6 18 5 19 4 20 3 21 2 22 1 23 38 16 1 = ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ − + − + − + − + − + − + − + − + − + − + − + − + − + − + − + − × = b CO 蛋白質c 的 CO 值計算方式如下:  

(

) (

) (

)

(

) (

) (

)

(

) (

) (

)

(

) (

) (

)

(

) (

) (

)

(

)

53 . 0 28 31 27 32 26 33 25 34 24 35 23 36 22 37 21 38 8 31 7 32 6 33 5 34 4 35 3 36 2 37 1 38 38 16 1 = ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ − + − + − + − + − + − + − + − + − + − + − + − + − + − + − + − × = c CO 4.1.2 殘基接觸程度(Residue-wise Contact Orders; RWCO): 在談 RWCO 時,先談談 RCO(Residue

Contact Order),RCO 和 CO 不同,RCO 是只 考慮單一殘基在整個蛋白質裡和其它殘基之 間所接觸的程度,包括相鄰的前後兩個殘基 [Kihara, 2005],其計算 RCO 的公式為:

( )

( ) ( )

⎪⎩

=

< = ≥ = ≠

d j i j i d j i j i r r if r r r if r j i L j i j i

i

j

r

n

RCO

, , , , 1 0 , ,

1

σ σ

σ

其中

(34) L:胺基酸序列的長度。 n:所有殘基之間接觸的數目。 i:要計算的目標殘基。 j:除了目標殘基以外的殘基。

( )

r

i,j

σ

:以第

i

殘基中的

C

β(或叫

C

α)原子 為中心,將其中心為基準畫出設定的球型 半徑圓

r

d(

r

d= 6Å 或 8Å),若第

j

殘基在 設定的球型半徑內,則為1。若在設定的 球型半徑外,則為0。

而RWCO 是由 Kinjo 和 Nishikawa 兩位學者首

次提出來的判斷蛋白質摺疊率的另一種 方 法,它的特性就是可以透過公式的計算來判斷

(15)

殘基與殘基之間接觸的遠近程度,RWCO 與 RCO 的差異就在於 RWCO 它不考慮目標殘基 前後的兩個殘基,並且根據兩個殘基在胺基酸 序列位置的遠近,而計算出來的值也有所不 同,例如目標殘基為第 5 個殘基,它在與第 10 個殘基接觸所計算出來的 RWCO 值與和與 第20 個殘基接觸所計算出來的 RWCO 值是不

同 的[Kinjo, 2005-2006; Yuan, 2005; Song,

2006]。其計算 RWCO 的公式為:

( )

( ) ( ) ⎪⎩ ⎪ ⎨ ⎧ − = < = ≥ = > −

d j i j i d j i j i r r if r r r if r j i M i j j i i j r M RWCO , , , , 1 0 , 2 | :| | | 1 σ σ σ 其中

(35) M:所有殘基的數目。 i:要計算的目標殘基。 j:除了目標殘基以外的殘基。

( )

r

i,j

σ

:以第

i

殘基中的

C

β(或叫

C

α)原子 為中心,將其中心為基準畫出設定的球型半 徑圓

r

d(

r

d= 6Å 或 8Å),若第j殘基在設定 的球型半徑內(

r

i,j

<

r

d),則

σ

( )

ri,j 為1。若j 殘基在設定的球型半徑外(ri,j >rd),則σ

( )

ri,j 為0。 為了讓蛋白質的RWCO值較平滑,Kinjo學者 提出了一個能夠讓計算出來的RWCO值變的 較平滑,其公式如下:

( )

[

(

)

]

d j i j i

r

r

w

r

+

=

, ,

exp

1

1

σ

(36) w:為常數值,一般設為3。 d

r

:為研究者設定的球型半徑值,一般 設為12Å。 圖十一: 支持向量迴歸機的概念圖。

4.2 支持向量迴歸機(

ε

-SVR)

首先我們簡介支持向量迴歸機的基本概 念 , 假 設 現 在 給 定 一 組 訓 練 資 料 集 合 R y y),...,( N, N)}⊂ℵ× , {(x1 1 x ,其中ℵ表示輸入 向 量(input vector) 的 空 間 , 例 如 n R 。 則 在 ε-SVM regression [Vapnik, 1995]中,其目標是 找到一條最佳的迴歸函數 f(x)使得對於所有的 訓練資料而言,它與

y

i的差異最多只有ε的誤 差。換句話說,在訓練這條迴歸函數時,我們 並不關心這些小於ε的誤差,但是不允許大於

ε

的誤差出現,若誤差大於

ε

時,則我們必須 加以處罰。在ε-SVM regression 中我們使用下

ε

不敏感懲罰函數(ε-insensitive loss function)

      ⎪⎩ ⎪ ⎨ ⎧ − ≤ = otherwise if ε ξ ε ξ ξε: 0 (37) 來懲罰迴歸錯誤,只有當錯誤超過ε-不敏感 的管狀區域(

ε

-insensitive tube)時,我們才加 以懲罰(如圖十一)。ε-SVM regression 所找出 的是一條線性的迴歸函數 f(x)= wx +b,要 延伸到非線性迴歸,其概念也是很簡單,我們 只需把所有的訓練資料經由一非線性轉換Φ 映射到一高維度的特徵空間(feature space),然 後在高維度特徵空間中找出一條最佳的線性 迴歸函數 f(x)= w⋅Φ(x) +b,而在高維度特徵 空間中的最佳線性迴歸函數,在原來空間中即 是一條最佳的非線性迴歸函數。我們可以用一 個最佳化的問題來描述它  

(16)

. 0 , ) ) ( ( ) ) ( ( to subject ) ( 2 1 minimize * * 1 * 2 , , , * i y b b y C i i i i i t i i t i N i i i b i i ∀ ≥ − ≤ − + Φ − ≤ + Φ − + +

= ξ ξ ξ ε ξ ε ξ ξ ξ ξ x w x w w w (38) 其中 , * i i ξ ξ 為鬆弛變數(slack variable),表 示迴歸函數與訓練資料差異的程度,而 w2則 是在 SVM 理論中,用來表示模組的複雜性 (model complexity)。模組越複雜,學習的能力 越強,但是相對的過度學習(overfitting)的機會 也越大。使用 Lagrangian 理論,上面最佳化 問題的最佳解會落在下面函數的馬鞍點 上 (saddle point)

(

)

(

)

= = = = = − − + − − + Φ ⋅ + + − + Φ ⋅ − + + + = N i i i N i i i N i i i i i N i i i i i N i i i y b b y C L 1 * * 1 1 * * 1 1 * 2 ) ) ( ( ) ) ( ( ) ( 2 1 ξ β ξ β ξ ε α ξ ε α ξ ξ x w x w w (39) 其中

α

i,

α

i*與

β

i,

β

i*為非負的拉格郎舉乘 數(Lagrangian multiplier). 對 L 以 w, b, ξi

ξ

i*微分,並且設定結果為0,我們得到下面 方程式

= = = Φ − = ⇒ = Φ + Φ − = ∂ ∂ N i i i i N i N i i i i i L 1 * 1 1 * ) ( ) ( 0 ) ( ) ( x w x x w w α α α α (40) 0 ) ( 0 1 * 1 * 1 = − ⇒ = − = ∂ ∂

= = = N i i i N i i N i i b L

α

α

α

α

(41) C C C L i i i i i i ≤ − = ⇒ = − − = ∂ ∂ α β α β α ξ and 0

.

(42) C C C L i i i i i i ≤ − = ⇒ = − − = ∂ ∂ * * * * * * and 0

α

β

α

β

α

ξ

(43) 將上面式子(40)-(43)代入原來的最佳化問題 (38),我們可以轉化成下面的對偶問題(dual porblem): ⎪ ⎩ ⎪ ⎨ ⎧ ∈ = − ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ − + + − Φ ⋅ Φ − − −

= = = = ] , 0 [ , 0 ) ( to subject ) ( ) ( ) ( ) ( ) )( ( 2 1 maximize * 1 * 1 * 1 * 1 , * * , 2 1 C y i i N i i i i i i i N i i i N j i j i j j i i i i α α α α α α α α ε α α α α α α l x x (44) 其中 , * i i α α 為Lagrange multipliers。在解出最 佳解後,那些對應 (*) >0 i α 的訓練樣本點稱為 支持向量(support vector),而迴歸函數 f(x)中的 權重 w 可以由支持向量的線性組合求得:

Φ

=

i i i i

)

(

)

(

*

x

w

α

α

(45) 最終我們找到的迴歸函數如下:  

(

)

(

)

(

,

)

.

1 *

=

+

=

N i i i i

k

b

f

x

α

α

x

x

(46) 在介紹完支持向量迴歸機的概念後,接下來我 們介紹傳統支持向量迴歸機的隱含缺陷以及 在本研究計畫中,我們所提出來的改善方法, 使它能在預測接觸數時,達到更好的正確率。 如圖十二所示,傳統支持向量迴歸機的隱含缺 陷包含: 1. 參數

ε

是使用者給定的一個參數,參數

ε

的數值對於最終迴歸的正確率有很大 的影響,然而如何決定最佳的

ε

數值, 並不是一件很容易的工作,除非我們能 夠事先確定在多少誤差以內的錯誤我們 不去關心它。

(17)

(a) (b) (c) 圖十二、(a)誤差的分佈與輸入向量 x 有關係的例子,(b)使用原 來SVM regression 的結果,(c)真正合理的迴歸結果。 2. 在 支 持 向 量 迴 歸 機 中 , 不 敏 感 區 域 (insensitive zone)被假定是一個管狀(tube) 的區域。也就是說,他假設誤差的分佈, 與輸入向量 x 無關,亦即每個輸入向量 都是一樣重要的。然而這與現實世界中 的狀況並不一樣,事實上誤差的分佈是 與輸入向量 x 有關係的,而且每個輸入 向量的重要性並不一樣,有的樣本較可 靠,可允許的迴歸誤差較少,有的樣本 較不可靠,則可允許的迴歸誤差較多。

4.2 使用參數化不敏感區間的支持向量迴

歸機

(par-v-SVR) 在本計畫中,我們研究出一個新的參數化不敏 感區間的支持向量迴歸機學習演算法,並且希 望能夠不需要事先知道誤差的機率分佈,就可 以得到此任意區間的迴歸函數。在本研究中, 我們假設不敏感區域是任意形狀的,而我們以 一個函數 g(x)來描述他,換句話說我們希望能 找出一條迴歸函數使的所有的訓練樣本點都 在 f(x)-g(x)與 f(x)+g(x)的區間之內(如圖十三 所示),我們可以用一個最佳化的問題來描述 它 圖十三、 使用參數化不敏感區間的支撐向量迴歸機.

(

)

⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ + + ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ + ⋅ +

= N i i i d b N d v C i i 1 * 2 2 , , , , , 1 2 1 2 1 minimize* ξ ξ ξ ξ w c c w subject to (47)

(

w⋅Φ(xi) +b

) (

+ c⋅Φ(xi) +d

)

yi

ξ

i

(

( )

) (

( )

)

* i i i i +b − ⋅Φ +dy +

ξ

Φ ⋅ x c x w

0

,

*

i i

ξ

ξ

for i=1,…,N. 使用 Lagrangian 理論,上面最佳化問題的最 佳解會落在下面函數的馬鞍點上(saddle point)

(

)

(

)

(

)

(

)

(

)

= = = = = − − ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ + + + Φ ⋅ + + Φ ⋅ − − ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ + − + Φ ⋅ + + Φ ⋅ − ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ + + ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ + ⋅ + = N i i i N i i i N i i i i i i N i i i i i i N i i i y d b y d b N d v C L 1 * * 1 1 * * 1 1 * 2 2 ) ( ) ( ) ( ) ( 1 2 1 2 1 ξ β ξ β ξ α ξ α ξ ξ x c x w x c x w c w

, (

48) 其中

α

i,

α

i*與

β

i,

β

i*為非負的拉格郎舉乘 數(Lagrangian multiplier). 對 L 以 w, b, c, d, i ξ 與

ξ

i*微分,並且設定結果為0,我們得到 下面方程式

0

)

(

)

(

1 * 1

=

Φ

+

Φ

=

= = N i i i i N i i

L

w

x

x

w

α

α

(18)

=

Φ

=

N i i i i 1 *

)

(

)

(

x

w

α

α

,

(49)

(

)

(

*

)

(

)

0

1

=

Φ

+

=

= i i N i i

v

C

L

c

x

c

α

α

=

Φ

+

=

N i i i i

v

C

1 *

)

(

)

(

1

x

c

α

α

,

(50)

0

1 * 1

=

+

=

= = N i i N i i

b

L

α

α

(

)

0

1 *

=

= N i i i

α

α

,

(51)

0

1 * 1

=

=

= = N i i N i i

v

C

d

L

α

α

C

v

N i i i

+

=

=1 *

)

(

α

α

,

(52)

0

=

=

i i i

N

C

L

α

β

ξ

N

C

N

C

i i i

=

β

α

α

and

,

(53) 0 * * * = − − = ∂ ∂ i i i N C L

α

β

ξ

N

C

N

C

i i i

=

* * *

β

and

α

α

.

(54) 將上面式子代入原來的最佳化問題,我們可以 轉化成下面的對偶問題(dual porblem):

∑∑

∑∑

= = = = = − + + + − − − − N i i i i N i N j j i j j i i N i N j j i j j i i i i y k Cv k 1 * 1 1 * * 1 1 * * * ) ( ) , ( ) )( ( 2 1 ) , ( ) )( ( 2 1 maximize , α α α α α α α α α α α α x x x x subject to (55)

,

0

)

(

1 *

=

=

N i i i

α

α

,

)

(

1 *

v

C

N i i i

+

=

=

α

α

.

,

0

,

*

⎥⎦

⎢⎣

N

C

i i

α

α

其中 , * i i α α 為Lagrange multipliers。在解出最佳 解後,那些對應 (*) >0 i α 的訓練樣本點稱為支 持向量(support vector),而迴歸函數 f(x)與 g(x) 中的權重 w 與 c 可以由支持向量的線性組合 求得:

− Φ = i i i i ) ( ) ( * x w α α (56)

= Φ + ⋅ = N i i i i v C 1 *) ( ) ( 1 x c α α (57) 而迴歸函數 f(x)與 g(x)中的偏移量 b 與 d 則可 以由Karush-Kuhn-Tucker (KKT) conditions 得 到: 0 ) ( ) ( = ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ + − + Φ ⋅ + + Φ ⋅ i i i i i y d b ξ α x c x w

(58)

0

)

(

)

(

* *

=

+

+

+

Φ

+

Φ

i i i i i

y

d

b

ξ

α

x

c

x

w

(59)

0

=

i i

N

C

α

ξ

,

(60)

0

* *

=

i i

N

C

α

ξ

. (61) 最後偏移量 b 與 d 則可以由下列公式得到: ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ − − Φ ⋅ − Φ ⋅ + Φ ⋅ + Φ ⋅ − = j i j i j i y y b ( ) ( ) ) ( ) ( 2 1 x c x c x w x w , (62) ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ + − Φ ⋅ + Φ ⋅ + Φ ⋅ − Φ ⋅ − = j i j i j i y y d ( ) ( ) ) ( ) ( 2 1 x c x c x w x w , (63) 其中 i, j 使得 ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ∈ N C j i, 0, * α α . 最終我們找到的迴歸函數如下:    

(

)

(

)

(

,

)

.

1 *

=

+

=

N i i i i

k

b

f

x

α

α

x

x

(64) ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ + + ⋅ =

= d k v C g N i i i i 1 *) ( , ) ( 1 ) (x α α x x (65)

參考文獻

相關文件

[r]

In the work of Qian and Sejnowski a window of 13 secondary structure predictions is used as input to a fully connected structure-structure network with 40 hidden units.. Thus,

This database includes antigen’s PDB_ID, all sites (include interaction and non-interaction) of a nine amino acid sequence of primary structure and secondary structure.. After

Moreover, using the software LS-DYNA dynamic responses which include dynamic fillet stresses, contact forces and contact stresses, and transmission errors of a standard spur pair

工作分解結構 (WBS, Work Breakdown Structure) 檢核清單 (check list or risk profile). 假設與限制分析 (assumptions and constrains

Displays a list of contacts and allows users to select a contact from that list. // The application only shows the phone, email, and birthdate information of the selected

Based on different characteristics of known protein-protein interaction sites, several methods have been proposed for predicting interface residues using a combination of

Bitter plants with higher amino acid has a bitter taste in the more than 30 kinds of amino acids there are 20 types of amino acids contained in bitter gourd contains glutamic