行政院國家科學委員會專題研究計畫 成果報告
蛋白質功能分析-使用新的支持向量機與核心函數(第 2 年)
研究成果報告(完整版)
計 畫 類 別 : 個別型
計 畫 編 號 : NSC 96-2221-E-151-034-MY2
執 行 期 間 : 97 年 08 月 01 日至 98 年 07 月 31 日
執 行 單 位 : 國立高雄應用科技大學資訊管理系
計 畫 主 持 人 : 郝沛毅
計畫參與人員: 碩士班研究生-兼任助理人員:蔡龍表
碩士班研究生-兼任助理人員:陳育德
碩士班研究生-兼任助理人員:黃惠君
博士班研究生-兼任助理人員:周鴻儒
處 理 方 式 : 本計畫可公開查詢
中 華 民 國 98 年 10 月 29 日
行政院國家科學委員會補助專題研究計畫
5
成果報告
□期中進度報告
蛋白質功能分析-使用新的支持向量機與核心函數
計畫類別:
5
個別型計畫 □ 整合型計畫
計畫編號:
NSC 96-2221 -E-151 -034 -MY2
執行期間: 96 年 8 月 1 日 至 98 年 7 月 31 日
計畫主持人:郝沛毅
共同主持人:
計畫參與人員:
成果報告類型(依經費核定清單規定繳交):□精簡報告
5
完整報告
本成果報告包括以下應繳交之附件:
□赴國外出差或研習心得報告一份
□赴大陸地區出差或研習心得報告一份
□出席國際學術會議心得報告及發表之論文各一份
□國際合作研究計畫國外研究報告書一份
處理方式:除產學合作研究計畫、提升產業技術及人才培育研究計畫、列管
計畫及下列情形者外,得立即公開查詢
□涉及專利或其他智慧財產權,□一年□二年後可公開查詢
執行單位:國立高雄應用科技大學 資管系
中 華 民 國 98 年 10 月 31 日
行政院國家科學委員會專題研究計畫期末成果報告
蛋白質功能分析-使用新的支持向量機與核心函數
計畫編號:
NSC 96-2221 -E-151 -034 -MY2
執行期限:96 年 8 月 1 日至 98 年 7 月 31 日
主持人:郝沛毅 國立高雄應用科技大學資訊管理學系
電子信箱(Email): [email protected]
一、摘要
「後基因體時代-蛋白質體學」其著重的 議題是在探討蛋白質所扮演的生理功能,而蛋 白質之間的交互作用提供推論蛋白質功能重 大的線索。支持向量機(SVM)已被證明在預測 蛋白質間交互作用有優異的正確性,與其他預 測蛋白質間交互作用的計算方法一樣,SVM 必須使用正樣本與負樣本作為訓練的資料,然 而高產量的探測蛋白質交互作用實驗方法,所 找出的有交互作用的蛋白質(PPI)存在著高比 率的偽陽性。在第一年的計畫中,我們結合模 糊理論可以處理『不精確』與『含糊』等資料 的特性,解決PPI 正樣本的不可靠性,並且使 用單類別支持向量機僅需藉由正樣本去做訓 練的特性,則可完全避免了如何選取負樣本的 問題。此外,為了解決 PPI 資料庫不斷新增資 料的問題,我們提出了一個增加式的學習演算 法。 蛋白質三度空間結構決定了能否表現其 正常的生化功能,為了要執行特定的生物功 能,蛋白質必須擁有特定的三度空間結構。如 何從蛋白質的一級結構預測其三級結構,一直 是研究蛋白質功能最重要的一件工作。在第二 年的計畫中,我們提出一個新穎的『參數化不 敏感區間的支持向量迴歸機』,並且使用它來 預 測 殘 基 的 接 觸 程 度 residue-wise contact order (RWCO)。RWCO 是一種新的呈現蛋白 質結構的方法,主要是在形容各殘基之間的接 觸程度。藉由預測殘基的接觸程度(RWCO), 可提供將來推測蛋白質三級結構的重要線索。 關鍵詞:生物資訊、蛋白質交互作用、蛋白質 三級結構、支持向量機、單類別支持分類向量 機、支持向量迴歸機。二、計畫緣由與目的
當 許 多 生 物 體 之 基 因 序 列 被 快 速 解 析 後,生物相關學家的下一個主流研究目標將是 探究基因序列中各基因所攜帶之功能為何? 因此,以基因序列訊息資料庫為研究基礎的生 物資訊學隨之開始蓬勃發展與應用,再加上新 一代質譜技術與電腦高速運算與大量儲存能 力的蓬勃發展下,以跨領域模式而新整合發展 出『蛋白質體學(Proteomics)』。蛋白質體學 不但掀起整體生命科學研究鎖定蛋白質的新 風潮,也正式進入了「後基因體時代-蛋白質 體學開始」的階段,成為21 世紀生物科技最 主要的研究趨勢。也就是要藉由基因體序列理 解生物體的生命系統整體是如何運作;這包含 瞭解單純的基因或其轉譯的蛋白質的功能與 結構,基因的調控,到蛋白質間的交互作用, 基因間的交互作用到更複雜的生化代謝路徑 甚至生物系統的運作。 mRNA 所攜帶的功能訊息必須再透過其 轉譯後的產物『蛋白質』才能有執行其生理功 能的能力(如圖一),以複雜度來比較蛋白質體 學與基因體學,基因體學像是小孩的遊戲,其 研究終點很清楚:有機體DNA 的完整序列; 蛋白質體學則試圖補獲生命系統中的種種活 動現象。基因預估有 3~4 萬個,人類蛋白質 估計高達20~200 萬。此外基因原則上終生不 變,蛋白質則持續變化,視其出現的組織、年 齡,甚至飲食習慣而改變。圖一、基因體與蛋白質體之關係 圖二、 蛋白質與蛋白質之間的交互作用及其聯絡網 蛋白質體學不像基因體學靠單一技術– 如 gene sequencers–就能稱霸,因為蛋白質的化 學表現差異廣泛,一項技術難以適用於所有蛋 白質。目前研究人員常用的實驗方法有三項, 包含了分離蛋白質混合物、觀察其交互作用的 技術、以及分析蛋白質的原子結構。
2.1 蛋白質交互作用
在 功 能 性 蛋 白 質 體 學 ( functional proteomics)極需快速發展以探究複雜生命現 象的當代科學中,蛋白質與蛋白質之間交互作 用的研究,提供了一個瞭解蛋白質功能不可或 缺的依據。在生物體中,蛋白質會彼此結合在 一起,形成複合體,執行特殊的功能,這就是 「蛋白質的交互作用」。功能單位有大有小, 大如核糖體(ribosome)由30個以上的單位構 成,小如轉錄因子(transcription factor)僅由2 個組成。生化學家發現,幾乎所有的蛋白質都 會與其它的蛋白質結合,或是透過不結合的方 式,達到交互作用的目的, 圖三、 使用蛋白質交互作用聯絡網預測蛋白質的功能 這種現象出現在高等動物(哺乳類)的頻率又 高於低等的動物。因此,要了解細胞如何系統 性運作之前,必須先了解蛋白質複合體如何共 同執行功能;要知道蛋白質群體怎樣執行功 能,就要先定義出這群複合體的組成。 許多生物活動仰賴蛋白質彼此間具有專 一性交互作用的能力,因此基於『guilt by association』的概念認為,若能與已知功能 的蛋白質結合的蛋白質,則該結合蛋白質可能 與已知功能的蛋白質執行相類似的功能。其中 的理念至少有:(1) 利用已知的蛋白質,以相 連性 (linkage) 搜尋未知蛋白質可能的功能; (2) 得知許多已知蛋白質的未知功能; (3) 得 知執行特定生物功能時,所有可能存在的蛋白 質聯絡網 (包含已知或未知的相連性);再加 上結構生物學 (structural biology) 解析蛋白 質之間交互作用的機轉等,最終方能探究基因 體與蛋白質體的生理意義。相信唯有利用全面 性探討的方式,才能促使研究的成果更為客 觀,並加速發展其應用,並且建立蛋白質與蛋 白 質 之 間 的 交 互 作 用 及 其 聯 絡 網 (protein-protein interactions or interaction networks),如圖二,我們即可藉此觀察細胞內 蛋白質網路的變化;如果可以掌握疾病與蛋白 質表現失衡的關係,我們就可以針對關鍵的蛋 白質找出可能的治療方法與藥物,以協助人類
的疾病的治療並解決可能面臨的生物危機(如 圖三)。 功能性蛋白質體學主要分析某蛋白質其在 整體生理反應中所扮演的生化功能角色,由於 蛋白質間的功能差異很大,目前這方面研究方 向主要鎖定在蛋白質-蛋白質交互作用鑑定分 析 。 近 來 為 發 掘 蛋 白 質 功 能 , 常 用 『guilt-by-association』方法來推論蛋白質功 能,也就是說,如果兩個有交互作用的蛋白質 其中之一知道其功能,就可以推論另一蛋白質 應該與此功能有極大的相關性。所以建立蛋白 質 與 蛋 白 質 之 間 的 交 互 作 用 及 其 聯 絡 網 (protein-protein interactions or interaction networks) 將是研究功能性基因體學與蛋白質 體學的起始課題。有不同的實驗方法探測蛋白 質交互作用,不同的方法擁有不同的解析度, 第一種方法為原子層次觀察,通常是X光繞射 或核磁共振,第二是直接觀察,例如酵母菌two hybrid,第三是複和體探測,如免疫共沈澱法, 第四是細胞中交互作用,如受體與ligand的交 互作用的生物檢測(bioassay)。不同的實驗方法 有不同的可信賴程度[Sprinzak, 2003]。
2.2 蛋白質三度空間結構
若只將蛋質建檔以及建構出蛋白質間的 互動關係,只佔了蛋白質體學三分之二的內 容,而決定出蛋白質的立體空間結構也是同樣 重要,因為蛋白質三度空間結構決定了能否表 現其正常的生化功能。每一個蛋白質都由二十 種氨基酸(amino acid)依特定的秩序串聯而 成。蛋白質執行各種特定的生物功能則完全仰 賴其特定的三度空間結構。為了要執行特定的 生物功能,蛋白質必須擁有特定的三度空間結 構。這好比是一個工具或一部機器必須有符合 它功能的形狀和結構才具有用途。 圖四、 (a)蛋白質的一級結構,即該蛋白質的氨基酸序 列;(b)蛋白質的二級結構,螺旋的為helix,平板折疊為 strand;(c)蛋白質的三級結構,我們可以從其片段對應 到二級結構。 如果有某種原因令生物體內一個蛋白質 的空間結構產生錯誤而使該蛋白質失去它應 有的功能,其後果小則使生物體的運作輕微失 調,大則導致生物體死亡。狂牛病的起因就是 上述的一個典型例子。蛋白質三度空間結構的 形成,背後隱藏著一個極端複雜、令人歎為觀 止的過程。瞭解蛋白質結構在人類生活上有相 當多的應用,例如:針對於有毒性的蛋白質, 瞭解使其具有活性的結構部分,藉此設計藥物 來抑制該結構,就可達到抑制該病症的療效。 如何從蛋白質的一級結構(氨基酸序列)預測 其三級結構,一直是研究蛋白質功能最重要的 一件工作。傳統的作法是由蛋白質的一級結構 先預測其較為粗略的二級結構,然後藉由二級 結 構 的 片 段 , 產 生 可 能 的 三 級 結 構 模 組 (templete),如圖四所示。 目前對於此一領域的研究方法主要可分為 兩大類,其一是利用實際實驗的方法來預測, 內容包括以X 光繞射(X-ray diffraction)或是用 核磁共振等(NMR)物理的方式來探知一蛋白 質的結構;其二則是利用電腦的計算,依據理 論和已知的基因序列等資訊來預測,預測的方 法 則 包 括 了 同 源 模 擬 法 (Homology modeling)、摺疊辨識法(Folding recognition)以 及重頭起算法(Ab initio)三種。A、實驗方法(Experiment Method) a. X 光繞射(X-ray diffraction):利用光線的繞 射特性,對已經結晶的蛋白質進行X 光繞 射,然後收集 X 光的繞射圖譜後,再藉由 分析繞射圖譜可以精準推算出蛋白質的正 確立體空間結構。此一方法的缺點是,有 些蛋白質相當不易結晶,且需要純度極高 的樣本才能進行繞射偵測。 b. 核磁共振(NMR):利用電子的自旋(Spin) 的特性,再加上外加磁場,藉此獲得蛋白 質的電子雲圖,收集蛋白質中各氫、碳及 氮原子間的相對距離,再利用此相對距離 資料加以分析就可以推算出蛋白質的立體 結構。然而,由NMR 所解出來的結構比 起結晶繞射更不精確,通常NMR 一次可 以解出20~40 種模型,最後須要再經過平 均運算來獲得平均結構,因此在作NMR 實驗時必須要考慮到平均結構的品質為 何。 B、理論模型(電腦計算) a. 同源模擬法(Homology modeling):將未知 的目標序列跟蛋白質結構資料庫(PDB)作 序列比對,來尋找出最好的模板 (Template),以此模板為模型將序列穿進 去,然後再作最佳化的運算,來獲的目標 序列的蛋白質結構。此一方法的缺點是遇 到序列相似度很低的時候,就無法預測或 是預測的結果可信度很低。 b. 摺疊辨識法(Fold recognition):直接將目標 序列套上已知蛋白質的相似摺疊模板,觀 察二者之間的相容性,然後作能量的計 算,依照序列順序跟結構排列的法則,來 找出符合要求的分子。此方法的缺點是需 要大量的計算量,且只能針對蛋白質的核 心部份作預測。 c. 重頭起算法(ab initio):利用分子動力學的 原理,考慮胺基酸和溶液的所有交互作用 力,找出分子間最穩定的狀態,從一級結 構開始,來計算出蛋白質的三級結構。此 一預測法同樣需要大量的電腦計算,且只 能對小分子的蛋白質(peptide level)進行預 測。 綜合以上所介紹的蛋白質結構預測方式, 以實驗方法來進行的預測工作,其共同的缺 點便是太過耗時,且常受限於樣本的製備技 術,而且蛋白質的純化及分離上仍有很多瓶 頸。所以,以目前來說要解一個蛋白質的序 列只要花短的時間,但是要解其結構則需要 數年的時間,因此在序列和結構之間就出現 了鴻溝,有待科學家的克服。即使有最好的 機器,一個研究單位一年只能描繪數百個蛋 白質的結晶,而尚有好幾十萬,甚至百萬個 蛋白質結構待解開。目前較理想的方法是分 析蛋白質序列,由現存資料庫中取得參數, 透過電腦運算建造蛋白質的結構模型,並評 估結構做最佳化的調整,藉此獲得蛋白質立 體結構來幫助X 光繞射和 NMR 所無法克服 的問題,並節省大量的時間。
2.3 支持向量機
支 持 向 量 機(Support Vector Machine ,
SVM) 是最近被提出來的一種類神經網路架 構[Cortes, 1995; Vapnik, 1995],它以 Vapnik 的統 計學習理論為基礎,而具有極優良的推理能力 (Generalization ability),SVM 不像傳統的圖訊 識別技術以最小化經驗風險(Empirical Risk) 為目標 — 即使得訓練資料的分類誤差最 小,SVM 以最小化結構風險(Structural Risk) 為目標 — 即使得未知的資料(即測試資料) 的分類誤差在一個機率上界以下。這種新的分 類技術等同於最小化推理誤差的上界。
根據 統計學習理 論所提出來的 Vapnik and Chervonenkis bound ,下列不等式成立的機率 為
1
−
η
,Λ ∈ ∀ − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ + + ≤ λ η λ λ l h l h R R emp 4 ln 1 2 ln ) ( ) (
(1) 其 中 h 是 分 類 機 器 的 VC 維 度 (VC-dimension) ,而 l 訓練資料的數目,為了 降低結構風險(structural risk) 也就是說,為了 得 到 更 加 的 推 理 能 力 (generalization performances),則經驗風險以及 VC 維度對訓 練資料的數目的比率都必須越小越好。 SVM 的基本原理是透過訓練資料
}
1
{
)
,
(
,
),
,
(
1 1∈
N×
±
l ly
R
x
y
x
L
來估計出一個決策函數:
N→
{
±
1
}
R
f
,首先 討論線性分類的問題,此時SVM 的目的是找 出一個超平面(hyperplane)來區分二各類別,並 且最大化這二個類別的的資料與超平面最短 距離,也就是說l
i
y
if
b
x
w
y
if
b
x
w
i i i i,..,
1
1
1
1
1
=
−
=
−
≥
−
⋅
=
≥
−
⋅
(2) 亦等於y
i(
w
⋅
x
i−
b
)
≥
1
i
=
1
,
K
,
l
(3) 而最佳的(optimal)的超平面w⋅x−b=0, 也就是擁有最大化邊界 (margin)的超平面,其 中邊界(margin)所指的是平面w⋅x−b=1與 1 − = − ⋅x b w 之間的距離。其距離為
2 2 w
where
=∑
= n i wi w 1 2 2 (4) 圖六、(a)一般分類機器所找出的決策曲線(b)支持向量機 所找出的最佳決策曲線 而邊界(margin)越大,代表了此分類器的 VC 維度(VC-dimension)越小,也就是說他結構風 險(structural risk)的上界也就越小。所以擁有 最大化邊界(margin)的超平面也就是 SVM 中 所要尋找的最佳化的超平面。(如圖六) 而SVM 透過求解下列的二次最佳化問題 來找出最佳的超平面w⋅x−b=0l
i
b
x
w
y
t
s
C
w
i i i i l i i b w,...,
1
0
1
)
(
.
.
2
1
min
1 2 , ,=
≥
≥
+
+
⋅
⎟
⎠
⎞
⎜
⎝
⎛
+
∑
=ξ
ξ
ξ
ξ (5) 其中 C > 0 是一個由使用者給定的固定的懲 罰參數,愈大的 C 值代表越不允許訓練資料 的 分 類 錯 誤 發 生 , 而 參 數 C 也 被 稱 為 regularization parameter,由上式可以看到, SVM 同時的最小化∑
= = n i wi w 1 2 2 , (6) 以找出最大邊界的超平面,同時也最小化分類 錯誤Ξ
=
{
ξ
i}
di ,而參數 C 則是負責二者最小 化比重之間的調控。 要求解此二次最佳化問題,我們可以使用 拉哥郎莒(Lagrange multipliers)的技巧,假設)
,...,
,
(
λ
1λ
2λ
l=
Λ
與Γ
=
(
r
1,
r
2,...,
r
l)
為 非負的拉哥郎莒乘數(Lagrange multipliers) ,則 此二次最佳化問題的最佳解將會落在下列函 數的馬鞍點(saddle point)上面
[
]
∑
∑
∑
= = − + − + ⋅ − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ + = Γ Λ Ξ l i i i i i i i l i i r b x w y C w b w L 1 1 2 1 ) ( 2 1 ) , , , , (ξ
ξ
λ
ξ
(7) 把上面函數微分並且設定其結果等於0,我們 等到下列的公式
0
)
(
)
,
,
,
,
(
1=
−
=
∂
Γ
Λ
Ξ
∂
∑
= l i i i iy
x
w
w
b
w
L
λ
(8)
0
)
,
,
,
,
(
1=
=
∂
Γ
Λ
Ξ
∂
∑
= l i i iy
b
b
w
L
λ
(9)
0
)
,
,
,
,
(
=
−
−
=
∂
Γ
Λ
Ξ
∂
i i ir
C
b
w
L
λ
ξ
(10)
把上列的公式(8)-(10)代入到原來的二次最佳 化問題(5),我們得到下列的對偶最佳化問題
0 0 . . 2 1 1 max ≥ Λ ≤ Λ = ⋅ Λ Λ Λ − ⋅ Λ Λ C y t s D
(11) 其中
y
=
(
y
1,....,
y
l)
,以及D 是一個l×l的對 稱矩陣,其元素為D
ij=
y
iy
jx
i⋅
x
j,至於超 平面中的權重w 可以由下列公式求出∑
==
l i i i iy
x
w
1 * *λ
(12)
與偏移量b 可以由 Kuhn- Tucker conditions 計
算出來
*
(
(
*⋅
+
*)
−
1
+
*)
=
0
i i i iy
w
x
b
ξ
λ
(13)
(
−
*)
*=
0
i iC
λ
ξ
(14) 圖七、高維度特徵空間中最佳的分類直線,在原來空間中就是 一條最佳的分類曲線 雖然 SVM 最早是提出來解決線性分類的問 題 , 但 是 要 將 支 持 向 量 機(Support Vector Machine , SVM) 延 伸 到 解 決 非 線 性 分 割 (nonlinearly separable)的問題上,其作法是非 常簡單的,藉由導入特徵空間(feature space) 的概念,我們將所有的樣本點經由一個分線性 轉換(nonlinear transformation)映射到一個高維 度的特徵空間
),....)
(
),...,
(
),
(
(
)
(
x
a
1 1x
a
2 2x
a
x
x
→
φ
=
φ
φ
nφ
n然後在高維度的特徵空間中找出一條最佳的 分類直線,而這條高維度特徵空間中最佳的分 類直線,在原來空間中就是一條最佳的分類曲 線,其概念如圖七
)
)
(
)
(
(
)
)
(
(
)
(
1 * * * *∑
=+
⇒
+
⋅
=
l i i i ix
x
b
y
sign
b
w
x
sign
x
f
φ
φ
λ
φ
(15) 藉由定義所謂的核心函數(kernel function),我 們可以不需要知道此非線性轉換
φ
的函數形 式,而核心函數(kernel function)的定義如下)
(
)
(
)
,
(
x
y
x
y
K
≡
φ
⋅
φ
(16)表一、常見的核心函數
Type of classifier Kernel function Gaussian RBF
K
(
x
,
y
)
=
exp(
−
x
−
y
2)
Muti-Layer PerceptronK
(
x
,
y
)
=
tanh(
x
⋅
y
−
θ
)
Polynomial of degree d dy
x
y
x
K
(
,
)
=
(
1
+
⋅
)
表一中整理出來較常使用到的核心函數,以及 她們所對應的分類器名稱。 雖然支持向量機一開始是提出來解決二元分 類問題,但是也有學者提出單類別支持向量機 (one-class SVM)來解決單類別分類的問題[Tax, 1999],並且也有學者提出支持向量迴歸機來 解決迴歸的問題[Vapnik, 1995]。三、使用增加式模糊單類別支持向量機預
測蛋白質間交互作用
支持向量機(SVM)已被證明在預測蛋白 質間交互作用有優異的正確性。支持向量機與 所有預測蛋白質間交互作用的計算方法 一 樣,都必須使用正樣本與負樣本作為訓練的資 料,然而高產量的探測蛋白質交互作用實驗方 法,所找出的有交互作用的蛋白質存在著高比 率的偽陽性。不同的實驗方法有不同的可信賴 程度[Sprinzak, 2003]。本計畫中,我們結合模糊 理論可以處理『不精確』與『含糊』等資料的 特性,解決正樣本的不可靠性。 負樣本(無交互作用的一對蛋白質)也必 需小心謹慎的選取,才能訓練出一個具有高正 確率的分類機器,然而現實環境下,並沒有『標 準與精確』的負樣本可供訓練[Jansen, 2004]。現 存的 PPI 資料庫中(如 DIP,BIND 等),皆僅提 供正樣本而已,在網際網路上的醫學文獻資料 庫,也只會告訴你哪些蛋白質間會有交互作 用,而不會告訴你哪些蛋白質間不會有交互作 用。而早先的預測方法,在選取負樣本的作法 上都有嚴重的偏差性,例如在[Gomez, 2003]中,他只是將沒有出現在DIP 與 BIND 等 PPI
資料庫中的每一對蛋白質,『隨機』的選取出 其中一部分作為訓練的負樣本,這其實是滿不 合理的,因為沒有出現在現存PPI 資料庫的某 一對蛋白質,表示尚未知道它們之間是否有交 互作用,而不代表他們是不會有交互作用。而 在[Jansen, 2003; 2004]的方法中,也是考慮沒有
出現在DIP 與 BIND 等 PPI 資料庫中的每一對
蛋白質,再用某些條件來選取負樣本,譬如一 對蛋白質要發生交互作用,必需在相同的細胞 位置 (cellular localization),因此每一對在相同 細胞位置的蛋白質將不會選取為負樣本,因為 在相同細胞位置的蛋白質發生交互作用的機 會比較大。同樣地,這樣子選取出來的負樣本 還是有偏差的。這本計畫中,我們使用單類別 支持向量機僅需藉由正樣本去做訓練的 特 性,則可完全避免了如何選取負樣本的問題。
3.1 單類別支持向量機
單類別支持向量機[Tax, 1999]使用超球 (hyper-sphere)的方式,將樣本點經由一個非線 性映射Φ
映射到一個高維度的特徵空間,並 找出一個有最小半徑的超球來包含特徵空間 中所有的樣本點。 而支持向量(support vector)定義出一個特 徵空間中的球來圍住所有的樣本點。而且一個 高維度的球在原來空間中可以是任意的 形 狀。單類別支持向量機方法的概念圖可用圖八 表示。我們可以計算出所有點在特徵空間中到 球心的距離,而畫出圖八的高度圖,距球心距 離越遠則顏色越深,而由高度為球半徑的橫切 線定義出一條邊界曲線來包含所有的樣本點。圖八: 單類別支持向量機的概念圖。 其實單類別支持向量機與類神經網路在 這裡所做的工作是一樣的,都是分類『是PPI』 與『不是PPI』二個類別,但是二者最大的不 同在於所需要的訓練樣本不同,類神經網路需 要二類訓練樣本—正樣本(是 PPI 的樣本)與負 樣本(不是 PPI 的樣本),而單類別支持向量機 則是只需要正樣本即可,眾所皆知的,現實環 境下,並沒有『標準與精確』的負樣本可供訓 練[Jansen, 2004]。現存的 PPI 資料庫中(如 DIP,BIND 等),皆僅提供正樣本而已,而使用 單類別支持向量機,我們可以很巧妙的避開採 集負訓練樣本的困難。
3.2 模糊單類別支持向量機
在現實應用中,模糊化是必須被考慮的。當 建構的模組充滿了曖昧、含糊的現象,則它就 可以Zadeh 所提出的模糊系統來表示,模糊理 論提供了有效的方法擷取『近似於』、『不精確』 等現實世界中的獨特特性。使用模糊理論,對 於處理下面的情形時會變得格外有用,例如當 行程太複雜了而無法使用傳統的量化機制分 析、或者當可得的資訊其性質是『不精確的』 或者是『不確定的』時。 本計畫研究出的模糊單類別支持向量機 是將訓練樣本的模糊性質納入考慮,越明確越 可靠的訓練樣本則越不允許訓練錯誤,反之較 模糊較不可靠的訓練樣本,則我們較允許他們 訓練錯誤。為了達到此一目的,我們為每一個 訓練樣本定義了一個可靠度(或模糊程度)數 值0
<
μ
i≤
1
,
i
=
1
,...,
N
,μ
i值越大表示此訓 練樣本越可靠,例如μ
i=
0
.
8
表示第i 個訓練 樣本有 80%的機率是正確的,而有 20%的機 率是無意義或是誤差(noise)的。假設給一組訓 練資料(
x
1,
μ
1),....,
(
x
N,
μ
N)
,則模糊單類別 支持向量機考慮下最佳化問題b
C
N i i i b i+
∑
+
=1 2 2 1 , ,min
μ
ξ
ξw
w subject to (17)N
i
b
w
i i i,...,
1
,
0
,
0
)
(
=
≥
−
≥
+
Φ
⋅
ξ
ξ
x
其中ξ
i表示訓練誤差的值,而參數 C 則 是對訓練誤差的逞罰,而μ
i值越大表示對此 樣本的訓練誤差逞罰越大,也就是越不允許訓 練錯誤,反之μ
i值越小,表示對此樣本的訓 練誤差逞罰越小,也就是可以允許訓練錯誤的 出現,避免雜訊點對訓練的效果的影響。使用 拉格郎舉(Lagrangian)理論,上面最佳化問題 的最佳解會落在下面函數的馬鞍點上(saddle point)(
) ∑
∑
∑
= = = − + + Φ ⋅ − + + = N i i i N i i i i N i i i b b C L 1 1 1 2 ) ( 2 1ξ
β
ξ
α
ξ
μ
x w w (18) 其 中 αi 與 βi 為 非 負 的 拉 格 郎 舉 乘 數 (Lagrangian multiplier). 對 L 以 w, b 與ξi微 分,並且設定結果為0,我們得到下面方程式∑
∑
= =Φ
=
⇒
=
Φ
−
=
∂
∂
N i i i N i i iL
1 1)
(
0
)
(
x
w
x
w
w
α
α
(19)
1
0
1
1 1=
⇒
=
−
=
∂
∂
∑
∑
= = N i i N i ib
L
α
α
(20)
i i i i i i i i i C C C L
μ
α
β
μ
α
β
α
μ
ξ
≤ − = ⇒ = − − = ∂ ∂ and 0.
(21) 將 上 面 式 子(19)-(21) 代 入 原 來 的 最 佳 化 問 題,我們得到下列的對偶問題(dual problem)∑∑
= = N i N j j i j i k x x i 1 1 ) , ( 2 1 minα
α
α subject to (22) . ,..., 1 , 0 1 N i C i i i i = ≤ ≤ =∑
μ
α
α
3.3 增加式模糊單類別支持向量機演算法
既然我們只使用正訓練樣本來訓練單類 別支持向量機,如何選出充足且有代表性的 PPI 訓練樣本也就變成一個很重要的問題,然 而一次就選出足夠的訓練樣本是不容易的。所 以一個增加式學習方法(incremental learning) 就變的很必要了,如何在系統發現辨識錯誤, 或著要增加新的訓練樣本時,可以只用少數的 幾個步驟就能修正錯誤與學習新增加的 樣 本,而不用重新訓練整個系統,將對此 PPI 預測系統的強健性與適應性有大大的幫助。 所以本計畫中,我們使用單類別支持向量 機的一個重要特性,來幫助我們解決這個問 題。由於單類別支持向量主要是解一個二次最 佳化函數,而且二次矩陣是半正定及限制條件 是線性的,所以他有唯一全域最佳解,而增加 一個新的訓練樣本點時,我們可以用二次函數 的最佳化條件(KKT Condition),使用數學最佳 化的技巧,當我們發現有一新的PPI 資料應該 增加到我們的訓練樣本時,我們便可不必要重 新再訓練整個系統。而單類別支持向量機的最 佳化條件(KKT Condition)可以簡化成下列式 子 ⎪ ⎩ ⎪ ⎨ ⎧ = ≤ < < = = ≥ = − + − = − =∑
∑
i i i i i j k kj j k j ji j ii i J J i C C K K K R D R g μ β μ β β β β β ; 0 0 ; 0 0 ; 0 2 ) ( , 2 2 2 x (23) 其中Kij =K(xi,xj)。由上式,我們可以將訓練 資料集 D 分割成三個不同的集合: 集合 S由邊界向量(border support vectors)所組成,這 些邊界向量皆座落在特徵空間超球的球面上
(
0
<
β
i<
C
μ
i, RJ2−DJ2(xi)=0,∀i∈S ),集合 E由出界向量(outside support vectors)所組成,這 些出界向量皆座落在特徵空間超球的球外 (
β
i=
C
μ
i, RJ2−D2J(xi)<0,∀i∈E ),而剩餘的 集合 R 中的向量則皆落在特徵空間超球的球 內(βi =0, RJ2−DJ2(xi)>0,∀i∈R)。 增加式單類別SVM 學習演算法的基本想 法就是保持所有之前已訓練過的樣本其最佳 化條件(KKT conditions)維持不變,同時『穩態 地』增加新的訓練過的樣本 c 進入系統。在集 合 D 中,在每一次 incremental step 中,所有 的邊界向量所對應的係數βi,會隨著新近樣本 c 所對應的係數βc改變而改變,以保持一個平 衡(equilibrium)的狀態,也就是說,D 中所有 的樣本都能滿足最佳化條件(KKT conditions)。 當新近樣本 c 所對應的係數βc改變時,我們可 得到gi的改變如下 } { , 2 2 2 c D i B K K g ic c S j j ij i ∪ ∈ ∀ Δ + Δ + Δ = Δ∑
∈ β β (24) 與∑
∈ Δ + Δ = Δ S j j c g β β (25) 其中 ⎟⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎝ ⎛ Δ − ⋅ Δ ⋅ Δ − ⋅ ⋅ Δ − ⋅ Δ ⋅ − ⋅ Δ ⋅ Δ − Δ = Δ∑
∑
∑
∑
∈ ∈ ∈ ∈ cc c D j cj j c D j cj j c D j k kj j k D j k kj j k J K K K K K R B 2 , , 2 ) ( 2 ) ( 2 1 β β β β β β β β β 所以,在“平衡狀態(equilibrium)”時表二、增加式學習演算法
1. Initialize
β
c to zero;2. If
g
c<
0
, terminate (c is not a border or outside vector)3. If
g
c≥
0
, apply the largest possible incrementβ
c so that (the first) one of the following conditions occurs:(a)
g
c=
0
: Add c to border set S, update P accordingly, and terminate;(b)
β
c=
C
: Add c to outside set E, and terminate; (c)Elements of Dl migrate across S, E, and R(“bookkeeping"): update membership of elements and, if S changes, update P accordingly. And repeat step 3 as necessary.
⎩ ⎨ ⎧ ∈ ∀ Δ ⋅ = Δ Δ ⋅ = Δ D j c j j c ,
β
α
β
β
α
β
, (26) 其中⎥
⎥
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎢
⎢
⎣
⎡
⋅
−
=
⎥
⎥
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎢
⎢
⎣
⎡
c s c s s s s sK
K
P
l lM
M
1 11
α
α
α
, (27) 而 且 = Q−1P , 而 Q 為 symmetric but not
positive-definite Jacobian :
⎥
⎥
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎢
⎢
⎣
⎡
=
s s s s s s s s s s s sK
K
K
K
Q
l l l lL
O
M
M
L
L
1 1 1 11
1
1
1
0
, (28) 簡而言之,在每一次incremented step,我們計 算⎩
⎨
⎧
∉
∀
∈
∀
Δ
=
Δ
S
i
S
i
c i i0
β
α
β
(29) 與⎩
⎨
⎧
∈
∀
∪
∪
∈
∀
Δ
=
Δ
S
i
c
R
E
i
r
g
i i c0
}
{
2
β
(30)( )
c D j cj j S j D k kj j k c cc S j cj j S j k kj j k JK
K
K
K
K
R
β
α
β
α
β
β
α
α
α
Δ
⋅
⎟⎟
⎟
⎟
⎠
⎞
⎜⎜
⎜
⎜
⎝
⎛
+
⋅
+
⋅
+
Δ
⋅
⎟⎟
⎟
⎟
⎠
⎞
⎜⎜
⎜
⎜
⎝
⎛
+
⋅
+
⋅
=
Δ
∑
∑
∑
∑
∈ ∈ ∈ ∈ ∈2
)
(
2
)
(
, 2 , 2 (31) 最後,我們將增加式單類別SVM 學習演算法 摘列在表二中四、使用參數化支持向量區間迴歸預測蛋
白質結構
近年來,有學者提出另一種從蛋白質的一 級結構預測其三級結構的方法。蛋白質的三級 結構可以藉由測量其中每一個殘基的接觸程 度(contact order),而知道它們在空間中是如何 排列的。所謂一個折疊後的蛋白質中其殘基接 觸程度(contact order)是根據該分子所暴露的 區域環境而量度,其定義為以該殘基分子中的 α C (或Cβ)原子為中心,在一特定的球形範圍 內 , 所 有 與 它 距 離 小 於 某 特 定 長 度( 例 如 10Ao (埃))的其它Cα(或Cβ)原子的數目,然後 再判斷這些接觸的數目(CN)占總殘基數目的比例為多少。residue-wise contact order (RWCO)
是一種新的一級蛋白質結構描述遠距殘基接 觸的程度,它是一個序列中的某一個殘基和其 它殘基正在接觸的殘基之間做加總[Hua, 2001; Kinjo, 2005; Kihara, 2005]。早期的相關概念是 Plaxco 等學者所提出的 contact order (CO),它 只描素蛋白質拓僕(Topology) [Jiangning, 2006; Plaxco, 1998]。以 CO 為基礎,之後 Kihara 等
學者進一步提出residue contact order(RCO),
它是將先前的 CO 值做一個平均[Jiangning,
2006; Kihara, 2005]。最近,Kihara 等學者又進
一 步 提 出 相 似 的 概 念 , 它 叫 residue-wise
RCO 值做一個加總,用來描素各殘基與其他 鄰 近 殘 基 之 間 的 接 觸 程 度[Jiangning, 2006; Kinjo, 2005]。在決定蛋白質三級結構時,殘基 的接觸程度提供了非常有用的資訊,例如我們 可以用接觸程度決定在動態模擬蛋白質結構 時的能量函數(energy function)。以前在預測氨 基 酸 的 接 觸 程 度 時 , 可 以 分 成 使 用 分 類 (classification)與使用迴歸(regression)的二種 方式來解決,在使用分類的方法中,例如可以 由遞迴類神經網路(recurrent neural networks) 來預測氨基酸的接觸程度[Pollastri, 2001],不 過使用迴歸的方式來預測更為直接,正確率也
更高。例如Kinjo 等學者[Kinjo, 2005a]首先使
用線性迴歸的方式來預測各殘基的 RWCO
值,而[Song, 2006; Yuan, 2005]則首先使用支 持向量非線性迴歸機來預測氨基酸的接觸程 度。
4.1 殘基接觸程度
殘基接觸程度(residue-wise contact order, RWCO)是由 Kinjo 和 Nishikawa 兩位學者首次 提出來的一種判斷蛋白質摺疊率的一種方法 [Kinjo, 2005, 2006; Yuan, 2005],有很多的觀念 都和RWCO 有關,譬如說是 CN、CO、RCO 與CM,都將在這個小章節做簡單的介紹。 4.1.1 接觸數(contact number; CN): 殘基接觸數(contact number)可以看成是一 種對蛋白質三級結構摺疊情況的描述,它的定 義是以一個蛋白質三級結構中,從目標殘基的 中心Cα原子和目標以外殘基的中心Cα原子接 觸的數量有多少,將這些有接觸的數量做加 總,就是所謂的接觸數(contact number, CN)。 何為接觸呢﹖研究者會先設定一個要研究的 球型半徑(例如:8Å、10Å)。如果目標殘基和 其它的殘基的距離小於研究者設定的球型半 徑,那就判斷該殘基與目標殘基有接觸, 圖九 殘基接觸數概念圖 透過點對點距離的計算公式來判斷目標殘基 和其它的殘基的距離[Yuan, 2005]。判斷是否 接觸的點對點計算公式:
( )
( )( )⎪⎩
⎪
⎨
⎧
=
= < ≥ = > −∑
ij ij d d j i j i r r if r r r if r M i j j j i i dr
N
, , , , 1 0 2 | :| , σ σσ
(32) i d
N
:所得到的接觸數。 dr
:研究者設定的球型半徑。例:8Å、10Å。 j ir
, :第i 殘基和第 j 殘基之間的距離。 M:該蛋白質序列總殘基。 如圖九所示,假設藍色的殘基為所要計算的殘 基,其殘基的Cα 原子為中心,其它蛋白質序 列的殘基 Cα原子若有在這個的半徑內就將它 視為接觸,藍色的殘基扣掉它前後兩個位置的 殘基,剩下在球型半徑範圍內殘基都視為接 觸,圖中的藍色殘基的接觸數為2,紅色殘基 的接觸數為3 公式(32)所得到的接觸數是整數 值,若要得到浮點數的接觸數,則還要配合公 式(33)才能得到浮點數值的接觸數。∑
Δ ⋅ = N Si j N L CO 1 , (33)圖十、接觸程度(Contact Order ;CO)概念圖 L:所有殘基之間接觸的數目。 N:蛋白質的序列長度。 j i
S
,Δ
:若第i 殘基和第 j 殘基之間在設定的 範圍內有接觸,則第i 殘基和第 j 殘基之間 的距離相減。 根據先前學者的研究,CO 值越高則摺疊率 (folding rate)越低,CO 值越低則摺疊率(folding rate)越高[Bonneau, 2002; Faisca, 2002; Plaxco, 1998; Zhou, 2002]。如圖十顯示,蛋白質 a 的 CO 值計算方式如下:(
) (
) (
)
(
) (
) (
)
(
) (
) (
)
(
) (
) (
)
(
) (
) (
)
(
)
36 . 0 18 21 17 22 16 23 15 24 14 25 13 26 12 27 11 28 8 11 7 12 6 13 5 14 4 15 3 16 2 17 1 18 28 16 1 = ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ − + − + − + − + − + − + − + − + − + − + − + − + − + − + − + − × = a CO 以此類推,蛋白質b 的 CO 值計算方式如下:(
) (
) (
)
(
) (
) (
)
(
) (
) (
)
(
) (
) (
)
(
) (
) (
)
(
)
39 . 0 23 31 22 32 21 33 20 34 19 35 18 36 17 37 16 38 8 16 7 17 6 18 5 19 4 20 3 21 2 22 1 23 38 16 1 = ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ − + − + − + − + − + − + − + − + − + − + − + − + − + − + − + − × = b CO 蛋白質c 的 CO 值計算方式如下:(
) (
) (
)
(
) (
) (
)
(
) (
) (
)
(
) (
) (
)
(
) (
) (
)
(
)
53 . 0 28 31 27 32 26 33 25 34 24 35 23 36 22 37 21 38 8 31 7 32 6 33 5 34 4 35 3 36 2 37 1 38 38 16 1 = ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ − + − + − + − + − + − + − + − + − + − + − + − + − + − + − + − × = c CO 4.1.2 殘基接觸程度(Residue-wise Contact Orders; RWCO): 在談 RWCO 時,先談談 RCO(ResidueContact Order),RCO 和 CO 不同,RCO 是只 考慮單一殘基在整個蛋白質裡和其它殘基之 間所接觸的程度,包括相鄰的前後兩個殘基 [Kihara, 2005],其計算 RCO 的公式為:
( )
( ) ( )⎪⎩
⎪
⎨
⎧
−
=
< = ≥ = ≠∑
d j i j i d j i j i r r if r r r if r j i L j i j ii
j
r
n
RCO
, , , , 1 0 , ,1
σ σσ
其中
(34) L:胺基酸序列的長度。 n:所有殘基之間接觸的數目。 i:要計算的目標殘基。 j:除了目標殘基以外的殘基。( )
r
i,jσ
:以第i
殘基中的C
β(或叫C
α)原子 為中心,將其中心為基準畫出設定的球型 半徑圓r
d(r
d= 6Å 或 8Å),若第j
殘基在 設定的球型半徑內,則為1。若在設定的 球型半徑外,則為0。而RWCO 是由 Kinjo 和 Nishikawa 兩位學者首
次提出來的判斷蛋白質摺疊率的另一種 方 法,它的特性就是可以透過公式的計算來判斷
殘基與殘基之間接觸的遠近程度,RWCO 與 RCO 的差異就在於 RWCO 它不考慮目標殘基 前後的兩個殘基,並且根據兩個殘基在胺基酸 序列位置的遠近,而計算出來的值也有所不 同,例如目標殘基為第 5 個殘基,它在與第 10 個殘基接觸所計算出來的 RWCO 值與和與 第20 個殘基接觸所計算出來的 RWCO 值是不
同 的[Kinjo, 2005-2006; Yuan, 2005; Song,
2006]。其計算 RWCO 的公式為:
( )
( ) ( ) ⎪⎩ ⎪ ⎨ ⎧ − = < = ≥ = > −∑
d j i j i d j i j i r r if r r r if r j i M i j j i i j r M RWCO , , , , 1 0 , 2 | :| | | 1 σ σ σ 其中(35) M:所有殘基的數目。 i:要計算的目標殘基。 j:除了目標殘基以外的殘基。
( )
r
i,jσ
:以第i
殘基中的C
β(或叫C
α)原子 為中心,將其中心為基準畫出設定的球型半 徑圓r
d(r
d= 6Å 或 8Å),若第j殘基在設定 的球型半徑內(r
i,j<
r
d),則σ
( )
ri,j 為1。若j 殘基在設定的球型半徑外(ri,j >rd),則σ( )
ri,j 為0。 為了讓蛋白質的RWCO值較平滑,Kinjo學者 提出了一個能夠讓計算出來的RWCO值變的 較平滑,其公式如下:( )
[
(
)
]
d j i j ir
r
w
r
−
+
=
, ,exp
1
1
σ
(36) w:為常數值,一般設為3。 d
r
:為研究者設定的球型半徑值,一般 設為12Å。 圖十一: 支持向量迴歸機的概念圖。4.2 支持向量迴歸機(
ε
-SVR)
首先我們簡介支持向量迴歸機的基本概 念 , 假 設 現 在 給 定 一 組 訓 練 資 料 集 合 R y y),...,( N, N)}⊂ℵ× , {(x1 1 x ,其中ℵ表示輸入 向 量(input vector) 的 空 間 , 例 如 n R 。 則 在 ε-SVM regression [Vapnik, 1995]中,其目標是 找到一條最佳的迴歸函數 f(x)使得對於所有的 訓練資料而言,它與y
i的差異最多只有ε的誤 差。換句話說,在訓練這條迴歸函數時,我們 並不關心這些小於ε的誤差,但是不允許大於ε
的誤差出現,若誤差大於ε
時,則我們必須 加以處罰。在ε-SVM regression 中我們使用下ε
不敏感懲罰函數(ε-insensitive loss function)⎪⎩ ⎪ ⎨ ⎧ − ≤ = otherwise if ε ξ ε ξ ξε: 0 (37) 來懲罰迴歸錯誤,只有當錯誤超過ε-不敏感 的管狀區域(
ε
-insensitive tube)時,我們才加 以懲罰(如圖十一)。ε-SVM regression 所找出 的是一條線性的迴歸函數 f(x)= w⋅x +b,要 延伸到非線性迴歸,其概念也是很簡單,我們 只需把所有的訓練資料經由一非線性轉換Φ 映射到一高維度的特徵空間(feature space),然 後在高維度特徵空間中找出一條最佳的線性 迴歸函數 f(x)= w⋅Φ(x) +b,而在高維度特徵 空間中的最佳線性迴歸函數,在原來空間中即 是一條最佳的非線性迴歸函數。我們可以用一 個最佳化的問題來描述它. 0 , ) ) ( ( ) ) ( ( to subject ) ( 2 1 minimize * * 1 * 2 , , , * i y b b y C i i i i i t i i t i N i i i b i i ∀ ≥ − ≤ − + Φ − ≤ + Φ − + +
∑
= ξ ξ ξ ε ξ ε ξ ξ ξ ξ x w x w w w (38) 其中 , * i i ξ ξ 為鬆弛變數(slack variable),表 示迴歸函數與訓練資料差異的程度,而 w2則 是在 SVM 理論中,用來表示模組的複雜性 (model complexity)。模組越複雜,學習的能力 越強,但是相對的過度學習(overfitting)的機會 也越大。使用 Lagrangian 理論,上面最佳化 問題的最佳解會落在下面函數的馬鞍點 上 (saddle point)(
)
(
)
∑
∑
∑
∑
∑
= = = = = − − + − − + Φ ⋅ + + − + Φ ⋅ − + + + = N i i i N i i i N i i i i i N i i i i i N i i i y b b y C L 1 * * 1 1 * * 1 1 * 2 ) ) ( ( ) ) ( ( ) ( 2 1 ξ β ξ β ξ ε α ξ ε α ξ ξ x w x w w (39) 其中α
i,α
i*與β
i,β
i*為非負的拉格郎舉乘 數(Lagrangian multiplier). 對 L 以 w, b, ξi 與ξ
i*微分,並且設定結果為0,我們得到下面 方程式∑
∑
∑
= = = Φ − = ⇒ = Φ + Φ − = ∂ ∂ N i i i i N i N i i i i i L 1 * 1 1 * ) ( ) ( 0 ) ( ) ( x w x x w w α α α α (40) 0 ) ( 0 1 * 1 * 1 = − ⇒ = − = ∂ ∂∑
∑
∑
= = = N i i i N i i N i i b Lα
α
α
α
(41) C C C L i i i i i i ≤ − = ⇒ = − − = ∂ ∂ α β α β α ξ and 0
.
(42) C C C L i i i i i i ≤ − = ⇒ = − − = ∂ ∂ * * * * * * and 0α
β
α
β
α
ξ
(43) 將上面式子(40)-(43)代入原來的最佳化問題 (38),我們可以轉化成下面的對偶問題(dual porblem): ⎪ ⎩ ⎪ ⎨ ⎧ ∈ = − ⎪ ⎪ ⎩ ⎪⎪ ⎨ ⎧ − + + − Φ ⋅ Φ − − −∑
∑
∑
∑
= = = = ] , 0 [ , 0 ) ( to subject ) ( ) ( ) ( ) ( ) )( ( 2 1 maximize * 1 * 1 * 1 * 1 , * * , 2 1 C y i i N i i i i i i i N i i i N j i j i j j i i i i α α α α α α α α ε α α α α α α l x x (44) 其中 , * i i α α 為Lagrange multipliers。在解出最 佳解後,那些對應 (*) >0 i α 的訓練樣本點稱為 支持向量(support vector),而迴歸函數 f(x)中的 權重 w 可以由支持向量的線性組合求得:∑
−
Φ
=
i i i i)
(
)
(
*x
w
α
α
(45) 最終我們找到的迴歸函數如下:(
)
(
)
(
,
)
.
1 *∑
=+
−
=
N i i i ik
b
f
x
α
α
x
x
(46) 在介紹完支持向量迴歸機的概念後,接下來我 們介紹傳統支持向量迴歸機的隱含缺陷以及 在本研究計畫中,我們所提出來的改善方法, 使它能在預測接觸數時,達到更好的正確率。 如圖十二所示,傳統支持向量迴歸機的隱含缺 陷包含: 1. 參數ε
是使用者給定的一個參數,參數ε
的數值對於最終迴歸的正確率有很大 的影響,然而如何決定最佳的ε
數值, 並不是一件很容易的工作,除非我們能 夠事先確定在多少誤差以內的錯誤我們 不去關心它。(a) (b) (c) 圖十二、(a)誤差的分佈與輸入向量 x 有關係的例子,(b)使用原 來SVM regression 的結果,(c)真正合理的迴歸結果。 2. 在 支 持 向 量 迴 歸 機 中 , 不 敏 感 區 域 (insensitive zone)被假定是一個管狀(tube) 的區域。也就是說,他假設誤差的分佈, 與輸入向量 x 無關,亦即每個輸入向量 都是一樣重要的。然而這與現實世界中 的狀況並不一樣,事實上誤差的分佈是 與輸入向量 x 有關係的,而且每個輸入 向量的重要性並不一樣,有的樣本較可 靠,可允許的迴歸誤差較少,有的樣本 較不可靠,則可允許的迴歸誤差較多。