• 沒有找到結果。

蛋白質亞細胞定位預測---使用新的參數化邊界與球狀支持向量機

N/A
N/A
Protected

Academic year: 2021

Share "蛋白質亞細胞定位預測---使用新的參數化邊界與球狀支持向量機"

Copied!
27
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會專題研究計畫 成果報告

蛋白質亞細胞定位預測-使用新的參數化邊界與球狀支持向

量機

研究成果報告(精簡版)

計 畫 類 別 : 個別型

計 畫 編 號 : NSC 98-2221-E-151-047-

執 行 期 間 : 98 年 08 月 01 日至 99 年 07 月 31 日

執 行 單 位 : 國立高雄應用科技大學資訊管理系

計 畫 主 持 人 : 郝沛毅

計畫參與人員: 碩士班研究生-兼任助理人員:陳育德

博士班研究生-兼任助理人員:陳偉銘

報 告 附 件 : 出席國際會議研究心得報告及發表論文

處 理 方 式 : 本計畫可公開查詢

中 華 民 國 99 年 10 月 30 日

(2)

行政院國家科學委員會專題研究計畫成果精簡報告

蛋白質亞細胞定位預測-使用新的參數化邊界與球狀支持向量機

計畫編號:

NSC 98-2221-E-151-047-

執行期限:98 年 8 月 1 日至 99 年 7 月 31 日

主持人:郝沛毅 國立高雄應用科技大學資訊管理學系

電子信箱(Email): haupy@cc.kuas.edu.tw

一、摘要

隨著人類基因組計畫的實施與推展,生命科

學領域已進入後基因體時代,後基因體時代的研

究重點集中到功能基因組學上,而一個迫切且更

有挑戰性的問題是如何從序列數據訊息中分析蛋

白質的生物功能。研究表明,蛋白質的功能與其

亞細胞位址息息相關,蛋白質合成後,必須被轉

送到特定的細胞部位才能發揮其功能,因此了解

蛋白質的亞細胞定位訊息,可以為推斷蛋白質的

生物功能提供必要的幫助,因此,發展電腦計算

方法從蛋白質的一級序列出發預測亞細胞定位變

成日益重要的問題。

支持向量機(Support Vector Machine,SVM)

是 近 來 非 常 熱 門 的 一 種 機 器 學 習 技 術 , 它 以

Vapnik 的統計學習理論為基礎,具有極優良的推

理能力,支持向量機已經成功地應用在生物資訊

各類問題中。在本計畫中,我們提出一個新的『使

用最大邊界的球狀多類別支持向量機』來預測蛋

白質亞細胞定位,球狀支持向量機中的球心與球

半徑可以用來描述樣本分佈的平均值與變異量之

特性,所以在處理樣本分佈不平均的資料集能獲

得優秀的表現。本計劃結合最大化化邊界與球狀

支持向量機的優點,並且應用在蛋白質亞細胞定

位預測的問題上。

關鍵字:生物資訊、蛋白質功能分析、蛋白質亞

細胞定位、支持向量機、球狀支持向量機。

二、前言

隨著人類基因組計畫的實施與推展,生命科

學領域已進入後基因體時代,後基因組時代的研

究重點已經集中到功能基因組學上,而一個迫切

且更有挑戰性的問題是如何從序列數據訊息中分

析蛋白質的生物功能,研究表明,蛋白質的功能

與其亞細胞位址息息相關,了解蛋白質的亞細胞

定位是研究蛋白質功能的基礎,也是解釋蛋白質

功能的重要訊息來源。

生物體細胞是一個高度有序的結構,胞內根

據空間分佈與功能不同,可以分成不同的細胞器

或細胞區域,如細胞核、內質網、線粒體、胞漿

和細胞模等,如圖一所示。蛋白質在核糖體中合

成後,經過蛋白質分選訊號被轉送到特定的細胞

器中,部分蛋白質則被分泌到細胞外或留在細胞

質中,蛋白質必須轉送到正確的細胞部位(location)

才能發揮其功能,如果蛋白質定位發生偏差,將

會對細胞功能甚至生命體產生重大的影響。因此

蛋白質序列在亞細胞的位置與其在細胞內所扮演

的角色息息相關,而了解蛋白質的亞細胞定位訊

息,可以為推斷蛋白質的生物功能提供必要的幫

助,同時對蛋白質的其他研究如藥物研發、交互

作用、可能參與的生物途徑等,也能提供重要的

訊息。

圖一、蛋白質在生命體細胞中的位置分佈。

(3)

二、研究目的

蛋白質的生物學功能訊息與其亞細胞的定位

有著非常緊密的聯繫,例如,如果知道某新蛋白

的功能與氧化磷酸化有關,那麼在細胞中它就很

可能是位於線粒體之內。目前確定蛋白質亞細胞

定位的實驗技術[Murphy, 2000],除了傳統的亞細

胞分離技術外、融合綠色螢光蛋白、質譜和同位

素親和標籤、電子顯微鏡與螢光顯微鏡等實驗技

術提供了一些比較精確的亞細胞定位數據。但

是,基於實驗方法所獲得的定位結果具有較強的

主觀性與多變性,並且重複性也比較差,而且這

些技術多是昂貴且耗時的。相對於生物數據集中

蛋白質序列數據訊息的急遽膨脹,單純依靠這些

實驗技術來註釋蛋白質的亞細胞定位遠不能滿足

蛋白質體學研究的需要。鑒於研究需求與實驗所

得到的定位註釋之間巨大的空白,發展電腦計算

方法從蛋白質的一級序列出發,預測蛋白質亞細

胞定位變成日益重要的問題。一些電腦計算的方

法取得了不錯的預測結果[Donnes; 2004],為功能

基因組註釋工作提供了一個重要的、可信賴的工

具。實際上,近年來一些新建立的功能資料庫都

已開始正式地收錄由電腦計算預測得到的亞細胞

定位訊息[Rey, 2005; Heazlewood, 2007]。而且隨

著某些特定領域的蛋白質功能研究的不斷深入,

出現了很多特定問題,如凋亡蛋白[Zhou, 2003]、

核蛋白亞定位[Lei, 2005]、線粒體亞定位[Du, 2006]

等的亞細胞分類預測,使亞細胞定位預測成為了

生物資訊學與實驗生物學結合的最為緊密的領域

之一。

三、文獻探討

3.1 蛋白質亞細胞定位預測

 以實驗方法來注釋蛋白質亞細胞定位的方式,

其共同的缺點便是太過耗時,且常受限於蛋白質

的純化及分離技術的瓶頸,而且進行實驗所必須

花費的成本也是非常的大,因此在很多情況,必

須藉助生物資訊的方法來進行預測的工作。透過

電腦計算從蛋白質序列來進行亞細胞定位預測是

可 經 濟 地 確 認 某 未 知 蛋 白 質 的 功 能 ( 如圖二所

示),也是生物訊息學研究的有力工具。Nakai等學

者最先使用“if-then”規則構建了一個專家系統來

進行亞細胞定位預測 [Nakai,1991];Cedano等學

者則是對蛋白質的細胞定位和胺基酸組成做了相

關性分析[Cedano, 1997]。近年來,統計學和機器

學習方法廣泛地應用在蛋白質亞細胞定位的預測

問題中,機器學習方法的基本思想是根據已有生

物數據中發現有意義的生物學知識或者規律,通

過推理、模型匹配或樣本學習從中自動學習知識

和規則,然後利用這些規則去對未知數據庫進行

預測。最近鄰法(Nearest neighbor algorithm)、類神

經網路(neural networks)、隱藏馬可夫模型(hidden

Markov model) 、 支 持 向 量 機 (support vector

machine)和貝式網路(Bayesian network)等都是亞

細胞定位預測中常用的機器學習演算法。

圖二、由蛋白質序列預測蛋白質亞細胞定位

3.2 支持向量機

支持向量機(Support Vector Machine, SVM)

是最近被提出來的一種類神經網路架構[Cortes,

1995; Vapnik, 1995],它以 Vapnik 的統計學習理論

為基礎,而具有極優良的推理能力(Generalization

ability),SVM 不像傳統的圖訊識別技術以最小化

經驗風險(Empirical Risk)為目標 — 即使得訓練

資料的分類誤差最小,SVM 以最小化結構風險

(Structural Risk)為目標 — 即使得未知的資料(即

測試資料)的分類誤差在一個機率上界以下。這種

新的分類技術等同於最小化推理誤差的上界,雖

然支持向量機一開始是提出來解決二元分類問

題 , 但 是 也 有 學 者 提 出 單 類 別 支 持 向 量 機

(one-class SVM)來解決單類別分類的問題[Tax,

1999],並且也有學者提出支持向量迴歸機來解決

迴歸的問題[Vapnik, 1995]。

有越來越多的學者因為支持向量機具有優秀

(4)

的推理能力,而將支持向量機應用在生物資訊的

問題上,例如[Brown, 2000; Mukherjee, 1998]首先

應 用 支 持 向 量 機 於 分 析 微 陣 列 資 料 (microarray

data)中預測基因的功能、而[Furey, 2000; Guyon,

2002]則使用支持向量機於微陣列資料中作疾病

的分類(例如 cancer tissue),也有研究學者應用

支 持 向 量 機 於 蛋 白 質 亞 細 胞 定 位 的 預 測 [Hua,

2001a]。此外,蛋白質間交互作用與蛋白質本身

的結構,對於分析蛋白質的功能提供了很重要的

資訊,因此[Dohkan, 2003, Koike, 2003]首先使用

了支持向量機來預測蛋白質間交互作用;而在蛋

白質本身的結構預測方面,[Hua, 2001b]首先使用

了 支 持 向 量 機 來 預 測 蛋 白 質 的 二 級 結 構

(secondary structure);而[Ding, 2001]則使用支持向

量 機 來 預 測 蛋 白 質 的 折 疊 結 果 (protein fold

recognition);另外近年來也有學者使用支持向量

機來預測殘基(residue)間的接觸數(contact number,

CN),並且由殘基間的接觸數來預測蛋白質的結構

[Song, 2006; Yuan, 2005]。除此之外,也有一些學

者則是提出一些新的且適合於基因序列與蛋白質

序列的核心函數(kernel function),例如[Ben-Hur,

2005; Jaakkola, 2000; Leslie, 2002]。

四、研究方法

在本計畫中,我們提出一個新穎的最大邊界

多 類 別 球 狀 支 持 向 量 機 (maximal-margin

spherical-structured multi-class SVM),並且把他應

用到蛋白質亞細胞定位預測的問題,並使用一個

模糊歸屬函數計算一個樣本點屬於每一個類別的

程度,讓他能更貼切生物資訊的應用以及達到更

正確的結果。

4.1 使用最大邊界的球狀支持向量機預測蛋白質

亞細胞定位

球狀支持向量機[Schölkopf, 2001; Tax, 2004]

最 早 的 功 能 在 於 資 料 範 圍 的 描 述 (domain

description)、奇異資料的偵測(novel detection)與單

類別分問題(one-class classification),而[Manevitz,

2001; Wang, 2005; Wu, 2005; Zhu, 2003]等學者最

早將球狀支持向量機應用到多類別分類的問題,

假設給定一組訓練資料

(

x

,

y

),...,

(

x

,

y

)

,其中

n i

R

x

y

i

{

1

,...,

K

}

是樣本點

x 的類別標

i

籤, 對每一個類別 k,我們在特徵空間中建立一

個對應的超球

S ,超球

k

S 只包含類別 k 的樣本

k

點,並且將其他類別的樣本點剔除在超球外,超

S 的球心

k

a 與球半徑

k

R 可經由下面的最佳

k

化問題求出:

≠ =

+

+

k y l l k k y i i k k R l i l i k k

N

C

N

C

R

: : 2 , , ,

minimize

ξ

ξ

ξ ξ a

subject to

k

y

i

R

k i i k i

+

=

Φ

(

x

)

a

2 2

ξ

such that

,

k

y

l

R

k l l k l

Φ

(

)

2 2

ξ

such that

a

x

,

l

i

l i

0

,

ξ

0

,

ξ

其 中

ξ ,

i

ξ 是 限 制 條 件 的 差 額 變 數 (slack

l

variables),

N 是屬於第k個類別的樣本點數目,

k

N 是不屬於第k個類別的樣本點數目,i與l分

k

別是屬於與不屬於第k個類別的樣本點的索引

值。根據拉格朗日(Lagrangian)理論,我們得到下

面的對偶問題:

+

≠ ≠ = = ≠ = k y y m l m l m l k y l k y i l i l i k y y j i j i j i k y l l l l k y i i i i m l l i j i l i

K

K

K

K

K

, : , : , : , : , : :

)

,

(

)

,

(

2

)

,

(

)

,

(

)

,

(

maximize

x

x

x

x

x

x

x

x

x

x

α

α

α

α

α

α

α

α

subject to

1

: :

=

≠ = ly k l k y i i l i

α

α

,

k

y

i

N

C

i k i

=

such that

0

α

,

k

y

l

N

C

l k l

such that

0

α

.

(5)

當所有 K 個超球都建立好後,我們可以由他們的

球心

a 與球半徑

k

R 來決定新進樣本點是屬於哪

k

一個類別,使用

sim

(

x

,

S

k

)

函數計算樣本點 x 屬於

第 k 個類別的程度(樣本點 x 與超球

S 的相近程

k

度),則我們可以由下方式決定新進樣本點 x 的類

別:

class of

arg

max

(

,

)

1 K k k

S

sim x

x

Κ =

.

)

,

(

S

k

sim x

函數將樣本點到第 k 類球心

a 的距離

k

與第 k 類球半徑

R 都納入計算,下一節我們將會

k

介紹不同的

sim x

(

,

S

k

)

函數選擇。球狀支持向量機

的優點在於球心

a 與球半徑

k

R ,可以表示出該類

k

別 k 的平均值(mean)與變異量(variance)的資訊,

而這些資訊對於樣本分布不均勻(Imbalanced)的

情形特別重要,以圖三為例,SVM 的分類線是在

邊界(margin)的正中間,不過以貝式分類器的角

度,如果某一個類別分佈的變異量比較大,則樣

本屬於該類別的可能性越高,所以最佳決策線也

距離該類別比較遠,而使用球狀支持向量機所得

到的決策線會更接近最佳的貝式分類線。

圖三、球狀支持向量機的球心

a

k與球半徑

R

k可以表示出 該類別的平均值(mean)與變異量(variance)的資訊,所以球狀 支持向量機得到的決策邊界會更接近最佳的貝式分類線。

傳統的球狀支持向量機,並沒有把邊界(margin)

的觀念納入考慮,根據 Vapnik 的統計學習理論,

最 大 化 邊 界 距 離 等 同 於 最 小 化 推 理 誤 差

(generalization error)的上界,所以在本計畫中,我

們將提出一個使用最大邊界的球狀多類別支持向

量機,並且把它應用在蛋白質亞細胞定位問題中,

圖四、最大邊界的球狀多類別支持向量機。

假設給定一組訓練資料

(

x

1

,

y

1

),...,

(

x

N

,

y

N

)

其中

n i

R

x

y

i

{

1

,...,

K

}

是樣本點

x 的

i

類別標籤,對每一個類別 k,我們在特徵空間中建

立一個對應的超球

S ,超球

k

S 只包含類別 k 的樣

k

本點,並且將其他類別的樣本點剔除在超球外,

並且此超球使用最大的邊界(margin)來切割第 k 類

與其他類別的樣本點,球狀支持向量機的邊界

(margin)定義為球殼與最靠近它的負樣本之間的

距離(如圖四所示),為了最大化球狀支持向量機的

邊界,我們將使用一個邊界因子

d 。超球

k

S 的球

k

a 與球半徑

k

R 可經由下面的最佳化問題求

k

出:

≠ =

+

+

k y l l k k y i i k k k d R l i l i k k k

N

C

N

C

Md

R

: : 2 2 , , , ,

minimize

ξ

ξ

ξ ξ a

subject to

k

y

i

R

k i i k i

+

=

Φ

(

x

)

a

2 2

ξ

such that

,

k

y

l

d

R

k k l l k l

+

Φ

(

x

)

a

2 2 2

ξ

such that

,

0

,

0

l i

ξ

ξ

i,

l

其 中

ξ ,

i

ξ 是 限 制 條 件 的 差 額 變 數 (slack

l

variables),

N 是屬於第k個類別的樣本點數目,

k

N 是不屬於第k個類別的樣本點數目,i與l分

k

別是屬於與不屬於第k個類別的樣本點的索引

(6)

值 。 如 圖 四 所 示 , 邊 界 (margin) 的 距 離 是

k k k

d

R

R

2

+

2

,為了最大化標界,我們在目標函

數中同時最大化

2 k

d 與最小化

R ,而參數M是他們

k2

二者之間的調控(trade-off)參數,根據拉格朗日

(Lagrangian)理論,我們得到下面的對偶問題:

+

m l m l m l l i l i l i j i j i j i l l l l i i i i

K

K

K

K

K

, , ,

)

,

(

)

,

(

2

)

,

(

)

,

(

)

,

(

maximize

x

x

x

x

x

x

x

x

x

x

α

α

α

α

α

α

α

α

subject to

M

i i

=

+

α

1

,

M

l l

=

α

,

k i

N

C

α

0

∀ such that

i

y

i

=

k

,

k l

N

C

α

0

∀ such that

l

y

l

k

,

求解出上最佳化問題後,我們得到拉格朗日乘數

(Lagrange multipliers)

α

i

α

l

,而超球的球心

a

k

Φ

(

x

i

)

Φ

(

x

l

)

的線性組合:

Φ

Φ

=

l l l i i i k

(

x

)

(

x

)

a

α

α

.

找出第 k 類的超球

S 後,我們可以使用下面的公

k

式計算在特徵空間中某一個樣本點

Φ

(x

)

到球心

k

a 的距離

.

)

,

(

)

,

(

2

)

,

(

)

,

(

2

)

,

(

2

)

,

(

)

(

, , , 2

+

+

+

=

Φ

m l m l m l l i l i l i j i j i j i l l l i i i k

K

K

K

K

K

K

x

x

x

x

x

x

x

x

x

x

x

x

a

x

α

α

α

α

α

α

α

α

第 k 類 的 超 球

S 的 球 半 徑 可 以 使 用 下 面 的

k

Karush-Kuhn-Tucker (KKT)條件得到::

(

k2

+

i

Φ

(

i

)

k 2

)

=

0

i

R

ξ

x

a

α

,

(

Φ

(

l

)

k 2

k2

k2

+

l

)

=

0

l

R

d

ξ

α

x

a

,

0

=

⎟⎟

⎜⎜

i i k

N

C

α

ξ

,

0

=

l l k

N

C

α

ξ

.

計算出拉格朗日乘數(Lagrange multipliers)

α

i

α

l

與球心

a 後,代入

k

KKT 條件,我們可以使用下面

的公式計算出超球的半徑:

2 2

)

(

i k k

a

R

=

Φ

x

i

such that

k i

N

C

<

<

α

0

,

2 2 2

)

(

l k k k

a

R

d

=

Φ

x

l

such that

k l

N

C

<

<

α

0

.

當 所 有 K 個 超 球 都 建 立 好 後 , 我 們 可 以 由

)

,

(

S

k

sim x

函數計算樣本點 x 屬於第 k 個類別的程

度(樣本點 x 與超球

S 的相近程度),則新進樣本

k

點 x 的類別可以由下列方式決定:

class of

arg

max

(

,

)

1 K k k

S

sim x

x

Κ =

.

)

,

(

S

k

sim x

函數將第 k 類球心

a 與球半徑

k

R 都納

k

入計算,在本計畫中,我們使用一個可調式模糊

歸屬函數來決定測試樣本點 x 是屬於哪一個類別:

(

)

⎪ ⎪ ⎪ ⎪ ⎩ ⎪ ⎪ ⎪ ⎪ ⎨ ⎧ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − − + × ≤ − + ⎟⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ⎛ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − + ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − − × = otherwise , ) ( 1 1 5 . 0 ) ( if , 5 . 0 ) ( 1 ) ( 1 5 . 0 ) , ( 2 1 k k k k k k k k k R R R R S sim a x a x a x a x x φ λ φ φ λ φ

其中

λ

1

λ

2

是使用者自行決定的參數,我們可以

由 參 數

λ

1

λ

2

決 定 歸 屬 函 數 的 形 狀 是 S 型

(S –type)還是上凹型(upper-concave)的。如果樣本

點在超球內,則他的歸屬函數值會大於 0.5,否則

他的歸屬函數值會小於 0.5,根據這些優異性質,

本計畫也將應用他到亞細胞定位預測問題中。

(7)

4.2 蛋白質序列資料集

本 計 畫 採 用 的 蛋 白 質 序 列 是 以

UniProtKB/Swiss-Prot database release 57.12 數據

庫為基礎,篩選出其中有明確的亞細胞定位註釋

的蛋白質條目,並且刪除有多個亞細胞位址的蛋

白質序列,最終的資料集包含人類、大鼠與小鼠

三個已經被研究者廣泛探討的物種,共計有 4738

個蛋白質序列,8 個不同的亞細胞位址,詳細資

料見表一。

表一、蛋白質序列資料庫

Subcellular localization No. of entries Cytoplasm 1046 Endoplasmic reticulum 18 Golgi apparatus 22 Lysosome 86 Mitochondrion 293 Nucleus 1902 Peroxisome 62 Secreted 1309 Total 4738

4.3 蛋白質序列編碼方式

胺基酸組成(amino acid composition, AAC)

Nakashima 與 Nishikawa 在研究中最早發現

蛋 白 質 的 亞 細 胞 定 位 與 胺 基 酸 組 成 有 關

[Nakashima, 1994],並最早提出了基於胺基酸組成

(amino acid composition, AAC)的編碼方法,AAC

簡單地表示 20 種胺基酸在蛋白質序列中出現的

機率,是一種基本的蛋白質序列編碼方法。AAC

將蛋白質序列映射成 20 維的向量:

T AAC

S

v

v

v

v

V

(

)

=

(

1

,

2

,

3

...,

20

)

其中

=

=

20 1 k k i i

f

f

v

f 為第 i 種胺基酸在蛋白質序列中出現的次數

i

(i=1,…,20),顯然

1

20 1

=

= k k

v

使用胺基酸組成編碼(amino acid composition,

ACC)的優點是計算方便,因此在蛋白質亞細胞預

測定位中,胺基酸組成是應用最普遍的一種編碼

方式。然而 ACC 編碼僅僅用蛋白質序列中 20 種

胺基酸出現的百分比組成來表示一條蛋白質,不

可避免的會遺失一些重要的訊息,例如胺基酸出

現的順序等。因此,學者們提出下列不同的編碼

方式來提高預測能力。

n 階耦聯組成(n-OCC)

n 階耦聯組成(n-order coupling composition,

n-OCC)編碼方式考慮鄰近的 n 個殘基對某個殘基

的耦聯作用[Feng, 2002]。當 n=0 時,n-OCC 編碼

方式退化為胺基酸組成(ACC) 編碼方式,可用一

個 20 維的向量表示;而當 n=1 時,耦聯組成表示

為一個 20×20 的條件機率矩陣

=

)

|

(

)

|

(

)

|

(

)

|

(

)

|

(

)

|

(

)

|

(

)

|

(

)

|

(

)

(

Y

Y

P

Y

C

P

Y

A

P

C

Y

P

C

C

P

C

A

P

A

Y

P

A

C

P

A

A

P

S

Λ

Μ

Ο

Μ

Μ

Λ

Λ

φ

其中

P

(

a

1

| a

2

)

表示蛋白質序列中胺基酸

a

1

出現並

且 胺 基 酸

a

2

緊 接 其 後 的 機 率 , 所 以 我 們 知 道

(

|

)

1

20 1 20 1

=

∑∑

= = i j j i

a

a

P

;當 n>2 時,n-OCC 用多維的條

件機率矩陣表示,n-OCC 在很多文獻中也稱為多

肽鍵組成(polypeptide composition) [Luo, 2002]。在

本 計 劃 中 , 我 們 使 用 零 階 耦 聯 組 成 (zero

intervening resides),其編碼方式稱為 KGCC400,

共有 400 維的蛋白質向量;另外,我們也使用結

合 0, 1, 2, 與 3 階的耦聯組成,其編碼方式稱為

KGCC1600,共有 1600 維的蛋白質向量。

4.3 蛋白質序列編碼的合成與特徵選取

根據以往的研究文獻顯示,混合不同的編碼

方式能夠有效的提高預測準確度,但是對哪些編

碼方法進行混合,採用鬆散型還是緊密型的結

合,這些都是本計畫中要考慮的問題。目前應用

最為廣泛的還是 ACC(amino acid composition),主

要原因是 ACC 編碼雖然沒有考慮序列的順序與

殘基之間的相互作用,但是 ACC 的計算簡單,而

且對所有的胺基酸序列都能適用。而 n-OCC 編碼

中,向量的維數隨著 n 的增加呈現指數增加

(20

n

),在現實應用中僅侷限於考慮 n<4 的情形;

所以針對 KGCC1600 共 1600 維的蛋白質向量,

(8)

我們必須使用特徵選取(feature selection)的方式

來 降 低 資 料 的 維 度 , 在 本 研 究 中 , 我 們 使 用

information gain 與 gain ratio 兩種特徵選取的方

式,從 1600 維資料中選出對亞細胞定位預測有幫

助的特徵,並且也在實驗中比較這兩種特徵選取

方式的優劣。表二整理了實驗中所使用的蛋白質

編碼方式及其描述。

表二、蛋白質序列編碼組合與描述

Data name Description of dataset

AAC

Calculated frequency of each amino acid in a protein sequence. The 20-dimensional matrix was taken.

NOCC400 Defined k is 0, and then the 20 x 20 conditional probability matrix was taken. NOCC400_ACC Combined AAC with KGCC400 and the

420-dimensinal matrix was taken. info200_NOCC16

00

A 200-dimensinal matrix was selected by the information gain from 1600-dimensinal matrix (combined with 0, 1, 2 and 3-GCC). info400_NOCC16

00

A 400-dimensinal matrix was selected by the information gain from 1600-dimensinal matrix (combined with 0, 1, 2 and 3-GCC). info200_AAC_N

OCC1600

A 200-dimensinal matrix was selected by the information gain from 1620-dimensinal matrix (combined AAC with KGCC1600). info400_AAC_N

OCC1600

A 400-dimensinal matrix was selected by the information gain from 1620-dimensinal matrix (combined AAC with KGCC1600). gainRatio200_NO

CC1600

A 200-dimensinal matrix was selected by the gain ratio from 1600-dimensinal matrix (combined with 0, 1, 2 and 3-GCC). gainRatio400_NO

CC1600

A 400-dimensinal matrix was selected by the gain ratio from 1600-dimensinal matrix (combined with 0, 1, 2 and 3-GCC). gainRatio200_AA

C_NOCC1600

A 200-dimensinal matrix was selected by the gain ratio from 1620-dimensinal matrix (combined AAC with KGCC1600). gainRatio400_AA

C_NOCC1600

A 400-dimensinal matrix was selected by the gain ratio from 1620-dimensinal matrix (combined AAC with KGCC1600). AAC_info200_N

OCC1600

Combined AAC with info200_NOCC1600 and the 220-dimensinal matrix was taken. AAC_info400_N

OCC1600

Combined AAC with info400_NOCC1600 and the 420-dimensinal matrix was taken. AAC_

gainRatio200_NO CC1600

Combined AAC with gainRatio

200_NOCC1600 and the 220-dimensinal matrix was taken.

AAC_

gainRatio400_NO CC1600

Combined AAC with gainRatio

400_NOCC1600 and the 420-dimensinal matrix was taken.

五、結果與討論

在實驗部分,我們比較本計劃所研究提出的

最大化邊界球狀支持向量機與傳統的支持向量機

在蛋白質亞細胞定位預測的效能,傳統的支持向

量機我們使用 LibSVM 這套程式來做實驗,核心

函數則是選擇 RBF kernel function,正確率使用 5

次交叉驗證(five-fold cross validation)來評估,我們

將資料集切成 5 等分,每次用其中 4 份做訓練資

料集,剩下的 1 份做測試資料集,如此重復 5 次,

再將測試資料集的正確率做平均,在支持向量機

預測學習過程當中,模型參數(model parameters)

對於預測正確率有很大的影響,在本實驗中,我

們使用格狀蒐尋的方式來尋找最佳的模型參數。

表三顯示了本實驗蛋白質亞細胞定位預測的

正確率,單純使用 AAC 的編碼方式,傳統的

LibSVM 可以到達 78.76%的正確率(模型參數 C=9

與 RBF kernel 參數 g=6.7),而本計劃所提出的

最大化邊界球狀支持向量機(MSM-SVM)的預測

正確率可以提高到 80.86% (模型參數 C=9.2, RBF

kernel 參數 g=2.84 與邊界參數 M=40)。

如果是使用 KGCC400 的編碼方式,LibSVM

預測正確率可以提高為 79.35% (模型參數 C=8.5

與 RBF kernel 參 數 g=0.55) , 而 本 計 劃 的

MSM-SVM 預測正確則提高為 82.42% (模型參數

C=9.66, RBF kernel 參數 g=-3.59 與邊界參數

M=95)。

對 於 KGCC1600 的 編 碼 方 式 , 我 們 使 用

information gain 與 gain ratio 二種不同的方式分別

選取出 200 維與 400 維的蛋白質特徵向量,對於

LibSVM

而 言 , 在 info200_NOCC1600 與

info400_NOCC1600 的預測正確率分別為 82.1%與

83.24% , 而 對 於

MSM-SVM

而 言 , 在

info200_NOCC1600 與 info400_NOCC1600 的預測

正確率分別為 82.27%與 83.93%,選取的特徵數量

越 多 , 預 測 正 確 率 越 高 , 而 且 本 計 劃 提 出 的

MSM-SVM 預測正確率均比傳統的 LibSVM 來的

優異。

根據以往的研究文獻顯示,混合不同的編碼方

式能夠有效的提高預測準確度,在實驗中,我們

也比較了混合 ACC、KGCC400 與 KGCC1600 的

(9)

編碼方式,不同混合編碼方式的正確率顯示在表

三 中 , 而 最 佳 的 正 確 率 出 現 在 使 用 混 合 編 碼

AAC_info400_NOCC1600 時,我們將 NOCC1600

用 information gain 選取出 400 維的特徵,再加上

ACC 中 20 維的特徵,共有 420 維的特徵向量。

在此時,MSM-SVM 的預測正確率有 85.27%。

表三、蛋白質序列編碼的預測正確率一覽表 LibSVM MSM-SVM SVM Data name C g Acc. Acc. C g M AAC 9 6.7 78.76 80.86 9 2.8 40 NOCC400 8 0.5 79.35 82.41 9 -3.5 95 NOCC400_ACC 8 0.3 82.01 83.23 9 -4 82 info200_NOCC1600 8 0.6 82.11 82.27 10 -2.0 131 info400_NOCC1600 7 0.3 83.24 83.93 8 -3.7 80 info200_AAC_NOCC 1600 9 0.6 83.24 84.28 9 -2.3 79 info400_AAC_NOCC 1600 0.7 0.2 83.77 85.08 10 -3.6 80 gainRatio200_NOCC1 600 6 0.7 82.51 83.87 10 -1.6 90 gainRatio400_NOCC1 600 8 3.2 83.84 84.75 13 -3.4 82 gainRatio200_AAC_N OCC1600 8 0.8 81.81 82.38 9 -1.7 81 gainRatio400_AAC_N OCC1600 8 0.3 83.37 84.08 10 -3.1 100 AAC_info200_NOCC 1600 8 0.7 83.22 84.71 11 -2.8 109 AAC_info400_NOCC 1600 7 0.5 81.67 85.27 10 -3.6 110 AAC_gainRatio200_N OCC1600 8 0.6 82.99 84.37 10 -2.5 110 AAC_ gainRatio400_NOCC1 600 7 0.3 84.11 85.04 10 -3.4 93

在本計畫中,我們開發了一套蛋白質亞細胞

定位預測系統,自動由大量的蛋白質中預測其亞

細胞定位。球狀支持向量機的優點在於球心

a 與

k

球半徑

R ,可以表示出該類別 k 的平均值(mean)

k

與變異量(variance)的資訊,而這些資訊對於樣本

分布不均勻(Imbalanced)的情形特別重要,SVM 的

分類線是在邊界(margin)的正中間,不過以貝式分

類器的角度,如果某一個類別分佈的變異量比較

大,則樣本屬於該類別的可能性越高,所以最佳

決策線也距離該類別比較遠,而使用球狀支持向

量機所得到的決策線會更接近最佳的貝式分類

線。以表一為例,類別 Secreted 為分布最廣大的

類 別 , 當 中 共 有 1309 條 蛋 白 質 序 列 , 類 別

Endoplasmic reticulum 為分布最小的類別,當中共

有 18 條蛋白質序列,蛋白質序列的數目比約為 1

比 72,在如此分布不平均的情況下,傳統 SVM

無法達到好的預測正確率,而球狀 SVM 可以達到

更佳的預測正確率,在實驗當中,不論使用何種

蛋白質序列的編碼方式,球狀 SVM 的預測正確率

都比傳統 SVM 來的優異。

由本計畫贊助所發表文章有:

1. Pei-Yi Hao*, “New Support Vector Algorithms with Parametric Insensitive/Margin Model,” Neural Networks, vol. 23, no. 1, pp. 60-73, January 2010. (SCI/EI, Impact Factor: 2.656.

2. Wei-Ming Chen, I-Lin Wu, Jung-Hsien Chiang, and Pei-Yi Hao, “Prediction of Subcelluar Localization using Maximal-Margin Spherical Support Vector Machine,” Proceedings of the Ninth International Conference on Machine Learning and Cybernetics(ICMLC-2010), Qingdao, China, 11-14 July 2010.

3. 郝沛毅, 陳偉銘, 吳易霖, 林彥伯, 何建霆, 莊足貞, “蛋白質亞細胞定位預測-使用最大化邊界球狀支持向 量機,”The 15th Conference on Artificial Intelligence and Applications (TAAI 2010), 新 竹 , 台 灣 , 18-20, Nov. 2010.

參考文獻

[1] A. Ben-Hur and W. S. Noble, “Kernel methods for predicting protein-protein interactions,” Bioinformatics, 21 suppl: i38-i46, 2005.

[2] M. P. S. Brown, W. N. Grundy, D. Lin, N. Cristianini, C. W. Sugnet, T. S. Furey, Jr.M. Ares, D. Haussler. “Knowledge-based analysis of microarray gene expression data by using support vector machines.” Proc.

Natl. Acad. Sci. USA, 97:262-267, 2000.

[3] J. Cedano, P. Aloy, J. A. Perez-Pons, et al. “Relation between amino acid composition and cellular location of proteins,” J. Mol. Biol., vol. 266, no.3, pp. 594-600, 1997.

(10)

Fuzzy Clustering Approach: Support Vector Clustering with Cell Growing", IEEE Trans. on Fuzzy Systems, vol. 11, no. 4, pp. 518-527,2003.

[5] C. Cortes, and V.N Vapnik,.” Support Vector Network”.

Machine learning, vol. 20, pp. 1-25, 1995.

[6] C. H. Q. Ding and I. Dubchak, “Multi-class protein fold recognition using support vector machines and neural networks”, Bioinformatics, vol. 17, no. 4, 2001, Pages 349-358.

[7] S. Dohkan, A. Koike, and T. Takagi, “Support vector machines for predicting protein-protein interactions,”

Genome Informatics 14: 502-503, 2003.

[8] P. Donnes and A. Hoglund, “Predicting protein subcellular localization: Past, present, and future.”

Genom Proteom Bioinformat, 2(4): 209-215, 2004.

[9] P. Du and Y Li, “Prediction of protein submitochondria locations by hybridizing pseudo-amino acid composition with various physicochemical features of segmented sequence.” BMC Bioinformatics, 7: 518, 2006.

[10] Z. P.Feng, “An overview on predicting the subcellular location of a protein,” In Silico Biol.;2(3):291-303, 2002. [11] Z. P. Feng and C. T. Zhang, “A graphic representation of protein sequence and predicting the subcellular locations of prokaryotic proteins,” Int. J. Biochem. Cell Biol., vol. 34, pp3 298-307, 2002

[12] T. S. Furey, N. Duffy, N. Cristianini, D. Bednarski, M. Schummer, D. Haussler. “Support vector machine classification and validation of cancer tissue samples using microarray expression data.” Bioinformatics, 16(10):906-914, 2000.

[13] I. Guyon, J. Weston, S. Barnhill, V. Vapnik. “Gene selection for cancer classification using support vector machines.” Machine Learning, 46(1/3):389-422, Jan 2002.

[14] P.-Y. Hao and J.-H. Chiang, “A fuzzy model of support vector regression,” IEEE Int. Conf. On Fuzzy Systems

2003, vol. 1, pp. 738-742, 2003.

[15] P.-Y. Hao, J.-H. Chiang, and Y.-K. Tu, “Hierarchically SVM Classification Based on Support Vector Clustering Method and Its Application to Document Categorization”, Expert Systems With Applications, vol. 33, no. 3, pp. 627-635, October 2007.

[16] J. L. Heazlewood and R. E .Verboom, J. Tonti-Filippini, et al. ”SUBA: The Arabidopsis subcellular database.”

Nucleic Acids Res, 35(Database issue): D213-D218,

2007. [17]

[18] S. Hua and Z. Sun. “Support vector machine approach for protein subcellular localization prediction.”

Bioinformatics, 17(8):721-728, 2001a.

[19] S. Hua and Z. Sun. “A novel method of protein secondary structure prediction with high segment overlap measure: Support vector machine approach.”

Journal of Molecular Biology, 308(2):397-407, April

2001b.

[20] T. Jaakkola, M. Diekhans, and D. Haussler, “A Discriminative Framework for Detecting Remote Protein Homologies”, Journal of Computational Biology, Feb 2000, Vol. 7, No. 1-2 : 95 -114.

[21] A. Koike and T. Takagi, “Prediction of protein interaction sites and protein-protein interaction pairs using support vector machines,” Genome Informatics, 14:

500-501, 2003.

[22] Z. Lei and Y. Da,. ”An SVM-based system for predicting protein subnuclear localizations.” BMC Bioinformatics, 6: 291, 2005.

[23] C. Leslie, E. Eskin, A. Cohen, J. Weston, and W. Noble. Mismatch String Kernels for Discriminative Protein Classification. Bioinformatics, 20:4, pp. 467-476, 2004. [24] R.-Y. Luo, Z.-P. Feng, and J.-K. Liu, “Prediction of

protein structural class by amino acid and polypeptide composition,” Eur. J. Biochem, vol. 269, pp. 4219-4225, 2002.

[25] L. M Manevitz, M. Yousef, “One-class SVMs for document classification.” Journal of Machine Learning

Research. vol. 2, pp. 139-154, 2001.

[26] S. Mukherjee, P. Tamayo, J.P. Mesirov, D. Slonim, A. Verri, T. Poggio. “Support vector machine classification of microarray data.” A.I. Memo 1677, MIT Artificial Intelligence Laboratory, 1998.

[27] R. F. Murphy, M. V. Boland, M. Velliste, “Towards a systematics for protein subcelluar location: Quantitative description of protein localization patterns and automated analysis of fluorescence microscope images.”

Proc Int Conf Intell Syst Mol Biol, 8: 251-259, 2000.

[28] K. Nakai, M. Kanehisa, “Expert system for predicting protein localization sites in gram-negative bacteria,”

Proteins, vol. 11, no. 2, pp. 95-110, 1991.

[29] H. Nakashima and K. Nishikawa, “Discrimination of intracellular and extracellular proteins using amino acid composition and residue-pair frequencies,” J. Mol. Biol., vol. 238, pp. 54-61, 1994.

[30] S. Rey, M. Acab, J. L. Gardy, et al. “PSORTdb: A protein subcellular localization database for bacteria.” Nucleic

Acids Res, 33(Database issue): D164-D168, 2005.

[31] B. Schölkopf, J. C. Platt, J. Shawe-Taylor, A. J. Smola and R. C. Williamson, “Estimating the support of a high-dimensional distribution,” Neural Computation, vol. 13, pp. 1443-1471, 2001.

[32] J. Song and K. Burrage, “Predicting residue-wise contact orders in proteins by support vector regression”, BMC

Bioinformatics. 2006; 7: 425.

[33] D. Tax and R. Duin, “Support Vector Data Description,”

Machine Learning, vol. 54, pp. 45-66, 2004.

[34] V. N. Vapnik, The Nature of Statistical Learning Theory. Springer-Verlag, New York, 1995.

[35] J. Wang, P. Neskovic, and L. N. Cooper, “Pattern Classification via Single Spheres,” Lecture Notes in

Artificial Intelligence, vol. 3735, pp. 241-252, 2005.

[36] Q. Wu, X. Shen, Y. Li, G. Xu, W. Yan, G. Dong, and Q. Yang, “Classifying the Multiplicity of the EEG Source Models Using Sphere-Shaped Support Vector Machines,” IEEE Trans. On Magnetics, vol. 41, pp. 1912-1915, 2005.

[37] Z. Yuan, “Better prediction of protein contact number using a support vector regression analysis of amino acid sequence”, BMC Bioinformatics 2005, 6:248.

[38] G. P. Zhou and K. Doctor, “Subcellular location prediction of apoptosis proteins.” Proteins, 50(1): 44-48, 2003.

[39] M. L. Zhu, S. F. Chen, and X. D. Liu, “Sphere-structured support vector machines for multi-class pattern recognition,” Lecture Notes in Computer Science, vol. 2639 pp. 589-593, 2003.

(11)

國科會補助專題研究計畫項下出席國際學術會議心得報告

日期: 99 年 10 月 25 日

一、參加會議經過

過去幾年來,International Conference on Machine Learning and Cybernetics (ICMLC)研討會招集了

產官學界當中關於人工智慧、機器學習、控制理論的優秀學者共聚ㄧ起分享研究方面的心得,至今已

經是第十九個年頭了,在今年,LCMLC 與 International Conference on Wavelet Analysis and Pattern

Recognition (ICWAPR)共同在大陸青島舉辦,也邀請了對於小波轉換在圖訊識別當中優秀的產官學者共

同與會,ICMLC 2010 邀請了世界各地一流的研究學者共聚ㄧ堂,彼此討論互動,分享最新的訊息與最

新的研究,並且彼此鼓舞,也邀請了世界ㄧ流的頂尖學者,尤其是 IEEE 學會當中的領導者,與 IEEE

Systems, Man, and Cybernetics Society 學會的主持人擔任演講者,探討最新進的研究方向與主題,與會

者能有許多機會與世界ㄧ流的學者,近距離的討論他們的研究主題,同時也有許多機會能參考研究先

進寶貴的建議,對研究成果做進一步的修正,進而投稿到正式的期刊當中,ICMLC 2010 論文集被 EI

收錄,論文集也被 IEEE Xplore 索引,而過去 ICMLC 論文集當中部分優秀文章已被國際期刊接受。今

年 ICMLC 2010 於 2010 年 7 月 11-14 日,在大陸青島 InterContinental Qingdao 飯店舉辦,會議主席,

議程委員分別為

Honorary Conference Chairs:

- Hongrui Wang, President, Hebei University, China

- Michael Smith, Past President, IEEE Systems, Man & Cybernetics Society, USA

- William A. Gruver, Simon Fraser University, Canada and Past President, IEEE Systems, Man & Cybernetics Society

General Co-Chairs:

- Daniel S. Yeung, South China University of Technology, China and Junior President, IEEE Systems, Man, & Cybernetics Society, USA

- Xizhao Wang, Hebei University, China

計畫編號

NSC 98-2221-E-151-047

計畫名稱

蛋白質亞細胞定位預測-使用新的參數化邊界與球狀支持向量機

出國人員

姓名

郝沛毅

服務機構

及職稱

高雄應用科技大學資管系副教授

會議時間

2010 年 7 月 11 日

2010 年 7 月 14 日

會議地點

大陸青島

會議名稱

2010 International Conference on Machine Learnng and

Cybernetics (ICMLC 2010)

發表論文

題目

Prediction of Subcelluar Localization using Maximal-Margin

Spherical Support Vector Machine

(12)

Program Committee:

- Chair:

- Sam Kwong, City University of Hong Kong, Hong Kong - Co-Chairs:

- Philip Chen,University of Texas at San Antonio, USA - Shyi-Ming Chen, National Taiwan University of Science and

Technology, Taiwan

- Loi Lei Lai, City University London, UK - Seong-Whan Lee, Korea University, Korea - Chih-Min Lin,Yuan-Ze University, Taiwan

今年 ICMLC 2010 的贊助者有

‹ Hong Kong Baptist University

‹ South China University of Technology

‹ IEEE Systems, Man and Cybernetics Society

‹ (Technical Co-Sponsorship)

- SMC TC on Computational Intelligence

- SMC TC on Intelligent Internet Systems

- SMC TC on Machine Learning

- SMC TC on Media Computing

- SMC TC on Computational Life Science

‹ Hebei University

‹ Chongqing University

‹ Hebei University of Science and Technology

職員於 7 月 10 日搭乘飛機到大陸青島,住宿飯店為會場附近的 Crown Plaza Qingdao 飯店,距

離會場約有 10 分鐘的路程,職員發表論文的議程時間在 7 月 13 日,InterContinental Qingdao 飯店

PT5 室,Session 名稱為 Pattern Recognition。

在研討會期間,職參加了 Fabio Roli 學者的演講,Topic: Multiple Classifier Systems,時間 7 月

11 日 9:00 – 12:00,地點 Tutorial A (Rm A),以及學者 Witold Pedrycz 的演講,Topic: How to disseminate

your research results: essentials of effective publishing,時間 7 月 11 日 14:00 – 17:00,地點 Tutorial B (Rm

A),以及學者 Josef Kittler 的演講,Topic: Multiple Kernel Learning and Feature Space Denoising,地點

Keynote Speech A (Rm S) ,時間 12-July (Monday)09:00 – 10:00,並且參與了 Intelligent system I,

Intelligent system II, Intelligent system with Application II, Fuzzy System, Pattern Recognition 等

Session,在會議當中聆聽到許多最先進的研究主題與成果,以及未來熱門的研究方向,收穫非常豐

碩,職員於 7 月 14 日搭乘飛機離開青島,ICMLC 2010 的議程表如下圖所示。

(13)
(14)

二、與會心得

在研討會期間,職員參加了 Fabio Roli 學者的演講,Topic: Multiple Classifier Systems,時間 7

月 11 日 9:00 – 12:00,地點 Tutorial A (Rm A),在分類問題當中,在很多情況下使用單一分類器無

法得到理想的結果,這時候使用多種分類器的組合,往往能將分類效果改善,就好像愛滋病治療

當中,最有名的雞尾酒療法,把數種藥物混合,有如調製雞尾酒一般,某些藥物可以讓病毒的活

動力變緩慢,讓另一種藥物能夠殺死病毒。而在分類問題當中,也是一樣的道理,單一分類器可

能只在某一種情況之下,能獲得優異的分類正確率,在另一種情形之下,可能是另一種分類器能

獲得較優異的分類正確率,由於不能事先知道,所面對的問題,用哪一種分類器比較適合,所以

將數個分類器混合在一起,再針對全部分類器的預測結果,來評估輸入資料所屬的類別,能夠讓

原本被某一個分類器分類錯誤的資料,有重新被分類到正確類別的機會,而能在一般情形下獲得

更優異的預測正確率。

而在聆聽學者學者 Josef Kittler 的演講,Topic: Multiple Kernel Learning and Feature Space

Denoising,地點 Keynote Speech A (Rm S) ,時間 12-July (Monday)09:00 – 10:00,特徵空間(feature

space)是支持向量機的核心技術之一,藉由將樣本點經過一個非線性轉換映射到特徵空間,能夠增

加支持向量機的分類能力,同時又不會受到高維度的詛咒所影響,在特徵空間中,我們可以很輕

鬆的使用超平面(hyperplane)或是超球(hypersphere)來分類二個類別,而在原來的空間中,我們則是

能很輕鬆的得到一條很複雜的決策曲線(decision curve),而核心函數(kernel function)則是直接影響

了將樣本點映射到怎麼樣的特徵空間中,對於核心函數與特徵空間的選取,對於分類問題有怎麼

樣的影響,至今仍是一個艱難的研究主題,目前學者,正在研究如何將數個核心函數做組合,甚

至用函數合成為一個全新的核心函數,來增加分類的正確率,這是一個非常有趣的研究主題,未

來也可加入到蛋白質雅細胞定位預測的研究當中。

在職員報告的研究成果的場次,與會人員討論十分熱烈,給職員許多寶貴而中肯的建議,雖然

當中許多學者並不是生物資訊的研究領域,但是他們從其他領域的研究觀點,例如圖訊識別、機

器學習、控制系統,給了職員不同角度的省思,激盪出許多不同的研究想法,例如將跨物種的蛋

白質序列一併加以考慮,增加訓練樣本的數目,建構出更強健的蛋白質亞細胞預測模型,並對於

資訊做正規化處理,篩除掉蛋白質序列長度太短的樣本,因為它們可能是雜訊樣本,而降低學習

模型的預測能力,並且針對蛋白質序列有多重亞細胞定位的樣本的情況下,也應該給予篩除,因

為這有可能降低亞細胞預測模型的推理能力,或者將模糊理論與球狀支持向量機相結合,在特徵

空間中建立數個模糊超球來分類各個類別,同時考慮訓練樣本的模糊性,越重要的訓練樣本應該

給予較低的模糊性,越不允許被分類錯誤,反之較不重要,可能是雜訊的樣本,則應該給予較高

的模糊性,允許它們被分類錯誤,以避免過度學習(overfitting)的問題發生,進而增加預測模型的推

理能力,這些寶貴的建議與其他研究先進的經驗,皆可供職員未來在蛋白質亞細胞定位預測研究

時,加以修正改進,與會成果十分豐碩,在彼此研討與互相分享研究心得的過程中,職員也學習

到世界一流學者的研究態度與研究方法,獲益良多。

(15)

三、建議

近年來,大陸地區積極舉辦大型的國際研討會,增加大陸地區學者與世界頂尖學者的互相交流

合作的機會,大陸學者的研究競爭力也是不斷提升,台灣地區的學者也應該有所警惕,不能鬆懈,

建議產官學界能多補助在國內舉辦大型的國際研討會,增加國內學者與世界一流學者的交流合

作,增加國內學者的國際能見度,進而組成研究社群,彼此分享資訊,交流最新研究成果,創意

激發新的研究主題,提昇國內學者的研究競爭力。

四、攜回資料名稱及內容

『ICMLC 2010 論文集』收錄上百篇最新的學術研究論文,內容含括機器學習、智慧型系統、

模糊理論、圖訓識別、生物資訊、類神經網路等等研究主題,其中有目前最新的研究方向,最先

進的機器學習與圖訊識別技術,最新的研究成果與問題探討,ICMLC 2010 論文集當中最佳論文也

被推薦修改後投稿國際期刊發表。

(16)

PREDICTION OF SUBCELLUAR LOCALIZATION USING

MAXIMAL-MARGIN SPHERICAL SUPPORT VECTOR MACHINE

WEI-MING CHEN1, I-LIN WU1, JUNG-HSIEN CHIANG1, PEI-YI HAO2

1 Department of Computer Science and Information Engineering, National Cheng Kung University, Tainan, Taiwan 2 Department of Information Management, National Kaohsiung University of Applied Sciences, Kaohsiung, Taiwan E-MAIL: su_crack@iir.csie.ncku.edu.tw, 594510@iir.csie.ncku.edu.tw, jchiang@mail.ncku.edu.tw ,haupy@cc.kuas.edu.tw

Abstract:

Prediction of subcellular localization of various proteins is an important and well-studied problem. Each compartment in cell has specific tasks, and proteins in each compartment are synthesized to fulfill these tasks, and for this reason, an effective predictive system for protein subcellular localization is crucial. Therefore, we propose a prediction based on maximal margin sphere-structure multi-class support vector, and use some different types of composition in amino acid for features. The experimental results show that the proposed method is better than transitional support vector machine.

Keywords:

Tracking; Bioinformatics; Support Vector Machine; Spherical Classifier; Prediction of Subcellular Localization; 1. Introduction

Subcellular location prediction of proteins is an important and well-studied problem in bioinformatics. This is a problem of predicting which part in a cell a given protein is transported to, where an amino acid sequence of the protein is given as an input. This problem is becoming more important since information on subcellular location is helpful for annotation of proteins and genes and the number of complete genomes is rapidly increasing. Since existing predictors are based on various heuristics, it is important to develop a simple method with high prediction accuracies [1]. The prediction of subcellular localization of proteins from their primary sequence is still a challenging problem in Bioinformatics. There are many methods have been proposed using various computational techniques. For examples, PSORT [2-3] is historically the first subcellular location predictor. PSORT and its major extension, such as WoLF PSORT [4], used various sequence-derived features such as the presence of sequence motifs and amino acid compositions. BaCelLo [5] is a prediction of eukaryotic protein subcellular localization. Unlike other methods, BaCelLo is balanced among different classes and all the localizations that are predicted are considered as equiprobable, to avoid

mispredictions. There several machine learning-based classification approaches have been used to predict subcellular localization based uniquely on amino acid composition, including neural networks. NNPSL [6] is an ANN-based method using the amino acid composition by Reinhardt and Hubbard. After the successful report by Reinhardt and Hubbard, application of machine learning techniques became popular in this field. TargetP [7] requires the N-terminal sequence as an input into two layers of artificial neural networks. Reczko and Hatzigeorgiou [8] used a bidirectional recurrent neural network with the first 90 residues in the N-terminal sequence. SVM-based methods are also used to predict subcellular localization. CELLO [7, 9] uses a two-level Support Vector Machine system to assign localizations to both prokaryotic and eukaryotic proteins. SubLoc [10] use SVM instead of the ANN. Incorporating amino acid order as well as amino acid composition is expected to make it possible to improve prediction performance. Park and Kanehisa [11] developed an efficient SVM-based method that incorporates compositions of dipeptides and gapped amino acid pair besides the conventional amino acid composition.

In this paper, we propose a prediction based on maximal margin sphere-structure multi-class support vector, and some different types of composition in amino acid for features. The experimental results show that the proposed method is better than transitional support vector machine.

2. Materials and Methods

2.1. Dataset

All protein sequences were collected from the UniProtKB/Swiss-Prot database [12] release 57.12. We identified only three species proteins (human, mouse and rat) with a specific single subcellular localization according to the annotation information in the CC (comments or notes) and OC (organism classification) fields of UniProtKB/Swiss-Prot.

1476 2010 IEEE

978-1-4244-6525-5/10/$26.00 ©

(17)

The total number of proteins in the final dataset was 4738 proteins for the eight subcellular localizations: cytoplasm, endoplasmic reticulum (ER), Golgi apparatus, lysosome, mitochondrion, nucleus, peroxisome and secreted proteins. We also checked the OC field to remove prokaryotic proteins and the proteins annotated with two or more subcellular localizations which were excluded from the final dataset. The detail number of proteins in the final dataset for the eight subcellular localizations was summarized in Table 1.

TABLE 1.THE NUMBER OF PROTEINS FOR EIGHT SUBCELLULAR LOCALIZATIONS

Subcellular localization No. of entries Cytoplasm 1046 Endoplasmic reticulum 18 Golgi apparatus 22 Lysosome 86 Mitochondrion 293 Nucleus 1902 Peroxisome 62 Secreted 1309 Total 4738

2.2. Amino acid composition

Amino acid composition (AAC), which is a base encode method, denotes simply frequency of each amino acid in a protein. The protein sequences will be map into 20-dimensional input spaces. The frequency of all 20 natural amino acids was calculated by (1),

20 , , 1 , acid amino of y Probabilit 20 1 … = =

= i f f i k k i (1)

where fi denotes the frequency of i-th amino acid in a protein sequence.

2.3. Traditional Di-peptide Composition

Another generalized sequence composition is the di-peptide composition (DPC) which takes account of two adjacent amino acids. The di-peptide composition was denoted as 20x20 conditional probability matrix and the frequency of two adjacent amino acids was calculated by

⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = Φ ) | ( ) | ( ) | ( ) | ( ) | ( ) | ( ) | ( ) | ( ) | ( ) ( Y Y P Y C P Y A P C Y P C C P C A P A Y P A C P A A P S (2)

in where P(aj|ai)denotes the probability of some aj amino acid, given the occurrence of some other ai amino acid

2.4. 5-fold cross-validation test

The performance of predicting subcellular localization was evaluated by 5-fold cross-validation test, in which the data set of 4738 proteins for 8 subcellular localizations was randomly divided into five subsets of approximately equal size. In other words, the data was divided into training and testing data in five different ways. After training the MSM-SVM with four subsets, the performance of MSM-SVM was tested against the fifth subset. The process was repeated five times so that every subset is once used as the test.

3. Methodology

3.1. MSM-SVM

Inspired by the maximal-margin hyperplane-based SVM [13-14] and the support vector domain description (SVDD) [15], Wang et al. [16] first incorporated the concept of maximal-margin into the hypersphere-based SVM for two-class classification problem via a single sphere. In previous work, we proposed a modification of the Wang’s approach, called the maximal-margin spherical-structured multi-class support vector machine (MSM-SVM) [17]. The MSM-SVM finds several class-specific hyperspheres that each encloses all examples from one class but excludes all examples from the rest class. In addition, the hypersphere separates the positive examples from the negative examples with maximal margin.

3.2. The Quadratic Programming Problem

Given a set of training data (x1,y1),...,(xN,yN), where }

,..., 1

{ K

yi∈ is the class of xi, we first map training points into a high-dimensional feature space via a nonlinear transform φ, and then find K class-specific hyperspheres with minimal radius in the feature space.

1477

數據

Table 2 showed the result of the 5-fold cross-validation  tests for the MSM-SVM classifiers using two different types  of composition, amino acid composition (AAC) and  traditional di-peptide composition (DPC) respectively

參考文獻

相關文件

the prediction of protein secondary structure, multi-class protein fold recognition, and the prediction of human signal peptide cleavage sites.. By using similar data, we

Shang-Yu Su, Chao-Wei Huang, and Yun-Nung Chen, “Dual Supervised Learning for Natural Language Understanding and Generation,” in Proceedings of The 57th Annual Meeting of

Lecture 4: Soft-Margin Support Vector Machine allow some margin violations ξ n while penalizing them by C; equivalent to upper-bounding α n by C Lecture 5: Kernel Logistic

Chen, “Alternative proofs for some results of vector- valued functions associated with second-order cone,” Journal of Nonlinear and Convex Analysis, vol.. Chen, “The convex and

support vector machine, ε-insensitive loss function, ε-smooth support vector regression, smoothing Newton algorithm..

Research on Wu Isle , the nests of pirates in Fe-Chen during Ga-Ching Years in

“Transductive Inference for Text Classification Using Support Vector Machines”, Proceedings of ICML-99, 16 th International Conference on Machine Learning, pp.200-209. Coppin

Shang-Yu Su, Chao-Wei Huang, and Yun-Nung Chen, “Dual Supervised Learning for Natural Language Understanding and Generation,” in Proceedings of The 57th Annual Meeting of