蛋白質亞細胞定位預測---使用模糊超平面為基礎的嶄新模糊支持向量機

(1)

行政院國家科學委員會專題研究計畫成果報告

蛋白質亞細胞定位預測-使用模糊超平面為基礎的嶄新模糊

支持向量機

研究成果報告(精簡版)

計畫類別：個別型計畫編號： NSC 99-2221-E-151-058- 執行期間： 99 年 08 月 01 日至 100 年 07 月 31 日執行單位：國立高雄應用科技大學資訊管理系計畫主持人：郝沛毅計畫參與人員：碩士班研究生-兼任助理人員：張釜菘博士班研究生-兼任助理人員：陳偉銘報告附件：出席國際會議研究心得報告及發表論文處理方式：本計畫可公開查詢

中華民國 100 年 10 月 26 日

(2)

行政院國家科學委員會專題研究計畫成果精簡報告

蛋白質亞細胞定位預測-使用新的參數化邊界與球狀支持向量機

計畫編號：

NSC 992221E151 058

-執行期限：99 年 8 月 1 日至 100 年 7 月 31 日

主持人：郝沛毅國立高雄應用科技大學資訊管理學系

電子信箱(Email): [email protected] 一、摘要隨著人類基因組計畫的實施與推展，生命科學領域已進入後基因體時代，後基因體時代的研究重點集中到功能基因組學上，而一個迫切且更有挑戰性的問題是如何從序列數據訊息中分析蛋白質的生物功能。研究表明，蛋白質的功能與其亞細胞位址息息相關，蛋白質合成後，必須被轉送到特定的細胞部位才能發揮其功能，因此了解蛋白質的亞細胞定位訊息，可以為推斷蛋白質的生物功能提供必要的幫助，因此，發展電腦計算方法從蛋白質的一級序列出發預測亞細胞定位變成日益重要的問題。

支持向量機(Support Vector Machine，SVM)

以Vapnik 的統計學習理論為基礎，具有極優良的推理能力，支持向量機已經成功地應用在生物資訊各類問題中，在本計畫中，我們提出一個嶄新的『使用模糊超平面的模糊支持向量機』來預測蛋白質亞細胞定位，支持向量機中要被估計參數如權重(weight)與偏差量(bias)，不再是一個實數而是一個模糊數(fuzzy number) ，所以本計畫提出的模糊支持向量機使用一個模糊超平面 (fuzzy hyperplane) 來分割二個類別；更進一步，我們重新定義了一個新的模糊歸屬函數，而分類的結果為輸入樣本屬於該類別的模糊歸屬程度。除此之外，我們也將支持向量機延伸到多類別分類問題，同時我們也將應用模糊理論解決多類別分類時，分類結果容易發生混淆的問題，並且應用在蛋白質亞細胞定位預測的問題上。關鍵字：生物資訊、蛋白質功能分析、蛋白質亞細胞定位、支持向量機、模糊超平面支持向量機。二、前言隨著人類基因組計畫的實施與推展，生命科學領域已進入後基因體時代，後基因組時代的研究重點已經集中到功能基因組學上，而一個迫切且更有挑戰性的問題是如何從序列數據訊息中分析蛋白質的生物功能，研究表明，蛋白質的功能與其亞細胞位址息息相關，了解蛋白質的亞細胞定位是研究蛋白質功能的基礎，也是解釋蛋白質功能的重要訊息來源。生物體細胞是一個高度有序的結構，胞內根據空間分佈與功能不同，可以分成不同的細胞器或細胞區域，如細胞核、內質網、線粒體、胞漿和細胞模等，如圖一所示。蛋白質在核糖體中合成後，經過蛋白質分選訊號被轉送到特定的細胞器中，部分蛋白質則被分泌到細胞外或留在細胞質中，蛋白質必須轉送到正確的細胞部位(location) 才能發揮其功能，如果蛋白質定位發生偏差，將會對細胞功能甚至生命體產生重大的影響。因此蛋白質序列在亞細胞的位置與其在細胞內所扮演的角色息息相關，而了解蛋白質的亞細胞定位訊息，可以為推斷蛋白質的生物功能提供必要的幫助，同時對蛋白質的其他研究如藥物研發、交互作用、可能參與的生物途徑等，也能提供重要的訊息。圖一、蛋白質在生命體細胞中的位置分佈。

(3)

二、研究目的蛋白質的生物學功能訊息與其亞細胞的定位有著非常緊密的聯繫，例如，如果知道某新蛋白的功能與氧化磷酸化有關，那麼在細胞中它就很可能是位於線粒體之內。目前確定蛋白質亞細胞定位的實驗技術[Murphy, 2000]，除了傳統的亞細胞分離技術外、融合綠色螢光蛋白、質譜和同位素親和標籤、電子顯微鏡與螢光顯微鏡等實驗技術提供了一些比較精確的亞細胞定位數據。但是，基於實驗方法所獲得的定位結果具有較強的主觀性與多變性，並且重複性也比較差，而且這些技術多是昂貴且耗時的。相對於生物數據集中蛋白質序列數據訊息的急遽膨脹，單純依靠這些實驗技術來註釋蛋白質的亞細胞定位遠不能滿足蛋白質體學研究的需要。鑒於研究需求與實驗所得到的定位註釋之間巨大的空白，發展電腦計算方法從蛋白質的一級序列出發，預測蛋白質亞細胞定位變成日益重要的問題。一些電腦計算的方法取得了不錯的預測結果[Donnes; 2004]，為功能基因組註釋工作提供了一個重要的、可信賴的工具。實際上，近年來一些新建立的功能資料庫都已開始正式地收錄由電腦計算預測得到的亞細胞定位訊息[Rey, 2005; Heazlewood, 2007]。而且隨著某些特定領域的蛋白質功能研究的不斷深入，出現了很多特定問題，如凋亡蛋白[Zhou, 2003]、核蛋白亞定位[Lei, 2005]、線粒體亞定位[Du, 2006] 等的亞細胞分類預測，使亞細胞定位預測成為了生物資訊學與實驗生物學結合的最為緊密的領域之一。三、文獻探討 3.1 蛋白質亞細胞定位預測　以實驗方法來注釋蛋白質亞細胞定位的方式，其共同的缺點便是太過耗時，且常受限於蛋白質的純化及分離技術的瓶頸，而且進行實驗所必須花費的成本也是非常的大，因此在很多情況，必須藉助生物資訊的方法來進行預測的工作。透過電腦計算從蛋白質序列來進行亞細胞定位預測是可經濟地確認某未知蛋白質的功能(如圖二所示)，也是生物訊息學研究的有力工具。Nakai等學者最先使用“if-then”規則構建了一個專家系統來進行亞細胞定位預測 [Nakai,1991]；Cedano等學者則是對蛋白質的細胞定位和胺基酸組成做了相關性分析[Cedano, 1997]。近年來，統計學和機器學習方法廣泛地應用在蛋白質亞細胞定位的預測問題中，機器學習方法的基本思想是根據已有生物數據中發現有意義的生物學知識或者規律，通過推理、模型匹配或樣本學習從中自動學習知識和規則，然後利用這些規則去對未知數據庫進行預測。最近鄰法(Nearest neighbor algorithm)、類神經網路(neural networks)、隱藏馬可夫模型(hidden Markov model) 、支持向量機 (support vector machine)和貝式網路(Bayesian network)等都是亞細胞定位預測中常用的機器學習演算法。

圖二、由蛋白質序列預測蛋白質亞細胞定位

3.2 支持向量機

支持向量機(Support Vector Machine， SVM) 是最近被提出來的一種類神經網路架構[Cortes, 1995; Vapnik, 1995]，它以 Vapnik 的統計學習理論為基礎，而具有極優良的推理能力(Generalization ability)，SVM 不像傳統的圖訊識別技術以最小化經驗風險(Empirical Risk)為目標 — 即使得訓練資料的分類誤差最小，SVM 以最小化結構風險 (Structural Risk)為目標 — 即使得未知的資料(即測試資料)的分類誤差在一個機率上界以下。這種新的分類技術等同於最小化推理誤差的上界，雖然支持向量機一開始是提出來解決二元分類問題，但是也有學者提出單類別支持向量機 (one-class SVM)來解決單類別分類的問題[Tax, 1999]，並且也有學者提出支持向量迴歸機來解決迴歸的問題[Vapnik, 1995]。

(4)

有越來越多的學者因為支持向量機具有優秀的推理能力，而將支持向量機應用在生物資訊的問題上，例如[Brown, 2000; Mukherjee, 1998]首先應用支持向量機於分析微陣列資料(microarray data)中預測基因的功能、而[Furey, 2000; Guyon, 2002]則使用支持向量機於微陣列資料中作疾病的分類（例如 cancer tissue），也有研究學者應用支持向量機於蛋白質亞細胞定位的預測[Hua, 2001a]。此外，蛋白質間交互作用與蛋白質本身的結構，對於分析蛋白質的功能提供了很重要的資訊，因此[Dohkan, 2003, Koike, 2003]首先使用了支持向量機來預測蛋白質間交互作用；而在蛋白質本身的結構預測方面，[Hua, 2001b]首先使用了支持向量機來預測蛋白質的二級結構 (secondary structure)；而[Ding, 2001]則使用支持向量機來預測蛋白質的折疊結果(protein fold recognition)；另外近年來也有學者使用支持向量機來預測殘基(residue)間的接觸數(contact number, CN)，並且由殘基間的接觸數來預測蛋白質的結構 [Song, 2006; Yuan, 2005]。除此之外，也有一些學者則是提出一些新的且適合於基因序列與蛋白質序列的核心函數(kernel function)，例如[Ben-Hur, 2005; Jaakkola, 2000; Leslie, 2002]。四、研究方法支持向量機已經成功地應用在生物資訊各類問題中，然而在使用傳統的支持向量機來分析蛋白質的功能時，仍有許多問題必須解決，例如它沒有考慮到模糊的觀念，由於不同的實驗方法找出的蛋白質亞細胞定位資料有不同的可靠度，因此需要使用模糊理論可以處理『不精確』與『模糊』等資料的特性，更有效的解決此複雜與不確定的問題。在本計畫中，我們提出一個嶄新的『使用模糊超平面的模糊支持向量機』來預測蛋白質亞細胞定位，我們將所有的訓練樣本給予一模糊歸屬程度，若此樣本越重要，則給予的模糊權重越高，反之若此樣本較不重要，則給予的模糊權重越低，在訓練時允許發生分類錯誤以增加未來的推理能力；此外，支持向量機中要被估計參數如權重(weight)與偏差量(bias)，不再是一個實數而是一個模糊數(fuzzy number) ，所以本計畫提出的模糊支持向量機使用一個模糊超平面(fuzzy hyperplane)來分割二個類別；更進一步，我們重新定義了一個新的模糊歸屬函數，而分類的結果為輸入樣本屬於該類別的模糊歸屬程度。如今我們將一個充滿了曖昧、不確定的模組使用了Zadeh 所提出的模糊系統來表示。其概念更接近人類的思考與更符合現實世界的不確定性，並且應用在蛋白質亞細胞定位預測的問題上。 4.1 使用模糊最大邊界超平面的支持向量機預測 蛋白質亞細胞定位在許多現實問題中，所使用的這些訓練樣本的影響力是不一樣的，經常可看到某些訓練樣本比其他的樣本更為重要，我們需要將這些重要、有意義的訓練樣本正確的分類，但是對於一些不重要、可能是誤差的樣本點，則不需在意他們是否分類錯誤。也就是說，每一個訓練樣本不再是『明確的』屬於某一個類別，它可能有90%是屬於某一類別，但有10%可能是無意義的，或著它有可能20%是屬於某一類別，但是80%是無意義的。換句話說，每一個訓練樣本xi皆對應了一個模糊歸屬程度0<μ_i ≤1，模糊歸屬程度μ_i可視為此訓練樣本屬於所對應類別的信心程度，而(1−μ_i) 可視為該樣本是無意義的程度值，而模糊支持向量機的基本概念便是將每一個訓練樣本給予一個對應的模糊程度，使得每一個訓練樣本在學習預測模組時擁有不同的重要性。除此之外，我們將模糊集合(fuzzy set)的概念融合到支持向量機中，我們建立出一條模糊的超平面來分割特徵空間的二個類別，超平面中要被估計的參數，例如權重向量(weight vector)中的元素與偏移量(bias) 皆是模糊數字(fuzzy number)，在這裡我們使用最常見的三角形模糊數字，為了達成這些目標，我們必須使用下列定理：定理 1 [Klir, 1995]: 對任何模糊數 A, B 與 ] 1 , 0 ( ∈ α , 其中 Aα =[a₁,a₂]_且 _[ _, _] 2 1 b b Bα = 表示模糊數A 與 B 的 α-cuts，若我們定義二個區間排序的方式如下

(5)

] , [ ] , [a₁ a₂ ≥ b₁ b₂ iff a₁ ≥b₁ and a₂ ≥b₂ 則對任意模糊數字A, B, 我們有 B A f ≥ iff Aα ≥Bα (1) 對任何α∈(0,1], 其中 “ f ≥ ” 表示『模糊大於』的符號。令 X=(m,c) 為一個對稱三角形模糊數

(symmetric triangular fuzzy number)其中 m 是中 心點且 c 是寬度。由定理 1，對任何對稱三角形模糊數A=(m_A,c_A) 與 B=(m_B,c_B)，我們有 B A f ≥ iff m_A +c_A ≥m_B +c_B (2) and m_A −c_A ≥m_B −c_B. 除此之外，本計畫所提出的決策超平面內的權重向量(weight vector)中的元素以及偏移量(bias)皆是對稱三角形模糊數，給定一個模糊權重向量 W=(w, c) 以及一個模糊偏移量 B=(b, d)，模糊權重W 中的每一個元素W_i =(w_i,c_i)皆是模糊數。我們使用向量的符號 w=[w₁,...,w_n]t 與 t n c c ,..., ] [ ₁ = c 來表示近似於w，其模糊程度為 c； 相同地，B=(b, d) 是一個模糊偏移量，代表著近似於 b，其模糊程度為 d。定理 2 [Tankaka, 1982]: 模糊超平面 (fuzzy hyperplane), B x W B W W + + = ⋅ + = x nxn Y 1 1 _L , 是由下列的歸屬函數(membership function)所定義:

(

)

⎪ ⎪ ⎪ ⎩ ⎪ ⎪ ⎪ ⎨ ⎧ ≠ = = = ≠ + ⋅ + ⋅ − − = 0 , 0 0 0 , 0 1 0 1 ) ( y y d b y y Y x x x x c x w μ (3) 其中 μ_Y(y)=0 當 c⋅|x| +d ≤ y−

(

w⋅x +b

)

. 本計畫的模糊支持向量機便是要找出下列最佳化問題的最佳解 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∑ + ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ₊ + = = N i i i ,d,ξ ,b, i J C v d N 1 2 2 1 2 1 2 1 minimize w c ξ c w μ subject to

(

i

)

_f F i i y W⋅x +B ≥Ι −ξ , (4) 0 ≥ i

ξ for all i=1,..,N,

其中 Ι_F 表示模糊數字 1，他是一個三角形模糊數其中心點在 1 且寬度為 Ι ，而 _w 2 w 表示模型的複雜度，最小化 w 2 保留統計學習的基本精神：要獲得較佳的推理能力(generalization ability) ，必須要降低訓練模組的複雜度。而 d + 2 2 1 _c _{則表示模型的模糊程度，預測模組越模} 糊，則預測結果越不精確，而參數M 是二者之間 的調控參數。差額變數

{ }

ξi _i=1,..,_N 則是測量方程式(4)中的限制不等式條件被違反的程度，而參數 C 則是個使用者給定的懲罰參數，C 值越大越不 允許限制條件被違反。模糊歸屬程度μ_i表示訓練樣本點 xi 屬於所對應類別的信心程度。由定理 1，我們的模糊超平面中的模糊權重向量_W*_{=(w, c)} 與模糊偏移量 _B*_{=(b, d)可透過下列二次數學規} 劃模型來求解 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∑ + + ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ₊ + = = ( ) 1 2 1 2 1 minimize ₂ 1 1 2 2 , , , , , 1 2 i N i i i d b i i J C v d N ξ ξ μ ξ ξ w c c w subject to (5)

(

i

)

(

i

)

w i i b d y w⋅x + + c⋅x + ≥1+Ι −ξ₁

(

i

)

(

i

)

w i i b d y w⋅x + − c⋅x + ≥1−Ι −ξ₂ and d ≥0,ξ₁_i,ξ₂_i ≥0, for i=1,…,N.

根據拉格朗日(Lagrangian)理論，我們得到下面的對偶問題:

(6)

∑ + + Ι ∑ − + ∑ ∑ − − ⋅ − ∑ ∑ + + ⋅ − = = = = = = N i i i w N i i i N i N j i i j j i j N i N j i j i i j j i j i i Cv y y 1 1 2 1 1 2 1 1 1 2 1 2 1 1 1 2 1 2 2 1 ) ( ) ( ) )( ( 2 1 ) )( ( 2 1 maximize , α α α α α α α α α α α α α α x x x x N i N C Cv y i i i N i i i N i i i i ,..., 1 , 0 , , ) ( , 0 ) ( subject to 2 1 1 1 2 1 1 2 = ⎥⎦ ⎤ ⎢⎣ ⎡ ∈ ≤ ∑ − ∑ + = = = μ α α α α α α (6) 求解出上式後，我們得到拉格朗日乘數(Lagrange multipliers) α₁_i與α₂_i，而權重向量(weight vector) w 與 c 是 x 與 _i x 的線性組合： _i

∑

= + = N i i i i i y 1 2 1 ) ( x w α α 與

∑

= − = N i i i i Cv ₁( 1 2 ) 1 x c α α . 知道w 與 c 後，我們可以使用下列的 KKT 最佳 化條件(Karush-Kuhn-Tucker conditions) 求解出偏移量b 與 d: ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ − ⋅ − ⋅ + ⋅ + ⋅ + − = 2 1 j i j j i i j i y y y y b x c x c x w x w (7) ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ Ι − ⋅ + ⋅ + ⋅ − ⋅ − = w j i j j i i y y d 2 2 1 x c x c x w x w (8) 對某些 i, j 使得 1 0, ⎟, ⎠ ⎞ ⎜ ⎝ ⎛ ∈ N C i i μ α ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ∈ N C i j μ α2 0, , 以及 y_i⋅y_j =1. 由定理 2 ，模糊超平面 (fuzzy hyperplane) B x W⋅ + = Y 是由下面模糊歸屬函數所定義的： d M b y y y N k k k i k N k k k k i k Yi + ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ∑ − ⋅ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛_∑ ₊ _⋅ ₊ − − = = = 1 1 2 1 1 2 | | | | ) ( 1 ) ( 1 ) ( * x x x x α α α α μ . (9) 對任何 x , i Yi* = W*⋅xi +B* 是一個對稱三角形模糊數其中心為 w⋅ x +b 且寬度為 d + ⋅| x| c . 而模糊零 Θ是一個對稱三角形模糊數其中心為 0 且寬度為 O . 對一個新進測試樣w 本點 x, ，我們必須評估他是在模糊超平面哪一 邊，也就是說我們必須定義二個三角形模糊數字比較大小的方式。對於任意二個對稱三角形模糊數字A=(m_A,c_A) 與 B=(m_B,c_B) 模糊數 A 大 於B 的模糊程度，亦即 A 位在 B 右邊的模糊程 度是由下列模糊歸屬程度定義 ⎪ ⎪ ⎪ ⎩ ⎪⎪ ⎪ ⎨ ⎧ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ + + < < > > = = ≥ o.w. |) | |, max(| 1 5 . 0 0 and 0 if 0 0 and 0 if 1 ) , ( ) ( β α β α α β β α B A R A R _B , (10) 其中 α =(m_A +c_A)−(m_B +c_B) 與 β =(m_A −c_A)−(m_B −c_B). 因此，本計畫中提出的模糊支持向量機的決策函數為

(

)

(

⋅ + Θ

)

= + ⋅ = _≥_Θ , ) ( * * * * B x W B x W x R R f (11) 此決策函數傳回樣本點 x 屬於正類別的程度，由 一個模糊、不精確的邊界分開正類別與負類別，更能解決現實世界中資料不精確的問題。要延伸到非線性分割的問題，我們將訓練樣本點 xi 經過一個非線性轉換 Φ: _Rn_{→ F 映射到一個高維} 度的特徵空間 F. 並且在高維度特徵空間中找出一個最佳的模糊超平面，由於在我們的最佳化數學模型中，樣本點只會以成對內積 xi⋅xj 與 | | | |xi ⋅ xj 的形式出現，因此映射到高維度特徵空間 F 後，我們只需要計算他們在高維度特徵空間中的的內積，也就是計算 Φ(xi)⋅Φ(xj) 與

(7)

) ( ) (xi ⋅Φ xj Φ 的數值，藉由適當的定義核心函數 ) ( ) ( ) , ( i j i j k x x = Φ x ⋅Φ x 與 k(xi ,xj )= Φ(xi )⋅Φ(xj ) 我們可以不用知道非線性轉換 Φ 詳細的函數形式，最後特徵空間中的模糊超平面是由下列歸屬函數(membership function)所定義 d k b k y y y _N k k k i k N k k k k i k Yi + ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ∑ − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛_∑ ₊ ₊ − − = = = 1 1 2 1 1 2 |) | |, (| ) ( ) , ( ) ( 1 ) ( * x x x x α α α α μ . (12) 4.2 蛋白質序列資料集 本計畫採用的蛋白質序列是以 UniProtKB/Swiss-Prot database release 57.12 數據庫為基礎，篩選出其中有明確的亞細胞定位註釋的蛋白質條目，並且刪除有多個亞細胞位址的蛋白質序列，最終的資料集包含人類、大鼠與小鼠三個已經被研究者廣泛探討的物種，共計有4738 個蛋白質序列，8 個不同的亞細胞位址，詳細資料見表一。表一、蛋白質序列資料庫

Subcellular localization No. of entries Cytoplasm 1046 Endoplasmic reticulum 18 Golgi apparatus 22 Lysosome 86 Mitochondrion 293 Nucleus 1902 Peroxisome 62 Secreted 1309 Total 4738 4.3 蛋白質序列編碼方式

胺基酸組成(amino acid composition, AAC) Nakashima 與 Nishikawa 在研究中最早發現蛋白質的亞細胞定位與胺基酸組成有關 [Nakashima, 1994]，並最早提出了基於胺基酸組成 (amino acid composition, AAC)的編碼方法，AAC

簡單地表示 20 種胺基酸在蛋白質序列中出現的機率，是一種基本的蛋白質序列編碼方法。AAC 將蛋白質序列映射成20 維的向量: T AAC S v v v v V ( )=( ₁, ₂, ₃..., ₂₀) 其中

∑

= = 20 1 k k i i f f v 而 f 為第 i 種胺基酸在蛋白質序列中出現的次數_i (i=1,…,20)，顯然 20 1 1 =

∑

= k k v 。

使用胺基酸組成編碼(amino acid composition, ACC)的優點是計算方便，因此在蛋白質亞細胞預測定位中，胺基酸組成是應用最普遍的一種編碼方式。然而ACC 編碼僅僅用蛋白質序列中 20 種胺基酸出現的百分比組成來表示一條蛋白質，不可避免的會遺失一些重要的訊息，例如胺基酸出現的順序等。因此，學者們提出下列不同的編碼方式來提高預測能力。 n 階耦聯組成(n-OCC)

n 階耦聯組成(n-order coupling composition, n-OCC)編碼方式考慮鄰近的 n 個殘基對某個殘基 的耦聯作用[Feng, 2002]。當 n=0 時，n-OCC 編碼方式退化為胺基酸組成(ACC) 編碼方式，可用一個20 維的向量表示；而當 n=1 時，耦聯組成表示 為一個20×20 的條件機率矩陣 ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = ) | ( ) | ( ) | ( ) | ( ) | ( ) | ( ) | ( ) | ( ) | ( ) ( Y Y P Y C P Y A P C Y P C C P C A P A Y P A C P A A P S L M O M M L L φ 其中P

(

a₁| a₂

)

表示蛋白質序列中胺基酸a₁出現並且胺基酸 a₂緊接其後的機率，所以我們知道

(

|

)

1 20 1 20 1 =

∑∑

= = i j j i a a P ；當n>2 時，n-OCC 用多維的條件機率矩陣表示，n-OCC 在很多文獻中也稱為多肽鍵組成(polypeptide composition) [Luo, 2002]。在

本計劃中，我們使用零階耦聯組成 (zero

intervening resides)，其編碼方式稱為 KGCC400，

共有 400 維的蛋白質向量；另外，我們也使用結

合 0, 1, 2, 與 3 階的耦聯組成，其編碼方式稱為

(8)

4.3 蛋白質序列編碼的合成與特徵選取 雖然有許多不同的蛋白質序列編碼方式提出來提高蛋白質亞細胞定位的預測能力，但是目前應用最為廣泛的還是 ACC(amino acid composition)，主要原因是 ACC 編碼雖然沒有考慮序列的順序與殘基之間的相互作用，但是ACC 的計算簡單，而且對所有的胺基酸序列都能適用。而n-OCC 編碼中，向量的維數隨著 n 的增加呈現指數增加(20n)，在現實應用中僅侷限於考慮 n<4 的情形；在使用蛋白質 N 端的胺基酸序列(即蛋白分選信號序列)進行預測，對於 N 端序列的完整性有很高的要求，高產量(high-throughput)測序資料集在很多情況下是不能滿足這一個條件的。在胺基酸自相關函數(auto-correlation function, ACF)的編碼方法中，胺基酸指數的選取與參數的決定依賴所研究的問題與使用的實驗資料集；而使用功能結構域組成 (functional domain composition, FunDC)編碼方式的計算複雜，且對一些未知蛋白無法計算其編碼。以同源為基礎的預測（homology-based detection），雖然提供了高準確度（highly specificity, precision），但由於需依據已證實的生物實驗資料集，因此會有很差的回傳率（lowly sensitivity, recall）。，亦即當執行一筆預測時，這筆同源的資料必需存在於比對資料庫中，否則將無法比對，因此並非所有的預測亞細胞定位都會回傳結果。研究中發現，混合不同的編碼方式能夠有效的提高預測準確度，最簡單的混合式編碼方式便是將各種序列編碼的結果串接成為一個輸入向量，這種混合編碼方式的優點是簡單與容易實作，但缺點則是不同的序列編碼方式是根據不同的概念而提出，而且彼此之間的重要性並不一樣，齊頭式的將序列編碼串接在一起，反而會造成混淆，讓不重要的特徵降低了重要特徵的影響力與鑑別力。而且根據高維度的詛咒，輸入向量的維度太高反而會降低預測的正確率，因此便有

學者提出來使用 information gain 與 entropy 的方

式對於每一種編碼方式給予不同的權重，較為重要的序列編碼技術給予較高的權重，在訓練預測模組時擁有較大的影響力，反之較不重要的編碼給予較低的權重，在訓練預測模組時擁有較低的影響力，而權重低於門檻值(threshold)的特徵則直接予以刪除，減少輸入向量的維度，避免由於高維度的詛咒導致預測正確率降低。然而不論使用 information gain 或 entropy 等方法來去給予特徵權重，以及刪去不重要的特徵(feature selection)，都是由統計的方式去分析每單一特徵對於區分類別所能帶有的鑑別能力，但是他們並沒有辦法評估當特徵組合在一起時，對於分類的鑑別能力是如何，有時將數個不重要的特徵組合在一起反而能使鑑別力大幅升高。因此本計畫將使用另一種混合編碼的方式，將這些序列特徵組合在一起，其概念如圖三所示。圖三、混合式蛋白質序列編碼技術本計畫將對不同的序列編碼技術：胺基酸組成(amino acid composition, AAC)、n 階耦聯組成 (n-OCC) 、胺基酸自相關函數 (auto-correlation function, ACF) 、功能結構域組成 (functional domain composition, FunDC)等編碼方式，各自訓練一個預測模組。第一層預測模組的輸入向量是蛋白質序列使用該編碼技術的序列編碼，而第一層預測模組輸出的結果，是經由所對應編碼方式所得到此蛋白質序列屬於不同亞細胞位址的機率值。將第一層預測模組輸出的結果串接在一起後，當作第二層預測模組的輸入向量，而第二層預測模組輸出的結果，是整合所有編碼方式所得

(9)

到的該蛋白質序列屬於不同亞細胞位址的機率值。如圖三所示，第一層預測模組是將單一序列編碼技術的特徵，根據分類器學習的過程中給予不同的權重，以獲得最好的預測正確率；而第二層預測模組是將全部的編碼技術的結果，根據第二層分類器學習的過程中給予不同的權重，以獲得最好的預測正確率。而且由於個別預測模組只使用單一序列編碼技術當作輸入向量，輸入向量的維度較低，因此不會受到高維度詛咒的影響而降低預測正確率。這種作法的另一種優點是，當將來要將新的序列編碼技術混合在一起使用時，我們不用將全部的預測模組重新訓練，只需要訓練使用新序列編碼的預測模組，以及最後整合的預測模組便可以，如此對於未來擴充新的序列編碼技術，將是十分容易。表二、蛋白質序列編碼組合與描述

Data name Description of dataset AAC

Calculated frequency of each amino acid in a protein sequence. The 20-dimensional matrix was taken.

NOCC400 Defined k is 0, and then the 20 x 20 conditional probability matrix was taken. info200_NOCC16

00

A 200-dimensinal matrix was selected by the information gain from 1600-dimensinal matrix (combined with 0, 1, 2 and 3-GCC). info400_NOCC16

00

A 400-dimensinal matrix was selected by the information gain from 1600-dimensinal matrix (combined with 0, 1, 2 and 3-GCC). gainRatio200_NO

CC1600

A 200-dimensinal matrix was selected by the gain ratio from 1600-dimensinal matrix (combined with 0, 1, 2 and 3-GCC). gainRatio400_NO

CC1600

A 400-dimensinal matrix was selected by the gain ratio from 1600-dimensinal matrix (combined with 0, 1, 2 and 3-GCC).

在本計畫中，我們使用目前應用最為廣泛 ACC(amino acid composition) 、 NOCC400 與 KGCC1600 編碼方式，主要原因是 ACC 編碼雖然沒有考慮序列的順序與殘基之間的相互作用，但是ACC 的計算簡單，而且對所有的胺基酸序列都能適用。而n-OCC 編碼中，向量的維數隨著 n 的增加呈現指數增加(20n)，在現實應用中僅侷限於考慮 n<4 的情形；所以針對 KGCC1600 共 1600 維的蛋白質向量，我們使用特徵選取(feature selection)的方式來降低資料的維度，在本研究

中，我們使用information gain 與 gain ratio 兩種

特徵選取的方式，從1600 維資料中分別選出 200 與 400 個對亞細胞定位預測有幫助的特徵，並且也在實驗中特過圖三的方式組合這些特徵編碼方式。表二整理了實驗中所使用的蛋白質編碼方式及其描述。五、結果與討論　在實驗部分，我們比較本計劃所研究提出的模糊最大化邊界支持向量機與傳統的支持向量機在蛋白質亞細胞定位預測的效能，傳統的支持向量機我們使用 LibSVM 這套程式來做實驗，核心函數則是選擇RBF kernel function，正確率使用 5 次

交叉驗證(five-fold cross validation)來評估，我們將

資料集切成 5 等分，每次用其中 4 份做訓練資料集，剩下的 1 份做測試資料集，如此重復 5 次，再將測試資料集的正確率做平均，在支持向量機預測學習過程當中，模型參數(model parameters) 對於預測正確率有很大的影響，在本實驗中，我們使用格狀蒐尋的方式來尋找最佳的模型參數。表三顯示了本實驗蛋白質亞細胞定位預測的正確率，單純使用 AAC 的編碼方式，傳統的 LibSVM 可以到達 78.76%的正確率，而本計劃所提出的模糊最大化邊界支持向量機的預測正確率可以提高到80.96%。如果是使用 KGCC400 的編碼方式，LibSVM 預測正確率可以提高為 79.35%，而本計劃的 Fuzzy-SVM 預測正確則提高為82.51%。對於 KGCC1600 的編碼方式，我們使用

information gain 與 gain ratio 二種不同的方式分別

選取出 200 維與 400 維的蛋白質特徵向量，對於 LibSVM 而言，在 info200_NOCC1600 與 info400_NOCC1600 的預測正確率分別為 82.1%與 83.24%，而本計劃所提出的模糊最大化邊界支持向量機在 info200_NOCC1600 與 info400_NOCC1600 的預測正確率分別為 82.47% 與84.03%，選取的特徵數量越多，預測正確率越高，而且本計劃提出的Fuzzy-SVM 預測正確率均比傳統的LibSVM 來的優異。根據以往的研究文獻顯示，混合不同的編碼方式能夠有效的提高預測準確度，在實驗中，我們

(10)

也使用了圖三的組合式編碼方式，混合了ACC、 KGCC400 、 info400_NOCC1600 與 gainRatio400_NOCC1600 這四種編碼方式，此時 LibSVM 的預測正確率為 84.11%，而本計劃所提出的模糊最大化邊界支持向量機在的預測正確率分別為85.56%，由此可見使用組合式的編碼方式能更提升蛋白質亞細胞定位的預測正確率，而且本計劃提出的Fuzzy-SVM 預測正確率亦比傳統的 LibSVM 來的優異。表三、蛋白質序列編碼的預測正確率一覽表

Data name LibSVM Proposed Fuzzy SVM

AAC 78.76 80.96 NOCC400 79.35 82.51 info200_NOCC1600 82.11 82.47 info400_NOCC1600 83.24 84.03 gainRatio200_NOCC1 600 82.51 83.72 gainRatio400_NOCC1 600 83.84 84.85 組合式編碼方式 84.11 85.56 在本計畫中，我們提出一個嶄新的『使用模糊超平面的模糊支持向量機』來預測蛋白質亞細胞定位，我們將所有的訓練樣本給予一模糊歸屬程度，若此樣本越重要，則給予的模糊權重越高，反之若此樣本較不重要，則給予的模糊權重越低，在訓練時允許發生分類錯誤以增加未來的推理能力；此外，支持向量機中要被估計參數如權重(weight)與偏差量(bias)，不再是一個實數而是一個模糊數(fuzzy number) ，所以本計畫提出的模糊支持向量機使用一個模糊超平面 (fuzzy hyperplane)來分割二個類別；更進一步，我們重新定義了一個新的模糊歸屬函數，而分類的結果為輸入樣本屬於該類別的模糊歸屬程度。如今我們將一個充滿了曖昧、不確定的模組使用了Zadeh 所提出的模糊系統來表示。其概念更接近人類的思考與更符合現實世界的不確定性。在實驗當中，不論使用何種蛋白質序列的編碼方式，比計畫所提出的模糊最大邊界支持向量機的預測正確率都比傳統SVM 來的優異。參考文獻

[1] R. N. Aturaliya, J. L. Fink, M. J. Davis, et al. “Subcellular localization of manmaliam type II membrance proteins.” Traffic, 7 (5):613-625, 2006. [2] A. Ben-Hur, D. Horn, H.T. Siegelmann, and V.N. Vapnik,

“Support vector clustering.” Journal of Machine

Learning Research, vol. 2, pages 125-137, 2001.

[3] A. Ben-Hur and W. S. Noble, “Kernel methods for predicting protein-protein interactions,” Bioinformatics, 21 suppl: i38-i46, 2005.

[4] J. D. Bendtsen, H. Nielsen H, G. von Heijne, et al. “Improved prediction of signal peptides: signalP 3.0” J

Mol Biol, 340 (4): 783~795, 2004.

[5] M. Bhasin, G. P. Raghava. “ESLpred: SVM-based method for subcellular localization of eukaryotic proteins using dipeptide composition and PSI-BLAST.” Nucleic Acids Res, 32(web server issue): W414-W419, 2004.

[6] L. Bottou, C. Cortes, J. Denker, H. Drucker, I. Guyon, L. Jackel, Y. LeCun, U. Muller, E. Sackinger, P. Simard, and V. Vapnik, “Comparison of classifier methods: A case study in handwriting digit recognition,” in Proc. Int.

Conf. Pattern Recognition, pp. 77-87, 1994.

[7] M. P. S. Brown, W. N. Grundy, D. Lin, N. Cristianini, C. W. Sugnet, T. S. Furey, Jr.M. Ares, D. Haussler. “Knowledge-based analysis of microarray gene expression data by using support vector machines.” Proc.

Natl. Acad. Sci. USA, 97:262-267, 2000.

[8] W. S. Bu, Z. P. Feng, Z. D. Zhang, and C. T. Zhang, “Prediction of protein structural classes based on amino acid index,” Eur. J. Biochem, vol. 266, pp. 1043-1049, 1999.

[9] Y. D. Cai and K. C. Chou, “Nearest neighbor algorithm for predicting protein subcellular location by combining functional domain composition and pseudo-amino acid composition,” Biochem. and Biophy. Res. Comm., vol. 305, pp. 407-411, 2003.

[10] J. Cedano, P. Aloy, J. A. Perez-Pons, et al. “Relation between amino acid composition and cellular location of proteins,” J. Mol. Biol., vol. 266, no.3, pp. 594-600,

(11)

1997.

[11] J.-H. Chiang and P.-Y. Hao, 2003, "A New Kernel-Based Fuzzy Clustering Approach: Support Vector Clustering with Cell Growing", IEEE Trans. on Fuzzy Systems, vol. 11, no. 4, pp. 518-527,2003.

[12] K. C. Chou, “Prediction of protein cellular attributes using pseudo- amino acid composition,” Proteins, vol. 43, pp. 246-255, 2001.

[13] K. C. Chou and Y. D. Cai, “Prediction of protein subcellular locations by GO-FunD-PseAA predictor.”

Biochem Biophys Res Commun, 320(4): 1236-1239,

2004.

[14] C. Cortes, and V.N Vapnik,.” Support Vector Network”.

Machine learning, vol. 20, pp. 1-25, 1995.

[15] D. Cotter, P. Guda, E. Fahy, et al, “MitoProteome: mitochondrial protein sequence database and annotation system.” Nucleic Acids Res, vol. 32(Database issue): D463-467, 2004.

[16] C. H. Q. Ding and I. Dubchak, “Multi-class protein fold recognition using support vector machines and neural networks”, Bioinformatics, vol. 17, no. 4, 2001, Pages 349-358.

[17] S. Dohkan, A. Koike, and T. Takagi, “Support vector machines for predicting protein-protein interactions,”

Genome Informatics 14: 502-503, 2003.

[18] H. Drucker, C. Burges, L. Kaufman, A. Smola, and V. N. Vapnik, “Support vector regression machines,” In

Advances in Neural Information Processing Systems 9,

vol. 9, pp. 155-161. The MIT Press, 1996.

[19] O. Emanuelsson, H. Nielsen, G. von Heijne. P. Chloro, “a neural network-based method for predicting chloroplast transit peptides and their cleavage sites.”

Protein Sci, 8 (5): 978-984, 1999.

[20] O. Emanuelsson, H. Nielsen, S. Brunak, et al. “Predicting subcellular localization of proteins based in their N-terminal amino acid sequence.” J Mol Biol, 300 (4): 1005-1016, 2000.

[21] Z. P. Feng and C. T. Zhang, “A graphic representation of protein sequence and predicting the subcellular locations of prokaryotic proteins,” Int. J. Biochem. Cell Biol., vol. 34, pp3 298-307, 2002.

[22] T. S. Furey, N. Duffy, N. Cristianini, D. Bednarski, M. Schummer, D. Haussler. “Support vector machine classification and validation of cancer tissue samples using microarray expression data.” Bioinformatics, 16(10):906-914, 2000.

[23] J. L. Gardy, C. Spencer, K. Wang, et al. “PSORT-B: Improving protein subcellular localization prediction for Gram-negative bacteria.” Nucleic acids Res, 31 (13): 3613-3617, 2003.

[24] J. L. Gardy, M. R. Laird, F. Chen, S. Rey, C. J. Walsh, M. Ester, F. S. Brinkman. “PSORTb v.2.0: expanded prediction of bacterial protein subcellular localization and insights gained from comparative proteome analysis.” Bioinformatics, 21, 617-23, 2005.

[25] J. Guo, Y. Lin, X. Liu. “GNBSL: A new integrative system to predict the subcellular location for Gram-negative bacteria proteins.” Proteomics, 6 (19): 5099-5105, 2006.

[26] I. Guyon, J. Weston, S. Barnhill, V. Vapnik. “Gene selection for cancer classification using support vector machines.” Machine Learning, 46(1/3):389-422, Jan 2002.

[27] P.-Y. Hao, J.-H. Chiang, and Y.-K. Tu, “Hierarchically SVM Classification Based on Support Vector Clustering Method and Its Application to Document Categorization”, Expert Systems With Applications, vol. 33, no. 3, pp. 627-635, October 2007.

[28] A. Hoglund, P. Donnes, T. Blum, et al. “MultiLoc: prediction of protein subcellular localization using N-terminal targeting sequences, sequence motifs and amino acid composition. Bioinformatics, 22 (10): 1158-1165, 2006.

[29] C. -W. Hsu and C. -J. Lin, “A comparison of methods for multiclass support vector machines,” IEEE Trans. On

Neural Networks, vol. 13, pp. 415-425, 2002.

[30] S. Hua and Z. Sun. “Support vector machine approach for protein subcellular localization prediction.”

Bioinformatics, 17(8):721-728, 2001a.

[31] S. Hua and Z. Sun. “A novel method of protein secondary structure prediction with high segment overlap measure: Support vector machine approach.”

(12)

Journal of Molecular Biology, 308(2):397-407, April

2001b.

[32] Y. Huang and Y. Li, “Prediction of protein subcellular location using fuzzy k-NN method,” Bioinformatics, 2004, 20(1): 21-28.

[33] T. Jaakkola, M. Diekhans, and D. Haussler, “A Discriminative Framework for Detecting Remote Protein Homologies”, Journal of Computational Biology, Vol. 7, No. 1-2 : 95 -114, Feb 2000.

[34] G. J. Klir and B. Yuan, Fuzzy Sets and Fuzzy Logic:

Theory and Applications, Prentice-Hall, New Jersey,

1995.

[35] A. Koike and T. Takagi, “Prediction of protein interaction sites and protein-protein interaction pairs using support vector machines,” Genome Informatics, 14: 500-501, 2003.

[36] U. Kreβel, “Pairwise classification and support vector machines,” in Advances in Kernel Methods—Support

Vector Learning, B. Scholkopf, C. J. C. Burges, and A. J.

Smola, Eds. MIT Press, Cambridge, MA, pp. 255-268, 1999.

[37] C. Leslie, E. Eskin, A. Cohen, J. Weston, and W. Noble. Mismatch String Kernels for Discriminative Protein Classification. Bioinformatics, 20:4, pp. 467-476, 2004. [38] Z. Lu, D. Szafron, R. Greiner, P. Lu, D.S. Wishart, B. Poulin, J. Anvik, C. Macdonell and R. Eisner, “Predicting subcellular localization of proteins using machine-learned classifiers,” Bioinformatics, vol. 20, no. 4, , pp. 547–556, 2004.

[39] S. Mukherjee, P. Tamayo, J.P. Mesirov, D. Slonim, A. Verri, T. Poggio. “Support vector machine classification of microarray data.” A.I. Memo 1677, MIT Artificial Intelligence Laboratory, 1998.

[40] K. Nakai and M. Kanehisa. “A knowledge base for predicting protein localization sites in eukaryotic cells.”

Genomics, 14(4): 897-911, 1992.

[41] K. Nakai, M. Kanehisa, “Expert system for predicting protein localization sites in gram-negative bacteria,”

Proteins, vol. 11, no. 2, pp. 95-110, 1991.

[42] K. Nakai and P. Horton, “PSORT: a program for detecting sorting signals in proteins and predicting their

subcellular localization.” Trends Biochem Sci, 24 (1): 34-36, 1999.

[43] H. Nakashima and K. Nishikawa, “Discrimination of intracellular and extracellular proteins using amino acid composition and residue-pair frequencies,” J. Mol. Biol., vol. 238, pp. 54-61, 1994.

[44] K. J. Park and M Kanehisa, “Prediction of protein subcellular locations by support vector machines using compositions of amino acids and amino acid pairs.”

Bioinformatics, 19 (13):1656-1663, 2003.

[45] A. Reinhardt, T. Hubbard, “Using neural networks for prediction of the subcellular location of proteins.”

Nucleic Acids Res, 26(9): 2230-2236, 1998.

[46] M. S. Scott, D. Y. Thomas, M. T. Hallett, “Predicting subcellular localization via protein motif co-occurrence.”

Genome Res, 14 (10A): 1957-1966, 2004.

[47] A. J. Smola and B. Scholkopf, “A tutorial on support vector regression,” NeuroCOLT2 Tech. Report, NeuroCOLT, 1998.

[48] J. Song and K. Burrage, “Predicting residue-wise contact orders in proteins by support vector regression”, BMC

Bioinformatisc; 7: 425. 2006.

[49] H. Tankaka, S. Uejima, and K. Asai, “Linear regression analysis with fuzzy model,” IEEE. Trans. On Syst., Man,

and Cyber., vol. 12, no. 6, pp. 903-907, 1982.

[50] D. Tax and R. Duin, “Support Vector Data Description,”

Machine Learning, vol. 54, pp. 45-66, 2004.

[51] V. N. Vapnik, The Nature of Statistical Learning Theory. Springer-Verlag, New York, 1995.

[52] C. S. Yu, C. J. Lin, and J. K. Hwang, “Predicting subcellular localization of proteins for Gram-negative bacteria by support vector machines based on n-peptide compositions.” Protein Sci, 13 (5): 1402-1406, 2004. [53] Z. Yuan, “Better prediction of protein contact number

using a support vector regression analysis of amino acid sequence”, BMC Bioinformatics 2005, 6:248.

[54] Z. Yuan. Prediction of protein subcellular locations using Markov chain models. FEBS Lett, 451(1): 23-26, 1999. [55] L.A. Zadeh, “The concept of linguistic variable and its

application to approximate reasoning—I,” Inform.Sci., vol. 8, pp. 199-249, 1975.

(13)

國科會補助專題研究計畫項下出席國際學術會議心得報告

日期：100 年 10 月 25 日

一、參加會議經過

過去幾年來，International Conference on Machine Learning and Cybernetics (ICMLC)研討會招集了產官學界當中關於人工智慧、機器學習、控制理論的優秀學者共聚ㄧ起分享研究方面的心得，至今已經是第 20 個年頭了，在今年，LCMLC 與 International Conference on Wavelet Analysis and Pattern Recognition (ICWAPR)共同在大陸桂林舉辦，也邀請了對於小波轉換在圖訊識別當中優秀的產官學者共同與會，ICMLC 2011 邀請了世界各地一流的研究學者共聚ㄧ堂，彼此討論互動，分享最新的訊息與最新的研究心得，並且彼此激勵鼓舞，也邀請了世界ㄧ流的頂尖學者，尤其是 IEEE 學會當中的領導者，與 IEEE Systems, Man, and Cybernetics Society 學會的主持人擔任演講者，探討最新進的研究方向與主題，與會者能有許多機會與世界ㄧ流的學者，近距離的討論他們的研究主題，同時也有許多機會能參考研究先進寶貴的建議，對研究成果做進一步的修正，進而投稿到正式的期刊當中，ICMLC 2011 論文集被 EI 收錄，論文集也被 IEEE Xplore 索引，而過去 ICMLC 論文集當中部分優秀文章已被國際期刊接受。今年 ICMLC 2011 於 2011 年 7 月 11-13 日，在大陸桂林喜來登飯店舉辦，會議主席，議程委員分別為

Honorary Conference Chairs:

- Hongrui Wang, President, Hebei University, China

- Michael Smith, Past President, IEEE Systems, Man & Cybernetics Society, USA

- William A. Gruver, Simon Fraser University, Canada and Past President, IEEE Systems, Man & Cybernetics Society - Philip Chen, University of Macau, Macau and President-Elect, IEEE Systems, Man & Cybernetics Society

- Szu-Wei Yang, President, National Taichung University of Education, Taiwan

計畫編號

NSC 99－2221－E－151 －058

計畫名稱

蛋白質亞細胞定位預測-使用模糊超平面為基礎的嶄新模糊支持向量

機

出國人員

姓名

郝沛毅

服務機構

及職稱

高雄應用科技大學資管系副教授

會議時間

2011 年 7 月 11 日

至

2011 年 7 月 13 日

會議地點

大陸桂林

會議名稱

2011 International Conference on Machine Learnng and

Cybernetics (ICMLC 2011)

發表論文

題目

A NOVEL ASSOCIATIVE CLASSIFICATION ALGORITHM: A COMBINATION OF

LAC AND CMAR WITH NEW MEASURE OF WEIGHTED EFFECT OF EACH RULE

GROUP

(14)

General Co-Chairs:

- Daniel S. Yeung, South China University of Technology, China and Junior Past President, IEEE Systems, Man, & Cybernetics Society, USA

- Xizhao Wang, Hebei University, China

Program Committee:

- Chairs:

- Sam Kwong, City University of Hong Kong, Hong Kong - Shyi-Ming Chen, National Taiwan University of Science and

Technology, Taiwan

Publication Co-Chairs:

- Patrick Chan,South China University of Technology, China

([email protected])

- Chunru Dong, Hebei University, China

([email protected])

Local Arrangement Co-Chairs:

- Robert P. Woon, IEEE Systems, Man, & Cybernetics Society, USA

今年 ICMLC 2010 的贊助者有

Hebei University

IEEE Systems, Man and Cybernetics Society

(Technical Co-Sponsorship)

- SMC TC on Computational Intelligence

- SMC TC on Intelligent Internet Systems

- SMC TC on Machine Learning

- SMC TC on Media Computing

- SMC TC on Pattern Recognition

South China University of Technology

(15)

Hong Kong Baptist University

Hebei University of Science and Technology

Harbin Institute of Technology Shenzhen Graduate School

University of Macau

Huazhong University of Science and Technology

National Taichung University of Education

職員於 7 月 10 日搭乘飛機到大陸桂林，住宿飯店為會場喜來登飯店，職員發表論文的議程時間在 7 月 13 日，喜來登飯店 PW2 室，Session 名稱為 Statistical Learning 。

在研討會期間，職參加了下面 2 場 Keynote Speech

Keynote Speech A (Rm S) Speaker: Vladimír Mařík

Topic: Agent Technologies for Industrial Needs: Trends and Challenges

10:25 – 11:25

Keynote Speech B (Rm S) Speaker: Seong-Whan Lee

Topic: Machine Learning Challenges for Huma n Brain Decoding

並且參與了Neural Networks and Support Vector Machines, Intelligent Systems, Machine Learning and Its Application, Statistical Learning, Intelligent Systems: Methodologies and Applications等session，在會議當中聆聽到許多不同領域專家，在全世界最先進的研究主題中發表的研究成果，以及未來熱門的研究方向，收穫非常豐碩，職員於7月14日搭乘飛機離開青島，ICMLC 2011的議程表如下圖所示。

(16)

(17)

二、與會心得

在研討會期間，職員參加了 Seong-Whan Lee 學者的演講，Topic: Machine Learning Challenges for Human Brain Decoding，時間 7 月 11 日 10:25 – 11:25，地點 Keynote Speech B (Rm S)， Seong-Whan Lee 學者介紹了一個非常先進的研究主題，長久以來人工智慧的目的，就是要電腦模擬 人類大腦的運作/思考方式，讓電腦可以像人腦一樣會思考，進而提供人類各種先進的服務，然而人類大腦運作的方式至今始終是一個最大的迷團，雖然類神經網路可以模擬人類的大腦神經元的運作方式，但是由於大腦神經元彼此互動連結，腦電波傳遞的方式太為複雜，導致現今的類神經網路一直無法向上突破，能更貼近人類大腦運作的方式，支持向量機雖然是一個很先進的類神經網路模型，但他是透過 Vapnik 的統計學習理論建立的演算法，並沒有把人類學習的方式放入在裡面，如何將大腦運作的方式解碼，一步一步分析出大腦運作的流程，將低層次的腦神經元運作與高層次的概念結合在一起，是下一階段人工智慧最需克服的難題之一，職員在此演講中對於Seong-Whan Lee 學者 精湛的演講，用深入淺出的方式，說明人工智慧的發展過程與未來展望，十分的佩服。在職員報告的研究成果的場次，與會人員討論十分熱烈，給職員許多寶貴而中肯的建議，雖然當中許多學者並不是關連分類研究領域，但是他們從其他領域的研究觀點，例如圖訊識別、機器學習、模糊系統，給了職員不同角度的省思，激盪出許多不同的研究想法，例如在使用關連分類演算法與球狀支持向量機做蛋白質亞細胞定位預測時，應該將跨物種的蛋白質序列一併加以考慮，並且考慮由不同實驗所得到的蛋白質洗細胞定位訓練樣本，應該有不同的可信賴程度，有的實驗比較細緻，得到的訓練樣本比較可靠，而有些大產量實驗所得到的訓練樣本比較粗糙，偽陽性與偽陰性比率過高，所得到的訓練樣本比較不可靠，所以應該將模糊理論納入考慮，給予不同的訓練樣本不同的可信賴度，信賴度較高的訓練樣本則較不允許訓練錯誤，反之信賴度較差的訓練樣本則允許訓練錯誤，此外現行的蛋白質亞細胞定位的訓練樣本數目過少，使用關連式分類與球狀支持向量機無法獲得良好的預測正確率，應該增加訓練樣本的數目，或是建立一個增加式的學習演算法，當訓練樣本增加時，可以不用重新訓練整個分類模型，而是只需訓練新增加的訓練樣本，建構出更強健的蛋白質亞細胞預測模型，並對於資訊做正規化處理，篩除掉蛋白質序列長度太短的樣本，因為它們可能是雜訊樣本，而降低學習模型的預測能力，並且針對蛋白質序列有多重亞細胞定位的樣本的情況下，也應該給予篩除，因為這有可能降低亞細胞預測模型的推理能力，這些寶貴的建議與其他研究先進的經驗，皆可供職員未來在蛋白質亞細胞定位預測研究時，加以修正改進，與會成果十分豐碩，在彼此研討與互相分享研究心得的過程中，職員也學習到世界一流學者的研究態度與研究方法，獲益良多。

三、建議

近年來，大陸地區積極舉辦大型的國際研討會，增加大陸地區學者與世界頂尖學者的互相交流合作的機會，大陸學者的研究競爭力也是不斷提升，台灣地區的學者也應該有所警惕，不能鬆懈，建議產官學界能多補助在國內舉辦大型的國際研討會，增加國內學者與世界一流學者的交流合作，增加國內學者的國際能見度，進而組成研究社群，彼此分享資訊，交流最新研究成果，創意激發新的研究主題，提昇國內學者的研究競爭力。

(18)

四、攜回資料名稱及內容

『ICMLC 2011 論文集』收錄上百篇最新的學術研究論文，內容含括機器學習、智慧型系統、

模糊理論、圖訓識別、生物資訊、類神經網路等等研究主題，其中有目前最新的研究方向，最先進的機器學習與圖訊識別技術，最新的研究成果與問題探討，ICMLC 2011 論文集當中最佳論文也被推薦修改後投稿國際期刊發表。

(19)

國科會補助計畫衍生研發成果推廣資料表

日期:2011/10/26

國科會補助計畫

計畫名稱: 蛋白質亞細胞定位預測-使用模糊超平面為基礎的嶄新模糊支持向量機計畫主持人: 郝沛毅計畫編號: 99-2221-E-151-058- 學門領域: 生物資訊

無研發成果推廣資料

(20)

99 年度專題研究計畫研究成果彙整表

計畫主持人：郝沛毅計畫編號：99-2221-E-151-058- 計畫名稱：蛋白質亞細胞定位預測-使用模糊超平面為基礎的嶄新模糊支持向量機量化成果項目實際已達成數（被接受或已發表）預期總達成數(含實際已達成數) 本計畫實際貢獻百分比單位備註（質化說明：如數個計畫共同成果、成果列為該期刊之封面故事 ... 等）期刊論文 0 0 100% 研究報告/技術報告 0 0 100% 研討會論文 1 0 100% 篇論文著作專書 0 0 100% 申請中件數 0 0 100% 專利已獲得件數 0 0 100% 件件數 0 0 100% 件技術移轉權利金 0 0 100% 千元碩士生 1 0 100% 博士生 1 0 100% 博士後研究員 0 0 100% 國內參與計畫人力（本國籍）專任助理 0 0 100% 人次期刊論文 0 0 100% 研究報告/技術報告 0 0 100% 研討會論文 2 0 100% 篇論文著作專書 0 0 100% 章/本申請中件數 0 0 100% 專利已獲得件數 0 0 100% 件件數 0 0 100% 件技術移轉權利金 0 0 100% 千元碩士生 0 0 100% 博士生 0 0 100% 博士後研究員 0 0 100% 國外參與計畫人力（外國籍）專任助理 0 0 100% 人次

(21)

其他成果

(

無法以量化表達之成果如辦理學術活動、獲得獎項、重要國際合作、研究成果國際影響力及其他協助產業技術發展之具體效益事項等，請以文字敘述填列。) 無成果項目量化 名稱或內容性質簡述 測驗工具(含質性與量性) 0 課程/模組 0 電腦及網路系統或工具 0 教材 0 舉辦之活動/競賽 0 研討會/工作坊 0 電子報、網站 0 科教處計畫加填項目計畫成果推廣之參與（閱聽）人數 0

(22)

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度、達成預期目標情況、研究成果之學術或應用價

值（簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性）

、是否適

合在學術期刊發表或申請專利、主要發現或其他有關價值等，作一綜合評估。

1. 請就研究內容與原計畫相符程度、達成預期目標情況作一綜合評估

■達成目標

□未達成目標（請說明，以 100 字為限）

□實驗失敗

□因故實驗中斷

□其他原因

說明：

2. 研究成果在學術期刊發表或申請專利等情形：

論文：□已發表 □未發表之文稿 ■撰寫中 □無

專利：□已獲得 □申請中 ■無

技轉：□已技轉 □洽談中 ■無

其他：（以 100 字為限）

3. 請依學術成就、技術創新、社會影響等方面，評估研究成果之學術或應用價

值（簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性）（以

500 字為限）

隨著人類基因組計畫的實施與推展，生命科學領域已進入後基因體時代，後基因體時代的研究重點集中到功能基因組學上，而一個迫切且更有挑戰性的問題是如何從序列數據訊息中分析蛋白質的生物功能。研究表明，蛋白質的功能與其亞細胞位址息息相關，蛋白質合成後，必須被轉送到特定的細胞部位才能發揮其功能，因此了解蛋白質的亞細胞定位訊息，可以為推斷蛋白質的生物功能提供必要的幫助，因此，發展電腦計算方法從蛋白質的一級序列出發預測亞細胞定位變成日益重要的問題。

支持向量機(Support Vector Machine，SVM)以 Vapnik 的統計學習理論為基礎，具有極優良的推理能力，在本計畫中，我們提出一個嶄新的『使用模糊超平面的模糊支持向量機』來預測蛋白質亞細胞定位，支持向量機中要被估計參數如權重(weight)與偏差量(bias)，不再是一個實數而是一個模糊數(fuzzy number) ，所以本計畫提出的模糊支持向量機使用一個模糊超平面(fuzzy hyperplane)來分割二個類別；更進一步，我們重新定義了一個新的模糊歸屬函數，而分類的結果為輸入樣本屬於該類別的模糊歸屬程度，並且應用在蛋白質亞細胞定位預測的問題上。歐美各國均已紛紛投入大量人力與資源，成立大規模國家蛋白質體學研究中心或新興生技藥物蛋白質體開發公司，投入以高效能自動化的技術平台進行蛋白質體學相關研究以加速完成針對人體蛋白質的組成、功能與交互影響所進行的蛋白質體解碼計劃，為生物科技與新藥發展上提供完整的蛋白質層次的生物資訊資料庫。台灣在此領域仍處於萌芽的階段，

(23)

蛋白質亞細胞定位預測---使用模糊超平面為基礎的嶄新模糊支持向量機

行政院國家科學委員會專題研究計畫 成果報告