行政院國家科學委員會專題研究計畫 成果報告
蛋白質亞細胞定位預測-使用模糊超平面為基礎的嶄新模糊
支持向量機
研究成果報告(精簡版)
計 畫 類 別 : 個別型 計 畫 編 號 : NSC 99-2221-E-151-058- 執 行 期 間 : 99 年 08 月 01 日至 100 年 07 月 31 日 執 行 單 位 : 國立高雄應用科技大學資訊管理系 計 畫 主 持 人 : 郝沛毅 計畫參與人員: 碩士班研究生-兼任助理人員:張釜菘 博士班研究生-兼任助理人員:陳偉銘 報 告 附 件 : 出席國際會議研究心得報告及發表論文 處 理 方 式 : 本計畫可公開查詢中 華 民 國 100 年 10 月 26 日
行政院國家科學委員會專題研究計畫成果精簡報告
蛋白質亞細胞定位預測-使用新的參數化邊界與球狀支持向量機
計畫編號:
NSC 992221E151 058
-執行期限:99 年 8 月 1 日至 100 年 7 月 31 日
主持人:郝沛毅 國立高雄應用科技大學資訊管理學系
電子信箱(Email): [email protected] 一、摘要 隨著人類基因組計畫的實施與推展,生命科 學領域已進入後基因體時代,後基因體時代的研 究重點集中到功能基因組學上,而一個迫切且更 有挑戰性的問題是如何從序列數據訊息中分析蛋 白質的生物功能。研究表明,蛋白質的功能與其 亞細胞位址息息相關,蛋白質合成後,必須被轉 送到特定的細胞部位才能發揮其功能,因此了解 蛋白質的亞細胞定位訊息,可以為推斷蛋白質的 生物功能提供必要的幫助,因此,發展電腦計算 方法從蛋白質的一級序列出發預測亞細胞定位變 成日益重要的問題。支持向量機(Support Vector Machine,SVM)
以Vapnik 的統計學習理論為基礎,具有極優良的 推理能力,支持向量機已經成功地應用在生物資 訊各類問題中,在本計畫中,我們提出一個嶄新 的『使用模糊超平面的模糊支持向量機』來預測 蛋白質亞細胞定位,支持向量機中要被估計參數 如權重(weight)與偏差量(bias),不再是一個實 數而是一個模糊數(fuzzy number) ,所以本計畫 提 出 的 模 糊 支 持 向 量 機 使 用 一 個 模 糊 超 平 面 (fuzzy hyperplane) 來 分 割 二 個 類 別 ; 更 進 一 步,我們重新定義了一個新的模糊歸屬函數,而 分類的結果為輸入樣本屬於該類別的模糊歸屬程 度。除此之外,我們也將支持向量機延伸到多類 別分類問題,同時我們也將應用模糊理論解決多 類別分類時,分類結果容易發生混淆的問題,並 且應用在蛋白質亞細胞定位預測的問題上。 關鍵字:生物資訊、蛋白質功能分析、蛋白質亞 細胞定位、支持向量機、模糊超平面支持向量機。 二、前言 隨著人類基因組計畫的實施與推展,生命科 學領域已進入後基因體時代,後基因組時代的研 究重點已經集中到功能基因組學上,而一個迫切 且更有挑戰性的問題是如何從序列數據訊息中分 析蛋白質的生物功能,研究表明,蛋白質的功能 與其亞細胞位址息息相關,了解蛋白質的亞細胞 定位是研究蛋白質功能的基礎,也是解釋蛋白質 功能的重要訊息來源。 生物體細胞是一個高度有序的結構,胞內根 據空間分佈與功能不同,可以分成不同的細胞器 或細胞區域,如細胞核、內質網、線粒體、胞漿 和細胞模等,如圖一所示。蛋白質在核糖體中合 成後,經過蛋白質分選訊號被轉送到特定的細胞 器中,部分蛋白質則被分泌到細胞外或留在細胞 質中,蛋白質必須轉送到正確的細胞部位(location) 才能發揮其功能,如果蛋白質定位發生偏差,將 會對細胞功能甚至生命體產生重大的影響。因此 蛋白質序列在亞細胞的位置與其在細胞內所扮演 的角色息息相關,而了解蛋白質的亞細胞定位訊 息,可以為推斷蛋白質的生物功能提供必要的幫 助,同時對蛋白質的其他研究如藥物研發、交互 作用、可能參與的生物途徑等,也能提供重要的 訊息。 圖一、蛋白質在生命體細胞中的位置分佈。
二、研究目的 蛋白質的生物學功能訊息與其亞細胞的定位 有著非常緊密的聯繫,例如,如果知道某新蛋白 的功能與氧化磷酸化有關,那麼在細胞中它就很 可能是位於線粒體之內。目前確定蛋白質亞細胞 定位的實驗技術[Murphy, 2000],除了傳統的亞細 胞分離技術外、融合綠色螢光蛋白、質譜和同位 素親和標籤、電子顯微鏡與螢光顯微鏡等實驗技 術提供了一些比較精確的亞細胞定位數據。但 是,基於實驗方法所獲得的定位結果具有較強的 主觀性與多變性,並且重複性也比較差,而且這 些技術多是昂貴且耗時的。相對於生物數據集中 蛋白質序列數據訊息的急遽膨脹,單純依靠這些 實驗技術來註釋蛋白質的亞細胞定位遠不能滿足 蛋白質體學研究的需要。鑒於研究需求與實驗所 得到的定位註釋之間巨大的空白,發展電腦計算 方法從蛋白質的一級序列出發,預測蛋白質亞細 胞定位變成日益重要的問題。一些電腦計算的方 法取得了不錯的預測結果[Donnes; 2004],為功能 基因組註釋工作提供了一個重要的、可信賴的工 具。實際上,近年來一些新建立的功能資料庫都 已開始正式地收錄由電腦計算預測得到的亞細胞 定位訊息[Rey, 2005; Heazlewood, 2007]。而且隨 著某些特定領域的蛋白質功能研究的不斷深入, 出現了很多特定問題,如凋亡蛋白[Zhou, 2003]、 核蛋白亞定位[Lei, 2005]、線粒體亞定位[Du, 2006] 等的亞細胞分類預測,使亞細胞定位預測成為了 生物資訊學與實驗生物學結合的最為緊密的領域 之一。 三、文獻探討 3.1 蛋白質亞細胞定位預測 以實驗方法來注釋蛋白質亞細胞定位的方式, 其共同的缺點便是太過耗時,且常受限於蛋白質 的純化及分離技術的瓶頸,而且進行實驗所必須 花費的成本也是非常的大,因此在很多情況,必 須藉助生物資訊的方法來進行預測的工作。透過 電腦計算從蛋白質序列來進行亞細胞定位預測是 可 經 濟 地 確 認 某 未 知 蛋 白 質 的 功 能(如圖二所 示),也是生物訊息學研究的有力工具。Nakai等學 者最先使用“if-then”規則構建了一個專家系統來 進行亞細胞定位預測 [Nakai,1991];Cedano等學 者則是對蛋白質的細胞定位和胺基酸組成做了相 關性分析[Cedano, 1997]。近年來,統計學和機器 學習方法廣泛地應用在蛋白質亞細胞定位的預測 問題中,機器學習方法的基本思想是根據已有生 物數據中發現有意義的生物學知識或者規律,通 過推理、模型匹配或樣本學習從中自動學習知識 和規則,然後利用這些規則去對未知數據庫進行 預測。最近鄰法(Nearest neighbor algorithm)、類神 經網路(neural networks)、隱藏馬可夫模型(hidden Markov model) 、 支 持 向 量 機 (support vector machine)和貝式網路(Bayesian network)等都是亞 細胞定位預測中常用的機器學習演算法。
圖二、由蛋白質序列預測蛋白質亞細胞定位
3.2 支持向量機
支持向量機(Support Vector Machine, SVM) 是最近被提出來的一種類神經網路架構[Cortes, 1995; Vapnik, 1995],它以 Vapnik 的統計學習理論 為基礎,而具有極優良的推理能力(Generalization ability),SVM 不像傳統的圖訊識別技術以最小化 經驗風險(Empirical Risk)為目標 — 即使得訓練 資料的分類誤差最小,SVM 以最小化結構風險 (Structural Risk)為目標 — 即使得未知的資料(即 測試資料)的分類誤差在一個機率上界以下。這種 新的分類技術等同於最小化推理誤差的上界,雖 然支持向量機一開始是提出來解決二元分類問 題 , 但 是 也 有 學 者 提 出 單 類 別 支 持 向 量 機 (one-class SVM)來解決單類別分類的問題[Tax, 1999],並且也有學者提出支持向量迴歸機來解決 迴歸的問題[Vapnik, 1995]。
有越來越多的學者因為支持向量機具有優秀 的推理能力,而將支持向量機應用在生物資訊的 問題上,例如[Brown, 2000; Mukherjee, 1998]首先 應 用 支 持 向 量 機 於 分 析 微 陣 列 資 料(microarray data)中預測基因的功能、而[Furey, 2000; Guyon, 2002]則使用支持向量機於微陣列資料中作疾病 的分類(例如 cancer tissue),也有研究學者應用 支 持 向 量 機 於 蛋 白 質 亞 細 胞 定 位 的 預 測[Hua, 2001a]。此外,蛋白質間交互作用與蛋白質本身 的結構,對於分析蛋白質的功能提供了很重要的 資訊,因此[Dohkan, 2003, Koike, 2003]首先使用 了支持向量機來預測蛋白質間交互作用;而在蛋 白質本身的結構預測方面,[Hua, 2001b]首先使用 了 支 持 向 量 機 來 預 測 蛋 白 質 的 二 級 結 構 (secondary structure);而[Ding, 2001]則使用支持向 量 機 來 預 測 蛋 白 質 的 折 疊 結 果(protein fold recognition);另外近年來也有學者使用支持向量 機來預測殘基(residue)間的接觸數(contact number, CN),並且由殘基間的接觸數來預測蛋白質的結構 [Song, 2006; Yuan, 2005]。除此之外,也有一些學 者則是提出一些新的且適合於基因序列與蛋白質 序列的核心函數(kernel function),例如[Ben-Hur, 2005; Jaakkola, 2000; Leslie, 2002]。 四、研究方法 支持向量機已經成功地應用在生物資訊各類 問題中,然而在使用傳統的支持向量機來分析蛋 白質的功能時,仍有許多問題必須解決,例如它 沒有考慮到模糊的觀念,由於不同的實驗方法找 出的蛋白質亞細胞定位資料有不同的可靠度,因 此需要使用模糊理論可以處理『不精確』與『模 糊』等資料的特性,更有效的解決此複雜與不確 定的問題。在本計畫中,我們提出一個嶄新的『使 用模糊超平面的模糊支持向量機』來預測蛋白質 亞細胞定位,我們將所有的訓練樣本給予一模糊 歸屬程度,若此樣本越重要,則給予的模糊權重 越高,反之若此樣本較不重要,則給予的模糊權 重越低,在訓練時允許發生分類錯誤以增加未來 的推理能力;此外,支持向量機中要被估計參數 如權重(weight)與偏差量(bias),不再是一個實數而 是一個模糊數(fuzzy number) ,所以本計畫提出的 模 糊 支 持 向 量 機 使 用 一 個 模 糊 超 平 面(fuzzy hyperplane)來分割二個類別;更進一步,我們重 新定義了一個新的模糊歸屬函數,而分類的結果 為輸入樣本屬於該類別的模糊歸屬程度。如今我 們將一個充滿了曖昧、不確定的模組使用了Zadeh 所提出的模糊系統來表示。其概念更接近人類的 思考與更符合現實世界的不確定性,並且應用在 蛋白質亞細胞定位預測的問題上。 4.1 使用模糊最大邊界超平面的支持向量機預測 蛋白質亞細胞定位 在許多現實問題中,所使用的這些訓練樣本 的影響力是不一樣的,經常可看到某些訓練樣本 比其他的樣本更為重要,我們需要將這些重要、 有意義的訓練樣本正確的分類,但是對於一些不 重要、可能是誤差的樣本點,則不需在意他們是 否分類錯誤。也就是說,每一個訓練樣本不再是 『明確的』屬於某一個類別,它可能有90%是屬 於某一類別,但有10%可能是無意義的,或著它 有可能20%是屬於某一類別,但是80%是無意義 的。 換句話說,每一個訓練樣本xi皆對應了一個模 糊歸屬程度0<μi ≤1,模糊歸屬程度μi可視為此 訓練樣本屬於所對應類別的信心程度,而(1−μi) 可視為該樣本是無意義的程度值,而模糊支持向 量機的基本概念便是將每一個訓練樣本給予一個 對應的模糊程度,使得每一個訓練樣本在學習預 測模組時擁有不同的重要性。除此之外,我們將 模 糊 集 合(fuzzy set)的概念融合到支持向量機 中,我們建立出一條模糊的超平面來分割特徵空 間的二個類別,超平面中要被估計的參數,例如 權重向量(weight vector)中的元素與偏移量(bias) 皆是模糊數字(fuzzy number),在這裡我們使用最 常見的三角形模糊數字,為了達成這些目標,我 們必須使用下列定理: 定 理 1 [Klir, 1995]: 對任何模糊數 A, B 與 ] 1 , 0 ( ∈ α , 其 中 Aα =[a1,a2] 且 [ , ] 2 1 b b Bα = 表示模糊數A 與 B 的 α-cuts,若我們定義二個區 間排序的方式如下
] , [ ] , [a1 a2 ≥ b1 b2 iff a1 ≥b1 and a2 ≥b2 則對任意模糊數字A, B, 我們有 B A f ≥ iff Aα ≥Bα (1) 對任何α∈(0,1], 其中 “ f ≥ ” 表示『模糊大於』的 符 號 。 令 X=(m,c) 為 一 個 對 稱 三 角 形 模 糊 數
(symmetric triangular fuzzy number)其中 m 是中 心點且 c 是寬度。由定理 1,對任何對稱三角形 模糊數A=(mA,cA) 與 B=(mB,cB),我們有 B A f ≥ iff mA +cA ≥mB +cB (2) and mA −cA ≥mB −cB. 除此之外,本計畫所提出的決策超平面內的權重 向量(weight vector)中的元素以及偏移量(bias)皆 是對稱三角形模糊數,給定一個模糊權重向量 W=(w, c) 以及一個模糊偏移量 B=(b, d),模糊權 重W 中的每一個元素Wi =(wi,ci)皆是模糊數。 我 們 使 用 向 量 的 符 號 w=[w1,...,wn]t 與 t n c c ,..., ] [ 1 = c 來表示近似於w,其模糊程度為 c; 相同地,B=(b, d) 是一個模糊偏移量,代表著近 似於 b,其模糊程度為 d。 定 理 2 [Tankaka, 1982]: 模 糊 超 平 面 (fuzzy hyperplane), B x W B W W + + = ⋅ + = x nxn Y 1 1 L , 是由下列的歸屬函數(membership function)所定 義:
(
)
⎪ ⎪ ⎪ ⎩ ⎪ ⎪ ⎪ ⎨ ⎧ ≠ = = = ≠ + ⋅ + ⋅ − − = 0 , 0 0 0 , 0 1 0 1 ) ( y y d b y y Y x x x x c x w μ (3) 其中 μY(y)=0 當 c⋅|x| +d ≤ y−(
w⋅x +b)
. 本計畫的模糊支持向量機便是要找出下列最佳化 問題的最佳解 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∑ + ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ + + = = N i i i ,d,ξ ,b, i J C v d N 1 2 2 1 2 1 2 1 minimize w c ξ c w μ subject to(
i)
f F i i y W⋅x +B ≥Ι −ξ , (4) 0 ≥ iξ for all i=1,..,N,
其中 ΙF 表示模糊數字 1,他是一個三角形模糊 數其中心點在 1 且寬度為 Ι ,而 w 2 w 表示模型 的複雜度,最小化 w 2 保留統計學習的基本精 神 : 要 獲 得 較 佳 的 推 理 能 力(generalization ability) , 必 須 要 降 低 訓 練 模 組 的 複 雜 度 。 而 d + 2 2 1 c 則表示模型的模糊程度,預測模組越模 糊,則預測結果越不精確,而參數M 是二者之間 的調控參數。差額變數
{ }
ξi i=1,..,N 則是測量方程 式(4)中的限制不等式條件被違反的程度,而參數 C 則是個使用者給定的懲罰參數,C 值越大越不 允許限制條件被違反。模糊歸屬程度μi表示訓練 樣本點 xi 屬於所對應類別的信心程度。由定理 1,我們的模糊超平面中的模糊權重向量W*=(w, c) 與模糊偏移量 B*=(b, d)可透過下列二次數學規 劃模型來求解 ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ∑ + + ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ + + = = ( ) 1 2 1 2 1 minimize 2 1 1 2 2 , , , , , 1 2 i N i i i d b i i J C v d N ξ ξ μ ξ ξ w c c w subject to (5)(
i)
(
i)
w i i b d y w⋅x + + c⋅x + ≥1+Ι −ξ1(
i)
(
i)
w i i b d y w⋅x + − c⋅x + ≥1−Ι −ξ2 and d ≥0,ξ1i,ξ2i ≥0, for i=1,…,N.根據拉格朗日(Lagrangian)理論,我們得到下面的 對偶問題:
∑ + + Ι ∑ − + ∑ ∑ − − ⋅ − ∑ ∑ + + ⋅ − = = = = = = N i i i w N i i i N i N j i i j j i j N i N j i j i i j j i j i i Cv y y 1 1 2 1 1 2 1 1 1 2 1 2 1 1 1 2 1 2 2 1 ) ( ) ( ) )( ( 2 1 ) )( ( 2 1 maximize , α α α α α α α α α α α α α α x x x x N i N C Cv y i i i N i i i N i i i i ,..., 1 , 0 , , ) ( , 0 ) ( subject to 2 1 1 1 2 1 1 2 = ⎥⎦ ⎤ ⎢⎣ ⎡ ∈ ≤ ∑ − ∑ + = = = μ α α α α α α (6) 求解出上式後,我們得到拉格朗日乘數(Lagrange multipliers) α1i與α2i,而權重向量(weight vector) w 與 c 是 x 與 i x 的線性組合: i
∑
= + = N i i i i i y 1 2 1 ) ( x w α α 與∑
= − = N i i i i Cv 1( 1 2 ) 1 x c α α . 知道w 與 c 後,我們可以使用下列的 KKT 最佳 化條件(Karush-Kuhn-Tucker conditions) 求解出偏 移量b 與 d: ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ − ⋅ − ⋅ + ⋅ + ⋅ + − = 2 1 j i j j i i j i y y y y b x c x c x w x w (7) ⎟⎟ ⎟ ⎠ ⎞ ⎜⎜ ⎜ ⎝ ⎛ Ι − ⋅ + ⋅ + ⋅ − ⋅ − = w j i j j i i y y d 2 2 1 x c x c x w x w (8) 對某些 i, j 使得 1 0, ⎟, ⎠ ⎞ ⎜ ⎝ ⎛ ∈ N C i i μ α ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ∈ N C i j μ α2 0, , 以及 yi⋅yj =1. 由 定 理 2 , 模 糊 超 平 面 (fuzzy hyperplane) B x W⋅ + = Y 是由下面模糊歸屬函數所定義的: d M b y y y N k k k i k N k k k k i k Yi + ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ∑ − ⋅ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛∑ + ⋅ + − − = = = 1 1 2 1 1 2 | | | | ) ( 1 ) ( 1 ) ( * x x x x α α α α μ . (9) 對任何 x , i Yi* = W*⋅xi +B* 是一個對稱三角 形 模 糊 數 其 中 心 為 w⋅ x +b 且 寬 度 為 d + ⋅| x| c . 而模糊零 Θ是一個對稱三角形模糊 數其中心為 0 且寬度為 O . 對一個新進測試樣w 本點 x, ,我們必須評估他是在模糊超平面哪一 邊,也就是說我們必須定義二個三角形模糊數字 比較大小的方式。對於任意二個對稱三角形模糊 數字A=(mA,cA) 與 B=(mB,cB) 模糊數 A 大 於B 的模糊程度,亦即 A 位在 B 右邊的模糊程 度是由下列模糊歸屬程度定義 ⎪ ⎪ ⎪ ⎩ ⎪⎪ ⎪ ⎨ ⎧ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ + + < < > > = = ≥ o.w. |) | |, max(| 1 5 . 0 0 and 0 if 0 0 and 0 if 1 ) , ( ) ( β α β α α β β α B A R A R B , (10) 其中 α =(mA +cA)−(mB +cB) 與 β =(mA −cA)−(mB −cB). 因此,本計畫中提出的模糊支持向量機的決策函 數為(
)
(
⋅ + Θ)
= + ⋅ = ≥Θ , ) ( * * * * B x W B x W x R R f (11) 此決策函數傳回樣本點 x 屬於正類別的程度,由 一個模糊、不精確的邊界分開正類別與負類別, 更能解決現實世界中資料不精確的問題。要延伸 到非線性分割的問題,我們將訓練樣本點 xi 經 過一個非線性轉換 Φ: Rn→ F 映射到一個高維 度的特徵空間 F. 並且在高維度特徵空間中找出 一個最佳的模糊超平面,由於在我們的最佳化數 學模型中,樣本點只會以成對內積 xi⋅xj 與 | | | |xi ⋅ xj 的形式出現,因此映射到高維度特徵空 間 F 後,我們只需要計算他們在高維度特徵空間 中 的 的 內 積 , 也 就 是 計 算 Φ(xi)⋅Φ(xj) 與) ( ) (xi ⋅Φ xj Φ 的數值,藉由適當的定義核心函數 ) ( ) ( ) , ( i j i j k x x = Φ x ⋅Φ x 與 k(xi ,xj )= Φ(xi )⋅Φ(xj ) 我們可以不用知道非線性轉換 Φ 詳細的函數形 式,最後特徵空間中的模糊超平面是由下列歸屬 函數(membership function)所定義 d k b k y y y N k k k i k N k k k k i k Yi + ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ ∑ − ⎟ ⎠ ⎞ ⎜ ⎝ ⎛∑ + + − − = = = 1 1 2 1 1 2 |) | |, (| ) ( ) , ( ) ( 1 ) ( * x x x x α α α α μ . (12) 4.2 蛋白質序列資料集 本 計 畫 採 用 的 蛋 白 質 序 列 是 以 UniProtKB/Swiss-Prot database release 57.12 數據 庫為基礎,篩選出其中有明確的亞細胞定位註釋 的蛋白質條目,並且刪除有多個亞細胞位址的蛋 白質序列,最終的資料集包含人類、大鼠與小鼠 三個已經被研究者廣泛探討的物種,共計有4738 個蛋白質序列,8 個不同的亞細胞位址,詳細資 料見表一。 表一、蛋白質序列資料庫
Subcellular localization No. of entries Cytoplasm 1046 Endoplasmic reticulum 18 Golgi apparatus 22 Lysosome 86 Mitochondrion 293 Nucleus 1902 Peroxisome 62 Secreted 1309 Total 4738 4.3 蛋白質序列編碼方式
胺基酸組成(amino acid composition, AAC) Nakashima 與 Nishikawa 在研究中最早發現 蛋 白 質 的 亞 細 胞 定 位 與 胺 基 酸 組 成 有 關 [Nakashima, 1994],並最早提出了基於胺基酸組成 (amino acid composition, AAC)的編碼方法,AAC
簡單地表示 20 種胺基酸在蛋白質序列中出現的 機率,是一種基本的蛋白質序列編碼方法。AAC 將蛋白質序列映射成20 維的向量: T AAC S v v v v V ( )=( 1, 2, 3..., 20) 其中
∑
= = 20 1 k k i i f f v 而 f 為第 i 種胺基酸在蛋白質序列中出現的次數i (i=1,…,20),顯然 20 1 1 =∑
= k k v 。使用胺基酸組成編碼(amino acid composition, ACC)的優點是計算方便,因此在蛋白質亞細胞預 測定位中,胺基酸組成是應用最普遍的一種編碼 方式。然而ACC 編碼僅僅用蛋白質序列中 20 種 胺基酸出現的百分比組成來表示一條蛋白質,不 可避免的會遺失一些重要的訊息,例如胺基酸出 現的順序等。因此,學者們提出下列不同的編碼 方式來提高預測能力。 n 階耦聯組成(n-OCC)
n 階耦聯組成(n-order coupling composition, n-OCC)編碼方式考慮鄰近的 n 個殘基對某個殘基 的耦聯作用[Feng, 2002]。當 n=0 時,n-OCC 編碼 方式退化為胺基酸組成(ACC) 編碼方式,可用一 個20 維的向量表示;而當 n=1 時,耦聯組成表示 為一個20×20 的條件機率矩陣 ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = ) | ( ) | ( ) | ( ) | ( ) | ( ) | ( ) | ( ) | ( ) | ( ) ( Y Y P Y C P Y A P C Y P C C P C A P A Y P A C P A A P S L M O M M L L φ 其中P
(
a1| a2)
表示蛋白質序列中胺基酸a1出現並 且 胺 基 酸 a2緊 接 其 後 的 機 率 , 所 以 我 們 知 道(
|)
1 20 1 20 1 =∑∑
= = i j j i a a P ;當n>2 時,n-OCC 用多維的條 件機率矩陣表示,n-OCC 在很多文獻中也稱為多 肽鍵組成(polypeptide composition) [Luo, 2002]。在本 計 劃 中 , 我 們 使 用 零 階 耦 聯 組 成 (zero
intervening resides),其編碼方式稱為 KGCC400,
共有 400 維的蛋白質向量;另外,我們也使用結
合 0, 1, 2, 與 3 階的耦聯組成,其編碼方式稱為
4.3 蛋白質序列編碼的合成與特徵選取 雖然有許多不同的蛋白質序列編碼方式提出 來提高蛋白質亞細胞定位的預測能力,但是目前 應 用 最 為 廣 泛 的 還 是 ACC(amino acid composition),主要原因是 ACC 編碼雖然沒有考 慮序列的順序與殘基之間的相互作用,但是ACC 的計算簡單,而且對所有的胺基酸序列都能適 用。而n-OCC 編碼中,向量的維數隨著 n 的增加 呈現指數增加(20n),在現實應用中僅侷限於考慮 n<4 的情形;在使用蛋白質 N 端的胺基酸序列(即 蛋白分選信號序列)進行預測,對於 N 端序列的完 整性有很高的要求,高產量(high-throughput)測序 資料集在很多情況下是不能滿足這一個條件的。 在 胺 基 酸 自 相 關 函 數(auto-correlation function, ACF)的編碼方法中,胺基酸指數的選取與參數的 決定依賴所研究的問題與使用的實驗資料集;而 使 用 功 能 結 構 域 組 成 (functional domain composition, FunDC)編碼方式的計算複雜,且對一 些未知蛋白無法計算其編碼。以同源為基礎的預 測(homology-based detection),雖然提供了高準 確度(highly specificity, precision),但由於需依據 已證實的生物實驗資料集,因此會有很差的回傳 率(lowly sensitivity, recall)。,亦即當執行一筆 預測時,這筆同源的資料必需存在於比對資料庫 中,否則將無法比對,因此並非所有的預測亞細 胞定位都會回傳結果。 研究中發現,混合不同的編碼方式能夠有效 的提高預測準確度,最簡單的混合式編碼方式便 是將各種序列編碼的結果串接成為一個輸入向 量,這種混合編碼方式的優點是簡單與容易實 作,但缺點則是不同的序列編碼方式是根據不同 的概念而提出,而且彼此之間的重要性並不一 樣,齊頭式的將序列編碼串接在一起,反而會造 成混淆,讓不重要的特徵降低了重要特徵的影響 力與鑑別力。而且根據高維度的詛咒,輸入向量 的維度太高反而會降低預測的正確率,因此便有
學者提出來使用 information gain 與 entropy 的方
式對於每一種編碼方式給予不同的權重,較為重 要的序列編碼技術給予較高的權重,在訓練預測 模組時擁有較大的影響力,反之較不重要的編碼 給予較低的權重,在訓練預測模組時擁有較低的 影響力,而權重低於門檻值(threshold)的特徵則直 接予以刪除,減少輸入向量的維度,避免由於高 維度的詛咒導致預測正確率降低。然而不論使用 information gain 或 entropy 等方法來去給予特徵權 重,以及刪去不重要的特徵(feature selection),都 是由統計的方式去分析每單一特徵對於區分類別 所能帶有的鑑別能力,但是他們並沒有辦法評估 當特徵組合在一起時,對於分類的鑑別能力是如 何,有時將數個不重要的特徵組合在一起反而能 使鑑別力大幅升高。因此本計畫將使用另一種混 合編碼的方式,將這些序列特徵組合在一起,其 概念如圖三所示。 圖三、混合式蛋白質序列編碼技術 本計畫將對不同的序列編碼技術:胺基酸組 成(amino acid composition, AAC)、n 階耦聯組成 (n-OCC) 、 胺 基 酸 自 相 關 函 數 (auto-correlation function, ACF) 、 功 能 結 構 域 組 成 (functional domain composition, FunDC)等編碼方式,各自訓 練一個預測模組。第一層預測模組的輸入向量是 蛋白質序列使用該編碼技術的序列編碼,而第一 層預測模組輸出的結果,是經由所對應編碼方式 所得到此蛋白質序列屬於不同亞細胞位址的機率 值。將第一層預測模組輸出的結果串接在一起 後,當作第二層預測模組的輸入向量,而第二層 預測模組輸出的結果,是整合所有編碼方式所得
到的該蛋白質序列屬於不同亞細胞位址的機率 值。如圖三所示,第一層預測模組是將單一序列 編碼技術的特徵,根據分類器學習的過程中給予 不同的權重,以獲得最好的預測正確率;而第二 層預測模組是將全部的編碼技術的結果,根據第 二層分類器學習的過程中給予不同的權重,以獲 得最好的預測正確率。而且由於個別預測模組只 使用單一序列編碼技術當作輸入向量,輸入向量 的維度較低,因此不會受到高維度詛咒的影響而 降低預測正確率。這種作法的另一種優點是,當 將來要將新的序列編碼技術混合在一起使用時, 我們不用將全部的預測模組重新訓練,只需要訓 練使用新序列編碼的預測模組,以及最後整合的 預測模組便可以,如此對於未來擴充新的序列編 碼技術,將是十分容易。 表二、蛋白質序列編碼組合與描述
Data name Description of dataset AAC
Calculated frequency of each amino acid in a protein sequence. The 20-dimensional matrix was taken.
NOCC400 Defined k is 0, and then the 20 x 20 conditional probability matrix was taken. info200_NOCC16
00
A 200-dimensinal matrix was selected by the information gain from 1600-dimensinal matrix (combined with 0, 1, 2 and 3-GCC). info400_NOCC16
00
A 400-dimensinal matrix was selected by the information gain from 1600-dimensinal matrix (combined with 0, 1, 2 and 3-GCC). gainRatio200_NO
CC1600
A 200-dimensinal matrix was selected by the gain ratio from 1600-dimensinal matrix (combined with 0, 1, 2 and 3-GCC). gainRatio400_NO
CC1600
A 400-dimensinal matrix was selected by the gain ratio from 1600-dimensinal matrix (combined with 0, 1, 2 and 3-GCC).
在本計畫中,我們使用目前應用最為廣泛 ACC(amino acid composition) 、 NOCC400 與 KGCC1600 編碼方式,主要原因是 ACC 編碼雖然 沒有考慮序列的順序與殘基之間的相互作用,但 是ACC 的計算簡單,而且對所有的胺基酸序列都 能適用。而n-OCC 編碼中,向量的維數隨著 n 的 增加呈現指數增加(20n),在現實應用中僅侷限於 考慮 n<4 的情形;所以針對 KGCC1600 共 1600 維 的 蛋 白 質 向 量 , 我 們 使 用 特 徵 選 取(feature selection)的方式來降低資料的維度,在本研究
中,我們使用information gain 與 gain ratio 兩種
特徵選取的方式,從1600 維資料中分別選出 200 與 400 個對亞細胞定位預測有幫助的特徵,並且 也在實驗中特過圖三的方式組合這些特徵編碼方 式。表二整理了實驗中所使用的蛋白質編碼方式 及其描述。 五、結果與討論 在實驗部分,我們比較本計劃所研究提出的模 糊最大化邊界支持向量機與傳統的支持向量機在 蛋白質亞細胞定位預測的效能,傳統的支持向量 機我們使用 LibSVM 這套程式來做實驗,核心函 數則是選擇RBF kernel function,正確率使用 5 次
交叉驗證(five-fold cross validation)來評估,我們將
資料集切成 5 等分,每次用其中 4 份做訓練資料 集,剩下的 1 份做測試資料集,如此重復 5 次, 再將測試資料集的正確率做平均,在支持向量機 預測學習過程當中,模型參數(model parameters) 對於預測正確率有很大的影響,在本實驗中,我 們使用格狀蒐尋的方式來尋找最佳的模型參數。 表三顯示了本實驗蛋白質亞細胞定位預測的 正確率,單純使用 AAC 的編碼方式,傳統的 LibSVM 可以到達 78.76%的正確率,而本計劃所 提出的模糊最大化邊界支持向量機的預測正確率 可以提高到80.96%。如果是使用 KGCC400 的編 碼 方 式 ,LibSVM 預 測 正 確 率 可 以 提 高 為 79.35%,而本計劃的 Fuzzy-SVM 預測正確則提高 為82.51%。 對 於 KGCC1600 的 編 碼 方 式 , 我 們 使 用
information gain 與 gain ratio 二種不同的方式分別
選取出 200 維與 400 維的蛋白質特徵向量,對於 LibSVM 而 言 , 在 info200_NOCC1600 與 info400_NOCC1600 的預測正確率分別為 82.1%與 83.24%,而本計劃所提出的模糊最大化邊界支持 向 量 機 在 info200_NOCC1600 與 info400_NOCC1600 的預測正確率分別為 82.47% 與84.03%,選取的特徵數量越多,預測正確率越 高,而且本計劃提出的Fuzzy-SVM 預測正確率均 比傳統的LibSVM 來的優異。 根據以往的研究文獻顯示,混合不同的編碼方 式能夠有效的提高預測準確度,在實驗中,我們
也使用了圖三的組合式編碼方式,混合了ACC、 KGCC400 、 info400_NOCC1600 與 gainRatio400_NOCC1600 這四種編碼方式,此時 LibSVM 的預測正確率為 84.11%,而本計劃所提 出的模糊最大化邊界支持向量機在的預測正確率 分別為85.56%,由此可見使用組合式的編碼方式 能更提升蛋白質亞細胞定位的預測正確率,而且 本計劃提出的Fuzzy-SVM 預測正確率亦比傳統的 LibSVM 來的優異。 表三、蛋白質序列編碼的預測正確率一覽表
Data name LibSVM Proposed Fuzzy SVM
AAC 78.76 80.96 NOCC400 79.35 82.51 info200_NOCC1600 82.11 82.47 info400_NOCC1600 83.24 84.03 gainRatio200_NOCC1 600 82.51 83.72 gainRatio400_NOCC1 600 83.84 84.85 組合式編碼方式 84.11 85.56 在本計畫中,我們提出一個嶄新的『使用模 糊超平面的模糊支持向量機』來預測蛋白質亞細 胞定位,我們將所有的訓練樣本給予一模糊歸屬 程度,若此樣本越重要,則給予的模糊權重越高, 反之若此樣本較不重要,則給予的模糊權重越 低,在訓練時允許發生分類錯誤以增加未來的推 理能力;此外,支持向量機中要被估計參數如權 重(weight)與偏差量(bias),不再是一個實數而是一 個模糊數(fuzzy number) ,所以本計畫提出的模糊 支 持 向 量 機 使 用 一 個 模 糊 超 平 面 (fuzzy hyperplane)來分割二個類別;更進一步,我們重 新定義了一個新的模糊歸屬函數,而分類的結果 為輸入樣本屬於該類別的模糊歸屬程度。如今我 們將一個充滿了曖昧、不確定的模組使用了Zadeh 所提出的模糊系統來表示。其概念更接近人類的 思考與更符合現實世界的不確定性。在實驗當 中,不論使用何種蛋白質序列的編碼方式,比計 畫所提出的模糊最大邊界支持向量機的預測正確 率都比傳統SVM 來的優異。 參考文獻
[1] R. N. Aturaliya, J. L. Fink, M. J. Davis, et al. “Subcellular localization of manmaliam type II membrance proteins.” Traffic, 7 (5):613-625, 2006. [2] A. Ben-Hur, D. Horn, H.T. Siegelmann, and V.N. Vapnik,
“Support vector clustering.” Journal of Machine
Learning Research, vol. 2, pages 125-137, 2001.
[3] A. Ben-Hur and W. S. Noble, “Kernel methods for predicting protein-protein interactions,” Bioinformatics, 21 suppl: i38-i46, 2005.
[4] J. D. Bendtsen, H. Nielsen H, G. von Heijne, et al. “Improved prediction of signal peptides: signalP 3.0” J
Mol Biol, 340 (4): 783~795, 2004.
[5] M. Bhasin, G. P. Raghava. “ESLpred: SVM-based method for subcellular localization of eukaryotic proteins using dipeptide composition and PSI-BLAST.” Nucleic Acids Res, 32(web server issue): W414-W419, 2004.
[6] L. Bottou, C. Cortes, J. Denker, H. Drucker, I. Guyon, L. Jackel, Y. LeCun, U. Muller, E. Sackinger, P. Simard, and V. Vapnik, “Comparison of classifier methods: A case study in handwriting digit recognition,” in Proc. Int.
Conf. Pattern Recognition, pp. 77-87, 1994.
[7] M. P. S. Brown, W. N. Grundy, D. Lin, N. Cristianini, C. W. Sugnet, T. S. Furey, Jr.M. Ares, D. Haussler. “Knowledge-based analysis of microarray gene expression data by using support vector machines.” Proc.
Natl. Acad. Sci. USA, 97:262-267, 2000.
[8] W. S. Bu, Z. P. Feng, Z. D. Zhang, and C. T. Zhang, “Prediction of protein structural classes based on amino acid index,” Eur. J. Biochem, vol. 266, pp. 1043-1049, 1999.
[9] Y. D. Cai and K. C. Chou, “Nearest neighbor algorithm for predicting protein subcellular location by combining functional domain composition and pseudo-amino acid composition,” Biochem. and Biophy. Res. Comm., vol. 305, pp. 407-411, 2003.
[10] J. Cedano, P. Aloy, J. A. Perez-Pons, et al. “Relation between amino acid composition and cellular location of proteins,” J. Mol. Biol., vol. 266, no.3, pp. 594-600,
1997.
[11] J.-H. Chiang and P.-Y. Hao, 2003, "A New Kernel-Based Fuzzy Clustering Approach: Support Vector Clustering with Cell Growing", IEEE Trans. on Fuzzy Systems, vol. 11, no. 4, pp. 518-527,2003.
[12] K. C. Chou, “Prediction of protein cellular attributes using pseudo- amino acid composition,” Proteins, vol. 43, pp. 246-255, 2001.
[13] K. C. Chou and Y. D. Cai, “Prediction of protein subcellular locations by GO-FunD-PseAA predictor.”
Biochem Biophys Res Commun, 320(4): 1236-1239,
2004.
[14] C. Cortes, and V.N Vapnik,.” Support Vector Network”.
Machine learning, vol. 20, pp. 1-25, 1995.
[15] D. Cotter, P. Guda, E. Fahy, et al, “MitoProteome: mitochondrial protein sequence database and annotation system.” Nucleic Acids Res, vol. 32(Database issue): D463-467, 2004.
[16] C. H. Q. Ding and I. Dubchak, “Multi-class protein fold recognition using support vector machines and neural networks”, Bioinformatics, vol. 17, no. 4, 2001, Pages 349-358.
[17] S. Dohkan, A. Koike, and T. Takagi, “Support vector machines for predicting protein-protein interactions,”
Genome Informatics 14: 502-503, 2003.
[18] H. Drucker, C. Burges, L. Kaufman, A. Smola, and V. N. Vapnik, “Support vector regression machines,” In
Advances in Neural Information Processing Systems 9,
vol. 9, pp. 155-161. The MIT Press, 1996.
[19] O. Emanuelsson, H. Nielsen, G. von Heijne. P. Chloro, “a neural network-based method for predicting chloroplast transit peptides and their cleavage sites.”
Protein Sci, 8 (5): 978-984, 1999.
[20] O. Emanuelsson, H. Nielsen, S. Brunak, et al. “Predicting subcellular localization of proteins based in their N-terminal amino acid sequence.” J Mol Biol, 300 (4): 1005-1016, 2000.
[21] Z. P. Feng and C. T. Zhang, “A graphic representation of protein sequence and predicting the subcellular locations of prokaryotic proteins,” Int. J. Biochem. Cell Biol., vol. 34, pp3 298-307, 2002.
[22] T. S. Furey, N. Duffy, N. Cristianini, D. Bednarski, M. Schummer, D. Haussler. “Support vector machine classification and validation of cancer tissue samples using microarray expression data.” Bioinformatics, 16(10):906-914, 2000.
[23] J. L. Gardy, C. Spencer, K. Wang, et al. “PSORT-B: Improving protein subcellular localization prediction for Gram-negative bacteria.” Nucleic acids Res, 31 (13): 3613-3617, 2003.
[24] J. L. Gardy, M. R. Laird, F. Chen, S. Rey, C. J. Walsh, M. Ester, F. S. Brinkman. “PSORTb v.2.0: expanded prediction of bacterial protein subcellular localization and insights gained from comparative proteome analysis.” Bioinformatics, 21, 617-23, 2005.
[25] J. Guo, Y. Lin, X. Liu. “GNBSL: A new integrative system to predict the subcellular location for Gram-negative bacteria proteins.” Proteomics, 6 (19): 5099-5105, 2006.
[26] I. Guyon, J. Weston, S. Barnhill, V. Vapnik. “Gene selection for cancer classification using support vector machines.” Machine Learning, 46(1/3):389-422, Jan 2002.
[27] P.-Y. Hao, J.-H. Chiang, and Y.-K. Tu, “Hierarchically SVM Classification Based on Support Vector Clustering Method and Its Application to Document Categorization”, Expert Systems With Applications, vol. 33, no. 3, pp. 627-635, October 2007.
[28] A. Hoglund, P. Donnes, T. Blum, et al. “MultiLoc: prediction of protein subcellular localization using N-terminal targeting sequences, sequence motifs and amino acid composition. Bioinformatics, 22 (10): 1158-1165, 2006.
[29] C. -W. Hsu and C. -J. Lin, “A comparison of methods for multiclass support vector machines,” IEEE Trans. On
Neural Networks, vol. 13, pp. 415-425, 2002.
[30] S. Hua and Z. Sun. “Support vector machine approach for protein subcellular localization prediction.”
Bioinformatics, 17(8):721-728, 2001a.
[31] S. Hua and Z. Sun. “A novel method of protein secondary structure prediction with high segment overlap measure: Support vector machine approach.”
Journal of Molecular Biology, 308(2):397-407, April
2001b.
[32] Y. Huang and Y. Li, “Prediction of protein subcellular location using fuzzy k-NN method,” Bioinformatics, 2004, 20(1): 21-28.
[33] T. Jaakkola, M. Diekhans, and D. Haussler, “A Discriminative Framework for Detecting Remote Protein Homologies”, Journal of Computational Biology, Vol. 7, No. 1-2 : 95 -114, Feb 2000.
[34] G. J. Klir and B. Yuan, Fuzzy Sets and Fuzzy Logic:
Theory and Applications, Prentice-Hall, New Jersey,
1995.
[35] A. Koike and T. Takagi, “Prediction of protein interaction sites and protein-protein interaction pairs using support vector machines,” Genome Informatics, 14: 500-501, 2003.
[36] U. Kreβel, “Pairwise classification and support vector machines,” in Advances in Kernel Methods—Support
Vector Learning, B. Scholkopf, C. J. C. Burges, and A. J.
Smola, Eds. MIT Press, Cambridge, MA, pp. 255-268, 1999.
[37] C. Leslie, E. Eskin, A. Cohen, J. Weston, and W. Noble. Mismatch String Kernels for Discriminative Protein Classification. Bioinformatics, 20:4, pp. 467-476, 2004. [38] Z. Lu, D. Szafron, R. Greiner, P. Lu, D.S. Wishart, B. Poulin, J. Anvik, C. Macdonell and R. Eisner, “Predicting subcellular localization of proteins using machine-learned classifiers,” Bioinformatics, vol. 20, no. 4, , pp. 547–556, 2004.
[39] S. Mukherjee, P. Tamayo, J.P. Mesirov, D. Slonim, A. Verri, T. Poggio. “Support vector machine classification of microarray data.” A.I. Memo 1677, MIT Artificial Intelligence Laboratory, 1998.
[40] K. Nakai and M. Kanehisa. “A knowledge base for predicting protein localization sites in eukaryotic cells.”
Genomics, 14(4): 897-911, 1992.
[41] K. Nakai, M. Kanehisa, “Expert system for predicting protein localization sites in gram-negative bacteria,”
Proteins, vol. 11, no. 2, pp. 95-110, 1991.
[42] K. Nakai and P. Horton, “PSORT: a program for detecting sorting signals in proteins and predicting their
subcellular localization.” Trends Biochem Sci, 24 (1): 34-36, 1999.
[43] H. Nakashima and K. Nishikawa, “Discrimination of intracellular and extracellular proteins using amino acid composition and residue-pair frequencies,” J. Mol. Biol., vol. 238, pp. 54-61, 1994.
[44] K. J. Park and M Kanehisa, “Prediction of protein subcellular locations by support vector machines using compositions of amino acids and amino acid pairs.”
Bioinformatics, 19 (13):1656-1663, 2003.
[45] A. Reinhardt, T. Hubbard, “Using neural networks for prediction of the subcellular location of proteins.”
Nucleic Acids Res, 26(9): 2230-2236, 1998.
[46] M. S. Scott, D. Y. Thomas, M. T. Hallett, “Predicting subcellular localization via protein motif co-occurrence.”
Genome Res, 14 (10A): 1957-1966, 2004.
[47] A. J. Smola and B. Scholkopf, “A tutorial on support vector regression,” NeuroCOLT2 Tech. Report, NeuroCOLT, 1998.
[48] J. Song and K. Burrage, “Predicting residue-wise contact orders in proteins by support vector regression”, BMC
Bioinformatisc; 7: 425. 2006.
[49] H. Tankaka, S. Uejima, and K. Asai, “Linear regression analysis with fuzzy model,” IEEE. Trans. On Syst., Man,
and Cyber., vol. 12, no. 6, pp. 903-907, 1982.
[50] D. Tax and R. Duin, “Support Vector Data Description,”
Machine Learning, vol. 54, pp. 45-66, 2004.
[51] V. N. Vapnik, The Nature of Statistical Learning Theory. Springer-Verlag, New York, 1995.
[52] C. S. Yu, C. J. Lin, and J. K. Hwang, “Predicting subcellular localization of proteins for Gram-negative bacteria by support vector machines based on n-peptide compositions.” Protein Sci, 13 (5): 1402-1406, 2004. [53] Z. Yuan, “Better prediction of protein contact number
using a support vector regression analysis of amino acid sequence”, BMC Bioinformatics 2005, 6:248.
[54] Z. Yuan. Prediction of protein subcellular locations using Markov chain models. FEBS Lett, 451(1): 23-26, 1999. [55] L.A. Zadeh, “The concept of linguistic variable and its
application to approximate reasoning—I,” Inform.Sci., vol. 8, pp. 199-249, 1975.
國科會補助專題研究計畫項下出席國際學術會議心得報告
日期:100 年 10 月 25 日
一、參加會議經過
過去幾年來,International Conference on Machine Learning and Cybernetics (ICMLC)研討會招集了 產官學界當中關於人工智慧、機器學習、控制理論的優秀學者共聚ㄧ起分享研究方面的心得,至今已 經是第 20 個年頭了,在今年,LCMLC 與 International Conference on Wavelet Analysis and Pattern Recognition (ICWAPR)共同在大陸桂林舉辦,也邀請了對於小波轉換在圖訊識別當中優秀的產官學者共 同與會,ICMLC 2011 邀請了世界各地一流的研究學者共聚ㄧ堂,彼此討論互動,分享最新的訊息與最 新的研究心得,並且彼此激勵鼓舞,也邀請了世界ㄧ流的頂尖學者,尤其是 IEEE 學會當中的領導者, 與 IEEE Systems, Man, and Cybernetics Society 學會的主持人擔任演講者,探討最新進的研究方向與主 題,與會者能有許多機會與世界ㄧ流的學者,近距離的討論他們的研究主題,同時也有許多機會能參 考研究先進寶貴的建議,對研究成果做進一步的修正,進而投稿到正式的期刊當中,ICMLC 2011 論文 集被 EI 收錄,論文集也被 IEEE Xplore 索引,而過去 ICMLC 論文集當中部分優秀文章已被國際期刊 接受。今年 ICMLC 2011 於 2011 年 7 月 11-13 日,在大陸桂林喜來登飯店舉辦,會議主席,議程委員 分別為
Honorary Conference Chairs:
- Hongrui Wang, President, Hebei University, China
- Michael Smith, Past President, IEEE Systems, Man & Cybernetics Society, USA
- William A. Gruver, Simon Fraser University, Canada and Past President, IEEE Systems, Man & Cybernetics Society - Philip Chen, University of Macau, Macau and President-Elect, IEEE Systems, Man & Cybernetics Society
- Szu-Wei Yang, President, National Taichung University of Education, Taiwan
計畫編號
NSC 99-2221-E-151 -058
計畫名稱
蛋白質亞細胞定位預測-使用模糊超平面為基礎的嶄新模糊支持向量
機
出國人員
姓名
郝沛毅
服務機構
及職稱
高雄應用科技大學資管系副教授
會議時間
2011 年 7 月 11 日
至
2011 年 7 月 13 日
會議地點
大陸桂林
會議名稱
2011 International Conference on Machine Learnng and
Cybernetics (ICMLC 2011)
發表論文
題目
A NOVEL ASSOCIATIVE CLASSIFICATION ALGORITHM: A COMBINATION OF
LAC AND CMAR WITH NEW MEASURE OF WEIGHTED EFFECT OF EACH RULE
GROUP
General Co-Chairs:
- Daniel S. Yeung, South China University of Technology, China and Junior Past President, IEEE Systems, Man, & Cybernetics Society, USA
- Xizhao Wang, Hebei University, China
Program Committee:
- Chairs:
- Sam Kwong, City University of Hong Kong, Hong Kong - Shyi-Ming Chen, National Taiwan University of Science and
Technology, Taiwan
Publication Co-Chairs:
- Patrick Chan,South China University of Technology, China
- Chunru Dong, Hebei University, China
Local Arrangement Co-Chairs:
- Robert P. Woon, IEEE Systems, Man, & Cybernetics Society, USA
今年 ICMLC 2010 的贊助者有
Hebei University
IEEE Systems, Man and Cybernetics Society
(Technical Co-Sponsorship)
- SMC TC on Computational Intelligence
- SMC TC on Intelligent Internet Systems
- SMC TC on Machine Learning
- SMC TC on Media Computing
- SMC TC on Pattern Recognition
South China University of Technology
Hong Kong Baptist University
Hebei University of Science and Technology
Harbin Institute of Technology Shenzhen Graduate School
University of Macau
Huazhong University of Science and Technology
National Taichung University of Education
職員於 7 月 10 日搭乘飛機到大陸桂林,住宿飯店為會場喜來登飯店,職員發表論文的議程時間 在 7 月 13 日,喜來登飯店 PW2 室,Session 名稱為 Statistical Learning 。
在研討會期間,職參加了下面 2 場 Keynote Speech
Keynote Speech A (Rm S) Speaker: Vladimír Mařík
Topic: Agent Technologies for Industrial Needs: Trends and Challenges
10:25 – 11:25
Keynote Speech B (Rm S) Speaker: Seong-Whan Lee
Topic: Machine Learning Challenges for Huma n Brain Decoding
並且參與了Neural Networks and Support Vector Machines, Intelligent Systems, Machine Learning and Its Application, Statistical Learning, Intelligent Systems: Methodologies and Applications等session,在會議當中 聆聽到許多不同領域專家,在全世界最先進的研究主題中發表的研究成果,以及未來熱門的研究方向, 收穫非常豐碩,職員於7月14日搭乘飛機離開青島,ICMLC 2011的議程表如下圖所示。
二、與會心得
在研討會期間,職員參加了 Seong-Whan Lee 學者的演講,Topic: Machine Learning Challenges for Human Brain Decoding,時間 7 月 11 日 10:25 – 11:25,地點 Keynote Speech B (Rm S), Seong-Whan Lee 學者介紹了一個非常先進的研究主題,長久以來人工智慧的目的,就是要電腦模擬 人類大腦的運作/思考方式,讓電腦可以像人腦一樣會思考,進而提供人類各種先進的服務,然而人 類大腦運作的方式至今始終是一個最大的迷團,雖然類神經網路可以模擬人類的大腦神經元的運作 方式,但是由於大腦神經元彼此互動連結,腦電波傳遞的方式太為複雜,導致現今的類神經網路一 直無法向上突破,能更貼近人類大腦運作的方式,支持向量機雖然是一個很先進的類神經網路模型, 但他是透過 Vapnik 的統計學習理論建立的演算法,並沒有把人類學習的方式放入在裡面,如何將大 腦運作的方式解碼,一步一步分析出大腦運作的流程,將低層次的腦神經元運作與高層次的概念結 合在一起,是下一階段人工智慧最需克服的難題之一,職員在此演講中對於Seong-Whan Lee 學者 精湛的演講,用深入淺出的方式,說明人工智慧的發展過程與未來展望,十分的佩服。 在職員報告的研究成果的場次,與會人員討論十分熱烈,給職員許多寶貴而中肯的建議,雖然 當中許多學者並不是關連分類研究領域,但是他們從其他領域的研究觀點,例如圖訊識別、機器 學習、模糊系統,給了職員不同角度的省思,激盪出許多不同的研究想法,例如在使用關連分類 演算法與球狀支持向量機做蛋白質亞細胞定位預測時,應該將跨物種的蛋白質序列一併加以考 慮,並且考慮由不同實驗所得到的蛋白質洗細胞定位訓練樣本,應該有不同的可信賴程度,有的 實驗比較細緻,得到的訓練樣本比較可靠,而有些大產量實驗所得到的訓練樣本比較粗糙,偽陽 性與偽陰性比率過高,所得到的訓練樣本比較不可靠,所以應該將模糊理論納入考慮,給予不同 的訓練樣本不同的可信賴度,信賴度較高的訓練樣本則較不允許訓練錯誤,反之信賴度較差的訓 練樣本則允許訓練錯誤,此外現行的蛋白質亞細胞定位的訓練樣本數目過少,使用關連式分類與 球狀支持向量機無法獲得良好的預測正確率,應該增加訓練樣本的數目,或是建立一個增加式的 學習演算法,當訓練樣本增加時,可以不用重新訓練整個分類模型,而是只需訓練新增加的訓練 樣本,建構出更強健的蛋白質亞細胞預測模型,並對於資訊做正規化處理,篩除掉蛋白質序列長 度太短的樣本,因為它們可能是雜訊樣本,而降低學習模型的預測能力,並且針對蛋白質序列有 多重亞細胞定位的樣本的情況下,也應該給予篩除,因為這有可能降低亞細胞預測模型的推理能 力,這些寶貴的建議與其他研究先進的經驗,皆可供職員未來在蛋白質亞細胞定位預測研究時, 加以修正改進,與會成果十分豐碩,在彼此研討與互相分享研究心得的過程中,職員也學習到世 界一流學者的研究態度與研究方法,獲益良多。
三、建議
近年來,大陸地區積極舉辦大型的國際研討會,增加大陸地區學者與世界頂尖學者的互相交流 合作的機會,大陸學者的研究競爭力也是不斷提升,台灣地區的學者也應該有所警惕,不能鬆懈, 建議產官學界能多補助在國內舉辦大型的國際研討會,增加國內學者與世界一流學者的交流合 作,增加國內學者的國際能見度,進而組成研究社群,彼此分享資訊,交流最新研究成果,創意 激發新的研究主題,提昇國內學者的研究競爭力。四、攜回資料名稱及內容
『ICMLC 2011 論文集』收錄上百篇最新的學術研究論文,內容含括機器學習、智慧型系統、
模糊理論、圖訓識別、生物資訊、類神經網路等等研究主題,其中有目前最新的研究方向,最先 進的機器學習與圖訊識別技術,最新的研究成果與問題探討,ICMLC 2011 論文集當中最佳論文也 被推薦修改後投稿國際期刊發表。
國科會補助計畫衍生研發成果推廣資料表
日期:2011/10/26國科會補助計畫
計畫名稱: 蛋白質亞細胞定位預測-使用模糊超平面為基礎的嶄新模糊支持向量機 計畫主持人: 郝沛毅 計畫編號: 99-2221-E-151-058- 學門領域: 生物資訊無研發成果推廣資料
99 年度專題研究計畫研究成果彙整表
計畫主持人:郝沛毅 計畫編號:99-2221-E-151-058- 計畫名稱:蛋白質亞細胞定位預測-使用模糊超平面為基礎的嶄新模糊支持向量機 量化 成果項目 實際已達成 數(被接受 或已發表) 預期總達成 數(含實際已 達成數) 本計畫實 際貢獻百 分比 單位 備 註 ( 質 化 說 明:如 數 個 計 畫 共 同 成 果、成 果 列 為 該 期 刊 之 封 面 故 事 ... 等) 期刊論文 0 0 100% 研究報告/技術報告 0 0 100% 研討會論文 1 0 100% 篇 論文著作 專書 0 0 100% 申請中件數 0 0 100% 專利 已獲得件數 0 0 100% 件 件數 0 0 100% 件 技術移轉 權利金 0 0 100% 千元 碩士生 1 0 100% 博士生 1 0 100% 博士後研究員 0 0 100% 國內 參與計畫人力 (本國籍) 專任助理 0 0 100% 人次 期刊論文 0 0 100% 研究報告/技術報告 0 0 100% 研討會論文 2 0 100% 篇 論文著作 專書 0 0 100% 章/本 申請中件數 0 0 100% 專利 已獲得件數 0 0 100% 件 件數 0 0 100% 件 技術移轉 權利金 0 0 100% 千元 碩士生 0 0 100% 博士生 0 0 100% 博士後研究員 0 0 100% 國外 參與計畫人力 (外國籍) 專任助理 0 0 100% 人次其他成果
(
無法以量化表達之成 果如辦理學術活動、獲 得獎項、重要國際合 作、研究成果國際影響 力及其他協助產業技 術發展之具體效益事 項等,請以文字敘述填 列。) 無 成果項目 量化 名稱或內容性質簡述 測驗工具(含質性與量性) 0 課程/模組 0 電腦及網路系統或工具 0 教材 0 舉辦之活動/競賽 0 研討會/工作坊 0 電子報、網站 0 科 教 處 計 畫 加 填 項 目 計畫成果推廣之參與(閱聽)人數 0國科會補助專題研究計畫成果報告自評表
請就研究內容與原計畫相符程度、達成預期目標情況、研究成果之學術或應用價
值(簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性)
、是否適
合在學術期刊發表或申請專利、主要發現或其他有關價值等,作一綜合評估。
1. 請就研究內容與原計畫相符程度、達成預期目標情況作一綜合評估
■達成目標
□未達成目標(請說明,以 100 字為限)
□實驗失敗
□因故實驗中斷
□其他原因
說明:
2. 研究成果在學術期刊發表或申請專利等情形:
論文:□已發表 □未發表之文稿 ■撰寫中 □無
專利:□已獲得 □申請中 ■無
技轉:□已技轉 □洽談中 ■無
其他:(以 100 字為限)
3. 請依學術成就、技術創新、社會影響等方面,評估研究成果之學術或應用價
值(簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性)(以
500 字為限)
隨著人類基因組計畫的實施與推展,生命科學領域已進入後基因體時代,後基因體時代的 研究重點集中到功能基因組學上,而一個迫切且更有挑戰性的問題是如何從序列數據訊息 中分析蛋白質的生物功能。研究表明,蛋白質的功能與其亞細胞位址息息相關,蛋白質合 成後,必須被轉送到特定的細胞部位才能發揮其功能,因此了解蛋白質的亞細胞定位訊 息,可以為推斷蛋白質的生物功能提供必要的幫助,因此,發展電腦計算方法從蛋白質的 一級序列出發預測亞細胞定位變成日益重要的問題。支持向量機(Support Vector Machine,SVM)以 Vapnik 的統計學習理論為基礎,具有極優 良的推理能力,在本計畫中,我們提出一個嶄新的『使用模糊超平面的模糊支持向量機』 來預測蛋白質亞細胞定位,支持向量機中要被估計參數如權重(weight)與偏差量(bias), 不再是一個實數而是一個模糊數(fuzzy number) ,所以本計畫提出的模糊支持向量機使 用一個模糊超平面(fuzzy hyperplane)來分割二個類別;更進一步,我們重新定義了一個 新的模糊歸屬函數,而分類的結果為輸入樣本屬於該類別的模糊歸屬程度,並且應用在蛋 白質亞細胞定位預測的問題上。 歐美各國均已紛紛投入大量人力與資源,成立大規模國家蛋白質體學研究中心或新興生技 藥物蛋白質體開發公司,投入以高效能自動化的技術平台進行蛋白質體學相關研究以加速 完成針對人體蛋白質的組成、功能與交互影響所進行的蛋白質體解碼計劃,為生物科技與 新藥發展上提供完整的蛋白質層次的生物資訊資料庫。台灣在此領域仍處於萌芽的階段,