微型核醣核酸靶基因預測---使用最大邊界球狀支持向量機

(1)

行政院國家科學委員會專題研究計畫成果報告

微型核醣核酸靶基因預測-使用最大邊界球狀支持向量機

研究成果報告(精簡版)

計畫類別：個別型計畫編號： NSC 100-2221-E-151-067- 執行期間： 100 年 08 月 01 日至 101 年 07 月 31 日執行單位：國立高雄應用科技大學資訊管理系計畫主持人：郝沛毅計畫參與人員：碩士班研究生-兼任助理人員：蔡文期碩士班研究生-兼任助理人員：王誌國報告附件：出席國際會議研究心得報告及發表論文公開資訊：本計畫可公開查詢

中華民國 101 年 10 月 30 日

(2)

中文摘要：微型核醣核酸(microRNAs； miRNAs)是一類約 19-23 個核苷酸(nt)長度的非編碼小分子 RNA，廣泛存在於動植物細胞中，miRNA 透過和靶基因的不精確互補配對而裂解 mRNA 或抑制翻譯的起始，在基因調控網路中扮演相當關鍵的角色。由於受 miRNA 調控的基因參與各式重要的生物功能，所以正確地認識 miRNA 的生物學功能及其與靶基因的作用機制是人們非常關注的問題，而 miRNA 靶基因的確定是研究 miRNA 生物學功能的最大關鍵。但是，由於 miRNA 以及可能受其調控的 mRNA 的數量非常龐大，而以生物實驗方式識別 miRNA 靶基因的技術又多是昂貴且耗時的。因此，透過電腦計算的方式，正確又有效率的預測 miRNA 的靶基因已成為當前研究的重點。

支持向量機(Support Vector Machine，SVM) 是近來非常熱門的一種機器學習技術，它以 Vapnik 的統計學習理論為基礎，具有極優良的推理能力，支持向量機已經成功地應用在生物資訊各類問題中。在本計畫中，我們將提出一個新穎的『使用最大邊界的球狀支持向量機』來預測 miRNA 靶基因。眾所皆知，在 miRNA 靶基因預測問題中，很難能採集到充分與具有代表性的負樣本訓練集合，球狀支持向量機其中一個優點是可以不用負樣本來建立分類器，所以可以巧妙的避開負樣本不易收集的問題，除此之外，球狀支持向量機中的球心與球半徑可以用來描述樣本分佈的平均值與變異量之特性，所以在處理樣本分佈不平均的資料集能獲得優秀的表現。本計劃將結合球狀支持向量機的優點，同時加入最大化邊界的概念，將他應用在 miRNA 靶基因預測的問題上。中文關鍵詞：微型核醣核酸； miRNA 靶基因預測；生物資訊； RNA 干擾；計算生物學；支持向量機

英文摘要： MicroRNAs (miRNAs) are a class of small non-coding RNAs of 19-23 nucleotides known to play an essential task in gene regulatory networks by inhibiting the gene expression through target mRNA degradation or translational gene silencing. As their mRNA targets are genes involved in important cell functions, there is a growing interest in identifying the relationship between miRNAs and their target mRNAs. Identifying targeting genes that miRNAs regulate are important for understanding their specific biological

functions. However, due to the large number of miRNAs and potential targets, an experimental based

(3)

prediction design would be extremely laborious and economically unfavorable. So, there is now an

imperative need to develop a computational method by which we can identify the target mRNAs of existing miRNAs.

The Support Vector Machines (SVMs) have been very successful in bioinformatics. It is based on the idea of structural risk minimization, which shows that the generalization error is bounded by the sum of the training error and a term depending on the Vapnik-Chervonenkis dimension. By minimizing this bound, high generalization performance can be achieved. In this project we will develop a novel maximal-margin fuzzy-hyperplane one-class SVM for the prediction of miRNA targets. One of the benefits of one-class SVM is the predictor could be build without the negative examples. Because there are no ＇gold standard＇ negative examples in the problem of predicting miRNA targets, the proposed maximal-margin fuzzy-hyperplane one-class SVM can handle this problem efficiently. Furthermore, we will incorporate the concept of fuzzy set theory into the support vector machines (SVMs) methodology. We apply a fuzzy membership to each training data and reformulate the SVM such that different training data can make different

contributions to the learning of decision surface. Besides, the parameters to be identified in the SVMs, such as the components within the weight vector and the bias term, are fuzzy numbers. This integration will develop a maximal-margin fuzzy hyperplane and preserve the benefits of SVMs learning theory and fuzzy set theory, where the SVMs learning theory characterizes the properties of learning machines which enable them to effectively generalize the unseen data and the fuzzy set theory might be very useful for finding a fuzzy structure in an evaluation system.

英文關鍵詞： microRNAs； microRNA target prediction；

bioinformatics； computational biology； fuzzy set theory； support vector machines； one-class

(4)

(5)

行政院國家科學委員會補助專題研究計畫

成果報告

□期中進度報告

微型核醣核酸靶基因預測-使用最大邊界球狀支持向量機

計畫類別：個別型計畫 □整合型計畫

計畫編號：NSC 100－2221－E－151－067－

執行期間： 100 年 8 月 1 日至 101 年 7 月 31 日

執行機構及系所：國立高雄應用科技大學資訊管理系

計畫主持人：郝沛毅

共同主持人：

計畫參與人員：蔡文期、王誌國

成果報告類型(依經費核定清單規定繳交)：精簡報告 □完整報告

本計畫除繳交成果報告外，另須繳交以下出國心得報告：

□赴國外出差或研習心得報告

□赴大陸地區出差或研習心得報告

出席國際學術會議心得報告

□國際合作研究計畫國外研究報告

處理方式：除列管計畫及下列情形者外，得立即公開查詢

□涉及專利或其他智慧財產權，□一年□二年後可公開查詢

中華民國 101 年 10 月 30 日

(6)

一、中文摘要

微型核醣核酸(microRNAs; miRNAs)是一類約 19-23 個核苷酸(nt)長度的非編碼小分子 RNA，廣泛存在於動植物細胞中，miRNA 透過和靶基因的不精確互補配對而裂解 mRNA 或抑制翻譯的起始，在基因調控網路中扮演相當關鍵的角色。由於受 miRNA 調控的基因參與各式重要的生物功能，所以正確地認識 miRNA 的生物學功能及其與靶基因的作用機制是人們非常關注的問題，而 miRNA 靶基因的確定是研究 miRNA 生物學功能的最大關鍵。但是，由於 miRNA 以及可能受其調控的 mRNA 的數量非常龐大，而以生物實驗方式識別 miRNA 靶基因的技術又多是昂貴且耗時的。因此，透過電腦計算的方式，正確又有效率的預測 miRNA 的靶基因已成為當前研究的重點。

支持向量機(Support Vector Machine，SVM) 是近來非常熱門的一種機器學習技術，它以Vapnik的統計學習理論為基礎，具有極優良的推理能力，支持向量機已經成功地應用在生物資訊各類問題中。在本計畫中，我們將提出一個新穎的『使用最大邊界的球狀支持向量機』來預測miRNA靶基因。眾所皆知，在miRNA靶基因預測問題中，很難能採集到充分與具有代表性的負樣本訓練集合，球狀支持向量機其中一個優點是可以不用負樣本來建立分類器，所以可以巧妙的避開負樣本不易收集的問題，除此之外，球狀支持向量機中的球心與球半徑可以用來描述樣本分佈的平均值與變異量之特性，所以在處理樣本分佈不平均的資料集能獲得優秀的表現。本計劃將結合球狀支持向量機的優點，同時加入最大化邊界的概念，將他應用在miRNA靶基因預測的問題上。 關鍵字: 微型核醣核酸; miRNA靶基因預測; 生物資訊; RNA干擾; 計算生物學; 支持向量機 二、前言 隨著分子生物技術的發展，基因表現分析已陸續在許多疾病研究上被應用。過去對基因表現的「中心教條」－去氧核醣核酸 (DNA) 轉錄為訊息核醣核酸 (mRNA)，接著必定轉譯為蛋白質(圖一)，因此 mRNA 的表現似乎就理所當然代表蛋白質的表現。但近幾年已證實基因體的RNA 產物中，其實存在更多其他的訊息，如轉錄成RNA 卻不會轉譯成蛋白質的RNA 序列，稱作非轉譯醣核酸 (nocoding RNA; ncRNA)。它的重要性可從兩個角度說明：首先，從演化的角度，2001 年Malter 等人比對12 個物種基因序列上的高度保留區域 (highly conserved regions)，發現有80%都位在插入序列 (intron )或是基因和基因之間 (intergenetic regions)，顯然這些非轉譯蛋白質序列區域 (nonprotein coding regions)在生物體中扮演重要的角色，只是功能尚未被研究清楚[Malter, 2001]。第二，物種的複雜程度似乎也與ncRNA 的相關性較高，與mRNA 的相關性反而很差[Taft, 2007]。

圖一、分子生物學中心教條

近幾年，科學家在較高等真核生物發現數種不會產生蛋白質的RNA，例如小片段核仁RNA（small nucleolar RNA）、小片段干擾RNA（small interference RNA，siRNA）、微型RNA （microRNA，miRNA）和反義RNA（antisense RNA）；這些小片段RNA的功能同時也證明了真核生物的基因調控遠比我們以前所預期的還要複雜的多。這些小片段RNA 都是藉由與某些mRNA 序列互補的專一性而達到其調控基因表現的目的；可以調控基因表現的小片段RNA在個體發育、細胞分化、細胞增生、細胞死亡、染

(7)

色體結構、抗病毒反應、以及致死基因表現等都扮演重要角色[Martello, 2007; Barte, 2004]。這些小片段RNA 調控基因的作用，統稱為RNA干擾（RNA interference, RNAi），因之可作為研究基因功能的工具，眾多學者投入研究其機制或應用；尤其2006 年諾貝爾生醫獎得主為研究RNAi 的團隊，更將 RNAi 研究熱潮推至高峰，而微型核醣核酸(microRNAs; miRNAs)更是這波熱潮中鎂光燈聚集的焦點。

miRNA 除了在細胞中對基因表現的調控扮演相當重要的角色外，近年的研究也發現它為疾病的早期診斷或預後開啟一扇新的視窗，miRNA突變或異常表達，與癌症的形成很有關係。透過人類腫瘤的miRNAs 表現量分析，已經找出許多與診斷、腫瘤分期、疾病進程和治療效果相關的標記[Calin, 2006]。俄亥俄大學的Huiling He博士等人發現[He, 2005]，僅透過5種miRNA即能分辨癌化甲狀腺組織與健康者。另外，Lu等人系統分析了217個哺乳動物的miRNA，發現腫瘤細胞中各種miRNA的表達量與正常細胞相比普遍下調[Lu, 2005]。利用miRNA表達譜，他們成功的對難以區分的腫瘤進行了準確分類，而利用mRNA表達譜則無法實現分類。探討miRNA與腫瘤之間的關係，將可更明確的了解其調控的過程，進而發展出有效的方法來預防或治療癌症。另外，miRNA 也調控神經的發育，包含樹突型態與軸突生長[He, 2004; Stefani, 2008; Kim, 2005]。許多研究也指出miRNAs 可能在腦部疾病中扮演極重要的角色[Rogaev, 2005; Perkins, 2005]。例如會產生動作與聲語痙攣（tics）的妥瑞症（Tourette syndrome），研究已證實特定的miRNA 會調控腦中多巴胺性神經元的分化成熟與正常功能，在帕金森氏症 (Parkinson’s disease) 的致病機轉當中扮演重要角色，近幾年miRNA 在帕金森氏症和阿茲海默症的發展，為腦部神經退化性疾病開創一個令人振奮的研究方向[Hebert, 2007]。

總和上述，正如2008 年<科學>期刊的基因調控特刊中[Couzin, 2008]，William Marchall 對於 miRNA 發展現況的描述「我們可以開始用一個完全不同的策略來攻擊疾病」，miRNA 可望為人類疾病的研究帶來一個嶄新的氣象與希望。

三、研究目的

尋找調控的 miRNA 基因以及 miRNA 的靶基因，對於揭示 miRNA 具體的作用機制是非常重要的。就目前的研究來看，雖然在各個物種中發現的 miRNA 數量不少，但是能給出直接證據證明 miRNA 的靶基因及其功能的 miRNA 卻很少，而且多數是通過篩選突變子獲得的，這說明現在尋找 miRNA 基因的研究與它功能的研究是脫節的。現在擺在科學家們面前的兩大問題就是：在各種生物中找齊這些 miRNA 和找到它們的靶基因並揭示它們的功能，這也可以說是後基因組時代需要解決的問題之一。如前面所介紹的，對miRNA靶基因進行實驗驗證的方法，其共同的缺點便是太過耗時，缺少一個快速、簡便、高通量的鑒定方法，且常受限於純化及分離技術的瓶頸，而且進行實驗所必須花費的成本也是非常的大，因此在很多情況，必須藉助生物資訊的方法來進行預測的工作。透過電腦計算方式從核醣核酸序列來進行miRNA靶基因預測是可經濟地確認某未知miRNA的功能，也是生物訊息學研究的有力工具。使用電腦計算的方式預測miRNA的靶基因有許多好處，第一，也是最重要的，就是他所需要的成本非常低。而且大量的預測miRNA靶基因，也能幫助生物學家可以不必經由實驗，從一堆miRNA中更有針對性的找出感興趣的miRNA對其研究。另外，將所有的miRNA的靶基因轉化為基因調控網路，也可作為研究基因調控網路功能的基礎。由於支持向量學習機 (support vector machine,SVM)具有優異的推理能力，所以常用來作為預測miRNA靶基因的演算法。不過，在使用傳統的支持向量機來預測RNA靶基因時，仍有許多問題必須解決。 a. 負樣本收集不容易： 傳統支持向量機是一個二元分類器，必須要從正/負訓練樣本中建立出一個最佳的分類超平面，而負樣本(沒有與 miRNA 結合的 mRNA 序列)必需小心謹慎的選取，才能訓練出一個具有高正確率的分類

(8)

機器，在 miRNA 靶基因預測問題中，採集負訓練樣本是一件很困難的事情，因為無結合的 miRNA-mRNA 序列樣本是一個十分大的集合，這使得我們很難能採集到『充分(sufficient)』與具有『代表性(representative)』的負樣本訓練集合。現存的 miRNA 靶基因資料庫中(如 TarBase)，皆僅提供正樣本而已。而早先的預測方法，在選取負樣本的作法上都有嚴重的偏差性，例如『隨機』的產生負樣本序列，而負樣本 mRNA 序列中核苷酸出現機率分佈與已知的正樣本核苷酸出現機率分佈不一致[Enright, 2003; Yousef, 2007]，或是將已知與 miRNA 結合的目標 mRNA 核苷酸序列隨機打散[Brennecke, 2005; Lewis ,2003; Lai, 2003]，這樣子選取出來的負樣本是會有偏差的，而且這些負樣本（隨機產生的 mRNA 序列）還是有可能跟 miRNA 相結合[Lewis, 2003; Rodriguez, 2004; Krek, 2005]，所以這種方式選取的負樣本並不可靠。也有學者根據把 mRMA 的結合區域(target site)刪除，則 miRNA 與 mRNA 就沒有辦法結合的特性來產生負樣本[Kim, 2006]，同樣地，這樣子還是很難選取出充分而且具有代表性的負樣本。 b. 正／負樣本分佈不均勻 傳統支持向量機是以超平面為基礎，其邊界(margin)假設為一個條狀的區域，由此最大化的邊界分隔正負類別的樣本，並假設最佳的決策超平面就落在邊界的正中間。由於這樣的限制，所以在樣本誤差分佈差異不平均的情況下，傳統支持向量機並沒有辦法處理得很好。在 miRNA 靶基因預測問題當中，相對於正樣本(有結合的 miRNA-mRNA 序列)，負樣本是一個十分大的樣本集合，正負樣本的分佈非常不均勻，負樣本分布的變異性比正樣本高出許多，所以傳統 miRNA 預測軟體的偽陽率都是十分的高[Kim, 2006; Wang, 2008]。近年來，一種新穎的球狀(spherical structured)支持向量機被學者們提出[Tax, 2004]，由於球狀支持向量機可以僅需要正樣本就可以建立，所以可以巧妙的避開負樣本不易收集的問題，除此之外，球狀支持向量機的球心與球半徑可以表示樣本分佈的平均值(mean)與變異量(variance)，由於考慮到樣本分佈的平均值與變異量這些資訊，所以對於樣本分佈不均勻(imbalance)的問題，球狀支持向量機能夠達到更高的分類正確率，然而傳統的球狀支持向量機並沒有考慮到邊界(margin)的概念，根據 Vapnik 的統計學習理論，最大化邊界等同於最小化推理誤差的上界[Vapnik, 1995]。在本計畫中，我們將提出一個新穎的最大邊界球狀支持向量機(maximal-margin spherical-structured SVM)，並且把他應用在 miRNA 靶基因預測的問題中，同時提出一個模糊歸屬函數計算來一個樣本點屬於每一個類別的程度，讓他能夠更貼切生物資訊的應用以及達到更正確的結果。 四、研究方法 首先，我們為微型核醣核酸(miRNA)靶基因預測問題作數學化的定義，假設給定一個微型核醣核酸 (miRNA)序列，其序列長度為 K，令 z = {z1,z2,…,zK} 表示它的核苷酸序列，其中 zk  S，表示微型核 醣核酸 z 從 5’端算起在第 k 個位置上的核苷酸，而且 S = {A,T,C,G}，對一個要預測是否結合的訊息 核醣核酸 (mRNA)序列 m 的 3’端未轉譯區(3’ UTR)，我們從它 3’端終點擷取出來一條長度為 N 的序 列，並表示為 s = {s1,s2,…,sN}，其中 sn  S，表示訊息核醣核酸 (mRNA) 序列 s 從 3’端未轉譯區的 3’ 端為起點算起在第 n 個位置上的核苷酸，如下圖二所示: 圖二、微型核醣核酸(miRNA)與目標訊息核醣核酸 (mRNA)的釋義圖 我們除了可以直接由核苷酸序列 z 與 s 來預測微型核醣核酸(miRNA)是否與要測試的訊息核醣核酸

(9)

(mRNA)相結合，我們也可以由核苷酸序列 z 與 s 中萃取出重要的特徵，例如 miRNA 與 mRNA 核苷 酸的配對性，彼此結合的自由能等資訊，都可以用來預測 mRNA 是否為 miRNA 的靶基因，令 x 表示

從核苷酸序列 z 與 s 中萃取出來的特徵向量，其中 xj表示第 j 個特徵，而微型核醣核酸(miRNA)靶基

因預測問題的目標就是由特徵向量 x 來預測訊息核醣核酸 (mRNA)是否為微型核醣核酸(miRNA)的結 合目標，令 y{0,1}表示 miRNA 與 mRNA 是否有結合，當 y = 1 表示 mRNA 是給定的 miRNA 的結合 目標(target)，而當 y = 0 表示 mRNA 不是給定的 miRNA 的結合目標，我們的目標即是找出一個決策函 數(或稱為分類器)，使得 y = f(x)，也就是說由從核苷酸序列 z 與 s 中萃取出來的特徵向量 x 來預測 y。

相較於以人工建立規則為主的 miRNA 靶基因預測方法，由於人類對於 miRNA 與其目標 mRNA 互相作用的機制並不十分了解，很難建立出有效的規則來預測 miRNA 的靶基因，它們所使用的規則通常是較主觀與特殊的，而透過資料推導與機器學習的方式可以得到較客觀與一般性的決策函數。給定一 個訓練資料集 D={(z1,s1),…,(zT,sT)}，其中包含 T 筆訓練資料，而 (zi,si) 是表示第 i 筆訓練樣本，並且事 先知道 mRNA 序列 si 是否為 miRNA 序列 zi 的結合目標，我們便可以使用統計學習方法找出特徵向 量 x 與輸出 y 之間的關係，進而估計出決策函數 f。一般來說，miRNA 靶基因預測的過程可分成下 面四個步驟: a. 資料集的建構: 抽取出一個高質量的 miRNA 靶點資料集，並分成訓練集與測試集； b. 序列編碼: 從 miRNA 與 mRNA 的核苷酸序列中萃取出重要的特徵訊息； c. 預測模型設計: 選擇合適的演算法，根據前面的特徵訊息向量作出預測； d. 預測結果評估: 用測試資料集對預測的正確率作評估。 簡單的說，過去預測方法的不同之處主要存在於二個方面；第一，miRNA 與 mRNA 核苷酸序列的特徵訊息提取，轉換成高維度的特徵向量，作為預測的輸入。第二，預測模型的設計與實現，主要是指根據提取的特徵向量集，利用有效的演算法來預測 miRNA 的靶基因。現有演算法中以統計學與機器學習方法最為廣泛被應用，而演算法的設計也是影響 miRNA 靶基因預測正確率的重要因素。。

Kim 等學者首先使用支持向量機來預測 miRNA 的靶基因[Kim, 2006; Wang, 2008]，其出色的預測效果使其很快就成為使用得最為普遍的一種演算法。支持向量機以 Vapnik 的統計學習理論為基礎，並且具有極優良的推理能力(generalization ability)，這種新的分類技術等同於最小化推理誤差的上界。近年來，一種新穎的球狀(spherical structured)支持向量機被學者們提出，由於球狀支持向量機可以僅需要正樣本當訓練集合就可以建立，所以可以巧妙的避開負樣本不易收集的問題，除此之外，球狀支持向量機的球心與球半徑可以表示樣本分佈的平均值(mean)與變異量(variance)，所以對於樣本分佈不均勻 (imbalance)的問題可以夠達到更高的分類正確率，然而，傳統的球狀支持向量機並沒有考慮到邊界 (margin)的概念，根據 Vapnik 的統計學習理論，最大化邊界等同於最小化推理誤差的上界[Vapnik, 1995]。在本計畫中，我們將提出一個新穎的最大邊界球狀支持向量機，並且把他應用到 miRNA 靶基因預測的問題中，同時提出一個模糊歸屬函數計算一個樣本點屬於每一個類別的程度，讓他能更貼切生物資訊的應用以及達到更正確的結果。

4.1 以超球為基礎的支持向量機(Hypersphere-based support vector machine)

以超球為基礎的球狀支持向量機最早由[Schölkopf, 2001]所提出，它與傳統使用超平面的支持向量機不同之處，在於傳統的支持向量機是找出一個特徵空間中最佳超平面(hyperplane)來分開二個不同的類別，而球狀支持向量機則是將樣本點經由一個非線性轉換  映射到一個高維度的特徵空間，由支持向量(support vector)來於定義一個特徵空間中的超球(hypersphere)，並且包圍住所有的樣本點。而且一

(10)

個高維度特徵空間中的超球，在原來空間中可以是任意的形狀，球狀支持向量機的概念圖如圖三所示。與傳統支持向量分類機器需要二個類別的訓練樣本不同，球狀支持向量機只需要正樣本即可以做訓練，讓我們來看看它詳細的做法，令{x_i} X 為 N 個點的樣本集合，使用一個非線性轉換  將 X 映射 到一個高維度的特徵空間，我們尋找一個能包含所有樣本點並且有最小半徑的超球，我們可以用一個最佳化的問題來描述它: (a) (b) 圖三、球狀支持向量基的概念圖  i R C R i i i i i       

_

0 ) ( subject to minimize 2 2 2 a, R, _i     a x (3) 其中 R 是球的半徑， a 是球的中心點，而  表示尤拉距離，_i為鬆弛變數， C 是一個常數，表示 我們對於誤差的懲罰程度，C 值越大，越不允許樣本點出現在球外(與球心的距離超出球半徑)。根據拉 格朗日(Lagrangian)理論，我們得到下面的最佳化問題: C W i i i j j i i j i i i i i         



      0 1 o subject t ) ( ) ( ) ( maximize , 2 x x x (4) 其中  是一個非線性轉換將樣本點映射到高維度特徵空間，藉由定義核心函式(kernel function) ，我們可以不用瞭解  的詳細內容: ) ( ) ( ) , ( i j i j K x x  x  x (5) 其中 “.” 表示內積。解出二次最佳化問題後，我們得到的最佳解 ，利用下面的公式，我們可以計算_i 在特徵空間中每一點(x)到球中心點 a 的距離      

_



_

j i j i j i i i iK K K d , ) , ( ) , ( 2 ) , ( ) ( ) (x x a x x  x x  x x (6) 圖三(a)表示將所有的樣本點經由一非線性轉換  映射到高維度特徵空間，並找出一個有最小半徑

(11)

的球來包含特徵空間中所有的樣本點，而在圖三(b)中，一但特徵空間中的球被找出來後，我們可以由公式(6)計算出所有點在特徵空間中到球心的距離，而畫出圖三(b)左邊的高度圖，與球心距離越遠則顏色越深，而由高度為球半徑的橫切線定義出一條邊界曲線來包含所有的樣本點，如圖三(b)右邊的圖。要注意的是圖三(a)右圖中的球是一個高維度空間中的超球，他並不是可以由圖形表示出來的，所以我們只是用示意圖來表達他的概念，他是一個特徵空間中的球，用最小的半徑來包含所有的樣本點。 4.2 支援負樣本的球狀支持向量機 雖然球狀支持向量機僅需要正樣本即可以訓練分類器，然而它也可以很輕易的延伸到支援負樣本一同做訓練[Tax, 2004]，假設給定一組訓練資料(x₁,y₁),...,(x_N,y_N)，其中 x_i Rn 且 y_i {0,1} 是樣本點x 的類別標籤，我們在特徵空間中建立一個半徑最小的超球來包含正類別(_i y_i 1)的樣本點，並且將負類別(y_l 0)的樣本點剔除在超球之外，超球的球心 a 與球半徑 R 可經由下面的最佳化問題求出: 圖四、球狀支持向量機的球心 a 與球半徑 R 可以表示出該類別的平均值(mean)與變異量(variance)的資訊，所以球狀支持向 量機得到的決策邊界會更接近最佳的貝式分類線。

_

    0 : 1 : 2 , , , minimize l i l i k k _l_y l n y i i p R _N C N C R     a

subject to (x_i)a 2 R2 _i i such that y_i 1, (7) (x_l)a 2  R2 _l l such that y_l 0, _i 0,_l 0 i,l 其中  , _i  是限制條件的差額變數(slack variables)，_l N_p是屬於正類別的樣本點數目，而N 屬於負類_n 別的樣本點數目，i 與 l 分別是屬於正類別與屬於負類別的樣本點的索引值。根據拉格朗日(Lagrangian) 理論，我們得到下面的對偶問題:             



      0 , : , 0 : , 1 : 1 , : , 0 : 1 : ) , ( ) , ( 2 ) , ( ) , ( ) , ( maximize m l l i j i l i y y m l m l m l y l y i l i l i y y j i j i j i y l l l l y i i i i K K K K K x x x x x x x x x x         subject to 1 0 : 1 :  



  l i ly l y i i   (8)

0  , 0  , such that _i 1and _l 1

n l p i il y y N C N C   , 這邊要強調的是球狀支持向量機的訓練過程是以正樣本為主，藉由一個特徵空間中的超球緊密的包圍正樣本，由超球的球心與球半徑表示正樣本機率分布的平均值與變異數，進而描述正樣本的機率分布函數，而負樣本只是輔助訓練過程中，能讓超球能更正確的描述正樣本的分布情形，所以在球狀

(12)

支持向量機的訓練過程中，對於負樣本的要求，並沒有以超平面為主的支持向量機來的那麼嚴格，即使沒有充分與具代表性的負樣本集合，球狀支持向量機仍可得到優異的表現。在現今 miRNA 靶基因預測問題中，選擇負樣本是很困難的一件事情，現存的 miRNA 靶點資料集中都僅提供正樣本而已，經由實驗鑑定過的負樣本個數非常稀少，這些實驗鑑定過的負樣本既非充分，也無法有代表性的描述整個負樣本的分布情形。在本計畫中，我們也將使用這些經由實驗鑑定過的負樣本來訓練球狀支持向量機， 使它能可以獲得更優異的 miRNA 靶基因預測正確率。球狀支持向量機的另一個優點在於球心 a 與球半 徑 R 可以表示出正類別的平均值(mean)與變異量(variance)的資訊，而這些資訊對於樣本分布不均勻 (Imbalanced)的情形特別重要，以圖四為例，SVM 的分類線是在邊界(margin)的正中間，不過以貝式分類器的角度，如果某一個類別分佈的變異量比較大，則樣本屬於該類別的可能性越高，所以最佳決策線也距離該類別比較遠，而使用球狀支持向量機所得到的決策線會更接近最佳的貝式分類線。 4.3 使用最大邊界的球狀支持向量機(Maximal-margin spherical-structured SVM) 傳統的球狀支持向量機，並沒有把邊界(margin)的觀念納入考慮，根據 Vapnik 的統計學習理論，最大化邊界距離等同於最小化推理誤差(generalization error)的上界，所以在本計畫中，我們將提出一個使用最大邊界的球狀支持向量機，並且把它應用在 miRNA 靶基因問題中，假設給定一組訓練資料 ) , ( ),..., , (x₁ y₁ x_N y_N ，其中 x_iRn 且 y_i {0,1} 是樣本點 x 的類別標籤，我們在特徵空間中建立一_i 個對應的超球S 只包含正類別的樣本點，並且將負類別的樣本點都剔除在超球外，同時要求此超球使_k 用最大的邊界(margin)來切割正類別與負類別的樣本點，球狀支持向量機的邊界(margin)定義為球殼與最靠近它的負樣本之間的距離(如圖五所示)，為了最大化球狀支持向量機的邊界，我們將使用一個邊界因子d 。超球的球心_k a 與球半徑_k R 可經由下面的最佳化問題求出: _k 圖五、最大邊界的球狀支持向量機。        0 : 1 : 2 2 , , , , minimize l i l i k k k _l_y l n y i i p k k d R _N C N C Md R     a

subject to _( )_ 2 _ 2 _ _ such that _1 i i k k i a R  i y x , (9) (xl)ak 2 Rk2 dk2l l such that yl 0, i 0,l 0 i,l 其中  , _i  是限制條件的差額變數(slack variables)，_l N_p是屬於正類別的樣本點數目，而N 屬於_n 負類別的樣本點數目，i 與 l 分別是屬於正類別與屬於負類別的樣本點的索引值。如圖九所示，邊界 (margin)的距離是 R_k2d_k2 R_k，為了最大化邊界(margin)，我們在目標函數中同時最大化 2 k d 與最小化 2 k R ，而參數 M 是他們二者之間的調控(trade-off)參數。根據拉格朗日(Lagrangian)理論，我們得到下面

(13)

的對偶問題:         

_



     1 : 0 ,: , 1 : 1,: 0 , : , 0 : ) , ( ) , ( 2 ) , ( ) , ( ) , ( maximize m l l i j i l i lmy y m l m l y l y i l i l i y y j i j i j i y l l l l y i i i iK x x K x x  K x x K x x  K x x  subject to _M i i  



 1 , M l l 



 , p i N C   0 (10) i such that y_i 1, p l N C   0 l such that yl 0, 求解出上最佳化問題後，我們得到拉格朗日乘數(Lagrange multipliers) 與_i  ，而超球的球心_l a 是_k (x_i) 與 (x_l)的線性組合： 

_

 

_

 l l l i i i k (x ) (x ) a   . (11) 找出超球後，我們可以使用下面的公式計算在特徵空間中某一個樣本點(x)到球心 a 的距離 _k . ) , ( ) , ( 2 ) , ( ) , ( 2 ) , ( 2 ) , ( ) ( , , , 2



        m l m l m l l i l i l i j i j i j i l l l i i i k K K K K K K x x x x x x x x x x x x a x         ₍₁₂₎ 超球的球半徑可以使用下面的 Karush-Kuhn-Tucker (KKT)條件得到：:



_k2  _i  ( _i) _k 2



0 i R  x a  , _l



(x_l)a_k 2 R_k2 d_k2 _l



0, 0           _i _i k N C   , 0          _l _l k N C   . 計算出拉格朗日乘數(Lagrange multipliers) 、_i  與球心_l a 後，代入 KKT 條件，我們可以使用下面的_k 公式計算出超球的半徑： 2 2 ) ( _i _k k a R   x  i such that p i N C   0 , (13) 2 2 2 ) ( _l _k _k k a R d   x   l such that n l N C   0 . (14) 五、結果與討論  為了能夠使用電腦計算方式去預測 miRNA 靶基因，我們需要微型核醣核酸(miRNA)的核苷酸序列資料集，訊息核醣核酸(mRNA)中 3’UTR 的核苷酸序列資料集，核苷酸序列保留性資料集，實驗鑑定出的 miRNA 靶點資料集，維陣列的表現圖譜，本研究計畫使用表格一列出的資料集來建構一個高質量的 miRNA 靶點資料集，並且用它建立出一個 miRNA 靶基因預測系統。另外，傳統支持向量機是一個二元分類器，必須要從正/負訓練樣本中建立出一個最佳的分類超平面，而負樣本(沒有與 miRNA 結合的 mRNA 序列)必需小心謹慎的選取，才能訓練出一個具有高正確率的分類機器，在 miRNA 靶基因預測問題中，採集負訓練樣本是一件很困難的事情，因為無結合的 miRNA-mRNA 序列樣本是一個十分大的集合，這使得我們很難能採集到『充分(sufficient)』與具有『代表性(representative)』的負樣本訓練集合。現存的 miRNA 靶基因資料庫中(如 TarBase)，皆僅提供正樣本而已。而早先的預測方法，在選取負樣本的作法上都有嚴重的偏差性，例如『隨機』的產生負樣本序列，而負樣本 mRNA 序列中核苷酸出現機率分佈與已知的正樣本核苷酸出現機率分佈不一致[Enright, 2003; Yousef, 2007]，或是將已知與 miRNA 結合的目標 mRNA 核苷酸序列隨機打散[Brennecke, 2005; Lewis ,2003; Lai, 2003]，這樣

(14)

子選取出來的負樣本是會有偏差的，而且這些負樣本（隨機產生的 mRNA 序列）還是有可能跟 miRNA 相結合[Lewis, 2003; Rodriguez, 2004; Krek, 2005]，所以這種方式選取的負樣本並不可靠。也有學者根據把 mRMA 的結合區域(target site)刪除，則 miRNA 與 mRNA 就沒有辦法結合的特性來產生負樣本[Kim, 2006]，同樣地，這樣子還是很難選取出充分而且具有代表性的負樣本。本研究所使用的最大邊界球狀支持向量機能夠在僅由正樣本來建構出預測模型，並且只需要少量的負樣本便可以使模型預測的效果更為強健，如此即可以巧妙的避開負樣本收集不容易的問題。表一、miRNA 靶基因預測問題所需要的資料集 Category Website

Genome of different species NCBI FTP(ftp://ftp.ncbi.nih.gov/genomes/)

UCSC FTP(ftp://hgdownload.cse.ucsc.edu/goldenPath/ Homologous gene information UCSC (http://genome.ucsc.edu/)

NCBI(http://www.ncbi.nlm.nih.gov/sites/entrez?db=homologene) Sequence and information of miRNA s miRBase(http://microrna.sanger.ac.uk/sequences/index.shtml) Experimentally validated miRNA targets TarBase(http://diana.cslab.ece.ntua.gr/tarbase/)

miRecords(http://miRecords.umn.edu/miRecords) Computational predicted targets miRecords(http://miRecords.umn.edu/miRecords)

此外，特徵萃取(Feature extraction)是微型核醣核酸(miRNA)靶基因預測問題中重要的一個環節，他會影響靶基因預測的敏感性(sensitivity)與特異性(specificity)，本研究使用了在微型核醣核酸靶基因預測問題

中常使用的特徵萃取方式。包含種子區域互補配對(Seed Region Match)、保留區域資訊（Conservation）、

自由能（Free Energy)、存取能量（Accessibility Energy）、In-Site 特徵（In-Site Features）來擷取出

有用的特徵，作為預測模型的輸入。在本計畫中，我們使用三種不同的球狀支持向量機來預測 miRNA 靶基因，包含傳統的球狀支持向量機、使用負樣本的球狀支持向量機、以及本計畫所研究出的使用最大邊界的球狀支持向量，並且與傳統的超平面基礎的支持向量機做比較，預測正確率如下表二所示，從表二中我們可以看出，傳統的球狀支持向量機由於僅需要正樣本就可以訓練，所以可以巧妙的避開負樣本收集不易的問題，但是也由於沒有考慮到負樣本，所以換含有一定比率的偽陽性預測錯誤，而使用負樣本的球狀支持向量機由於考慮到負樣本，所以偽陽性大幅減少，同時由於 miRNA 靶機因預測問題有著正/負樣本誤差分佈差異不平均的問題，相對於正樣本(有結合的 miRNA-mRNA 序列)，負樣本是一個十分大的樣本集合，正負樣本的分佈非常不均勻，負樣本分布的變異性比正樣本高出許多，所以傳統使用超平面支持向量機無法得到很好的預測正確率，而使用負樣本的球狀的支持向量機因未考慮到正/負樣本的球心(平均值) 與球半徑(變異量)等資訊，所以預測正確率比傳統超平面的支持向量機還要好，最後，使用最大邊界的球狀支持向量機使用了一個具有最大邊界的超球來分割正樣本與負樣本，所以得到的正確率是最出色的。表二、miRNA 靶基因預測正確率方法 正確率 傳統使用超平面球狀支持向量機 75.69% 傳統球狀支持向量機 75.71% 使用負樣本的球狀支持向量機 76.01% 使用最大邊界的球狀支持向量機 76.89%

(15)

參考文獻

[1] Bartel DP. MicroRNAs: genomics, biogenesis, mechanism, and function. Cell, 2004,116:281-297. [2] Brennecke J, et al. Principles of microRNA-target recognition. PLoS Biol., 2005, 3(3), 85.

[3] Calin GA, Croce CM. MicroRNA signatures in human cancers. Nat Rev Cancer, 2006, 6:857-866. [4] Couzin J. MicroRNAs make big impression in disease after disease. Science, 2008, 319:1782-1784. [5] Enright A J, John B, Gaul U, et al. MicroRNA targets in Drosophila. Genome Biol, 2003, 5(1): R1.

[6] He L, Hannon GJ. MicroRNAs: small RNAs with a big role in gene regulation. Nat Rev Genet 2004, 5:522-531. [7] He H., et al.,(2005).The role of microRNA genes in papillary thyroid carcinoma. Proc Natl Acad Sci U S A,

102(52): 19075-19080.

[8] Hebert SS, et al.. Molecular biology. miRNAs in neurodegeneration. Science 2007, 317:1179-1180. [9] Kim VN. Small RNAs: classification, biogenesis, and function. Mol Cells, 2005, 19:1-15.

[10] Kim S K, Nam J W, Rhee J K, et al. MiTarget: microRNA target gene prediction using a support vector machine. BMC Bioinform, 2006, 7(1): 411.

[11] Krek A. et al. Combinatorial microRNA target predictions. Nat. Genet., 2005, 37(5): 495-500. [12] Lewis BP, et al. Prediction of mammalian microRNA targets. Cell 2003, 115(7):787–798.

[13] Malter JS. Regulation of mRNA stability in the nervous system and beyond. J Neurosci Res, 2001, 66:311-316. [14] Martello G, Zacchigna L, Inui M, et al. MicroRNA control of Nodal signalling. Nature, 2007,449:183-188.

[15] Miranda K C, Huynh T, Tay Y, et al. A pattern-based method for the identification of microRNA binding sites and their correspond-ing heteroduplexes. Cell, 2006, 126(6): 1203-1217.

[16] Perkins DO, Jeffries C, Sullivan P. Expanding the 'central dogma': the regulatory role of nonprotein coding genes and implications for the genetic liability to schizophrenia. Mol Psychiatry 2005, 10:69-78.

[17] Rogaev EI. Small RNAs in human brain development and disorders. Biochemistry (Mosc) 2005, 70:1404-1407. [18] Schölkopf B., Platt J. C., Shawe-Taylor J., Smola A. J.and Williamson R. C., Estimating the support of a

high-dimensional distribution. Neural Computation, 2001, 13: 1443-1471.

[19] Stefani G, Slack FJ. Small non-coding RNAs in animal development. Nat Rev Mol Cell Biol 2008.

[20] Taft RJ, Pheasant M, Mattick JS. The relationship between non-protein-coding DNA and eukaryotic complexity. Bioessays 2007, 29:288-299.

[21] Tax D. and Duin R., Support Vector Data Description. Machine Learning, 2004, 54: 45-66. [22] Vapnik V. N., The Nature of Statistical Learning Theory. Springer-Verlag, New York, 1995.

[23] Wang, X.; El Naqa, I.M. Prediction of both conserved and nonconserved microRNA targets in animals. Bioinformatics, 2008, 24(3) : 325.

[24] Yousef M. et al. Naive Bayes for microRNA target predictions-machine learning for microRNA targets. Bioinformatics, 2007, 23: 2987–2992.

(16)

國科會補助專題研究計畫項下出席國際學術會議心得報告

日期：101 年 10 月 25 日

一、參加會議經過

在現今資訊爆炸的時代裡，資料取得的數量相當龐大，若無適當的管理模式，將會造成資料氾濫，導致無法充分運用，而形成所謂的「資訊垃圾」，因此，要如何將過多的資料做最好的管理，以及從過多的資料中取得有用的資訊，便成為現在熱門的研究議題，也因此發展出資料探勘模式（Data Mining）與知識管理(Knowledge Management)的技術，來幫助人們歸納與分析資料。過去幾年來，Knowledge Management for Sustainable innovation (International KMO Conference)研討會招集了產官學界當中關於知識管理、知識擷取、資料探勘、機器學習的優秀學者共聚ㄧ起分享研究方面的心得，至今已經是第六個年頭了，今年 KMO 2011 與 Pacific-Asian Association for Agent-based Approach in Social Systems Sciences (PAAA)共同合作，於 2011 年 9 月 27-29 日在日本東京工業大學舉辦，也邀請了對於知識管理在公司中成功導入的企業家共同與會，KMO 2011 邀請了世界各地一流的研究學者共聚ㄧ堂，彼此討論互動，分享最新的訊息與最新的研究，並且彼此鼓舞，也邀請了世界ㄧ流的頂尖學者，尤其是 KDI(Knowledge Dynamics Initiative)業界中的資深管理者，與 Palo Alto Research Center 研究學會的領導者擔任演講者，探討最新進的研究方向與主題，與會者能有許多機會與世界ㄧ流的學者，近距離的討論他們的研究主題，同時也有許多機會能參考研究先進寶貴的建議，對研究成果做進一步的修正，進而投稿到正式的期刊當中，今年 KMO 2011 於 2011 年 9 月 27-29 日，在日本東京工業大學舉辦，會議主席，議程委員分別為

【Conference Chair】

Professor Lorna Uden, Staffordshire University, UK

【Program Chair】

Professor Takao Terano, Tokyo Institute of Technology, Japan

Professor Akira Kamoshida, Nagoya University of Commerce & Business,Japan

【Program Committee】

Professor Lorna Uden, Staffordshire University, UK

Professor Akira Kamoshida, Nagoya University of Commerce & Business,Japan

計畫編號

NSC 100 2221 E 151 067

-計畫名稱

微型核醣核酸靶基因預測-使用最大邊界球狀支持向量機

出國人員

姓名

郝沛毅

服務機構

及職稱

高雄應用科技大學資管系副教授

會議時間

2011 年 9 月 27 日

至

2011 年 9 月 29 日

會議地點

日本東京

會議名稱

2011 Knowledge Management for Sustainable innovation

(International 2011 KMO Conference)

發表論文

題目

Prediction of Protein's Subcelluar Localization based on

MSM-SVM Toward the Autonomous Medical Knowledge Acquisition

(17)

Professor Takao Terano, Tokyo Institute of Technology, Japan Professor Marjan Heričko, University of Maribor, Slovenia

Dr. Marja Naaranoja, Vaasa University of Applied Sciences, Finland Dr. Lajos Szabó, University of Pannonia, Hungary

Dr. Ales Zivkovic, University of Maribor, Slovenia

Dr. Nóra Obermayer-Kovācs, University of Pannonia, Hungary

Professor Constantin Bratianu, Academy of Economic Studies, Romania

Dr. Victor Hugo Medina, Universidad Distrital Francisco Jose de Caldas, Colombia Dr. Dario Liberona, University of Santiago, Chile

Professor Fu-Ren Lin, National Tsing Hua University, Taiwan Dr. Remy Magnier-Watanabe, University of Tsukuba, Japan Professor Dai Senoo, Tokyo Institute of Technology, Japan

Professor Mitsutaka Kosaka, Japan Advanced Institute of Science and Technology, Japan

職應 KMO 2011 會議主席Lorna Uden之邀請，投稿研討會論文題目為 Prediction of Protein's Subcelluar Localization based on MSM-SVM Toward the Autonomous Medical Knowledge Acquisition，本研究論文探討使用最大邊界球狀支持向量機(MSM-SVM)來預測蛋白質亞細胞定位，以達到自動生醫資訊的知識取得，並且應用在生物資訊與新藥研發的領域之上，蛋白質的亞細胞定位與蛋白質的功能是息息相關的，蛋白質合成之後必須轉錄到正確的亞細胞位址，才能執行其正確的功能，所以若能由胺基酸序列(蛋白質一級結構)正確的預測其亞細胞定位位置，將為未知蛋白質的功能與新藥製作提供重要的資訊。在新藥製成與蛋白質功能預測中，蛋白質亞細胞定位的知識扮演重要的一環，資料探勘是知識擷取中重要的一個前處理步驟，而支持向量機則是近年來最熱門的一項資料探勘技術，支持向量基以 Vapnik 的統計學習理論為基礎，並且擁有優良的推理能力，本研究以支持向量機為基礎，融入球狀分類器與最大邊界分類器的概念，並且在分均勻分布的資料集中，有較傳統支持向量機更優異的分類效能表現。職員發表論文的議程時間在 9 月 28 日上午 10:00，論文發表時在場有許多專家學者一起與職做經驗分享，提供了許多資料探勘到知識擷取，甚至到末端的知識管理的寶貴建議，知識管理應用的領域非常寬廣，與會中學者大多是在商業知識管理、企業知識管理的研究領域中專研，唯有職員是在生醫知識的知識管理領域做研究，雖然研究領域並不相同，但是職員可藉此機會得知不同領域的知識管理有何可取之處，可為職員再做進一步研究時借鏡參考的，參加此次研討會讓職員獲益非淺。

二、與會心得

在現今資訊爆炸的時代裡，資料取得的數量相當龐大，若無適當的管理模式，將會造成資料氾濫，導致無法充分運用，而形成所謂的「資訊垃圾」，因此，要如何將過多的資料做最好的管理，以及從過多的資料中取得有用的資訊，便成為現在熱門的研究議題，也因此發展出資料探勘模式（Data Mining）的技術，來幫助人們歸納與分析資料。資料探勘是近年來被廣泛應用在各領域的技術，國內外許多的研究都存在著許許多多資料探勘成功的案例，例如：醫學界、壽險業、銀行業、通訊業等等，這些成功實例的主要訴求，是希望透過資料探勘，從大量的歷史資料中挖掘隱藏其中有價值的知識。

(18)

職於 9 月 24 日搭乘飛機前往日本東京，參訪日本東京工業大學，並與 KMO 2011 會議主席 Lorna 博士交換最新的研究心得，包含在資料探勘與網路探勘等領域，Lorna 博士學問淵博，為人親切和善，研究領域為創新服務，並提供職員在創新科技中許多新穎的想法，Lorna 有豐富的與企業界合作的機會，並且為旅行學者，經常在各國擔任交換教授，也曾到國立高雄應用科技大學演講，職員也是在那次機會認識 Lorna 博士，跟 Lorna 博士請益，讓職員在研究與產業合作方面獲益非淺。在 研討會期間，職參加了下面 2 場 Keynote Speech Keynote speech 1

“Future Center - Transformation into Sustainable Knowledge Enterprises”

Speaker : Takahiro NOMURA

Senior Manager, KDI(Knowledge Dynamics Initiative), Fuji Xerox, Japan

Keynote speech 2

“Is the Organizational Computer a Digital Nervous System?”

Speaker : Mark Stefik

Research Fellow, Palo Alto Research Center, USA

在會議當中聆聽到許多不同領域專家，在全世界最先進的研究主題中發表的研究成果，以及未來熱門的研究方向，收穫非常豐碩，職員於 9 月 29 日搭乘飛機離開日本東京。

三、建議

在現今資訊爆炸的時代裡，資料取得的數量相當龐大，若無適當的管理模式，將會造成資料氾濫，導致無法充分運用，而形成所謂的「資訊垃圾」，因此，要如何將過多的資料做最好的管理，以及從過多的資料中取得有用的資訊，便成為現在熱門的研究議題，也因此發展出資料探勘模式（Data Mining）的技術，來幫助人們歸納與分析資料。資料探勘是近年來被廣泛應用在各領域的技術，國內外許多的研究都存在著許許多多資料探勘成功的案例，例如：醫學界、壽險業、銀行業、通訊業等等，這些成功實例的主要訴求，是希望透過資料探勘，從大量的歷史資料中挖掘隱藏其中有價值的知識。由於企業競爭的全球化與白熱化，以及資訊科技與管理技術的一日千里，對全球各地的產業均帶來了巨大的衝擊。企業的競爭優勢已不再單純的建構在豐厚的資金或是龐大的土地上，而是取決於企業是否能善用所擁有的資訊，使其成為企業競爭的利器。而在電腦科技與資料庫技術快速進步的今日，企業雖較以往擁有了更大量的資料，然而對於經營或是行銷等方面的決策，卻仍然徬徨無助。深究其原因，我們不難發現癥結仍在於資訊的利用不足。因此，在這資訊爆炸的時代，要如何利用資訊技術來管理及分析所擁有的資料，使其成為有用的資訊，並作為企業在進行決策時的參考依據，已成為現代企業所必須重視的課題之一。在知識經濟時代，企業在推動知識管理的同時，如何導入資料探勘，已經成為刻不容緩的重要課題。在資料探勘與知識管理的研究領域，台灣學者的優秀表現已累積出不可忽視的研發能量，許多優秀的專家學者均為知識管理提出新的方向與展望，期待有朝一日能在台灣舉行大型的知識管理及資料探勘研討會，團結在台灣此領域的專家學者，一起分享研究心得，為台灣在知識管理的下一階段研究方向找出更進一步的突破重點。

(19)

四、攜回資料名稱及內容

『KMO 2011 論文集』收錄上百篇最新的學術研究論文，內容含括資料探勘、知識管理、知識

發掘、智慧型系統等等研究主題，其中有目前最新的研究方向，最先進的資料探勘與知識管理技術，最新的研究成果與問題探討，KMO 2011 論文集當中最佳論文也被推薦修改後投稿國際期刊發表。

(20)

一、參加會議經過

過去幾年來，International Conference on Machine Learning and Cybernetics (ICMLC)研討會招集了產官學界當中關於人工智慧、機器學習、控制理論的優秀學者共聚ㄧ起分享研究方面的心得，至今已經是第 21 個年頭了，在今年，LCMLC 與 International Conference on Wavelet Analysis and Pattern Recognition (ICWAPR)共同在大陸桂林舉辦，也邀請了對於小波轉換在圖訊識別當中優秀的產官學者共同與會，ICMLC 2012 邀請了世界各地一流的研究學者共聚ㄧ堂，彼此討論互動，分享最新的訊息與最新的研究心得，並且彼此激勵鼓舞，也邀請了世界ㄧ流的頂尖學者，尤其是 IEEE 學會當中的領導者，與 IEEE Systems, Man, and Cybernetics Society 學會的主持人擔任演講者，探討最新進的研究方向與主題，與會者能有許多機會與世界ㄧ流的學者，近距離的討論他們的研究主題，同時也有許多機會能參考研究先進寶貴的建議，對研究成果做進一步的修正，進而投稿到正式的期刊當中，ICMLC 2012 論文集被 EI 收錄，論文集也被 IEEE Xplore 索引，而過去 ICMLC 論文集當中部分優秀文章已被國際期刊接受。今年 ICMLC 2012 於 2011 年 7 月 15-18 日，在大陸西安喜來登飯店舉辦，會議主席，議程委員分別為

I. Honorary Conference Chairs:

o Hongrui Wang, President, Hebei University, China

o Michael Smith, Past President, IEEE Systems, Man & Cybernetics Society, USA

o William A. Gruver, Simon Fraser University, Canada and Past President, IEEE Systems, Man &

Cybernetics Society

o Szu-Wei Yang, President, National Taichung University of Education, Taiwan

II. General Co-Chairs:

o Daniel S. Yeung, South China University of Technology, China and Junior Past President, IEEE

Systems, Man, & Cybernetics Society, USA o Xizhao Wang, Hebei University, China

計畫編號

NSC 100 2221 E 151 067

-計畫名稱

微型核醣核酸靶基因預測-使用最大邊界球狀支持向量機

出國人員

姓名

郝沛毅

服務機構

及職稱

高雄應用科技大學資管系副教授

會議時間

2012 年 7 月 15 日

至

2012 年 7 月 18 日

會議地點

大陸西安

會議名稱

2012 International Conference on Machine Learnng and

Cybernetics (ICMLC 2011)

發表論文

題目

GPS GDOP Approximation Using Support Vector Regression Algorithm

with Parametric Insensitive Model

(21)

III. Program Chairs:

o Shyi-Ming Chen, National Taichung University of Education, Taiwan

o Xuelong Li, Xi'an Institute of Optics and Precision Mechanics of CAS, China

IV. Publication Co-Chairs:

o Patrick Chan,South China University of Technology, China

([email protected])

o Chunru Dong, Hebei University, China

([email protected]) V. Treasurers:

o Eric Tsang, Macau University of Science and Technology, Macau

VI. Local Arrangement Co-Chairs:

o Robert P. Woon, IEEE Systems, Man, & Cybernetics Society, USA

VII. Conference Secretaries:

o Patrick Chan,South China University of Technology, China

([email protected])

o Wing Ng, South China University of Technology, China

([email protected])

今年 ICMLC 2012 的贊助者有

Hebei University

IEEE Systems, Man and Cybernetics Society

(Technical Co-Sponsorship)

- SMC TC on Computational Intelligence - SMC TC on Intelligent Internet Systems

- SMC TC on Machine Learning

- SMC TC on Media Computing

- SMC TC on Pattern Recognition South China University of Technology

(22)

Hong Kong Baptist University

Hebei University of Science and Technology

Harbin Institute of Technology Shenzhen Graduate School

University of Macau

Huazhong University of Science and Technology

National Taichung University of Education

職員於7月14日搭乘飛機到大陸西安，住宿飯店為會場喜來登飯店，職員發表論文的議程時間在7 月16日下午4:40，喜來登飯店PM5室，Session名稱為Pattern Recognition and Its Application 。

在研討會期間，職參加了下面 2 場 Keynote Speech

Techniques for Evolutionary Multi-objective Optimization State-of-the art and some developments

Sam Kwong

City University of Hong Kong Hong Kong

Cerebellar Model Neural Networks and Their Applications on Control, Signal Processing, and Image Classification

Chih-Min Lin

Yuan Ze University Taiwan

(23)

並且參與了Neural Networks and Support Vector Machines, Intelligent Systems, Machine Learning and Its Application, Statistical Learning, Intelligent Systems: Methodologies and Applications等session，在會議當中聆聽到許多不同領域專家，在全世界最先進的研究主題中發表的研究成果，以及未來熱門的研究方向，收穫非常豐碩，職員於7月18日搭乘飛機離開西安，ICMLC 2012的議程表如下圖所示。

(24)

二、與會心得

在研討會期間，職員參加了 Chih-Min Lin 學者的演講，Topic: Cerebellar Model Neural Networks and Their Applications on Control, Signal Processing, and Image Classification，Chih-Min Lin 學者介紹了一個非 常先進的研究主題，長久以來人工智慧的目的，就是要電腦模擬人類大腦的運作/思考方式，讓電腦可以像人腦一樣會思考，進而提供人類各種先進的服務，然而人類大腦運作的方式至今始終是一個最大的迷團，雖然類神經網路可以模擬人類的大腦神經元的運作方式，但是由於大腦神經元彼此互動連結，腦電波傳遞的方式太為複雜，導致現今的類神經網路一直無法向上突破，能更貼近人類大腦運作的方式，支持向量機雖然是一個很先進的類神經網路模型，但他是透過 Vapnik 的統計學習理論建立的演算法，並沒有把人類學習的方式放入在裡面，如何將大腦運作的方式解碼，一步一步分析出大腦運作的流程，將低層次的腦神經元運作與高層次的概念結合在一起，是下一階段人工智慧 最需克服的難題之一，職員在此演講中對於 Chih-Min Lin 學者精湛的演講，用深入淺出的方式，說 明人工智慧的發展過程與未來展望，十分的佩服。在職員報告的研究成果的場次，與會人員討論十分熱烈，給職員許多寶貴而中肯的建議，雖然當中許多學者並不是關連分類研究領域，但是他們從其他領域的研究觀點，例如圖訊識別、機器學習、模糊系統，給了職員不同角度的省思，激盪出許多不同的研究想法，這些寶貴的建議與其他研究先進的經驗，皆可供職員未來在 GPS-GDOP 近似預測的研究時，加以修正改進，與會成果十分豐碩，在彼此研討與互相分享研究心得的過程中，職員也學習到世界一流學者的研究態度與研究方法，獲益良多。

三、建議

近年來，大陸地區積極舉辦大型的國際研討會，增加大陸地區學者與世界頂尖學者的互相交流合作的機會，大陸學者的研究競爭力也是不斷提升，台灣地區的學者也應該有所警惕，不能鬆懈，建議產官學界能多補助在國內舉辦大型的國際研討會，增加國內學者與世界一流學者的交流合作，增加國內學者的國際能見度，進而組成研究社群，彼此分享資訊，交流最新研究成果，創意激發新的研究主題，提昇國內學者的研究競爭力。

四、攜回資料名稱及內容

『ICMLC 2011 論文集』收錄上百篇最新的學術研究論文，內容含括機器學習、智慧型系統、模糊理論、圖訓識別、生物資訊、類神經網路等等研究主題，其中有目前最新的研究方向，最先進的機器學習與圖訊識別技術，最新的研究成果與問題探討，ICMLC 2011 論文集當中最佳論文也被推薦修改後投稿國際期刊發表。

(25)

國科會補助計畫衍生研發成果推廣資料表

日期:2012/10/30

國科會補助計畫

計畫名稱: 微型核醣核酸靶基因預測-使用最大邊界球狀支持向量機計畫主持人: 郝沛毅計畫編號: 100-2221-E-151-067- 學門領域: 生物資訊

無研發成果推廣資料

(26)

100 年度專題研究計畫研究成果彙整表

計畫主持人：郝沛毅計畫編號： 100-2221-E-151-067-計畫名稱：微型核醣核酸靶基因預測-使用最大邊界球狀支持向量機量化成果項目實際已達成數（被接受或已發表）預期總達成數(含實際已達成數) 本計畫實際貢獻百分比單位備註（質化說明：如數個計畫共同成果、成果列為該期刊之封面故事 ... 等）期刊論文 0 0 100% 研究報告/技術報告 0 0 100% 研討會論文 2 2 100% 篇論文著作專書 0 0 100% 申請中件數 0 0 100% 專利已獲得件數 0 0 100% 件件數 0 0 100% 件技術移轉權利金 0 0 100% 千元碩士生 2 2 100% 博士生 0 0 100% 博士後研究員 0 0 100% 國內參與計畫人力（本國籍）專任助理 0 0 100% 人次期刊論文 0 0 100% 研究報告/技術報告 0 0 100% 研討會論文 0 0 100% 篇論文著作專書 0 0 100% 章/本申請中件數 0 0 100% 專利已獲得件數 0 0 100% 件件數 0 0 100% 件技術移轉權利金 0 0 100% 千元碩士生 0 0 100% 博士生 0 0 100% 博士後研究員 0 0 100% 國外參與計畫人力（外國籍）專任助理 0 0 100% 人次

(27)

其他成果

(

無法以量化表達之成果如辦理學術活動、獲得獎項、重要國際合作、研究成果國際影響力及其他協助產業技術發展之具體效益事項等，請以文字敘述填列。)

尋找並鑒定 miRNA 的靶基因是研究 miRNA 功能的基礎，尋找調控的 miRNA 基因以及 miRNA 的靶基因，對於揭示 miRNA 具體的作用機制是非常重要的。本研究計畫使用最大邊界球狀支持向量機預測技術，不但能夠減少 miRNA 靶基因尋找的盲目性，節約實驗成本，而且可以使人們能夠更有針對性地研究感興趣的 miRNA，更加準確與方便地闡明其在生命活動中的功能與意義。由於 miRNA 基因對於生物的生長，發育，分化非常重要，而且具有特異的時空表達的特點，人們可以設計出 miRNA 的檢測晶片，在不同的生物、不同的發育時期、不同的組織細胞內，檢測 miRNA 的表達圖譜，更精確地掌握生命發展調控的過程，全部 miRNA 基因功能的揭示可能將會給人們對生命現象的理解帶來一場新的革命。成果項目量化 名稱或內容性質簡述 測驗工具(含質性與量性) 0 課程/模組 0 電腦及網路系統或工具 0 教材 0 舉辦之活動/競賽 0 研討會/工作坊 0 電子報、網站 0 科教處計畫加填項目計畫成果推廣之參與（閱聽）人數 0

(28)

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度、達成預期目標情況、研究成果之學術或應用價

值（簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性）

、是否適

合在學術期刊發表或申請專利、主要發現或其他有關價值等，作一綜合評估。

1. 請就研究內容與原計畫相符程度、達成預期目標情況作一綜合評估

■達成目標

□未達成目標（請說明，以 100 字為限）

□實驗失敗

□因故實驗中斷

□其他原因

說明：

2. 研究成果在學術期刊發表或申請專利等情形：

論文：□已發表 □未發表之文稿 ■撰寫中 □無

專利：□已獲得 □申請中 ■無

技轉：□已技轉 □洽談中 ■無

其他：（以 100 字為限）

3. 請依學術成就、技術創新、社會影響等方面，評估研究成果之學術或應用價

值（簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性）（以

500 字為限）

近幾年來，對 miRNA 的研究已經成為生命科學領域中的一個重要方向， miRNA 分佈範圍廣泛，它們參與生物體的生長、發育、衰老、死亡的調控。隨著研究的深入， miRNA 將在生命起源和物種進化、基因表達調控、疾病發生和發展的機制等方面起到更為深遠的作用。現在，歐美等先進國家已將有關 miRNA 的研究廣泛而深入地運用到組織器官的定向發育，細胞生長分化的時空調節，信號通路的開啟和關閉，細胞週期的監測與調控、學習與記憶，腫瘤的逆分化、肥胖、衰老和死亡，疾病的防治以及有目的的基因表達調控上。尋找並鑒定 miRNA 的靶基因是研究 miRNA 功能的基礎，尋找調控的 miRNA 基因以及 miRNA 的靶基因，對於揭示 miRNA 具體的作用機制是非常重要的。本研究計畫使用最大邊界球狀支持向量機預測方法，不但能夠減少 miRNA 靶基因尋找的盲目性，節約實驗成本，而且可以使人們能夠更有針對性地研究感興趣的 miRNA，更加準確與方便地闡明其在生命活動中的功能與意義。由於 miRNA 基因對於生物的生長，發育，分化非常重要，而且具有特異的時空表達的特點，人們可以設計出 miRNA 的檢測晶片，在不同的生物、不同的發育時期、不同的組織細胞內，檢測 miRNA 的表達圖譜，更精確地掌握生命發展調控的過程，全部 miRNA 基因功能的揭示可能將會給人們對生命現象的理解帶來一場新的革命。

微型核醣核酸靶基因預測---使用最大邊界球狀支持向量機

行政院國家科學委員會專題研究計畫 成果報告

微型核醣核酸靶基因預測-使用最大邊界球狀支持向量機

研究成果報告(精簡版)

中 華 民 國 101 年 10 月 30 日

行政院國家科學委員會補助專題研究計畫

成果報告

□期中進度報告

微型核醣核酸靶基因預測-使用最大邊界球狀支持向量機

計畫類別：個別型計畫 □整合型計畫

計畫編號：NSC 100－2221－E－151－067－

執行期間： 100 年 8 月 1 日至 101 年 7 月 31 日

執行機構及系所：國立高雄應用科技大學 資訊管理系

計畫主持人：郝沛毅

共同主持人：

計畫參與人員：蔡文期、王誌國

成果報告類型(依經費核定清單規定繳交)：精簡報告 □完整報告

本計畫除繳交成果報告外，另須繳交以下出國心得報告：

□赴國外出差或研習心得報告

□赴大陸地區出差或研習心得報告

出席國際學術會議心得報告

□國際合作研究計畫國外研究報告

處理方式：除列管計畫及下列情形者外，得立即公開查詢

□涉及專利或其他智慧財產權，□一年□二年後可公開查詢

中 華 民 國 101 年 10 月 30 日



































































國科會補助專題研究計畫項下出席國際學術會議心得報告

一、參加會議經過

計畫編號

NSC 100 2221 E 151 067

-計畫名稱

微型核醣核酸靶基因預測-使用最大邊界球狀支持向量機

出國人員

姓名

郝沛毅

服務機構

及職稱

高雄應用科技大學資管系副教授

會議時間

2011 年 9 月 27 日

至

2011 年 9 月 29 日

會議地點

日本東京

會議名稱

2011 Knowledge Management for Sustainable innovation

(International 2011 KMO Conference)

發表論文

行政院國家科學委員會專題研究計畫成果報告

中華民國 101 年 10 月 30 日

執行機構及系所：國立高雄應用科技大學資訊管理系

中華民國 101 年 10 月 30 日

_

_

_

_

_

_

_

_

_

_

_