• 沒有找到結果。

建構一個知識探勘生物資訊平台及蛋白質註解加值資料庫

N/A
N/A
Protected

Academic year: 2021

Share "建構一個知識探勘生物資訊平台及蛋白質註解加值資料庫"

Copied!
10
0
0

加載中.... (立即查看全文)

全文

(1)行政院國家科學委員會專題研究計畫. 成果報告. 建構一個知識探勘生物資訊平台及蛋白質註解加值資料庫. 計畫類別: 個別型計畫 計畫編號: NSC94-2213-E-006-096執行期間: 94 年 08 月 01 日至 95 年 07 月 31 日 執行單位: 國立成功大學資訊工程學系(所). 計畫主持人: 蔣榮先. 報告類型: 精簡報告 報告附件: 出席國際會議研究心得報告及發表論文 處理方式: 本計畫可公開查詢. 中. 華 民 國 95 年 10 月 13 日.

(2) 行政院國家科學委員會專題研究計畫成果報告 建構一個知識探勘生物資訊平台及蛋白質註解加值資料庫. 計畫類別:個別型計畫 計畫編號:94-2213-E-006-096 執行期間:94 年 8 月 1 日至 95 年 7 月 31 日 計畫主持人:蔣榮先. 成果報告類型(依經費核定清單規定繳交):完整報告 本成果報告包括以下應繳交之附件: □赴國外出差或研習心得報告一份 □赴大陸地區出差或研習心得報告一份 □出席國際學術會議心得報告及發表之論文各一份 □國際合作研究計畫國外研究報告書一份. 執行單位:國立成功大學資訊工程學系. 中. 華. 民. 國. 九十五. 年 1. 十. 月. 一. 日.

(3) 行政院國家科學委員會專題研究計畫成果報告 建構一個知識探勘生物資訊平台及蛋白質註解加值資料庫 計畫編號:94-2213-E-006-096 執行期限:94 年 8 月 1 日至 95 年 7 月 31 日 主持人:蔣榮先 國立成功大學資訊工程學系 電子信箱(Email): jchiang@mail.ncku.edu.tw. 一、摘要 為了促進功能生物資訊學的進展,如何有效率地處理大量的生物醫學文件,並將其中萃 取出之知識轉換成結構化的形式,以為生物學家和醫學研究者所用,乃為當前之要務。在本 研究中,我們提出一個自動從蛋白質交互作用網路中系統化萃取功能模組的流程。先利用蛋 白質交互作用網路的結構分析從網路中辨識出密集區域,接著針對每個密集區域,引入生物 註解資訊利用最小成本擴張樹聚類演算法找出功能模組。從實驗中發現利用本系統所萃取出 來的功能模組確實具有功能一致性特色,相信利用本系統所產生的模組化網路將可以幫助生 物學家利用視覺化呈現的資訊來進行更深入的研究。. 二、蛋白質功能註解系統 本研究中將經過修改後的生醫文件探勘系統利用圖論的概念與特性可以很清楚表達出蛋 白質交互作用網路。也因為利用圖形的表達,讓生物資訊學家可以利用強大電腦計算能力, 發展出許多以圖形為基礎的應用演算法,其中以圖形聚類演算法為例,利用相似度計算機制, 試圖找出屬於網路圖形中的密集區域,所以在本研究中密集區域定義為:一群頂點的集合, 集合中每頂點經過相似度計算機制之後,與自己擁有最短距離的頂點均屬於在本集合中。經 過上述定義中可以了解密集區域不一定是個完全圖,但完全圖卻是屬於密集區域的其中之一。 利用蛋白質交互作用所建立的圖形中,每一個邊都代表著實際的交互作用,而且本研究 中又引入基因功能註解來對每個交互作用給予一個功能相關程度的權值,因此可以很容易利 用加權後的圖形建立最小成本擴張樹,然後再把它當作是最小成本擴張樹聚類演算法的初始 圖形輸入。而最小成本擴張樹聚類演算法基本上是一個切割樹的過程,而且藉由目標函數的 定義,使聚類後的結果達到全域最佳化,與階層式聚類演法最大的不同在於一個是屬於由上 2.

(4) 而下(top-down)的演算法,另一個是屬於由下而上(bottom-up)的演算法。 根據蛋白質交互作用的特性,一群彼此交互作用的蛋白質往往會構成模組化的形狀並且可 能執行著相似的功能,也由於這種特性,當觀察蛋白質交互作用網路時,往往可以發現有密 集區域的存在,而這些密集區域很有可能存在著許多的功能模組在裡頭。因此本研究是採用 由廣到狹的觀點去找尋屬於在網路圖形中的功能模組,以最小成本擴張樹聚類演算法而言, 聚類的對象不是針對全部的網路圖形,反而是屬於在網路圖形中屬於密集區域的子圖形,所 以進行聚類動作之前必須先從網路中找尋出密集區域。利用這種兩階段式方法不僅是根據蛋 白值的反應特性來做聚類動作而且實驗也證明經由本系統找出的功能模組具有功能一致性和 彼此交互作用的特性,這項特性將在實驗部分會有更詳細的實驗結果驗證。 整個系統流程主要分為三大部分,如下圖所示。以下分別為每部份做約略介紹。. 資料收集 在本研究中,把整合的蛋白質交互作用資料建成資料庫,並且提供搜尋介面讓使用者查 詢,其最主要的目的讓使用者可以找尋相關的蛋白質交互作用資料。而資料庫中所有蛋白質 交互作用的蛋白質名稱都是以基因的正式名稱(official symbol)來代表,例如:MCM2,若是. 1.

(5) 輸入並非正式名稱,則將無法找到相關的蛋白質交互作用資訊,所以只要使用者輸入一群基 因名單(gene list),系統就可以找尋出跟這群基因名單相關的蛋白質交互作用資料,而在找 尋的過程中主要分為兩種模式(1)完全配對(full match):只要蛋白質交互作用兩端的基因名稱 出現在使用者輸入的基因名單中,則此蛋白質交互作用將會被選出(2)部分配對(partial match):只要蛋白質交互作用兩端的任一基因名稱出現在使用者輸入的基因名單中,則此蛋 白質交互作用將會被選出。兩種模式的最大不同在於是否能找出額外資訊,因為採用部分配 對(partial match)方式所找出蛋白質交互作用資料中的基因名稱有可能是不屬於輸入的基因 名單中,因此當輸入基因資訊太少,造成無法找出蛋白質交互作用資料時,則可以嘗試使用 部分配對方式搜尋。 模組辨識 這一部份主要是依據輸入的蛋白質交互作用資料,建構出可能性的蛋白質交互作用網路,並 且引入基因本體論(Gene Ontology)度量蛋白質交互作用之功能關係程度,找出隱含網路中的 功能模組(functional module)。 網路視覺化 這一部份不僅提供了功能模組化網路的視覺化,讓使用者可以很清楚看出所有功能模組 的網路結構,而且還提供整合基因表現值資料,在網路中標記出表現基因(expressed genes)。. 三 實驗與結果分析 利用本系統可以從蛋白質交互作用網路中萃取出功能模組,在本實驗中主要目的是希望 針對系統所輸出的功能模組作一個特性觀察,並且跟密集區域作比較,到底兩者之間有何特 性上的不同,首先定義了 Connectivi ty ,主要衡量一群蛋白質的連結結構關係:. Connectivi ty =. 2k n ∗ (n − 1). n 代表蛋白質個數, k 代表所有蛋白質交互作用的總數,當圖形為完全圖時 k =. n * (n − 1) ,則 2. 2 具有為大值 1;當圖形為最少邊時 k = n − 1,則具有最小值 ,因此一群蛋白值 Connectivi ty 的 n 值是介於 1 到. 2 之間,越高則代表越接近完全圖,越低則代表越接近最小成本擴張樹形狀(若 n. 有 n 個點,則有 n-1 個邊)。 另外定義 GoDistance ,主要衡量一群蛋白質的平均功能相似程度關係:. 2.

(6) GoDistance = ∑. i, j∈N. Distance(i, j) M. N 為一群蛋白質集合, i, j 為集合中的任兩個蛋白質, M =. | N | ∗(| N | −1) , | N | 代表 N 集合裡 2. 的個數,當值越低代表這一群蛋白質越具功能一致性,越高則代表越沒有功能一致性的特性。. 根據上圖實驗結果分析中,從功能的角度上來看,密集區域確實並無法達到功能一致性 的結果,也就是說密集區域並不一定保證,全部都是存在一些功能相關的蛋白質,這種情形 的發生有可能是下列兩種情形:(1)裡面可能含有少數功能不相干的蛋白質(2)密集區域是由包 含兩群功能相似的蛋白質所構成,因此在本研判中所提出引入 GO 註解來度量兩個蛋白質間 交互作用的功能距離關係,利用聚類演算法讓系統找出真正的功能模組,實驗結果也證明了 引入 GO 註解的度量確實可以達到功能一致性的效果。另外也觀察到功能模組在 Connectivi ty 值統計比例方面而言,大部分的功能模組在 Connectivi ty 值的表現確實比密集區域還要來的 高,換句話說,以功能一致性較高的功能模組與功能一致性較低密集區域而言,在與完全圖 的相似度程度的高低比較上,功能模組要比密集區域還要來的高,這與一群執行相同功能的 蛋白質彼此之間會產生交互作用的情形相呼應,這也間接證實了本研究所找出的功能模組確 實有功能一致性和彼此交互作用的特性。. 參考文獻 Chiang, Jung-Hsien and Hsu-Chun Yu, 2003, “MeKE: Discovering the Functions of Gene Products from Biomedical Literature via Sentence Alignment”, Bioinformatics, 19 (11), 1417-1422. 3.

(7) Chiang, Jung-Hsien, Hsu-Chun Yu, and Huai-Jen Hsu, 2004, “GIS: A Biomedical Text-Mining System for Gene Information Discovery”, Bioinformatics, 20(1),120-121 Hatzivassiloglou,V., Duboué,P.A. and Rzhetsky,A. (2001) Disambiguating proteins, genes, and RNA in text: a machine learning approach. Bioinformatics, 17, 1-10. Hvidsten,T.R., Komorowski,J., Sandvik,A.K., Laegreid,A. (2001) Predicting gene function from gene expressions and ontologies. Pacific Symposium on Biocomputing, 6, 299-310. Karp,P.D. (2000) An Ontology for Biological Function Based on Molecular Interactions. Bioinformatics, 16, 269-285. Ono,T., Hishigaki,H., Tanigami,A. and Takagi,T. (2001) Automated extraction of information on protein-protein interactions from the biological literature. Bioinformatics, 17, 155-161.. 4.

(8) 行政院國家科學委員會補助國內專家學者出席國際學術會議報告 95 年. 5 月. 23 日. 報 告 人 服務機構 蔣 榮 先 國立成功大學 教授 姓 名 及 職 稱 時間 2006 年 5 月 14 ~ 19 日 本 會 核 定 會議 新加坡 補助文號 地點 會議 (中文) 2006 亞太網格計算會議 (英文) Grid Asia 2006 名稱 發表論 (中文) 台灣生物資訊計算之成功案例:自蛋白質網路中發現及顯示 功能模組 文題目 (英文) Bioinformatics Computing at Taiwan: Functional Module Discovery and Visualization from Protein-Protein Interaction Network 一、參加會議經過: 2006亞太網格計算會議(Grid Asia)於2006年5月14至19日在日新加坡市的Singapore. Management University(SMU)召開;此次會議共有約來自全世界超過十個國家,超過500 位參加者出席。5月14日的開幕式之後是來自Sun Micro的 Marc Hamilton演講,接著講員 包含:日本、美國及德國的研究人員。晚宴除了進行研究領域的交流外,更重要是能藉 機瞭解各國在相關領域的進步情形。5月15日至19日五天的議程包含海報及專題演講的研 究交流之外,其餘的時段皆安排不同的大型展示;演講範圍含括 CCGrid Tutorials, Life. Sciences, VGC Symposium, BOINC Tutorial, Parallel Computing Workshop, CCGrid Digital Media, PC Grid Workshop, Oracle Workshop, Grid Security, Physical Science Applications, Manufacturing Applications 等。此外,大會還特地邀請一些著名的學者進行專題演說, 整個會議的議程可說是安排的相當充實。. 5.

(9) 此會議之演講內容有相當多是值得參考,以下僅摘錄其演講題目: Manuel Peitsch Information & Knowledge Management Novartis Nicholas Evered Technology Sales Oracle Corporation Satoshi Sekiguchi Grid Technology Research Centre National Institute of Advanced Industrial Science and Technology, Japan Jysoo Lee Supercomputing Centre Korea Institute of Science and Technology Information, Korea Philip M. Papadopoulos Grid & Cluster Computing San Diego Supercomputing Centre, USA. 此次研討會筆者所發表的演講是 ” Bioinformatics Computing at Taiwan: Functional. Module Discovery and Visualization from Protein-Protein Interaction Network”,該演講主要 之目的在於介紹我們自行開發了一個以蛋白質交互作用網路為基礎的系統 (BioModular),自動由交互作用網路找尋並視覺化基因模組。此系統可以輔助生物學家 和醫學研究者快速地了解模組基因或蛋白質一起所參與的生物反應、功能及細胞內的活 動,進一步有效率地分析萃取的知識。在實作的過程中並獲得昇陽公司(Sun Micro Inc) 提供成大從事生物資訊研究所需的高速運算技術,成立生物資訊卓越中心 (Sun Center of Excellence for Bioinformatics),為國內第一所獲得Sun認證為世界研究中心(COE) 的大學。該構想可望於近日內加強其理論架構及實驗驗證後,投稿至其他國際期刊發表。. 二、與會心得:. 6.

(10) (一) 此次研討會中除了介紹去年七月由本人赴新加坡南洋理工大學之亞太科學技術中 心(APSTC)與 BioBox 之技術進行交流之過程,將 Sun 公司在生物資訊的經驗帶回台 灣,隨後並進一步落實 Java 技術在自動由交互作用網路找尋並視覺化基因模組上, 該系統目前仍然由成大膀胱癌整合計畫研究團隊測試及使用中,廣受研究人員肯定 與好評。在討論之過程中也發現國外有一些驚人之作,更在與作者討論或經由別人 的討論之中獲得更多的啟發,因而所獲得的收穫頗多。. (二) 在這次的會議場次所發表之論文大多仍以實用探討為主,尤以工程計算上的應用為 廣。在生物資訊方面的應用相對的就顯得較為薄弱。正因為如此,如何將網格技術 運用在生醫工程的實驗中亦是一個值得研究的方向。. 7.

(11)

參考文獻

相關文件

每本主題冊會提供一些探討該冊主題內容的建議問題,列舉主題冊內容大綱及學生在

唐之末造,天下喪亂,台宗典籍流散海東,當是時,為其學者,至有兼講《華嚴》以 資飾說,暨我宋隆興,此道尚晦。螺溪、寶雲之際,遺文復還,雖講演稍聞,而曲見 之士習氣未移,故

探索個人及社會議題,培 養他們正面的價值觀和態 度,幫助他們成為有識見 和負責任的公民,懂得關

數學桌遊用品 數學、資訊 聲音的表演藝術 英文、日文、多媒體 生活科技好好玩 物理、化學、生物、資訊 記錄片探索 英文、公民、多媒體 高分子好好玩 物理、化學、生物

評論 重建小學建議評論(樣本試卷) 人與責任一 書信 自薦信(擔任創意寫作學會主席) 人文情懷一 中四級 演講辭 演講辭(學會年終大會演講辭)

第二層 尊重及懂得引述資訊來源,並對知識產權監管法例有所認識 高小 第三層

每本主題冊會提供一些探討該冊主題內容的建議問題,列舉主題冊內容大綱及學生在

時值知識經濟時代的來臨,台灣已加入了 WTO ( World Trade Organization,WTO ),企業面臨劇變之環境及廣闊的物料採購市 場,若能善用「知識管理」( Knowledge