• 沒有找到結果。

建構一個生物資訊分析工具--智慧型基因功能註解系統(1/2)

N/A
N/A
Protected

Academic year: 2021

Share "建構一個生物資訊分析工具--智慧型基因功能註解系統(1/2)"

Copied!
5
0
0

加載中.... (立即查看全文)

全文

(1)行政院國家科學委員會專題研究計畫 期中進度報告. 建構一個生物資訊分析工具--智慧型基因功能註解系統 (1/2). 計畫類別: 個別型計畫 計畫編號: NSC92-2213-E-006-055執行期間: 92 年 08 月 01 日至 93 年 07 月 31 日 執行單位: 國立成功大學資訊工程學系(所). 計畫主持人: 蔣榮先. 報告類型: 精簡報告 處理方式: 本計畫涉及專利或其他智慧財產權,1 年後可公開查詢. 中. 華. 民. 國 93 年 5 月 20 日.

(2) 行政院國家科學委員會專題研究計畫成果報告 建構一個生物資訊分析工具--智慧型基因功能註解系統 (1/2) 計畫編號:NSC 92-2213-E-006-055 執行期限:92 年 8 月 1 日至 93 年 7 月 31 日 主持人:蔣榮先 國立成功大學資訊工程學系 電子信箱(Email): [email protected]. 一、摘要. 以文件的型式儲存,而無法讓電腦以知識 的形式直接存取,卻也耗費了研究人員相 當多的時間跟成本。因此,為了促進功能 生物資訊學的進展,如何有效率地處理大 量的生物醫學文件,並將其中萃取出之知. 在全球科學家解開人類基因體序列以 後,最重要的生醫研究是去了解這些基因 的功能。本計畫之目的期能幫助生物學家 和醫學研究者,有效率地篩選大量的文 件,快速得知感興趣的基因之功能,以加 速基因體學之研究。 人類基因體圖譜在 2000 年定序完成 以後,開始進入了後基因體時代,對於基 因產物在細胞內的作用之研究,亦隨之如 火如荼地展開。然而大部份的實驗結果是. 識轉換成結構化的形式,以為生物學家和 醫學研究者所用,乃為當前之要務。 本實驗室基於過去多年在人工智慧及 知識表達相關研究之經驗,並於本計畫中 開發一套文件探勘系統 MeKE (Medical Knowledge Explorer,. 圖一 本雛型系統萃取出之相關生醫知識 1.

(3) 名稱同時出現的句子。利用分類器將這些 句子區分為是否描述基因功能兩類,即可 將資訊萃取的問題轉換為文句分類的問 題。分類器據以分類的特徵為句子中基因 和功能名稱的上下文,可以分為前、中、 後三段。在訓練分類器的部份,我們修改 用於基因序列比對的動態規劃法,將做為 訓練樣本的句子兩兩比對,以找出可以做 為分類器特徵的上下文片語。. http://ismp.csie.ncku.edu.tw/~yuhc/meke/) ,有效率地從生醫文獻中萃取出基因功能 的相關知識; 自 2003 年 7 月置放於網際網 路供公眾使用迄今已有全世界數十個生醫 研究團隊下載使用。. 二、計畫緣由與目的 本計畫之目的在於建構一個生物資訊 分析工具。其目的在於利用模糊邏輯以及 模糊聚類技術開發一個有效的智慧型基因 註解系統,以應用於生物資訊服務系統中 資訊代理人之設計。圖一所示為本系統的 輸出範例。系統由醫學文獻網站 PubMed 下載文件摘要,並利用基因資料庫 LocusLink 的基因名稱作為基因語彙典, 以及使用 Gene Ontology 描述基因產物的 功能,經由資訊萃取(information extraction) 的程序之後,進而達到基因功能相關知識 表達。圖二所示為系統架構圖。 系統先對文件中出現的基因名稱和功 能名稱建立索引,進而擷取出基因和功能. 三、基因與功能名稱之比對與索引 本系統採用基因資料庫 LocusLink 的 基因名稱作為基因語彙典以建立基因名稱 索引,並採用 Gene Ontology 作為功能語 彙典以建立功能名稱索引。為了達到具有 容錯性的名稱比對,亦即對於基因和功能 名稱的變化形也必須能正確辨識,我們先 將名稱轉換成樣板(pattern),再以樣板進行 彈性的比對。 此外,為了擴充功能語彙典以建立更 完整的功能索引,本系統由文件中偵測功 能名稱的同義字,並計算兩者之間的編輯. Biologists and Medical Researchers Gene Name. Function Names. MeKE Website Gene Ontology. MeKE Components Pattern. Information. PubMed. Learning. Extraction. Agent. PubMed. 2. Pattern. Lexicon of. Document. Database. Gene Names. Database. 圖二 系統架構.

(4) 距離(edit distance),以篩選出可靠的同義 字。. 類,則即可被視為確實是描述基因功能的 句子。. 四、以文句比對學習分類器的特徵. 六、計畫進度與成果. 在基因的功能描述上,許多用字遣辭 的格式或句型常為作者們所使用,這些樣 板即可做為特徵,用來辨識描述基因功能 的句子。 為了從大量的生物醫學文件中自動取 得這些樣板,我們提出一個文句比對的方 法。由於在句子中搜尋樣板這樣的問題, 類似於在生物資訊的領域裡,在蛋白質序 列中搜尋 motif 的問題,我們修改基因序. 在本計畫之第一年執行期間中,我們開 發了一套文件探勘系統 MeKE,自動由生醫 文獻中萃取出基因功能的知識。基於我們 所提出的文句比對和文句分類的方法,此 系統可以有效率地萃取出文件中的基因功 能描述。本計畫之第二年工作將以此核心 機制為基礎,以輔助生物學家和醫學研究 者快速地閱讀大量生醫文獻,並萃取出其 中有用的知識。. 列比對的演算法,並將之應用在此一問題 上。描述基因功能的句子被分解成五段, 包括基因和功能名稱,以及它們的前、中、 後三段上下文。對於任兩個句子的三段上 下文分別進行比對,以產生三組樣板,並 計算每個樣板在正負樣本中的機率值。. 參考文獻 Andrade,M.A. and Valencia,A. (1998) Automatic extraction. of. keywords. from. scientific. text:. application to the knowledge domain of protein families. Bioinformatics, 14, 600-607.. 五、以文句分類達成資訊萃取. Chiang, Jung-Hsien and Hsu-Chun Yu, 2003, “MeKE:. 由生物醫學文件中找出基因功能的描 述原本是一個資訊萃取的問題,但是如果 能擷取出基因和功能名稱同時出現的句 子,則可以將此問題轉換為一個文句分類 的問題。對於基因和功能名稱同時出現的 句子,以一個分類器將之分為是否確實描 述基因功能兩類,而被分類為正的那些句 子,即可做為資訊萃取最後的結果。. Discovering the Functions of Gene Products from Biomedical Literature via Sentence Alignment”, Bioinformatics, 19 (11), 1417-1422. Chiang, Jung-Hsien,. Hsu-Chun Yu, and Huai-Jen. Hsu, 2004, “GIS: A Biomedical Text-Mining System for Gene Information Discovery”, Bioinformatics, 20(1),120-121. 本系統採用貝式(Naïve Bayes)分類器 以估計句子描述基因功能的機率值,並加 以分類。分類器依據前節所述取得的特徵 估計句子在正和負兩類的機率值,然後每. Hatzivassiloglou,V., Duboué,P.A. and Rzhetsky,A. (2001) Disambiguating proteins, genes, and RNA in text: a machine learning approach. Bioinformatics, 17, 1-10.. 個句子即依據其在正和負兩類的機率值大 小加以分類,而如果一個句子被分到正. Hvidsten,T.R., 3. Komorowski,J.,. Sandvik,A.K.,.

(5) Bioinformatics, 16, 269-285.. Laegreid,A. (2001) Predicting gene function from gene expressions and ontologies. Pacific Symposium. Ono,T., Hishigaki,H., Tanigami,A. and Takagi,T.. on Biocomputing, 6, 299-310.. (2001) Automated extraction of information on Karp,P.D. (2000) An Ontology for Biological. protein-protein interactions from the biological. Function. literature. Bioinformatics, 17, 155-161.. Based. on. Molecular. Interactions.. 4.

(6)

參考文獻

相關文件

教育統籌委員會的教育改革建議指出

 培養具有檔案學基礎知識與文化知識,掌握現代資訊技術的基 本技能,能在檔案館、國家機關和企事業單位的檔案機構、資

社工樣本提供接受扶助之兒少樣本的福利服務)所進行的一項調查計畫。至目前為止,第 一波調查計畫於 2009 年共完成 5,593 位兒少樣本的資料蒐集,第二波調查計畫於 2011

由於資料探勘 Apriori 演算法具有探勘資訊關聯性之特性,因此文具申請資 訊分析系統將所有文具申請之歷史資訊載入系統,利用

由於本計畫之主要目的在於依據 ITeS 傳遞模式建構 IPTV 之服務品質評估量表,並藉由決

在軟體的使用方面,使用 Simulink 來進行。Simulink 是一種分析與模擬動態

此計劃主要包含一個以「智慧城市」為主題的專題研習展覽,再附以一系列的活動,其中包

 不過以上所提的內容幾乎都會被現在的智慧型手機取 代,因此我們覺得這些功能能夠運用在一個沒有網路