緒論 - 支援跨物種組織的整合性高通量序列分析及功能註解參考系統

目前生物學家進行大量 DNA 序列比對往往必須先至 National Center for Biotechnology Information (NCBI)網站下載最新版本的 BLAST 工具，再至其他網站下載不同物種序列資料以及序列比對完成後需對映之資訊。上述步驟極為繁瑣耗

分析比對後的結果以 The Extensible Markup Language (XML)的格式輸出，期利用 XML 可擴充性及結構化的優點使分析比對的結果檔案具可利用性 (reusable)。希冀此系統對相關研究人員有顯著正面的幫助。

1.1 研究動機

1950 年代以後科學家研究得知染色體是由去氧核糖核酸 (DNA)和蛋白質所組成的雙螺旋結構，而基因就是DNA分子的一小段。到了1975年發明了分析及定序DNA核甘酸序列的方法。1980 年代Walter Gilbert提議以眾多科學家的力量將人類23對染色體總共約30億對的核甘酸序列予以解讀。因為科學家們認為能解讀製造人類特徵的基因就能了解疾病與人類發育的過程。

1990 年美國政府正式地支持人類基因體計畫 (Human Genome Project)，預計耗資 30 億美元，透過國際實驗室間的合作，用 15 年時間完成解讀三十億鹼基的工作。此計畫在美國設立四處的定序中心，另外在英國劍橋桑格中心 (Sanger Institute)、法國、中國大陸、日本、德國以及台灣等定序中心也都協力合作。

1990 年代以後，隨著電腦科技以及網際網路快速的發展。科學家運用超級電

2

不同物種的專注程度也不一。有些物種如小鼠 (Mus musculus)、大鼠 (Rattus norvegicus)以及人類 (Homo sapiens)等模式動物 (model organism)，生物學家已有較長的研究歷史以及擁有較豐富的基因與蛋白質資訊，但如兔子 (Oryctolagus cuniculus)這個物種的基因與蛋白質的資訊較為稀少。因此，若能夠透過擁有豐富

3

的基因與蛋白質資訊之物種了解目前基因與蛋白質資訊較缺乏的物種之功能，則可大幅降低研究人員的成本與連結物種間與組織間的序列關聯性。

瀏覽大部分的文獻，其系統較缺乏跨物種組織的整合平台。因此，研究人員需要至網站下載欲研究的物種資訊，並自行對各物種組織之資訊予以分類方能開始進行研究，且若該研究物種可以得到 Gene Ontology (GO)或者 GO 的樹狀結構與路徑，還需要下載許多表格或進入不同的查詢網站才能得到資訊。如此的使用流程對研究人員相當的不便利。

基於上述描述，本研究有下列項研究目的：

(1) 蒐集二十三種脊椎動物的基因與蛋白質序列資訊，並予以彙整。

(2) 建構一個跨物種系統平台，讓研究人員可以選擇欲研究的物種與組織進行序列比對。

(3) 從 DNA 序列比對結果透過對映之蛋白質資料推衍至 GO。

(

)

將 GO 的樹狀結構關係圖，予以層次概念詮釋之。

(5) 將分析結果以圖形或表格方式呈現。

1.3 研究流程

本研究流程結構與順序如下圖 1.1 所示。

4 圖 1. 1 研究流程

1.4 論文架構

本論文共包含六個章節，第一章為介紹研究動機與目的，第二章則探討研究中所參考的資料來源與相關文獻，第三章為資料倉儲(Data warehouse)的建置，在此章將詳細介紹研究過程中各資料集是如何正規化，第四章為系統設計與建置，

其中將分為五大模組進行討論，第五章為討論與其他相似系統有何差異之處，第六章為結論與未來工作。

研究動機

研究目的

文獻蒐集與分析

資料來源蒐集

系統實做相關演算工具之研究

研究報告與相關文件系統測試與維護

5

在文檔中支援跨物種組織的整合性高通量序列分析及功能註解參考系統 (頁 11-15)