資料來源介紹 - 文獻探討 - 支援跨物種組織的整合性高通量序列分析及功能註解參考系統

Chapter 2 文獻探討

2.2 資料來源介紹

2.2.1 UniGene 資料集

UniGene 是由 NCBI、clusters ESTs 以及 mRNA sequences 所建立的，其使用 coding sequences (CDSs)解釋 genomic DNA 分成各種相關序列的子集[2]。UniGene 的蒐集是以自動化的方式，對每一條新增至 GenBank 之 cDNA 序列會進行序列品質的分析，諸如引子 (primers)、大腸桿菌、載體 (vector)和連接子 (linker)等外源性的汙染序列以及具高重複性的低品質序列會在進行自動化分析前被排除在外；

之後還會檢測其序列長度，每條序列長度最少須包含 100 鹼基對以上；最後進行序列相似性分析，若能經由分析找到可能是來自於同一個基因的序列群組 (cluster)，則將此序列歸入這一個序列群組，若找不到則成立一個新的序列群組。

流程如下圖 2.3 所示。

ESTs 序列約佔 GeneBank 的百分之六十二，故以分類方式所產生的

圖片來源: the Gene Ontology 網頁

8

UniGene 資料庫，每一群序列 (包含了 EST、及 mRNA 序列的基因組)，共同代表一種獨特的基因之 mRNA 產物。利用這種經過分類整理的資訊，便較直接使用數量大而資訊含量少的個別 EST 資料要來得有效率。

圖 2. 3 UniGene 資料集蒐集流程

2.2.2 NR 資料集

NR (non-redundant) Protein Database 整合自 SwissProt、SwissProt updates、

PIR 與 PDB，目前由 NCBI 所維護。其特點為資料庫內的蛋白質序列皆不重複，且擁有 Protein ID、Protein GI 與 Protein sequence 資訊，提供使用者進行蛋白質序列比對的參照資訊。

2.2.3 RefSeq 資料集

NCBI 的參考序列計畫 (RefSeq)為中心法則中自然存在的分子，從染色體至 mRNA 到蛋白質提供參考序列標準。RefSeq 標準為人類基因組的功能註解提供一個基礎。RefSeq 會針對各種不同的分子類型提供不同的標號格式，如下表 2.1 所示。

序列品質分析

來源序列長度限制

基因相似性分析

UuiGene 資料集

9 2.2.4 GOA (Gene Ontology Annotation, GOA@EBI)

GOA (GO Annotation@EBI)是由 EBI (European Bioinformatics Institute)所提供且維護的專案，其目的是為蛋白質提供高品質的 GO (Gene Ontology)註解。另外 GOA 專案也為每一條蛋白質序列建立 IPI (International Protein Index)，利用 IPI 可以將 GO ID、GO Term 與其他資料庫的蛋白質 ID (如 Ensembl 與 NCBI)建立關聯對映。

2.2.5 Gene Ontology 資料集

Gene Ontology (GO)創立目的為提供一組可對所有生物之基因與蛋白質在細胞角色中的表述語彙 (Vocabulary)，而 GO Term 描述其生物反應過程。GO 將生物的功能性分析分成三大類：(1)生物作用 (biological process, P)、(2)分子功能 (molecular function, F)及(3)細胞組成 (cellular component, C)。生物作用牽涉化學或生理的轉變，由一個或多個分子功能所集合而成。如：細胞生長與維持。分子功能是指基因產物的生物化學活性，包含配體和受體的特殊鍵結。如：酵素和配合體。而細胞組成指細胞中基因產生活化的位置。如：核甘體和核膜。同時 GO 也可將基因所司具有之功能以單向環狀的樹狀圖示方式呈現，提供學者瞭解不同功能分層間的關係，而樹狀結構的鏈結可分為”is-a”與”part of”兩種連接 GO Term 與 GO Term 間的關聯。

10

至 2008 年 4 月 12 日，共有 25036 個 GO Term，其中百分之九十八被定義。

其中 biological_process 包含 14696 個、 cellular_component 包含 2077 最後 molecular_function 包含 8263 個

在文檔中支援跨物種組織的整合性高通量序列分析及功能註解參考系統 (頁 17-20)