序列比對工具 - 文獻探討 - 支援跨物種組織的整合性高通量序列分析及功能註解參考系統

Chapter 2 文獻探討

2.3 序列比對工具

序列比對工具為基因體範疇研究的重要工具，其可針對多條核甘酸或蛋白質序列間進行序列相似度分析。目前主要針對 DNA 序列進行分析工具有兩種，一種為 FAST[3]，另一種為 BLAST[4]。由於本系統利用 BLAST 進行序列分析，故後一小節將對此工具進行詳細敘述。

初期的 BLAST 不允許空缺 (gap)的片斷序列配對 (ungapped alignment)，但 Altschul 等人於 1997 年提出修正版本，此時便克服上述的限制。BLAST 主要的基本步驟為以下圖 2.4 所示。

BLAST 是採行 pair wise sequence alignment (成對序列比對)，而一條序列為一

11

串英文字母所組成，又一個 alignment 為兩條序列成對排列，進行比對計分依據鹼基 (base)或胺基酸 (Amino Acid)是否吻合 (match)，若吻合則為正分，不吻合 (mismatch)與空缺 (gap)則為負分。

BLAST 目前是由 NCBI 管理，此分析方法可透過網頁介面 (http://www.ncbi.nlm.nih.gov/BLAST/)或安裝於本端主機進行運作，NCBI 提供各種不同型態及用途的 BLAST 種類如下:

(1) megablast : 用於基因體序列之比對，針對核苷酸序列利用連鎖查詢多條序 列以加速搜尋速度。

(2) blastn : 利用輸入核苷酸序列針對核苷酸序列之資料庫進行相似性比對。

(3) blastp : 利用輸入胺基酸序列針對胺基酸序列之資料庫進行相似性比對。

(4) blastx : 用於鑑別核苷酸序列之身分，其將核苷酸序列轉譯成六種形式的 胺基酸序列，並進一步在蛋白質資料庫內進行比對工作，以期找出此核苷酸序列之潛在蛋白質產物。

(5) tblastn : 用於胺基酸序列之比對，但比對之胺基酸序列資料由核苷酸序列 資料庫中序列所轉譯成胺基酸序列為基礎。

(6) tblastx : 用於核苷酸序列之比對，將此核苷酸序列轉譯成六種形式的胺基 酸序列，並與由核苷酸序列資料庫中序列所轉譯出的胺基酸作序列相似性比較。

本系統所使用的 BLAST 種類為 blastn，其版本為 2.2.17

12 圖 2. 4 BLAST 演算流程

2.3.2 FASTA 格式

當執行 BLAST 分析需使用的輸入格式為 FASTA 格式。可利用 NCBI Entrez 查詢網頁，輸入 Nucleotide Accession Number 或 Protein Accession Number 將可得其 FASTA 格式。FASTA 格式之樣式，如下圖 2.5 所示。

2.3.3 HTML4BLAST 工具

HTML4BLAST 是一套能將 BLAST 結果格式轉換為網頁形式的工具，並將其找出可能相似的區域並計算分數

將分數標準化

依照分數排序

轉算為期望值(E-VALUE)

>gnl|UG|Bt#S35034864 Bos taurus calpain 1, (mu/I) large subunit, mRNA (cDNA clone MGC:143348 IMAGE:8139008), complete cds /cds=p(68,2218) /clone=null /clone_end=null /gb=BC123635 /gi=115305057 /ug=Bt.252 /len=2965 GTCCTCAGTTGCCACCCGGGAAGCCAGAGCAGGGACCGCAGCGACCCCCCAACACTCCTCCCCCAGGATGGC

13

alignment 結果整合提供圖示顯示，如下圖 2.6 所示。本系統採用 HTML4BLAST 工具之版本為 1.6a。

圖 2. 6 BLAST 結果圖型顯示

2.3.4 Graphviz 結構關係圖產生器

Graphviz 為一套開放原始碼 (open source)的軟體工具，它能夠將抽象的圖形網絡關係展示成為圖表，其產生圖表檔案類型可為 JPG、PNG 或 SVG 等。使用者需先將其網絡關係封裝為文字型態的描述語言，其描述語言有固定格式，格式名稱為 DOT，其格式如下圖 2.7；再由程式執行輸出為圖表形式。本研究需要利用其工具展示 Go Term 的關連性。

圖 2. 7 Dot 格式

2.3.5 BlastSummary

digraph test {

graph [ratio=fill];

node [label="\N", color=black, fillcolor=white, fontcolor=blue, fontsize=10, shape=box, style=filled];

edge [fontsize=8];

graph [bb="0,0,382,610"];

accall [label="all\nall", fontname=Courier];

node1 [label="molecular_function\nGO:0003674", fontname=Courier];

node2 [label="binding\nGO:0005488", fontname=Courier];

node3 [label="ion binding\nGO:0043167", fontname=Courier];

node4 [label="metal ion binding\nGO:0046872", fontname=Courier];

node5 [label="calcium ion binding\nGO:0005509", fontname=Courier];

node6 [label="cation binding\nGO:0043169", fontname=Courier];

node1->accall[color=red, label=is_a];

node2->node1[color=red, label=is_a];

node3->node2[color=red, label=is_a];

node4->node3[color=red, label=is_a];

node5->node4[color=red, label=is_a];

node6->node3[color=red, label=is_a];

node5->node6[color=red, label=is_a];

}

14 2.4.1 COMPARE

COMPARE 是一個利用 Web Service 技術整合分散且異質的資料，如 ZFIN [5]、FlyBase[6]與 ENSEMBL[7]等予以分析，而這些資料庫包含各種不同物種及組織，並提供染色體結構 (genomic structure)、表示資料 (expression data)、註釋 (annotations)、反應路徑 (pathway)以及文獻鏈結 (literature link)等資訊。

使用者可將系統的回報資訊，透過選項設定而得到更精鍊 (refine)的結果，其展示結果的部分與本研究有些許相似，將於第五章討論。

2.4.2 ZooDDD

ZooDDD 是由台灣中央研究院研究團隊於 2006 年發表的系統[8]，其系統是從 UniGene 結合 EST 建構 ZooDDD 資料庫，藉由資料庫的資料進行跨物種跨組織比對，得到可能同源相關資訊。

其資料庫包含有 human (Homo spiens)、mouse (Mus musculus)、rat (Rattus norvegicus)、dog (Canis familiaris)、chicken (Gallus gallus)、forg (Xenopus tropicalis)、

zebrafish (Danio rerio)與 tunicate (Ciona intestinalis)八個物種，以及各物種於 EST 所擁有的組織。將於第五章進一步進行討論。

在文檔中支援跨物種組織的整合性高通量序列分析及功能註解參考系統 (頁 20-24)