Chapter 2 文獻探討
2.3 序列比對工具
序列比對工具為基因體範疇研究的重要工具,其可針對多條核甘酸或蛋白質 序列間進行序列相似度分析。目前主要針對 DNA 序列進行分析工具有兩種,一種 為 FAST[3],另一種為 BLAST[4]。由於本系統利用 BLAST 進行序列分析,故後 一小節將對此工具進行詳細敘述。
初期的 BLAST 不允許空缺 (gap)的片斷序列配對 (ungapped alignment),但 Altschul 等人於 1997 年提出修正版本,此時便克服上述的限制。BLAST 主要的基 本步驟為以下圖 2.4 所示。
BLAST 是採行 pair wise sequence alignment (成對序列比對),而一條序列為一
11
串英文字母所組成,又一個 alignment 為兩條序列成對排列,進行比對計分依據鹼 基 (base)或胺基酸 (Amino Acid)是否吻合 (match),若吻合則為正分,不吻合 (mismatch)與空缺 (gap)則為負分。
BLAST 目 前 是 由 NCBI 管 理 , 此 分 析 方 法 可 透 過 網 頁 介 面 (http://www.ncbi.nlm.nih.gov/BLAST/)或安裝於本端主機進行運作,NCBI 提供各種 不同型態及用途的 BLAST 種類如下:
(1) megablast : 用於基因體序列之比對,針對核苷酸序列利用連鎖查詢多條序 列以加速搜尋速度。
(2) blastn : 利用輸入核苷酸序列針對核苷酸序列之資料庫進行相似性比對。
(3) blastp : 利用輸入胺基酸序列針對胺基酸序列之資料庫進行相似性比對。
(4) blastx : 用於鑑別核苷酸序列之身分,其將核苷酸序列轉譯成六種形式的 胺基酸序列,並進一步在蛋白質資料庫內進行比對工作,以期找出此核苷 酸序列之潛在蛋白質產物。
(5) tblastn : 用於胺基酸序列之比對,但比對之胺基酸序列資料由核苷酸序列 資料庫中序列所轉譯成胺基酸序列為基礎。
(6) tblastx : 用於核苷酸序列之比對,將此核苷酸序列轉譯成六種形式的胺基 酸序列,並與由核苷酸序列資料庫中序列所轉譯出的胺基酸作序列相似性 比較。
本系統所使用的 BLAST 種類為 blastn,其版本為 2.2.17
12
圖 2. 4 BLAST 演算流程
2.3.2 FASTA 格式
當執行 BLAST 分析需使用的輸入格式為 FASTA 格式。可利用 NCBI Entrez 查詢網頁,輸入 Nucleotide Accession Number 或 Protein Accession Number 將可得 其 FASTA 格式。FASTA 格式之樣式,如下圖 2.5 所示。
2.3.3 HTML4BLAST 工具
HTML4BLAST 是一套能將 BLAST 結果格式轉換為網頁形式的工具,並將其 找出可能相似的區域並計算分數
將分數標準化
依照分數排序
轉算為期望值(E-VALUE)
>gnl|UG|Bt#S35034864 Bos taurus calpain 1, (mu/I) large subunit, mRNA (cDNA clone MGC:143348 IMAGE:8139008), complete cds /cds=p(68,2218) /clone=null /clone_end=null /gb=BC123635 /gi=115305057 /ug=Bt.252 /len=2965 GTCCTCAGTTGCCACCCGGGAAGCCAGAGCAGGGACCGCAGCGACCCCCCAACACTCCTCCCCCAGGATGGC
13
alignment 結果整合提供圖示顯示,如下圖 2.6 所示。本系統採用 HTML4BLAST 工具之版本為 1.6a。
圖 2. 6 BLAST 結果圖型顯示
2.3.4 Graphviz 結構關係圖產生器
Graphviz 為一套開放原始碼 (open source)的軟體工具,它能夠將抽象的圖形 網絡關係展示成為圖表,其產生圖表檔案類型可為 JPG、PNG 或 SVG 等。使用者 需先將其網絡關係封裝為文字型態的描述語言,其描述語言有固定格式,格式名 稱為 DOT,其格式如下圖 2.7;再由程式執行輸出為圖表形式。本研究需要利用其 工具展示 Go Term 的關連性。
圖 2. 7 Dot 格式
2.3.5 BlastSummary
digraph test {
graph [ratio=fill];
node [label="\N", color=black, fillcolor=white, fontcolor=blue, fontsize=10, shape=box, style=filled];
edge [fontsize=8];
graph [bb="0,0,382,610"];
accall [label="all\nall", fontname=Courier];
node1 [label="molecular_function\nGO:0003674", fontname=Courier];
node2 [label="binding\nGO:0005488", fontname=Courier];
node3 [label="ion binding\nGO:0043167", fontname=Courier];
node4 [label="metal ion binding\nGO:0046872", fontname=Courier];
node5 [label="calcium ion binding\nGO:0005509", fontname=Courier];
node6 [label="cation binding\nGO:0043169", fontname=Courier];
node1->accall[color=red, label=is_a];
node2->node1[color=red, label=is_a];
node3->node2[color=red, label=is_a];
node4->node3[color=red, label=is_a];
node5->node4[color=red, label=is_a];
node6->node3[color=red, label=is_a];
node5->node6[color=red, label=is_a];
}
14
2.4.1 COMPARE
COMPARE 是一個利用 Web Service 技術整合分散且異質的資料,如 ZFIN [5]、FlyBase[6]與 ENSEMBL[7]等予以分析,而這些資料庫包含各種不同物種及組 織,並提供染色體結構 (genomic structure)、表示資料 (expression data)、註釋 (annotations)、反應路徑 (pathway)以及文獻鏈結 (literature link)等資訊。
使用者可將系統的回報資訊,透過選項設定而得到更精鍊 (refine)的結果,其 展示結果的部分與本研究有些許相似,將於第五章討論。
2.4.2 ZooDDD
ZooDDD 是由台灣中央研究院研究團隊於 2006 年發表的系統[8],其系統是從 UniGene 結合 EST 建構 ZooDDD 資料庫,藉由資料庫的資料進行跨物種跨組織比 對,得到可能同源相關資訊。
其資料庫包含有 human (Homo spiens)、mouse (Mus musculus)、rat (Rattus norvegicus)、dog (Canis familiaris)、chicken (Gallus gallus)、forg (Xenopus tropicalis)、
zebrafish (Danio rerio)與 tunicate (Ciona intestinalis)八個物種,以及各物種於 EST 所 擁有的組織。將於第五章進一步進行討論。