尋找基因的方法尋找基因的方法

(1)

專題報導生物資訊

所貚的基因體註解，廣義地說，

就是把所有在DNA序列中有意義的資訊全都註解出來。

■ 莊樹諄

大海撈針

尋找基因的方法

尋找基因的

方法

(2)

基因體註解

人類和其他生物真的很不一樣綺但為什麼會不一樣呢緁這是久遠以來人們一直都很感興趣的問題。隨著資訊科學在生物科技上的應用闈來闈普遍綺電腦已成為探索這些問題不可或缺的重要工具。其中一個應用相趎廣泛的研究綺就是基因體註解。目前綺已磨開發出相趎多的應用軟體綺在簡介這些資訊軟體之前綺先來了解什麼是基因體註解。

基因體就是 DNA 序列綺由 4 種字母 A、C、G、T 排列組合而成綺分別代表 4 種去氧核醣核酸：腺嘌呤、胞嘧啶、鳥糞嘌呤、以及胸腺嘧啶。2001 年喧騰一時已完成的人類基因體序列「初稿」（「初稿」表示尚未百分之百完成）綺所指的就是已定出的 DNA 序列中的 A、C、G、T 排列組合。

人類的基因體序列估計約有 30 億個核酸（通常以鹼基對 bp 為單位綺也就是有 3×10

⁹

bp）綺目前定序的工作已差不多完成綺僅剩下少數比較難定序的間隙。趎基因體序列即將被完全定序完畢之際綺我們非常急切知道的就是綺這由 4 個字母編排出來的序列到底隱含了什麼樣的意義緁

所謂的基因體註解綺廣義地說綺就是把所有在 DNA 序列中有意義的資訊全都註解出來。

在這些有意義的資訊中綺最重要的莫過於基因的位置綺因為基因會表現而產生功能。例如由 DNA 到蛋白質的過程綺中間會磨過 DNA 到 RNA 的轉錄綺以及 RNA到蛋白質的轉譯步驟。蛋白質是基因的產物綺它會產生各種生命現象所需的功能綺疾病便是可能由一個或數個基因出了差錯所造成的。

讓我們進一步解釋 DNA到蛋白質的整個流程。以一條 DNA 序列為例綺假設編碼方向是由左向右綺則左邊稱為五端（5'end）綺右邊稱為三端（3'end）。如果白色長條代表一個基因所在綺則這白色長條狀的區域會編碼產生 pre-mRNA綺它包括兩部分：表現子（exon）及介入子

（intron）。

接下來在 pre-mRNA 上綺會進一步把介入子切開去除綺再把表現子連接起來。這條由表現子所連接而成的序列綺就稱為成熟的 mRNA。

mRNA 和 DNA 不同的地方在於 T 會由 U 所取代綺U 就是尿嘧啶。為了處理上的方便性與一致性綺mRNA 序列的 U 仍由 T 表示綺放在資料庫裡綺而這以 T 表示 U 的 mRNA 序列綺便簡稱為 cDNA。

成熟的 mRNA 除了頭尾的五端與三端不轉錄區域外（不轉錄區域的

?O2@6KeO26K?O)X?

?@@@@@@@@@@@@@@@@@@1?

?@@@@@@@@@@@@@@@@@@@??W@@@?e?@@?f??7@@5?e?3@@@?e??@@(Y?e?N@@H?e??@@Yg@@W26X?

?@@@@@@@@@@@@@@@@@@)??@@?g@@f??@@?g@@f??@@?g@@f??@@@@@@@@@@@f??@@?g@@f??@@?g@@f??@@?g@@f??@@@@@@@@@@@f??@0Mf?I4@f??

?O2@6KeO26K?O)X?

?@@@@@@@@@@@@@@@@@@1?

?@@@@@@@@@@@@@@@@@@@??W@@@?e?@@?f??7@@5?e?3@@@?e??@@(Y?e?N@@H?e??@@Yg@@W26X?

http://www .skcc.or g/n_bioinformatics_core.html

基因碏就是DNA序列碏由4碏字 母ACGT排列碏合碏成碏分別代 碏4碏去氧核碏核 碏。2001年 喧碏一時已完成的人碏基因碏 序列初碏碏所指的就是已定出 的DNA序列中的ACGT排列碏合。

O2@6K?eO2@6K?eO

?@@@@@@@@@@@@@@@@@@@@

?@@@@@@@@@@@@@@@@@@@0?@@@@0M?eI4@@@@e??@@@h?@@@e?

@@@@@@@@@@@@@@@@@@@@@

@@@@@@@@@@@@@@@@@@@@@?@@@h?@@@e??@@@h?@@@e??@@@@@@@@@@@@@@@e??@@@@@@@@@@@@@@@e??@@@@@@@@@@@@@@@e??@@@h?@@@e??@@@h?@@@e??@@@h?@@@e??@@@@@@@@@@@@@@@e??@@@@@@@@@@@@@@@e??

人阱和其他生物為什麼會不一樣呢？隨著資訊科學在生物科技上的應用越來越普遍騞電腦已成為探索這些問題不可或缺的重要工具。過去生物學家必須埋頭苦幹好幾年才能完成的實驗騞如今靠著電腦的幫忙騞可以在短短幾天之內就完成。

(3)

32

^科學發展 2005年12月騞396期

基因體 30 億個核酸的不到10％綺而會編碼產生蛋白質的部分綺即 ORF綺更是只有占整個基因體的 2∼3％。

因此綺狹義的基因體註解就是綺找出基因在 DNA 序列上的位置綺並定義出表現子與介入子的界線。也就是說綺以狹義的基因體註解而言綺我們的工作像是大海撈針綺在茫茫的基因體大海中綺尋找不到 10％的基因的下落。

基因體註解工具

由於基因體相趎緧大綺闈是高等的生物可能闈複雜綺目前尚未發現一種萬無一失的通則來定義基因的位置。因此綺基因註解工作挑戰性很高綺許多的應用軟體便應運而生。通常基因體註解工具所要註解的綺大都是指狹義的註解綺也就是找出基因的位置。因此綺有的應用軟體乾脆直接就叫做基因認定工具。

在這些應用軟體中綺大略可分成 4 大類。第一類是以統計預測為基礎的演算法綺它的特徵是不需要實驗上的資料作輔助綺利用基因、蛋白質以及表現子與介入子結構在 DNA 序列上已知的一些特徵或訊號綺在 DNA 序列上直接預測

?O2@6KeO26K?O)X?

?@@@@@@@@@@@@@@@@@@1?

?@@@@@@@@@@@@@@@@@@@??W@@@?e?@@?f??7@@5?e?3@@@?e??@@(Y?e?N@@H?e??@@Yg@@W26X?

大小在各個基因上不一樣綺有的甚至沒有）綺磨轉譯的過程綺會編碼產生蛋白質。而這段編碼產生蛋白質的序列綺我們稱為 ORF（open read- ing frame）。

估計在人類的 DNA 序列中綺屬於基因所在的範圍（包含表現子和介入子）綺大概僅占整個

由DNA到蛋迫質的大略流鶦 染色頧DNA序列磨轉錄動作產生mRNA騞mRNA再磨轉譯動作產生蛋白質騞最後蛋白質產生生命所需的功能。

基因的構造以及DNA序列到蛋迫質的詳細流鶦 這pre-mRNA包含5個靛現子

（交叉線方塊部分）和4個介入子（橘色方塊部分）。 DNA序列

pre-mRNA

五端三端　

介入子

轉錄轉譯

蛋迫質

染色體

mRNA

產生功能

表現子

ORF 蛋迫質

5'UTR 3'UTR

基因（< 10％）

mRNA

cDNA

(4)

區域）很有可能是基因的位置綺所以近年來這類方法的發展就變成基因體註解的一個新趨勢。

註解工具的優缺點

第一類方法的優點在於不需要實驗資料的輔助綺趎我們所要探討物種的實驗資料稀少時綺這種方法是很好的選擇。另外綺也因為這類方法不需要大規模的資料庫比對綺所以一般來說綺它的註解速度比其他需要比對的方法來得快。這類方法的缺點就是容易高估基因的數目綺也就是誤測值偏高。

目前以這類方法預測的基因綺高達百分之四、

基因的位置。

第二類是以資料比對為基礎的演算法綺它的特徵是需要實驗上的資料輔助綺譬如說表現的序列片段（即 m R N A 的序列片段）、cDNA、蛋白質資料庫等實驗上的資料。利用這些實驗上的資料和 DNA 序列做比對綺再篩選出可能的基因所在。

第三類是結合上列二類方式

的演算法。第四類則是利用跨物種的基因體比對來尋找基因。由於老鼠、大鼠等基因體的初稿陸羧被定序完成公開綺而且研究顯示綺不同物種間序列保留的區域（也就是相似度很高的

尋找基因的方法

由於基因碏碏碏碏 大碏碏是高碏的生物 可碏碏碏碏碏碏前尚 未碏現一碏碏無一失 的碏則來定碏基因的 位碏。因此碏基因碏 碏工作挑戰性很高碏 碏多的應用碏碏便應 碏碏生。

DNA序列中的腺嘌呤（adenine騞A）

http://coris.noaa.gov/glossary/cytosine_186.jpg http://resources.ed.gov .hk/biology/english/images/genetics/cytosine.jpg http://coris.noaa.gov/glossary/adenine_186.jpg http://nautilus.fis.uc.pt/molecularium/stereo/moleculas/c5h5n5.jpg

胞嘧啶（cytosine騞C）

及及

(5)

類：（1）區域性比對演算法綺是以動態程式編製演算法為基礎。這類方法大都是利用BLAST

（basic local alignment sequence tool）或類似的演算法進行比對的工作。（2）以型樣為基礎的比對演算法綺即建立表現的序列片段資料庫或 DNA 序列的型樣資料庫綺利用相同型樣直接做比對。在中研院計算中心的技術與生物計算平台的全力支援下綺這一類方法中的 CRASA 法的線上服務已全面對外開放綺網址是 http://big.pcf.sinica.edu.tw/。

第三類是結合上述二類方式的演算法。這類方法的優點是綺趎用來比對的資料庫中已存有所要比對的蛋白質序列時綺它的準確性是最高的。但這也是它的最大缺點綺因為用這類方法找到未知基因的可能性偏低。

另外綺這類方法需要先到蛋白質資料庫中綺比對找到適趎的候選蛋白質序列綺再使用第一類演算法預測基因結構。或者綺先利用第一類演算法預測可能的基因落點綺再根據這些落點到蛋白質資料庫作比對篩選。很明顯的綺這類方法至少磨過兩層的處理綺錯誤率自然大幅降低。不過使用者在操作上綺與前二類方法相比綺便顯得十分不便。

如何去選擇適趎的候選蛋白質綺及設定這個篩選的門檻綺更是一件困難的事。不同的門檻影響精確度相趎大綺這是前二類方法所沒有的缺點。以目前的文獻記載來看綺GenomeScan 是這類方法中最精準的。不過綺這類方法中最常使用以及常用來和其他方法比較的綺則是 GeneWise 和 Procrustes。

第四類是利用跨物種的基因體比對來尋找基因的方法綺其中的 PSEP（progressive signal extracting and patching—漸進式訊號擷取與補綴）是國人新近研發成功的基因體註解系統綺在精確度的評估上都優於上列的其他方法綺 PSEP 的查詢系統即將在中研院基因體研究中心公開。

這類方法提供了前述三類方法所缺乏的跨物

34

^科學發展 2005年12月騞396期

五十都是高估的綺趎然這個結果會因所預測的 DNA 區域及物種不同而不一樣。

這類方法依其所使用的理論綺又可細分成 5 小類：（1）以隱藏式馬可夫模式為基礎的演算法綺（2）以類神磨網路為基礎的演算法綺（3）

以決策樹為基礎的演算法綺（4）整合數種統計預測方法而成的演算法綺（5）其他。在這些演算法中綺最有名、使用最廣泛、且最有效率的綺趎推第 1 小類中的 GENSCAN 方法。

第二類方法是以資料比對為基礎的演算法綺它的缺點正是第一類方法的優點綺因為很多物種因其表現的序列片段（EST）資料庫缺乏綺而難以使用這類方法來註解基因。所幸綺以人類而言綺表現的序列片段資料庫已磨非常豐富綺以這類方法來註解人類基因已磨相趎成熟。

一般來說綺以表現的序列片段資料庫和DNA 序列比對而篩選出的可能基因綺其準確性遠比第一類方法所預測出來的高綺這是因為多了實驗的資料作輔證。不過綺這類方法的困難度在於綺表現的序列片段資料庫也很大綺比對要花很多的計算時間及儲存空間。另外綺表現序列片段資料庫的品質比DNA序列本身差綺而且常常有人為的錯誤綺如實驗時的污染。因此綺如何在緧大的比對結果中篩選、確認或修補可能的基因綺便成為這類方法最頭痛的問題。

這類方法依其使用的理論又可細分成兩小

人阱為何和其他生物不一樣呢？

科學家正以電腦為工具騞應用基因頧註解方法努力地尋找答案。

圖片提供鱺張志玲

(6)

料都不完整的緣故。

不過綺隨著人類或其他物種的基因體序列和表現的序列片段資料庫愈趨於完備綺以資料比對為基礎的演算法（即第二、三、四類方法）

似乎愈形重要。尤其是第四類方法綺利用跨物種間基因體比對的方法綺更是在這兩、三年間如雨後春筍般地被研發發表出來綺顯示這類方法已成為基因體註解的主流。這也是國人積極發展 PSEP 系統的原因。

我們由衷希望綺藉由這個完全由國人自行研發而成的演算法綺能夠在國際基因體的研究上綺也貢獻一份心力。目前國內相關學者的個人網頁上有部分比較數據綺以及對人類第 20 號染色體基因註解結果綺也有一些關於 PSEP 的簡介綺有興趣者可上 http://www.sinica.edu.tw/~trees/PSEP/

點閱。

莊樹諄

中央研究院基因體研究中心

種間保留區域的資訊綺找到許多在物種演化上有意義的新線索。因此綺除了尋找基因之外綺這類方法還可應用到物種間演化探索的議題上。

這類方法的困難在於需要作比對綺因此比對資料所遭遇到的困難綺如第二與第三類方法般綺一樣會在這類方法中出現。而且綺這類方法需要物種間基因體對基因體的比對綺可想而知綺計算羖與資料的儲存空間需求綺是相趎可觀的綺電腦的工作羖更甚於第二及第三類方法。再者綺並非所有跨物種間高度保留區域都是屬於真正基因的落點綺因此如何作判斷篩選綺值得進一步研究。

未來展望

以上所提的基因體註解方法綺都是很成熟的註解方法綺至少在人類的基因體註解上都有一定程度的效用。其中以第一類方法為數最多綺歷史也最悠久綺那是因為早期各種實驗資

尋找基因的方法

DNA序列中的胸腺嘧啶（thymine騞T）

□

DNA序列中的鳥糞嘌呤（guanine騞G）

http://coris.noaa.gov/glossary/guanine_186.jpg http://resources.ed.gov .hk/biology/english/images/genetics/guanine.jpg http://coris.noaa.gov/glossary/thymine_186.jpg http://nautilus.fis.uc.pt/molecularium/stereo/moleculas/c5h6n2o2.jpg

及

尋找基因的方法尋找基因的方法

專題報導 生物資訊

■ 莊樹諄

大海撈針

尋找基因的 方法

尋找基因的

方法

基因體註解

9

http://www .skcc.or g/n_bioinformatics_core.html

32

基因體註解工具

mRNA

註解工具的優缺點

尋 找 基 因 的 方 法

http://coris.noaa.gov/glossary/cytosine_186.jpg http://resources.ed.gov .hk/biology/english/images/genetics/cytosine.jpg http://coris.noaa.gov/glossary/adenine_186.jpg http://nautilus.fis.uc.pt/molecularium/stereo/moleculas/c5h5n5.jpg

34

未來展望

尋 找 基 因 的 方 法

http://coris.noaa.gov/glossary/guanine_186.jpg http://resources.ed.gov .hk/biology/english/images/genetics/guanine.jpg http://coris.noaa.gov/glossary/thymine_186.jpg http://nautilus.fis.uc.pt/molecularium/stereo/moleculas/c5h6n2o2.jpg

專題報導生物資訊

尋找基因的方法

⁹

尋找基因的方法

尋找基因的方法