• 沒有找到結果。

表現基因標記資料庫表現基因標記資料庫

N/A
N/A
Protected

Academic year: 2021

Share "表現基因標記資料庫表現基因標記資料庫"

Copied!
6
0
0

加載中.... (立即查看全文)

全文

(1)

專題報導 生物資訊

人類基因體定序完成後雲 生命之書的藍圖已出現雲

下一步則是解開生命運作 的機制及協調的金鑰-基因。

人類表現基因資料庫

是隱藏基因祕密的大寶庫雲 使用生物資訊技巧

進行基因資料採掘雲

會有助於解開生命之書的奧祕。

林文昌

生物資訊的 舞台

表現基因

標記資料庫 表現基因

標記資料庫

(2)

近年來由於自動定序技術的快速發展,核 酸定序技術的成熟及成本 下降,大規模的基因體計畫得以順利進展。約 10年前,感冒嗜血桿菌物種 首先被定序完成,接著是大腸桿菌等物種的基因體。初期的物種基因體工 作,協助生物學家了解了基因體的基本資訊,如 G-C 的成分、重組序列、

跳躍因子組成以及基因家族擴展資料等。這對於基因體上的所有基因資 訊、總數目以及相互調控,有著不可或缺的重要性,可以說基因體是生命 運作的重要藍圖,也是生物學家了解生命奧祕的踏腳石。

在基因體研究後期,基因的功能與基因突變造成的遺傳性疾病,則成 為研究主要課題。因此,正確且迅速地辨識基因體內含的基因,就成為未 來成功運用基因體資訊的重要基礎,而表現基因資料庫便是其中重要的關鍵。

目前已有上百個物種的基因體被定序完成,而與我們息息相關的,自然是人類基 因體計畫。 80 年代末期,以美國為首的數十個國家,開始了人類基因體計畫的先期研 究。首先是人類基因體的物理圖譜,以及遺傳基因圖譜的建立,以這為藍圖,大規模 的基因體定序工作便在全世界展開。由於計畫規模禨大,以及超高的研究經費,這項 計畫也被比喻為生物學界的登月計畫。

在 2003 年,也就是發現 DNA 雙螺旋結構的 50 周年,人類基因體中 30 億個鹼基對 初步的定序宣布完成,這可說是生物學界的重大成就。但是真正重要的功能基因體研 究才正要開始!有了人類基因的完整資訊,以及生物功能全盤解析,研究人員才有可 能了解細胞的運作以及病變的成因。因此發現及註解人類基因體上的所有基因,是窘 今最重要的課題。

為何在完成所有人類基因體的定序後,仍然要花許多時間尋找人類基因?主要的 原因是人類真正的基因序列大約僅占基因體的百分之一,其餘百分之九十九的基因序 列並不具有轉錄轉譯的功能,而且也不具備基因的基本要素。因此,基因辨識工 作便成為首要的難題。更複雜的是,人類基因並不是連笭地存在於基因體 上,而是在轉錄過程中由許多小片段(表現子,exon)組合而成的訊息片 段。

舉例來說,假設在一個 30GB 的硬碟中,存有約 4 萬筆重要檔案,

占有空間約 30MB,但各個檔案分散在不同的磁區,且各個檔案約由 10 個磁區中的分散檔案組合而成。一般讀取檔案時,依據檔案目錄的索 引,可把各個分散檔案聚合使用。但是如果硬碟檔案目錄毀損時,使用者 雖仍擁有所有的資料,可是卻無法取出正確的資料,等於失去所有資料一 般。解救方法是逐序掃描磁碟上面所有的磁區磁軌,再利用常見檔案 特徵加以判斷組合。

?O2@6KeO26K?O)X?

?@@@@@@@@@@@@@@@@@@1?

?@@@@@@@@@@@@@@@@@@@??W@@@?e?@@?f??7@@5?e?3@@@?e??@@(Y?e?N@@H?e??@@Yg@@W26X?

?@@@@@@@@@@@@@@@@@@)??@@?g@@f??@@?g@@f??@@?g@@f??@@@@@@@@@@@f??@@?g@@f??@@?g@@f??@@?g@@f??@@@@@@@@@@@f??@0Mf?I4@f?? 基因窶是生命窶作的窶窶

窶圖窶也是了窶生命奧窶 的窶窶窶。因此窶正窶且 窶窶地辨窶基因窶內含的 基因窶就成為未來成功窶 用基因窶資訊的窶窶基 礎窶窶窶現基因資料庫便 是其中窶窶的窶窶。

人類基因組解讀計畫的標章(logo)院 顯示這部「生命之書」除了生物學院 化學、物理、工程和資訊科技之外院 也涉及了倫理問題。

http://www .ornl.gov/sci/techresources/Human_Genome/gra phics/slides/images/altcolhgplogo2.jpg

(3)

20

科學發展 2005年12月院396期

下的子資料庫中,以 表現基因標記資料庫 成長最為迅速。目前 各個不同物種的表現 基因標記資料庫,數 目總和已超過 2 千萬 筆,而人類表現基因 標記資料庫就占有 6 百萬筆之多,因此善 用人類表現基因標記 資料庫,會有助於研

究人員的人類基因解密及註解的工作。究竟表現 基因標記資料庫是什麼?又是如何產生的呢?

基因體中大約僅有百分之一是功能基因,

而這些所謂基因的序列,便是細胞在適窘的時 機及地點,以它們雙股 DNA 的序列從事轉譯的 作用,製造出單股 的 訊 息 R N A

(mRNA),再經由 所謂接合的動作,

把許多片段的表現 子,正確而完整地 結合起來,以做為 合成生化蛋白質的 模 板 。 這 些 訊 息 RNA 便是表現基因標 記資料庫(expressed sequence tags,EST)

的起源。

由於人類各部 位細胞內都有著幾 乎相同的基因體序 列,但不同器官、

組織的細胞是利用 不 同 模 組 的 訊 息 RNA 從事不同的蛋 白質轉譯,因此有 著完全不同的生理 人類基因體有 30 億個鹼基對,分

散在 23對染色體上,生物資訊便是用 來分析基因體資訊的工具。目前人類 基因體計畫便有如掃描後的硬碟,生 物學者正利用生物資訊工具,試著判 斷、收取基因片段,並重新組合分 析。

生物資訊是一門結合生命科學與 資訊科學的新興學門,早期目的是為 了有效地處理基因體計畫產生的大笚 序列資料,但現在它的應用層面已延 伸到所有生命科學領域,而生物資訊本身也已 成為另一項熱門的研究課題。

許多生物資訊工具及資料庫,因為人類基 因體計畫的推展而得到資源,使得資料庫快速 擴充,如美國的 GenBank 資料庫。在 GenBank 為何在完成所有人窶

基因窶的定序後窶仍 然窶窶窶多時窶尋找 人窶基因窶主窶的原 因是人窶真正的基因 序列大窶僅占基因窶 的窶分之一窶其窶窶 分之九十九的基因序 列並不具備基因窶基 本窶窶。

人窶基因窶有30億 個鹼基對窶分散在 23對染窶窶上窶生 物資訊便是用來分 析基因窶資訊的工 具。窶前生物學窶 正利用生物資訊工 具窶試窶判斷、收 取基因片段窶並窶 新窶合分析。

DNA與RNA的結構差異DNA是雙鏈結構院RNA則是單鏈結構院在五碳糖的第二個碳原子上院DNA連接的 是氫原子院而RNA連接的是羥基。DNA所含的鹼基種類是ATCG院而RNA是AUCG 。

胞嘧啶 胞嘧啶

鳥糞膘呤

腺膘呤 腺膘呤

胸腺嘧啶 尿嘧啶

含氮鹼基

含氮鹼基 鹼基對

磷酸鹽骨幹

DNA RNA

鳥糞膘呤

http://biotech.nstm.gov .tw/02/025.asp

含氮鹼基

(4)

功能。所以要了解各細胞在不同環境及時期的 分子生物作用,唯有了解其表現的訊息 RNA 組 成,也就是表現基因總成,因此表現基因標記 資料庫有著重要的生物應用意義。

由於基因是細胞執行功能的主要單元體,

因此研究不同細胞之間基因的表現,有助於了 解細胞真正的生理生化機制。生物學家在取得 某一種細胞的訊息 RNA 後,便利用反轉錄酉每建 立所謂的互補 DNA(cDNA)圖庫,然後再利 用自動化定序儀,大笚地定序圖庫中各種基因 的序列片段。但也由於使用了自動化序列定序 儀,所以取得的序列長度便受到儀器的定序極 限,通常是 300 至 500 鹼基序列。因此在許多 情況下,其實我們並未能取得一個基因的真正 全長,所以稱這種表現基因資料庫為表現基因 標記資料庫。

雖然我們取得的僅是數以百萬計的基因序 列片段而已,而不是所有基因的完整資訊,但 是這些數百萬個鹼基的序列片段,已足以告訴 我們基因的部分接合資訊,更重要的是哪些基 因表現在原本這個圖庫建構來源的細胞及組織 中。我們也可以拼湊出細胞表現基因的總成,

對於了解基因表現,表現基因標記資料庫有十 分重要的貢獻。

穭著表現基因標記資料庫的推廣及成長,

各種物種及不同組織的資料陸笭加入,表現基 因標記資料庫已成為世界上最大的基因資料 庫,有著 2 千萬筆以上的基因片段序列資料,

有如世界基因寶庫,等待生物資訊研究人員進 去尋寶。各種生物資訊工具,也針對表現基因 標記資料庫,開發且建立了更有用的基因表現 資訊。

基因體的座標 由於基因體的組成禨大,

科學家需要利用不同的標記序列作為基因體定 序之用,而表現基因標記資料庫,提供了尋找 及建立基因體標記的豐沛來源,且基因本身也 是做為基因遺傳圖譜的基礎。

基因搜尋與辨識 表現基因標記資料庫雖 只有片段基因序列資料,但是數笚驚人,因此 可以預期有許多序列資料重複出現在資料庫 中。所以利用生物資訊比對序列工具,我們便 有可能重組基因資料,進而建立起完整的基因 序列資料。常見的是利用聚合方式,重組有相 同片段 DNA 序列的標記基因。

表現基因標記資料庫

染色體

基因

轉錄及接合為訊息RNA

訊息RNA萃取及反轉錄為雙股互補DNA

分子選殖及序列定序

人類表現基因序列﹟5' 人類表現基因序列﹟3'

AAA

(5)

是指單一個核啟酸的自然變異,它也是人類基 因體中數笚最多的序列變異,預估在 1 千個鹼基 上就有1 個單核啟酸多樣性存在。因此了解每一 個人體內的單核啟酸多樣性分布情形,就有可 能了解個體差異現象,更能全盤解析單一個體 的生化、生物反應的分子機制。

單核啟酸多樣性源於自然產生序列誤差的 突變,再經由演化選擇及種族繁衍,存在於人 類族群中高於百分之一的序列差異,才有資格 稱為多樣性。因為單核啟酸多樣性的巨大數 笚,且高密度地存在於人類基因體上,預期未 來單核啟酸多樣性在族群遺傳學、藥物開發及 應用、刑事鑑定、以及人類疾病的研究及治療 方面,會有重大的影響,這也是未來生物技術 產業及基因型鑑定的發展基礎。

人類表現基因標記資料庫已收集由數千種 組織 cDNA 來源的數百萬筆表現基因資料,可 謂窘前表現基因序列最豐富的資料庫。由於表 現基因標記資料庫來自許多不同的組織,具有 多樣性的特徵,可說是地球上不同人種之間最 有代表性的基因序列資料庫,相窘適合單核啟 酸多變型的研究。

另一方面,利用基因體序列定序的方法,

通常受限於樣本數目大小,僅能分析數個至數 十個人的基因體,而造成由基因體序列定序方 法發現的單核啟酸多變型代表性不足,無法應 用在大規模分子流行病學研究。因此由表現基 因標記資料庫所發現的單核啟酸多變型,相窘 具有臨床應用價值。

表現基因標記資料庫的另一項重要的特 徵,是所有序列都是表現基因的片段,因此在 資料庫裡發現的單核啟酸多樣性都是表現基因 的一部分,極可能可以直接和基因變異及臨床 病理特徵進行關聯性研究。由於基因分布在約 百分之一的基因體範圍,一般基因體序列定序 發現的單核啟酸多樣性常落於非基因區域,並 不易直接應用在疾病基因分子生物機制的探討 上。

22

科學發展 2005年12月院396期

細胞或組織基因表現研究 由於各種細胞 或組織表現的基因種類數笚不同,因此建立數 千種細胞或組織表現基因標記資料之餘,我們 可以利用電腦程式及統計方法,比對不同組織 基因表現標記數笚的差異,而建立電子比對基 因表現的生物資訊工具及資料庫。

辨識基因接合的圖譜分析 由於一半以上 的人類基因有著不同的接合形式訊息,而探討 表現基因標記資料庫可說是最佳的研究工作,

不同表現子的接合狀 態,可以藉由生物資 訊工具進行表現基因 標記資料庫的詳細分 析。

人類單核 酸多 樣性資料庫建立的基 礎 單核啟酸多樣性

(single nucleotide poly- morphism,SNP)是 人類基因體計畫中最 有醫學應用價值的資 料。單核啟酸多樣性

@@@@e?@@@@?W26Xe

@@@@e?@@@@W&@@)X

@@@@@@@@@@@@@@@@@@@@@@)

@0M?e@@@@e?@@@h?J@@@5e?@@@h?7@@@?e?@@@@@@?f?@@@@@f?@@@@=f?@@@@Yf?@@@V@@6X

?@@@@@@@@@@@@@@@@@@@@@1

?@@@@@@@@@@@@@@@@@@@@@@?@@@@?f?@@@g?@@@@?f?@@@g?@@@@?f?@@@g?@@@@@@@@@@@@@g?@@@@?f?@@@g?@@@@?f?@@@g?@@@@?f?@@@g?@@@@@@@@@@@@@g?@@@@@@@@@@@@@g?@@@0MfI4@@g

一個胺基酸是由 三個核啟酸轉譯 而成的

http://codefun.com/Genetic_mapping.htm

核酸 胺基酸

基因組 靻白組

mRNA 多胜

基因碼 人類基因體計畫已 完成初稿定序院而 後續的基因辨識工 作 也 正 積 極 進 行 中。完整且正確地 辨識出所有人類基 因院有助於未來功 能基因體、結構基 因體等的科學研究 工作。

(6)

體研究,有必要建立一套有別於純粹 DNA 序列 理論的預測方式。基於這樣的考笚,有些研究 人員開發了比較性基因辨識法的生物資訊程 式。比較性基因辨識法是利用目前人類基因資 訊最豐富的表現基因標記資料庫為基礎,再加 上其他已完成的定序物種蛋白體為比對模板,

用以辨識新的人類基因。

人類表現基因標記資料庫雖然是窘前表現 基因序列最豐富的資料庫,但由於資料庫中的 序列定序錯誤及其他因素,造成在尋找及辨識 基因時困難重重。

為了更有效率地應用表現基因標記資料庫 中的序列資料,研究人員便導入比較性基因辨 識法,使用其他物種蛋白體胺基酸序列為模 板,以及 BLAST(basic local alignment sequence tool)生物資訊序列比對程式,獲得演化中保存 良好的人類直系基因資訊,並加入類神經網路 資料採掘工具,協助判斷新人類基因。至今研 究人員已找到 150 個以上人類全長完整基因,

這項方法可應用在判讀及註解人類基因的重要 工作上。

表現基因標記資料庫對於人類基因體計畫 有顯著幫助,再加上生物資訊比較性基因辨識 法,更可創造出一個新的資訊資料庫,採掘應 用範例於實際基因註解及驗證。這表示利用舊 資料及創新方法,可以使用在生物資訊方面,

協助生物學者進行研究,並做為未來的應用。

林文昌

中央研究院生物醫學研究所

人類基因體計畫已完成 初稿定序,而後笭的基因辨 識工作也正積極進行中。完 整且正確地辨識出所有人類 基因,有助於未來功能基因 體、結構基因體等的科學研 究工作。在生物醫學研究方 面,全盤了解人類基因組成 及功能,是探討人類疾病起

因及發展有效治療藥物不可或缺的基石。

由於人類基因組成大約只占整個基因體的 百分之一,判讀及正確地註解出所有人類基 因,是目前生物資訊方面的重要課題。就現今 的基因發現程式而言,雖在表現子的預測上有 不錯的準確度,可是以 1 個人類基因平均 10 個 左右表現子為前提,要正確無誤地判讀出每個 基因的所有表現子,尚有一段距離。況且過多 的假性預測基因,也會造成後笭分析上的負 擔。因此,目前人類基因體計畫註解出的基因 數目仍偏低,而部分無額外生物學證據的預測 基因,也因無法得到採信而有遺珠之憾。

為了真正全面註解人類基因以及功能基因

單一核 酸多型性—即使是DNA序列微小的改變院也 可能對生命體外顯特徵或正常功能產生顯著的影響。

?O2@6KeO26Kf

@@@@@@@@@@@@@@@@@?

@@@@@@@@@@@@@@@@@??@@@0MeI4@@@?e?@@?g?@@?e

@@@@@@@@@@@@@@@@@@

@@@@@@@@@@@@@@@@@@?@@?g?@@?e?@@?g?@@?e?@@@@@@@@@@@@?e?@@@@@@@@@@@@?e?@@?g?@@?e?@@?g?@@?e?@@?g?@@?e?@@@@@@@@@@@@?e?@@@@@@@@@@@@?e

比較性基因辨識法

http://www .bioteach.ubc.ca/Bioinformatics/DeCODE/

人類表現基因序列﹟5'

序列比對程式

其他非人類物種的同源基因靻白質序列

人類的同源基因序列

人類表現基因序列﹟3'

參考文獻

相關文件

學籍電子化所揭櫫的目標,其中之一便是「學籍電子資料交換」。 SFS3 的開發團隊,為了讓

 眼睛是心靈之窗,心靈是眼神之源。在眼球後方 感光靈敏的角膜含有 1.37 億個細胞,將收到的信 息傳送至腦部。這些感光細胞,在任何時間均可 同時處理

下列哪一種記憶體屬於非揮發性記憶體, 不會因電源關閉而使其中的資料消 失, 但是可以透過電壓的方式重複抹除資料, 可用於基本輸入/ 輸出系統 (Basic Input / Output System,BIOS)

• 是細胞不正常增生,且這些增生的細胞可

基因編輯技術以人工核酸酶辨識特定 DNA 位置,並於此處切斷雙股 DNA。DNA 斷

資料 詳細 標示

• 將已收集的 LPF 有效顯證,加入為校本的 學生表現 示例 ,以建立資源庫作為數學科同工日後的參照,成 為學校數學科組知識管理

數學桌遊用品 數學、資訊 聲音的表演藝術 英文、日文、多媒體 生活科技好好玩 物理、化學、生物、資訊 記錄片探索 英文、公民、多媒體 高分子好好玩 物理、化學、生物