Genomics-‐ Human genome project
國立中山大學 生物科學系 黃明德
基
基因
因組
組學
學
(Genomics)
•
基因組:細胞內所有的DNA序列,包含核DNA、葉綠體DNA、
粒腺體
DNA
•
基因組學(基因體學)
目的:研究基因組結構、基因功能、基因演化
工具:
-‐ 基因組定序 – 基因組完整定序
-‐ 生物資訊學 – 序列組裝及分析
-‐ 遺傳學 -‐ 基因功能分析
流程:基因組定序 -‐> 基因註解 -‐> 基因功能分析
後基因體時代
遺傳學:
Gene-‐by-‐gene approach 基因體學High-‐throughput : approach
如
家
家族
族圖
圖譜
譜與
與基
基因
因定
定位
位
qq qq qq qq qq qq qq #1 aa aa AA Aa Aa AA aa #2 Bb Bb bb Bb Bb bb bb #3 cc Cc Cc cc Cc Cc cc #4 dd Dd dd dd Dd dd dd #5 ee ee ee ee ee ee ee
#6 ff ff Ff ff ff Ff ff
A B C D E F QQ | Qq
Human genome project
hRp://www.jonesbiology.com/biology-‐1/chapter-‐14-‐-‐-‐the-‐human-‐genome-‐
目的:將人類基因組序列完全定序
並註解所有基因
-‐
1990計劃啟動
-‐
2003公佈草圖
-‐
總經費 $3,000,000,000美元
-‐
共18個國家參與
人
人類
類基
基因
因組
組計
計劃
劃
/Human genome project (HGP)
•
1984 – 科學家於美國能源部會議提出構想
•
1986 – 與會科學家再次強調該計劃重要性並討論
•
1988 – 與會科學家一致同意該計劃重要性並準備著手進行
•
1990 -‐ 提出初步構想(為期15年, 經費美金 $3,000,000,000,採用
階層式定序法
)
•
1992 -‐ 發布低解析度基因組草圖(genome map)
•
1998 – Celera公司宣佈將以霰彈槍定序法於五年內完成基因組
定序,經費
$300,000,000,完成後將註冊所有基因
•
1999 – 第一條染色體公布 (chromosome 22)
•
2000 -‐ Celera公司宣佈已完成 ~97%
•
2003 -‐ 人類基因組計劃完成
定
定序
序金
金額
額試
試算
算
-‐
Sanger 定序法
單次定序: 500-‐1000 bp
單次定序費用: $ 3
-‐
Human genome: 3,200,000,000 bp
3,200,000,000 / 500 = 6,400,000 定序次數
6,400,000 * 3 = NT$ 19,200,000
Why need $3,000,000,000?
基
基因
因組
組大
大小
小
•
單
單位
位
1 bp = 1 bp , 1 kb = 1,000 bp, 1MB = 1,000,000 bp,
1GB = 1,000,000,000 bp
基因數目 3 4288 19,000 13,600 ~ 20,000 ?•
基
基因
因組
組大
大小
小
C值謎(C-‐value enigma):⽣生物的C值(或基因組⼤大⼩小)並不與⽣生物複雜程度相關的現象
人
人類
類染
染色
色體
體數
數目
目及
及其
其大
大小
小
248 MB 170 MB 145 MB 133 MB 133 MB 242 MB 198 MB 52 MB 46 MB 58 MB 156 MB Total: 3,234.83 Mb
染色體條帶技術
• 利用染劑使染色體呈現各自獨特條帶形態,藉以區別染色體的不同
技
技術術 方方法法 亮亮帶帶 暗暗帶帶
G 帶 胰酶 + Giemsa GC rich AT rich R 帶 塩處理 + Giemsa AT rich GC rich Q 帶 Quinacrine GC rich AT rich C 帶 Ba(OH)2 + Giemsa 著絲點以外 著絲點
C-‐banding R-‐banding
hRps://www.quora.com/How-‐does-‐having-‐an-‐extra-‐chromosome-‐ cause-‐Down-‐syndrome
唐
3p22.1: 第三條染色體短臂 第2區第2子帶第1亞帶 短臂 長臂
細胞遺傳圖譜
(cytogenehc map)
Genome map (基
基因
因組
組圖
圖譜
譜
)
細胞遺傳圖譜
遺傳圖譜
物理圖譜
Cytogenehc map: 由染色體染色而來,沒有單位,以區域劃分 Genehc map: 由互換率計算而來,單位cM (cenhmorgan)
Chromosome recombinaFon (染
染色
色體
體重
重組
組
)
野⽣生型果蠅(灰⾝身⻑⾧長翅)和突變果蠅(⿊黑⾝身短翅)交配產⽣生2000隻後代,其中742隻 為灰⾝身⻑⾧長翅、266隻為灰⾝身短翅、274隻為⿊黑⾝身⻑⾧長翅,以及718隻為⿊黑⾝身⻑⾧長翅 請問控制體⾊色(B基因)及翅膀⻑⾧長度(V基因)兩基因是否為連鎖?如果是的話,請問 其相距多少cenhmorgan? 742 266 274 718742 266 274 718 B, V 非連鎖基因 之期望值 F1 子代 500 500 500 500 B, V 為完全連鎖 之期望值 1000 0 0 1000
Chromosome recombinaFon (染
染色
色體
體重
重組
組
)
RecombinaFon rate (重
重組
組率
率
)
742 266 274 718
F1
遺
遺傳
傳圖
圖譜
譜
•
1% 重組率 = 1 cm (cenhmorgan)
•
重組率 < 50% -‐-‐> ”連鎖”
•
重組率 = 0% -‐-‐> “完全連鎖”
•
在人類細胞中 1 cM 約 1 Mb
Genome map (基
基因
因組
組圖
圖譜
譜
)
細胞遺傳圖譜
遺傳圖譜
物理圖譜
Cytogenehc map: 由染色體染色而來,沒有單位,以區域劃分 Genehc map: 由互換率計算而來,單位cM (cenhmorgan)
全
全基
基因
因組
組定
定序
序策
策略
略
Shotgun sequencing approach (霰霰彈彈槍槍定定序序法法)
Hierarchical sequencing approach (階階層層式式定定序序法法)
PCR (聚合酶連鎖反應)
引子(primer) DNA模版
Sanger sequencing
• 藉由螢光標定ddNTP(雙脫氧核苷酸,五碳 糖缺乏3端OH基)使PCR反應停止 • 定序長度 500-‐1200 bp 定序序列 引子 5’ 3’ 5’ PCR 跑膠,螢光分析南方墨點法
(Southern bloong )
• 主要原理為單股DNA可和放射性探針(probe,單股DNA)結合 • 酵素作用後DNA -‐> 洋菜膠電泳 -‐> 鹼處理使DNA成單股 -‐> 轉漬至硝化纖維 膜 -‐>放射性探針雜合 -‐> 訊號偵測 洋菜膠電泳 鹼處理 轉漬至硝 化纖維膜 放射性探針雜合 訊號偵測核酸雜合反應 (Nucleic acid hybridizahon) 熱處理、鹼破壞 或其它化學溶液 使雙股DNA變成 單股(變性, denature) DNA探針來源若為 雙股需先變成單股 才能進行雜合 ,探 針上可標定放射線 或其它螢光物質
Colonies hybridizahon(菌落雜交)
• 主要原理為單股DNA可和放射性探針(probe,單股DNA)結合 • 目的為尋找含有特定序列的菌落 • 培養菌落 à 拓印至硝化纖維膜 à 鹼破壞打破細胞並使DNA變性 à放射性探針 雜合 -‐> 訊號偵測 E.coli 質體BMC Genomics201112:639
螢光原位雜合
FISH (Fluorescence in situ hybridizahon)
• 主要原理為單股DNA可和螢光標定探針(probe,單股DNA)結合 • 目的為確認目標序列在染色體上的位置
霰
霰彈
彈槍
槍定
定序
序法
法
(Shotgun sequencing approach)
基因組DNA
以物理、化學况酵素法將 DNA打斷 ~500 bp
次世代定序
DNA定序 (DNA sequencing)
•
傳統定序法 Sanger sequencing
-定次定序長度 ~ 500bp -‐ 1 kb
-每次上機 96 sample
- 1977年發明
•
Next generahon sequencing (次世代定序, NGS)
-‐ 又稱大規模並行測序 (Massive parallel sequencing)
-‐ ~ 100 -‐ 500 bp /read (依定序技術不同)
-‐ 每次上機可獲得 > 100 Gb資料量
-‐ 不同公司技術不同,目前以illumina開發的SBS技術為主流
(2006年發明)
SBS
•
將Genomic DNA打斷為約 ~500 bp, 並接上adapter
•
將DNA變性並固定在含有引子的定序盤
SBS
• 將複制的雙股變性成單股,並重覆PCR步驟,序列數目將以2次方成長 • 複制的目的為擴大定序訊號
• SBS所使用的核苷酸為特殊鹼基,上頭帶有發色基,可在激光後發出不同顏色 • 核苷酸五碳糖3端上帶有烯丙基(allyl group), 可使PCR反應無法進行
• 發色基及五碳糖3端的烯丙基可以鈀(pd)反應將其移除,使PCR反應繼續
PCR反應 讀取訊號 鈀反應 PCR反應 讀取訊號 鈀反應 PCR反應 讀取訊號 鈀反應
SBS – PCR 反應及訊號讀取
Genome assembly (基
基因
因組
組序
序列
列組
組裝
裝
)
• 定序時目標序列為 ~500 bp,每次由其兩端讀取 150 bp,這些定序小片段稱之為read • 序列的中間部份為未被定序區域
• 同一目標序列上會有二條read,可幫助序列組裝正確性
定
定序
序組
組裝
裝
(assembly)的
的難
難題
題
• 人類基因組為3G(30億個鹼基),假設定序時每次只能讀 150 bp,那麼至少 要有2百萬條reads,若考慮重疊性,那至少要六百萬條reads才能完整涵蓋 基因組。 • 每條序列都如同一塊小拼圖,如何把六百萬條序列完整地對到染色體?尤 其是染色體不同位置但序列卻即為相似或序列多次重覆之位置。 -‐-‐ > 將染色體分為大片段,並得知每大片段是由染色體那一區域而來
Hierarchical sequencing approach (階
階層
層式
式定
定序
序法
法
)
以物理、化學况酵素法將DNA 打斷 ~ 150-‐300 Kb, 並接在BAC 將BAC以FISH定位在染色體 將BAC (150 kb) 片段亞克隆 至質體 (plasmid, 2 kb) 以sanger定序質體DNA 序列組裝DNA 載
載體
體
載
載體
體
承
承載
載量
量
宿
宿主
主細
細胞
胞
人類人造染體
(HAC)
6000 -‐ 10000 Kb human cell
酵母人造染色體
(YAC)
100 -‐ 3000 kb
Yeast
細菌人造染色體
(BAC)
150 ~ 350 kb
E. Coli
噬菌體載體
(PAC)
100-‐ 300 kb
E. Coli
黏質體
(Cosmid, 噬菌體載體/質體之複合體)
35-‐45 kb
E. Coli
質體
(plasmid)
<= 15kb
E. Coli
如果以一倍的覆蓋率計算,人類基因組 (3,200,000 kb) 需量 320 HAC 1,066 YAC 9,142 BAC 10,666 PAC 71,111 Cosmid 213,333 plasmid * 通常一個基因組庫的要求為6倍覆蓋率以上
基
基因
因組
組庫
庫建
建構
構
(Genomic Library
ConstrucFon)
基因組DNA 萃取 打碎為150-‐350 kb 片段 萃取 gDNA片段 BAC載體 限制酵素作用 接合酶作用 轉型 個別保存 如果一個BAC可承載150kb,對於人類 基因組3.2 Gb而言,9,142個BAC為一 倍的覆蓋率,而若要達到90%以上的 覆蓋率,至少要6倍的BAC數目 (54,852個)BAC 端點部份序列
BAC
BMC Genomics 2011, 12:639
Inverse PCR (反
反向
向
PCR)
BAC 基因組DNA片段(150kb) 載體 限制酶作用 限制酶切點 連接酶作用 基因組DNA片段(<1 kb) 引子 PCR BAC 端點序列(< 2 kb) • 最好聚合酶最長可做到30kb,但很貴,成功率也很低。大部份聚合酶僅能做到 ~ 2 kb • 基因組DNA片段為未知,無法設計引子。引子只能設計在載體序列BAC基
基因
因庫
庫篩
篩選
選
BAC A
BAC 端點片段 選擇可被放射性 探針雜合的菌株 B C D E A B C D E以
BAC B, C, D, E端點片段重覆以上實驗以找到上下游BAC
放射性探針制作及雜合反應 BAC 基因庫 抽取BAC並確定其相對位置階
階層
層式
式定
定序
序
BAC
基因庫
質體
基因庫
基因組
DNA
霰彈式定序及階層式定序比較 霰 霰彈彈式式定定序序 階階層層式式定定序序 時間 短 長 經費 少 多 人力 少 多 空缺區域(gap) 大 小 • 當第一個物種以階層式定序出來後,可作為其它物種基因組參考圖譜,因此其 它物種即使使用霰彈式定序法,也可以得到較精確的基因組圖譜。 • 目前已有公司號稱只要1,000美元即可完成個人定序
Francis S. Collins J. Craig Venter
定序後的挑戰-基因註解
Q:人類基因組約3.2G,含有約20,000-‐25,000個基因,如果以每個基因平均長度10 kb 計算,那麼這些基因約佔基因組8% (250,000 kb)。那麼我們要如何知道基因的位 置? 1. 軟體預測:由基因的特質預測,如果有參考基因庫會較準確 2. 轉錄體定序:定序RNA的序列,並將其對回至基因組相對位置,該方法較準確, 但部份表現量較低的基因不一定會被定序
轉錄體定序
(RNA-‐seq)
人類基因體的應用
1. 基因功能分析 2. 醫葯開發 -‐ 精準醫學 3. 基因尋找 – GWAS 4. Metagenomics – 微生物菌相分析 5. Epigenomics – DNA 甲基化分析 6. 其它
Search “Aquaporin”
aquaporin
Chromosome 7 locahon: 7p14.3 (cytological map) Current posihon (physical map) Gene structure Search result Transcript ID