Genomics-‐ Human genome project
國立中山大學 生物科學系 黃明德
基因組學-人類基因體計劃及其應用
Q:
: 如如果果你你在在研研究究紫紫色色眼眼睛睛基基因因,,你你要要如如何何找找到到標標的的基基因因??• 科科學學家家利利用用其其它它性性狀狀或或分分子子標標誌誌
(molecular marker)
標標定定眼眼睛睛顏顏色色基基因因
家
家族 族圖 圖譜 譜與 與基 基因 因定 定位 位
qq qq qq qq qq qq qq
#1 aa aa AA Aa Aa AA aa
#2 Bb Bb bb Bb Bb bb bb
#3 cc Cc Cc cc Cc Cc cc
#4 dd Dd dd dd Dd dd dd
#5 ee ee ee ee ee ee ee
#6 ff ff Ff ff ff Ff ff
A B C D E F QQ | Qq
Marker
假設: 大寫的基因座都是自於父本 QQ | Qq,而母本qq則是全都是小寫基因座
Solomon islands blonde ( 索羅⾨門群島⾦金髮)
Q: 當⾦金髮不再和膚⾊色性狀相連結,你當如何研究?
基
基因 因組 組學 學 (Genomics)
• 基因組(genome):細胞內所有的DNA,包含核DNA(nuclear DNA)、葉綠體DNA、粒腺體DNA
• 基因組學(基因體學)
目的:研究基因組結構、基因功能、基因演化 工具:
-‐ 基因組定序 – 基因組完整定序 -‐ 生物資訊學 – 序列組裝及分析 -‐ 遺傳學 -‐ 基因功能分析
流程:基因組定序 -‐> 基因註解 -‐> 基因功能分析
後基因體時代
遺傳學:
Gene-‐by-‐gene approach 基因體學:
High-‐throughput approach
• 基因體學與遺傳學相較,為以高通量(high-‐throughput)策略研究基因功能
Human genome project
-‐ 目的:將人類基因組序列完全定序
並註解所有基因 -‐ 1990計劃啟動 -‐ 2003公佈草圖
-‐ 總經費 $3,000,000,000美元 -‐ 共18個國家參與
人
人類 類基 基因 因組 組計 計劃 劃 /Human genome project (HGP)
• 1984 – 科學家於美國能源部會議提出構想
• 1986 – 與會科學家再次強調該計劃重要性並討論
• 1988 – 與會科學家一致同意該計劃重要性並準備著手進行
• 1990 -‐ 提出初步構想(為期15年, 經費美金 $3,000,000,000,採用 階層式定序法)
• 1992 -‐ 發布低解析度基因組草圖(genome map)
• 1998 – Celera公司宣佈將以霰彈槍定序法於五年內完成基因組 定序,經費 $300,000,000,完成後將註冊所有基因
• 1999 – 第一條染色體公布 (chromosome 22)
• 2000 -‐ Celera公司宣佈已完成 ~97%
• 2003 -‐ 人類基因組計劃完成
定
定序 序金 金額 額試 試算 算
-‐ Sanger 定序法
單次定序: 500-‐1000 bp 單次定序費用: $ 3
-‐ Human genome: 3,200,000,000 bp
3,200,000,000 / 500 = 6,400,000 定序次數 6,400,000 * 3 = $ 19,200,000
Why need $3,000,000,000?
基
基因 因組 組大 大小 小
• 單單位位
(bp / base pair)
1 bp = 1 bp , 1 kb = 1,000 bp, 1MB = 1,000,000 bp,
1GB = 1,000,000,000 bp基因數目 3 4288 19,000 13,600 ~ 20,000 ?
• 基基因因組組大大小小
C值謎(C-‐value enigma): ⽣生物的C值(或基因組⼤大⼩小)並不與⽣生物複雜程度相關的現象
人
人類類染染色色體體數數目目及及其其大大小小
248 MB 170 MB 145 MB 133 MB 133 MB
242 MB 198 MB 52 MB 46 MB
58 MB 156 MB
Total: 3,234.83 Mb
染色體條帶技術
• 利用染劑使染色體呈現各自獨特條帶形態,藉以區別染色體的不同
技
技術術 方方法法 亮亮帶帶 暗暗帶帶 G 帶 胰酶 + Giemsa GC rich AT rich R 帶 塩處理 + Giemsa AT rich GC rich Q 帶 Quinacrine GC rich AT rich C 帶 Ba(OH)2 + Giemsa 著絲點以外 著絲點
C-‐banding R-‐banding
G-‐banding
heps://www.quora.com/How-‐does-‐having-‐an-‐extra-‐chromosome-‐
cause-‐Down-‐syndrome
唐
唐氏 氏症 症 -‐第 第 21號 號染 染色 色體 體異 異常 常
3p22.1:
第三條染色體短臂
第2區第2子帶第1亞帶
短臂
長臂
細胞遺傳圖譜 (cytogenehc map)
Genome map (基 基因 因組 組圖 圖譜 譜 )
細胞遺傳圖譜 遺傳圖譜
物理圖譜
Cytogenehc map: 由染色體染色而來,沒有單位,以區域劃分 Genehc map: 由互換率計算而來,單位cM (cenhmorgan)
Physical map:由序列定序而來, 單位bp
Chromosome recombinaHon (染 染色 色體 體重 重組 組 )
野⽣生型果蠅(灰⾝身⻑⾧長翅)和突變果蠅(⿊黑⾝身短翅)交配產⽣生2000隻後代,其中742隻 為灰⾝身⻑⾧長翅、266隻為灰⾝身短翅、274隻為⿊黑⾝身⻑⾧長翅,以及718隻為⿊黑⾝身短翅 請問控制體⾊色(B基因)及翅膀⻑⾧長度(V基因)兩基因是否為連鎖?如果是的話,請問 其相距多少cenhmorgan?
742 266 274 718
假設:母本BbVv來自於基因型為 BBVV 及 bbvv的後代
742 266 274 718 B, V 非連鎖基因
之期望值 F1 子代
1125 450 450 125
B, V 為完全連鎖
之期望值 1000 0 0 1000
Chromosome recombinaHon (染 染色 色體 體重 重組 組 )
RecombinaHon rate (重 重組 組率 率 )
742 266 274 718
F1
重組型
遺
遺傳 傳圖 圖譜 譜
• 1% 重組率 = 1 cm (cenhmorgan)
• 重組率 < 50% -‐-‐> ”連鎖”
• 重組率 = 0% -‐-‐> “完全連鎖”
• 在人類細胞中 1 cM 約 1 Mb
Genome map (基 基因 因組 組圖 圖譜 譜 )
細胞遺傳圖譜 遺傳圖譜
物理圖譜
Cytogenehc map: 由染色體染色而來,沒有單位,以區域劃分 Genehc map: 由互換率計算而來,單位cM (cenhmorgan)
Physical map:由序列定序而來, 單位bp
全
全基 基因 因組 組定 定序 序策 策略 略
Shotgun sequencing approach
(霰霰彈彈槍槍定定序序法法) Hierarchical sequencing approach (階階層層式式定定序序法法)
PCR (聚合酶連鎖反應)
引子(primer) DNA模版
Sanger sequencing
• 藉由螢光標定ddNTP(雙脫氧核苷酸,五碳
糖缺乏3端OH基)使PCR反應停止
• 定序長度 500-‐1200 bp
定序序列
引子
5’ 3’
5’
PCR
跑膠,螢光分析
核酸雜合反應 (Nucleic acid hybridizahon)
熱處理、鹼破壞 或其它化學溶液 使雙股DNA變成 單股(變性,
denature)
DNA探針來源若為 雙股需先變成單股 才能進行雜合 ,探 針上可標定放射線 或其它螢光物質
南方墨點法 (Southern blopng )
• 主要原理為單股DNA可和放射性探針(probe,單股DNA)結合
• 酵素作用後DNA -‐> 洋菜膠電泳 -‐> 鹼處理使DNA成單股 -‐> 轉漬至硝化纖維 膜 -‐>放射性探針雜合 -‐> 訊號偵測
洋菜膠電泳
鹼處理
轉漬至硝 化纖維膜
放射性探針雜合
訊號偵測
Colony hybridizahon(菌落雜交)
• 主要原理為單股DNA可和放射性探針(probe,單股DNA)結合
• 目的為尋找含有特定序列的菌落
• 培養菌落 à 拓印至硝化纖維膜 à 鹼破壞打破細胞並使DNA變性 à放射性探針
雜合 -‐> 訊號偵測
E.coli
質體
BMC Genomics201112:639
螢光原位雜合 FISH (Fluorescence in situ hybridizahon)
• 主要原理為單股DNA可和螢光標定探針(probe,單股DNA)結合
• 目的為確認目標序列在染色體上的位置
• 細胞固定於玻片 à 以formamide將染色體變性 à螢光標定探針雜合 à螢光顯微鏡觀察
霰
霰彈 彈槍 槍定 定序 序法 法 (Shotgun sequencing approach)
基因組DNA
以物理、化學或酵素法將 DNA打斷 ~500 bp
次世代定序
基因組序列組裝
DNA定序 (DNA sequencing)
• 傳統定序法 Sanger sequencing -定次定序長度 ~ 500bp -‐ 1 kb -每次上機 96 samples
- 1977年發明
• Next generahon sequencing (次世代定序, NGS)
-‐ 又稱大規模並行測序 (Massive parallel sequencing) -‐ ~ 100 -‐ 500 bp /read (依定序技術不同)
-‐ 每次上機可獲得 > 100 Gb資料量
-‐ 不同公司技術不同,目前以illumina開發的SBS技術為主流 (2006年發明)
-‐ 可用於基因體、轉錄體、基因甲基化及環境微生物定序
SBS (sequencing by synthesis)
• 將Genomic DNA打斷為約 ~500 bp, 並接上adapter
• 將DNA變性並固定在含有引子的定序盤
• 引子的序列為根據adapter設計
SBS
• 利用引子進行PCR,將單股的標的序列複制為雙股
• 將複制的雙股變性成單股,並重覆PCR步驟,序列數目將以2次方成長
• 複制的目的為擴大定序訊號
• SBS所使用的核苷酸為特殊鹼基,上頭帶有發色基,可在激光後發出不同顏色
• 核苷酸五碳糖3端上帶有烯丙基(allyl group), 可使PCR反應無法進行
• 發色基及五碳糖3端的烯丙基可以鈀(pd)反應將其移除,使PCR反應繼續
SBS -反應用特殊核苷酸
PCR反應 讀取訊號 鈀反應
PCR反應 讀取訊號 鈀反應
PCR反應 讀取訊號 鈀反應
SBS – PCR 反應及訊號讀取
SBS-訊號解讀 (base calling)
Genome assembly (基 基因 因組 組序 序列 列組 組裝 裝 )
• 定序時目標序列為 ~500 bp,每次由其兩端讀取 150 bp,這些定序小片段稱之為read
• 序列的中間部份為未被定序區域
• 同一目標序列上會有二條read,可幫助序列組裝正確性
• 組裝原理為具有重覆序列的片段即可能位在基因體同一位置
定
定序 序組 組裝 裝 (assembly)的 的難 難題 題
• 人類基因組為3G(30億個鹼基),假設定序時每次只能讀 150 bp,那麼至少
要有2百萬條reads,若考慮重疊性,那至少要六百萬條reads才能完整涵蓋
基因組。
• 每條序列都如同一塊小拼圖,如何把六百萬條序列完整地對到染色體?尤
其是染色體不同位置但序列卻即為相似或序列多次重覆之位置。
-‐-‐ > 將染色體分為大片段,並得知每大片段是由染色體那一區域而來
Hierarchical sequencing approach (階 階層 層式 式定 定序 序法 法 )
以物理、化學况酵素法將DNA
打斷 ~ 150-‐300 Kb, 並接在BAC 將BAC以FISH定位在染色體
將BAC (150 kb) 片段亞克隆 至質體 (plasmid, 2 kb) 以sanger定序質體DNA
序列組裝
DNA 載 載體 體
載
載體體
承承載載量量
宿宿主主細細胞胞
人類人造染體 (HAC) 6000 -‐ 10000 Kb human cell 酵母人造染色體 (YAC) 100 -‐ 3000 kb Yeast 細菌人造染色體(BAC) 150 ~ 350 kb E. Coli 噬菌體載體 (PAC) 100-‐ 300 kb E. Coli 黏質體 (Cosmid, 噬菌體載體/質體之複合體) 35-‐45 kb E. Coli 質體 (plasmid) <= 15kb E. Coli
如果以一倍的覆蓋率計算,人類基因組 (3,200,000 kb) 需要 320 HAC
1,066 YAC 9,142 BAC 10,666 PAC 71,111 Cosmid 213,333 plasmid
* 通常一個基因組庫的要求為6倍覆蓋率以上
基
基因 因組 組庫 庫建 建構 構 (Genomic Library ConstrucHon)
基因組DNA 萃取
打碎為150-‐350 kb 片段 萃取
gDNA片段
BAC載體
限制酵素作用
接合酶作用
轉型
個別保存
如果一個BAC可承載150kb,對於人類
基因組3.2 Gb而言,9,142個BAC為一
倍的覆蓋率,而若要達到90%以上的
覆蓋率,至少要6倍的BAC數目
(54,852個)
BAC 端點部份序列
BAC
BMC Genomics 2011, 12:639
以螢光原位雜合法 (FISH)將BAC定位在染色體上定位
Inverse PCR (反 反向 向 PCR)
BAC
基因組DNA片段(150kb) 載體
限制酶作用
限制酶切點
連接酶作用
基因組DNA片段(<1 kb)
引子
PCR
BAC 端點序列(< 2 kb)
• 最好聚合酶最長可做到30kb,但很貴,成功率也很低。大部份聚合酶僅能做到 ~ 2 kb
• 基因組DNA片段為未知,無法設計引子。引子只能設計在載體序列
• 目的為擴增BAC端序列,以進行FISH或BAC library screening
BAC基 基因 因庫 庫篩 篩選 選
BAC A
BAC 端點片段
選擇可被放射性 探針雜合的菌株
B C
D
E
A B
C
D E
以BAC B, C, D, E端點片段重覆以上實驗以找到上下游BAC
放射性探針制作及雜合反應
BAC 基因庫
抽取BAC並確定其相對位置
階
階層 層式 式定 定序 序
BAC 基因庫
質體 基因庫 基因組 DNA
霰彈式定序及階層式定序比較
霰
霰彈彈式式定定序序 階階層層式式定定序序
時間 短 長
經費 少 多
人力 少 多
空缺區域(gap) 大 小
• 當第一個物種以階層式定序出來後,可作為其它物種基因組參考圖譜,因此其
它物種即使使用霰彈式定序法,也可以得到較精確的基因組圖譜。
• 目前已有公司號稱只要1,000美元即可完成個人定序
Francis S. Collins J. Craig Venter
人類基因體計劃共識-所有基因為人類共享,不可註冊
定序後的挑戰-基因註解
Q:人類基因組約3.2G,含有約20,000-‐25,000個基因,如果以每個基因平均長度10 kb 計算,那麼這些基因約佔基因組8% (250,000 kb)。那麼我們要如何知道基因的位 置?
1. 軟體預測:由基因的特質預測,如果有參考基因庫會較準確
a. ORF finder: 尋找開放讀序框架
對原核生物較有用,因為沒有內含子(intron)
缺點:對真核較無用
b. 比對己知基因,並對現有基因進行預測 Souberry – FGENESH+
缺點:對變異較大的基因較難進行預測
2. 轉錄體定序(RNA-‐seq):定序RNA的序列,並將其對回至基因組相對位置,該方
法較準確,但部份表現量較低的基因不一定會被定序
aaacggctcatcgtceaaaggcgtaetgccatgctaaatctggtacccggcaagcagea tgtgaaacgctggaacatctgaecgtgagaaggatgeccaggaatagaaaaatacatc agcgacaegacageatgtcaagagcegctgtagcaaggtagcctaeacatgaacaat atgaacgtaaeaegccgatgaccatccgatagtcegecggtaecgcaaatcacegag caaaegagtgggtgaatgegtcggcgaaetgaagactctacagcactgatcaacaacc tgccgaaactggatgcgcatgtgegaeaccgatctctccatgcctggcgataagtacggc gatggcaeacceaatcaagtacatcaagcgccaetcccaagcctgtcgatcaegectg actatgaacaacaacccggcgaeceagtgcggtaeggatctggatatcgaagggatcgt gctgaaacaaggtgcaccgaccgatctgccgaaagctctcgccgcgctgcagaaaggga agaaaetaccccggaaagcgetctcgcctgeggaaaaaatcagtgctggtggeacggt gacaagcgtctctcgccaaaagagagtgaagectgcgcctgetgcggaaggcecctggt gaccgagatcgctaaaaagctgaaccgcagtaeaaaaccatcagtagccagaagaaat ctgcgatgatgaagctgggtgtcgagaacgatatcgccctgctgaaeatctctcecagtg acceaagtccggcagataaagactaatcacctgtaggccagat
Q:假設你有一條來自大腸桿菌序列如下,請問你要如何以尋找ORF的方式預
測該片段是否含有基因片段?
Open reading frame(ORF): 開放讀序框架
- 基因組中能被轉譯成氨基酸序列的DNA⽚片段
- ⼀一條DNA序列共含有六種可能性的讀取框架(reading frame)
- 框架讀取: 每3個鹼基為⼀一組
- 若讀取框架中,含有起始(ATG, Methionine)及終⽌止碼(TAA, TAG, TGA),且 該讀取框架夠⻑⾧長,則其可能為一個基因
-若讀取框架片段沒有包含起始或終止碼,則該片段則有可能是某基因 片段
AAACCATGCTAAATCTGGTAGGCAAGCAGTTGTGAAAA K P C - I W - A S S C E
N H A K S G R Q A V V K T M L N L V G K Q L - K Frame 1 -‐>
Frame 2 -‐>
Frame 3 -‐>
G H - I Q Y A L L Q S F V M S F R T P L C N H F F W A L D P L C A T T F
<-‐ Frame 4
<-‐ Frame 5
<-‐ Frame 6
ORF預
預測測軟軟體體 --translate tolls in Expasy
待預測序列
開始預測
ORF預
預測測結結果果由由已知基因進⾏行基因預測
• 真核生物基因含有內含子,較難以真核⽣生物基因含有內含⼦子,較難以ORF
finder的⽅方式預測,因此可以⼰己知蛋⽩白或RNA序列進⾏行預測
ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGACCCAGCCGCAGCCTTTGTGAACCAAC ACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGG AGGCAGAGGACCTGCAGGGTGAGCCAACTGCCCATTGCTGCCCCTGGCCGCCCCCAGCCACCCCCTGCTCCTGGCGCTCCCACC CAGCATGGGCAGAAGGGGGCAGGAGGCTGCCACCCAGCAGGGGGTCAGGTGCACTTTTTTAAAAAGAAGTTCTCTTGGTCACG TCCTAAAAGTGACCAGCTCCCTGTGGCCCAGTCAGAATCTCAGCCTGAGGACGGTGTTGGCTTCGGCAGCCCCGAGATACATCA GAGGGTGGGCACGCTCCTCCCTCCACTCGCCCCTCAAACAAATGCCCCGCAGCCCATTTCTCCACCCTCATTTGATGACCGCAGAT TCAAGTGTTTTGTTAAGTAAAGTCCTGGGTGACCTGGGGTCACAGGGTGCCCCACGCTGCCTGCCTCTGGGCGAACACCCCATCA CGCCCGGAGGAGGGCGTGGCTGCCTGCCTGAGTGGGCCAGACCCCTGTCGCCAGGCCTCACGGCAGCTCCATAGTCAGGAGAT GGGGAAGATGCTGGGGACAGGCCCTGGGGAGAAGTACTGGGATCACCTGTTCAGGCTCCCACTGTGACGCTGCCCCGGGGCG GGGGAAGGAGGTGGGACATGTGGGCGTTGGGGCCTGTAGGTCCACACCCAGTGTGGGTGACCCTCCCTCTAACCTGGGTCCAG CCCGGCTGGAGATGGGTGGGAGTGCGACCTAGGGCTGGCGGGCAGGCGGGCACTGTGTCTCCCTGACTGTGTCCTCCTGTGTC CCTCTGCCTCGCCGCTGTTCCGGAACCTGCTCTGCGCGGCACGTCCTGGCAGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGG TGCAGGCAGCCTGCAGCCCTTGGCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGCTC CCTCTACCAGCTGGAGAACTACTGCAACTAG
• 範例: ⼈人類胰島素基因⽚片段 1120 bp, 蛋白質序列 110 a.a.
MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVE LGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN
若以ORF預測軟體預測⼈人類胰島素基因,會發現無法預測出完整基因片段
FGENESH+ of Sofeberry
• 利⽤用⼰己知蛋⽩白序列對未知基因組序列進⾏行基因預測
待預測基因 組序列
人類胰島素 蛋白序列
結果:RNA 序列
結果:蛋白質 序列
FGENESH+預
預測測結結果果外顯子1 外顯子2
ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGACCCAGCCGCAGCCTTTGTGAACCAAC ACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGG AGGCAGAGGACCTGCAGGGTGAGCCAACTGCCCATTGCTGCCCCTGGCCGCCCCCAGCCACCCCCTGCTCCTGGCGCTCCCACC CAGCATGGGCAGAAGGGGGCAGGAGGCTGCCACCCAGCAGGGGGTCAGGTGCACTTTTTTAAAAAGAAGTTCTCTTGGTCACG TCCTAAAAGTGACCAGCTCCCTGTGGCCCAGTCAGAATCTCAGCCTGAGGACGGTGTTGGCTTCGGCAGCCCCGAGATACATCA GAGGGTGGGCACGCTCCTCCCTCCACTCGCCCCTCAAACAAATGCCCCGCAGCCCATTTCTCCACCCTCATTTGATGACCGCAGAT TCAAGTGTTTTGTTAAGTAAAGTCCTGGGTGACCTGGGGTCACAGGGTGCCCCACGCTGCCTGCCTCTGGGCGAACACCCCATCA CGCCCGGAGGAGGGCGTGGCTGCCTGCCTGAGTGGGCCAGACCCCTGTCGCCAGGCCTCACGGCAGCTCCATAGTCAGGAGAT GGGGAAGATGCTGGGGACAGGCCCTGGGGAGAAGTACTGGGATCACCTGTTCAGGCTCCCACTGTGACGCTGCCCCGGGGCG GGGGAAGGAGGTGGGACATGTGGGCGTTGGGGCCTGTAGGTCCACACCCAGTGTGGGTGACCCTCCCTCTAACCTGGGTCCAG CCCGGCTGGAGATGGGTGGGAGTGCGACCTAGGGCTGGCGGGCAGGCGGGCACTGTGTCTCCCTGACTGTGTCCTCCTGTGTC CCTCTGCCTCGCCGCTGTTCCGGAACCTGCTCTGCGCGGCACGTCCTGGCAGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGG TGCAGGCAGCCTGCAGCCCTTGGCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGCTC CCTCTACCAGCTGGAGAACTACTGCAACTAG
MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVE LGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN
ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGACCCAGCCGCAGCCTTTGTGAACCAAC ACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGG AGGCAGAGGACCTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTGGCCCTGGAGG GGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGC TCCCTCTACCAGCTGGAGAACTACTGCAACTAG
⼈人類胰島素基因序列 1120 bp
⼈人類胰島素RNA序列 333 bp
⼈人類胰島素蛋白質序列 110 bp
外顯子1
外顯子2
內含子
轉錄體定序 (RNA-‐seq)
抽取RNA à 轉成雙股DNA並切成小片段 à 霰彈式定序 à 對應到基因組相對位置
NCBI Genome Data viewer
Search “Aquaporin”
aquaporin
result
Chromosome 7 locahon: 7p14.3 (cytological map)
Current posihon (physical map)
Gene structure
Search result
Transcript ID
人類基因體的應用
1. 基因功能分析
2. 醫葯開發 -‐ 精準醫學 3. 基因尋找 – GWAS
4. Metagenomics – 微生物菌相分析 5. Epigenomics – DNA 甲基化分析 6. 其它
SNP (單⼀一核苷酸 多型性)
GWAS分析
GWAS ( 全基因組關聯分析)
• Genome-‐wide associahon study
• 由⼈人類全基因組中找出某性狀關聯基因
• 方法為比較在具有不同性狀的族群之間的個體基因組差異,如
金髮及黑髮或具有遺傳疾病及正常人
• 兩群個體其它性狀不能差異太大
• 全基因組定序 à GWAS分析 à SNP candidate à 基因功能分析
曼哈頓圖-‐
全基因組
曼哈頓圖-‐
基因TRYP1 42位
43位