台灣族群全基因組劑量變異分析：建立供作臨床與研究應用的數據資料

(1)

國立台灣大學醫學院分子醫學研究所碩士論文

Graduate Institute of Molecular Medicine College of Medicine

National Taiwan University master thesis

台灣族群全基因組劑量變異分析：

建立供作臨床與研究應用的數據資料

Whole Genome Analysis of Copy Number Variations in Taiwan Populations: A Data Resource for Clinical and

Research Applications

陳佩芬 Chen, Pei Fen

指導教授: 蘇怡寧博士

Advisor: Su, Yi-Ning , M.D./ Ph.D.

中華民國 99 年 6 月

國立臺灣大學

分子醫學所碩 ( 博) 士論文台灣族群全基因組劑量變異分析陳佩芬撰

99

(2)

(3)

誌謝

兩年前考上台大分醫所，是我生命中非常重要的一年，我在驕傲自己成為台大人的同時，也著手完成了自己的終身大事，這兩年來好忙碌，生活像連續快拍的照相機一樣，急忙的捕捉一系列的剎那，卻沒有時間細細品味。終於，在論文即將完成的尾聲，我嘗試放慢自己的腳步，而我此刻的心情和兩年前在台大分醫所榜單上看到自己的名字，一樣的興奮，在同時面對職場工作壓力與課業壓力下完成碩士的學位，這是一場體力、意志力與熱情互相消長及對抗的過程，我終於又為自己的人生立下一個新的里程碑，彌補九年前無法繼續升學的遺憾。這兩年來，首先感謝指導教授蘇怡寧醫師及博士班前輩林芯伃醫師的指導，也謝謝實驗室助理久雅、瓊儀及俍瑤傳授我實驗的技巧，更感謝任職公司(生寶臍帶血銀行) 長官(章修綱董事長、陳位存副總、李政勳經理、羅瑋瑜博士)及同事的支持與包容，給我足夠的空間完成我個人的目標。最後要感謝我的內子，在我想發洩的時候當我的出氣筒，在我挫折及難過時當我的垃圾桶，總是默默的陪伴我走過每一次困難，擔任我的最佳心靈捕手；同時又以其 MBA 的經歷，協助、指導我的簡報製作，家人的支持永遠是鼓勵我繼續往前走的力量，衷心的感謝！

(4)

III

摘要

基因組劑量變異(Copy Number Variation)是人類遺傳變異的主要來源，它會造成孟德爾遺傳性狀、散發性性狀，可能與某些複雜性疾病相關，但也代表著個體間良性的多型性變異。然而，亞洲族群基因組劑量變異的訊息仍然有限，我們使用 CMDX Bac Array CA2500/ CA3000 來鑑別台灣族群 1015 個個體其 CNV 的分布，

總計發現了 438 個發生 CNV 訊號的位置，其中有 6 個區域其 CNV 的發生率超過 20%，而大多數 CNV(92.44%)的變異範圍小於 1 Mb，平均每個個體發生 CNV 的次數為 4.36 次。發生 CNV 的區域中，有 54.79%和片段性重複序列的位置重疊；

64.49%覆蓋基因；92.47%已在相關的文獻報告過，只有 7.53%是首次在此篇研究中發現。和先前的文獻相較，Bac Array 所偵測的 CNVs 比高解析度的平台要少的多，但正因為如此，可以降低臨床病理診斷的干擾，因此此篇文獻所使用的 Bac Array 較適合用於產前、臨床診斷。此篇研究建立屬於台灣族群的 CNV 圖譜，補足 CNV 資料庫的族群變異性，可供作臨床遺傳諮詢的參考。

關鍵字：基因組劑量變異、良性變異、非等位同源重組、非同源末端連結、比較式基因組雜交技術

(5)

Abstract

Copy number variation is a source of genetic diversity in humans. CNVs can cause

Mendelian or sporadic traits, be associated with complex disease, also represent benign polymorphic variants between individuals. However, CNVs information of Asian populations remains unexplored. We identified CNV distribution of 1015 individuals in Taiwan populations by using CMDX Bac Array CA2500/ CA3000 and find 438 loci with CNV signals. The CNV frequencies of six regions are over 20%. Most CNVs (92.44%) size are shorter than 1 Mb. Average CNV number in each individual is 4.36.

Among CNV regions, 54.79% regions overlap with segmental duplication, 64.49%

regions cover gene, 92.47% regions are reported in previous study, only 7.53% regions are novel in this study. In contrast to previous studies, CNVs identified are much less than the platform with high resolution. But it lower disturbance in clinical pathologic diagnosis for this reason. So, Bac array used in this study is more appropriate for prenatal, clinical diagnosis. This study establish CNV map of Taiwan populations for further reference of genetic consulting.

Key Word: Copy Number Variation, Heteromorphism, Non-Allelic Homomlogous

(6)

內文目錄

口試委員會審定書………. I 誌謝……….. II 中文摘要………. III 英文摘要………... IV 內文目錄………... V 圖目錄………... VII 表目錄………... IX

第一章研究背景與動機………. 1

第一節顯微鏡下的結構變異……….. 1

第二節次顯微結構變異……….. 3

第三節結構變異的類型……….. 4

第四節基因組劑量變異(CNV)形成的機制………... 9

第五節基因組劑量變異(CNV)如何影響表型變化………. 10

第六節基因組劑量變異(CNV)對個體表型及疾病易感性的影響 12 第七節基因組劑量變異(CNV)的臨床意義與重要性…………. 13

第八節偵測基因組劑量變異(CNV)的方法………. 15

第九節近期文獻對基因組劑量變異(CNV)的研究………. 20

(7)

第十節研究目的與動機……… 24

第二章研究方法……… ……… 26

第一節研究樣本來源……… 26

第二節以 CMDX Bac Array CGH 分析基因組中的劑量變異… 26 第三節以 Competitive Multi-Plex PCR 驗証 CMDX Bac Array 的基因組劑量變異訊號………. 30

第四節與現有基因組變異資料庫進行比對………. 32

第三章結果………... ... ... 34

第四章討論………. 43

第五章結論………. 50

參考文獻………... 51

附錄：台灣族群 CNV 發生位置與頻率一覽表……… 56

(8)

圖目錄

圖一：CGH 與 aCGH 的操作原理……… 18

圖二：Bac Array CGH 的操作流程……… 29

圖三：人類基因組變異資料庫 http://projects.tcag.ca/variation 搜尋介面……….. 32

圖四：Bac Clone: CTD-2041D13 (Chr5:69364823-69448911)於資料庫的搜尋結果……… 33

圖五：樣本 509 的全基因組基因組劑量變異掃描結果圖………… 34

圖六：樣本 313-2 在 Chr 6 的 aCGH 結果 Deletion 表現………….. 35

圖七：參考檢體在 6p25.3/ DUSP22 gene 的劑量……… 35

圖八：樣本 313-2 第一次 Multi-Plex PCR 結果……… 35

圖九：樣本 313-2 第二次 Multi-Plex PCR 結果………. 35

圖十：樣本 H268 在 Chr 6 的 aCGH 結果 eletion 表現………. 36

圖十一：參考檢體在 6p25.3/ DUSP22 gene 的劑量………. 36

圖十二：樣本 H268 在 6p25.3/ DUSP22 gene 的 Deletion 表現…….. 36

圖十三：樣本 H490 在的 Chr 4 的 aCGH 結果 Duplication 表現…… 36

圖十四：參考檢體在 4p16.1/ CPZ gene 的劑量表現……… 36

圖十五：樣本 H490 在 4p16.1/ CPZ gene 的 Duplication 表現……… 36

圖十六：樣本 321 在的 Chr 12 的 aCGH 結果 Duplication 表現…... 37

(9)

圖十七：參考檢體在 12p12.3/ RERG gene 的劑量表現……… 37 圖十八：樣本 321 在 12p12.3/ RERG gene 的 Duplication 表現……. 37 圖十九：參考檢體在 12p12.3/ PIK3C2G gene 的劑量表現………… 37 圖二十：樣本 321 在 12p12.3/ PIK3C2G gene 的 Duplication 表現… 37 圖二十一：台灣族群基因組基因組劑量變異分佈……….… 38 圖二十二：台灣族群常見發生基因組劑量變異的位置

（Incidence>1%）....……… 39 圖二十三：台灣族群全基因組劑量變異形式分析……… 40

圖二十四：台灣族群基因組劑量變異的基因覆蓋率……… 41 圖二十五：台灣族群基因組劑量變異與 Segmental Duplication 的

重疊率………... 41 圖二十六：台灣族群已知 CNV 與新發現的 CNV 比例………. 41 圖二十七：台灣族群基因組劑量變異的大小變化與分佈………… 42 圖二十八：在染色體 9、15、16 所觀察到的 Heteromhorphism…… 45 圖二十九：多型性 CNV 的鑑別流程……… 47

(10)

表目錄

表一：分析檢體來源一覽表……… 34 表二：個體的平均基因組劑量變異……… 34 表三：在健康個體所看到的 CNV，部分座於相關遺傳疾病的致病

位置……… 44 表四：研究結果與相關文獻的比較 (C 表示中國人；J 表示日本人；K 表示韓國人)……… 49

(11)

第一章研究背景與動機

第一節顯微鏡下的結構變異

正常人類的基因組的組成為 46, XX 或 46, XY，基因組數目的改變或結構的異常會導致許多遺傳疾病，根據統計，早期自發性流產的胎兒有超過 50%以上有基因組數目異常；高齡孕婦所產下的胎兒也有 2%有基因組數目或結構上的異常 (1)，因此臨床上只要看到非後天造成、非人為外力影響的異常表型，像是外觀上的畸形、多重結構異常、發育遲緩、智能障礙、反覆流產或不孕等，進行基因組的數目及結構檢查，是臨床上進行確診非常重要的一個步驟。

在細胞遺傳學發展的早期，是透過特殊的化學染色技術，在顯微鏡下鑑別中期染色體(Metaphase chromosome)的數目及大於 5~8Mb 的結構變化，並探討這些改變與人類疾病之間的關係，一般認為大片段的結構變化，勢必會造成某些異常表型。其中數目上的異常，即所謂的非整倍體(Aneuploidy)，是臨床上所發現的染色體病中最為常見的一種，例如：唐氏症(Down Syndrome: 47, +21)、透納氏症(Turner＇s Syndrome: 45,X)、柯林菲特氏症(Klinefelter's Syndrome)等，其起因為生殖細胞於減數分裂的過程中發生了染色體不分離 (Chromosome Non-Disjunction)。而染色體結構上的異常則為有絲分裂或減數分裂的過程中，染色體發生了不平衡重組(Unbalanced Rearrangement)，產生片段缺失(Deletion)、增加(Duplication)、倒位(Inversion)、易位(Translocation)，或功能性基因被打斷、破壞，因此導致遺傳疾病。例如：第 5 對染色體短臂末端的缺失所造成的貓哭症(Cat cry syndrome)、第 9 對染色體與第 22 對染色體發生易位(Translocation)，使得第 22 對染色體上產生一個異常的融合基因 (BCR-ABL)，因而引發慢性骨髓性白血病等。

然而，除了與臨床疾病有關聯性的結構變異，顯微鏡下的觀察卻也發現許多染色體的結構在不同的健康個體間有著不同的大小差異及染色特性，這些良性

(12)

的變異稱為 Heteromorphism(3)，根據先前文獻的觀察，平均每個個體可發現 4~6 個良性的變異(3)。其可能存在於常染色質區(Euchromatic Region)或異染色質區 (Heterochromatic Region)，如常見於 1、9、16 對染色體的著絲粒區(Centromere) 或端粒區(Telomere)、Y 染色體長臂的末端，及近端著絲粒染色體等(Acrocentric Chromosome:13~16，21~22 對染色體)。(3, 9 ,10 ,11)。而上述這些在顯微鏡下可以觀察到的變異，則稱為〝顯微鏡下的結構變異〞 (Microscopic Structural Variation)。列舉顯微鏡下常見的染色體良性結構變異如下(13)：

8p23.1

此區域由 β Defensin 基因以 240kb 大小的單位叢聚而成，平均不同個體間約有 2~12 個基因組劑量的差異。此基因與抵抗微生物感染的能力有關。

9p12q12

人群中約 6~8%的個體在第 9 號染色體著絲粒的位置有大片段的結構變異，

此區域多是由高度同源性的重複序列所組成，序列的相似度>99%，使得此區域的序列擴增情形有高度的動態變化。

15q11.2

15q 的近端其遺傳物質的增加，主要是由包含有 GABRA5、NF1 與 IGVH 等同源性偽基因(Paralogous Pseudogene)的重複序列所組成，絕大多數的個體在此位置有 1~4 個基因組劑量的變化，甚至最多可由 20 個串聯重複序列所組成。

16p11.2

和 15q11.2 一樣，此區域是由包含有同源性偽基因的複製序列所組成，如 creatinine transporter SLC68A、Myosin heavy-chain、Immunoglobulin heavy chain 等，不同健康個體間可有 2~12 個基因組劑量的變化。

以上這些 Hetromorphism 皆代表了重複性 DNA 片段極端的擴增，使得正常個體間、基因組劑量變化存在著高度的多型性。而這些 Heteromorphism 有明顯

(13)

的分佈偏差，大多好發生於靠近著絲粒的位置，由於著絲粒的位置多由片段性重複序列(Segmental Duplication)整合而成，因此這樣的結構是促使基因組發生新的結構變異的主要來源。同樣的分佈偏差也存在於端粒區域，主要是因為許多染色體的末端包含嗅覺接受體基因(Olfactory Receptor Gene)、Zinc-finger Protein Gene Families、Immunoglobulin Heavy Chain Gene Families 等，這些多型性基因的分佈及劑量變化在不同的個體甚至是不同的族群間，都呈現出高度的變異性及多型性，因此造就了個體間表型多型性的樣貌，也使得端粒區在顯微鏡下經常有不同大小的染色特性。

第二節次顯微結構變異

隨著分子生物學的進步，DNA 定序方法的誕生使得小於 1 Kb 的 DNA 片段可以被偵測到，這幫助我們瞭解許多更小的 Insertion、Deletion、Inversion、

Duplication 與臨床疾病之間的關係，以及 Microsatellite、Minisatellite 等重複性序列(Repetitive Sequence)的存在與所扮演的角色。當然，DNA 定序方法甚至可以細微到單一核苷酸的變化，這讓我們可以確診單點突變所引起的遺傳疾病，而 DNA 定序方法的發展同時也讓我們發現單核苷酸多型性 (Single Nucleotide Polymorphism, SNP)的存在，SNP 點位上不同的核苷酸，可能會改變蛋白質的表現、影響基因的調控，甚至與疾病的發生有關。這類結構變異在基因組分佈普遍且密度大，早期認為，這些小片段的結構變異與 SNP 是基因組中最主要的變異來源，是造成基因組多樣性(Genomic Diversity)、使個體間有表型差異及疾病易感性(Disease Susceptibility)的主要原因(3)。例如：依美國 NCBI dbSNP 資料庫 (http://www.ncbi.nlm.nih.gov/projects/SNP/)之統計，人類參考基因體，大約有一千四百多萬個位置可能會有核苷酸多型性，意即平均大約每二百到三百個核苷酸，

就會發現有一個單核苷酸多型性的現象。

這些在顯微鏡下無法觀察到的細微結構變化，即稱為〝次顯微結構變異〞

(14)

(Submicroscopic Structural Variation)。除了 DNA 定序方法外，還有許多方法可以偵測基因組裡特定位置的次顯微結構變異情形，例如：原位螢光雜交技術 (Fluorescence In Situ Hybridization)，以及許多以 PCR 為基礎的實驗方法，像是 Real-Time Quantitative PCR、Multiplex Amplifiable Probe Hybridization(MAPH)、

Multiplex Ligation- Dependent Probe Amplification(MLPA)等。然而，雖然上述的方法可以有效的評估微小 DNA 片段的增加或減少，但只能針對已知的位置，或某些特定的位置(Targeted Regions)，其在基因組範圍的廣泛應用上受到很大的限制，因此對於分佈於全基因組、大小不等的結構變異，瞭解仍然有限。近幾年來，

由於全基因組雜交技術有著快速的進展，其能掃描全基因組的優勢及逐漸提高的解析度，使得辨識基因組裡結構變異的情形有了革命性的突破，這讓我們發現介於幾個 Mb 的顯微鏡層次變異，到小於 1Kb 的次顯微變異之間，還存在著許多大小不等的 DNA 片段有著劑量變化的情形，並且大量的散佈於基因組中，這些介於 1Kb 到幾個 Mb 之間的 Deletion 或 Duplication 的 DNA 片段，稱為基因組劑量變異(Copy Number Variations: CNVs)。CNVs 大則可能包含數百萬個核苷酸，

含蓋許多功能性基因及基因的表現調節區，因此它對於人類的遺傳多樣性、表型變異是非常重要的，影響的程度可能遠大於單核苷酸多形性所造成的遺傳變異，

同時 CNVs 在物種的演化和發展中，必定也扮演著非常重要的角色。這使得人群中 CNV 存在的調查，成了近幾年基因組結構研究的熱門話題，然而這一類的次顯微變異，與人類健康、疾病之間的關係尚不清楚，仍待進一步的研究。

第三節結構變異的類型

綜合以上所述，人類基因組的結構變異，小至單一個鹼基，大至幾個 Megabase、甚至是整條染色體，主要包含以下數種形式(3, 13)：

1. 單一核苷酸的變化：

即點突變或單一核苷酸多型性(SNPs)。可能起源於複製失誤、DNA 修復

(15)

機制失效，或環境因素誘發核苷酸發生置換或改變。而視核苷酸發生的位置是否位於基因功能區、表現調節區，或是否影響編碼所對應的胺基酸，決定著其對表型的影響程度。

2. 倒位(Inversions)：

倒位的發生為單一染色體發生斷裂，再由期間兩片段反轉而重新組成；

或是某個 DNA 單股上、序列方向相反的相似性序列的不正常配對、重組，也可能導致倒位的發生。倒位一般認為並不會引起帶原者的不正常表現型，因為其為平衡重組(Balanced Rearrangement)，但會產生不正常的配子，而產生基因組不平衡的子代。然而，若倒位發生於基因表現區，

則可能破壞基因結構而引起疾病，例如：近一半的 A 型血友病是由於倒位的發生破壞了基因的結構而致病。

早期，倒位的鑑別僅能藉由顯微鏡下辨識染色體帶數(Band)的順序改變來達成，因為染色體組型分析方法(Karyotyping)的解析度不夠，故對這一類結構變異的瞭解十分有限，直到定序方法及原位螢光雜交技術發展以後，才瞭解基因組裡存在更小的倒位變異。一篇研究基因組細微結構變異的文獻 (14) 顯示，基因組裡有許多倒位多型性 (Polymorphic Inversions)，大小約介於 5 Kb 到 1.9 個 Mb，值得注意的是，這些倒位所發生的斷裂點有四分之三存在於片段性重複序列(Segmental Duplication) 的位置，這說明了這些倒位的發生可能是由於染色體側端重複性結構 (Flanking Repeat Structure)的重組所造成的。另外，許多倒位的發生位置經常伴隨著基因物質的增加或減少，這篇文獻首先提出倒位也可能是基因組不平衡的結構變異。

3. 易位(Translocations)：

為兩染色體片段之交換，通常發生於非同源染色體之間，又分為相互易位(Reciprocal Translocation)及專發生於 Acrocentric Chromosome 中心粒

(16)

組，因此有染色體易位者本身並不會有異常表型，但有較高產生不正常配子及不平衡子代的危險性。和倒位一樣，易位發生時，若染色體斷裂的位置為基因的表現區，則會破壞基因的結構或於重整後產生一個融合的新基因，因此而引起疾病。例如：著名的費城染色體即為第 9 對染色體與第 22 對染色體發生易位(Translocation)，使得第 22 對染色體上產生一個異常的融合基因 (BCR-ABL)，因而引發慢性骨髓性白血病。

4. 插入(Insertions)、缺失(Deletions)：

插入或缺失可能代表遺傳物質的增加或減少，插入或缺失的發生可能只是單純的某 DNA 片段或數個鹼基對插入或缺損於基因組中的某個位置；也可能是基因組中高相似性或完全相同的 DNA 序列，在有絲分裂或減數分裂的過程中發生了重組，這種不對等的互換(Unequal Crossing over)的機轉可以發生在同一條染色體、同源染色體之間(Intrachromosome) 或非同源染色體之間 (Interchromatid Non-allelic Homologous Recombination)，例如：α 地中海型貧血其 α 血球蛋白基因的缺損，及 X 染色體上紅綠視力色素基因的數目變異，都是由於不對等互換的機轉所造成的。另外，還有一種罕見的機轉，是某些重複性序列可以藉由反轉位的過程而造成結構變異，亦即將 RNA 反轉錄成 DNA，再把自己插入基因組中的不同位置。例如：在少數的 A 型血友病患者身上，其致病的原因為 L1 家族重複序列被插入在第 VIII 凝血因子其基因的表現序列中，因此干擾了序列使基因不活化。當然，插入或缺失的發生並不一定會引起疾病，目前應用解析度日益提升的全基因組(Genome-Wide)分析方法，使得基因組裡插入與缺失發生的位置、範圍，與臨床表現的關係，

有了更全面、更進一步的瞭解。

5. 串連重複性序列(Tandem Repeats)：

基因組裡有許多位置是由許多相同的核苷酸小單元連續排列而成的重複性片段，有的聚集在某個或少數幾個基因座，有的則如單次出現的 DNA

(17)

序列一樣分散在整個基因組中，其構成了 10~15%的基因組(1)，依照這些串聯性重複片斷的大小差異，可將其區分為衛星(Satellite)、小衛星 (Minisatellite)及微衛星(Microsatellite)DNA。衛星 DNA 的小單元由 100 個以上的核苷酸組成，主要叢聚在染色體的著絲點或端粒區，一般認為其扮演著維持染色體結構的角色，確保有絲分裂及減數分裂過程中染色體的適當分離。小衛星 DNA 由 10 至 70 個核苷酸組成，微衛星 DNA 則含有 1 至 6 個核苷酸，小衛星及微衛星兩種重複性片段遍佈於基因組中。

微衛星 DNA 依據其核苷酸組成的特性，又可細分為 3 種類型。第ㄧ種是完整型，序列中的核苷酸完全由重複性小單元頭尾連接所組成。第二種是間斷型，重複性小單元的序列中有核苷酸發生置換、刪除或嵌入的情形。第三種是複合型，序列中的核苷酸由兩種以上重複性小單元組成。

其遺傳過程遵循孟德爾定律，在同源等位基因上，個體間主要的差異在於小單元的重複次數，因此這類串聯性片段的多型性，廣泛的被應用於連鎖分析、親子鑑定及刑事鑑定上。

這一類的重複性序列，雖然有許多並沒有轉錄活性，但其存在著大量的劑量變異，會使得其存在的位置容易發生非對偶基因同源重組(Non- Allele Homologous Rearrangement)，而重複序列間的異常重組可能造成 DNA 序列的插入、缺失、重複或倒位，因此是一些遺傳疾病產生突變的原因。例如杭丁頓氏舞蹈症，主要與位於 DNA 轉譯區的微衛星 DNA－

－(CAG) n 的重複次數倍增有關，轉譯結果多出一段麩醯胺酸蛋白，而造成一種神經退化性疾病。易脆Ｘ染色體症候群、肌強直型進行性萎縮症，則是在不轉譯區中三核苷酸重複序列不穩定地倍增，導致智能障礙或肌肉萎縮等遺傳疾病。

6. 片段重複性序列(Segmental Duplication or Low Copy Repeat)：

重複性片段又稱為低度重複序列，其散佈於基因組中，大小介於 1

(18)

分佈的位置，可大略區分成兩種類型，某些片段在同一染色體裡的多個位置重複散佈，稱為 Intrachromosomal Duplication；其他則散佈在非同源染色體裡，稱為 Inter-或 Transchromosomal Duplication。片斷重複性序列傾向聚集於基因組中著絲粒與端粒等區域，和前述的串聯性重複序列一樣，重複性片斷的位置亦為基因組裡結構較不穩定的熱門區域(Hot Spot)，容易促使染色體的非對偶同源性重組，造成遺傳物質的缺失、插入或複製，而引起遺傳性疾病。而這些片段的長度、序列的相似性、排列順序及重複性片段之間的距離，都是影響染色體不對稱配對發生頻率的因素。當不對稱配對發生在同源染色體、排列順序相同的重複性片段間時，會導致遺傳物質交互的增加或減少；但當不對稱配對發生在排列順序相反的重複片段間時，則會導致倒位(Inversion)的發生。大部分引起已知遺傳疾病的重複性片段都很大，約介於 10~400 Kb 之間，且其序列有超過 96%的相似性。例如最常見的微缺失疾病，Digeorge Syndrome，

其重複序列的涵蓋區域約 300Kb 大小，且該區域的序列有 99.7%的相似性。

然而，有愈來愈多的證據顯示，基因組裡重複性的片斷亦有可能為正常的變異，除了重複性片段本身在不同的個體間即有數目變化的特性外，

其藉由 NAHR 的機制所構成的多型性，廣泛分佈於正常健康族群，故亦屬於基因組劑量變異(Copy Number Variation)的一部份。

7. 基因組劑量變異(Copy Number Variations)：

基因組劑量變異(Copy-Number Variant, CNV)也稱基因基因組劑量多型性(Copy-Number Polymorphism, CNP)，是一種大小介於 1Kb 至幾個 Mb 的 DNA 片段變異，因此包含前述的重複性序列以及插入、缺失，根據文獻，至少 10-20％的基因活性遺傳變異是由 CNV 引起的(16)，基因組劑量變化可以透過破壞基因編碼蛋白的活性區域，改變基因的表現

“量＂；或者破壞控制基因活性的調節區域，影響基因活性。由於其在

(19)

人類基因組中廣泛分佈，覆蓋的核苷酸總數遠超過單核苷酸多型性 (Single Nucleotide Polymorphisms, SNPs)的總數，極大地豐富了基因組遺傳變異的多樣性。基因組劑量變異對於物種特異性、基因組組成、物種的演化和系統發育，以及基因組某些特定區域的基因表達和調控，可能具有非常重要的生物學意義。

8. 其他：

除了上述的變異類型外，基因組的結構變異尚包含了於正常染色體數量外、額外多出的標記染色體(Marker Chromosome)；因染色體兩處斷裂後又重新連結成環形構造的環狀染色體；一染色體在著絲粒的兩側有相同的長臂或短臂的等臂染色體(Isochromosome)；兩染色體分別發生斷裂後兩者互相連結所形成的雙著絲粒染色體(Dicentric Chromosome)；以及一雙倍體 (Diploid) 的個體其某一同源染色體皆來自單一親方染色體 (Uniparental Disomy)等等。

第四節基因組劑量變異形成的機制

承上段的敘述，CNV 通常發生在包含或兩側夾有大片段同源性序列、或片段重複序列的位置。這些同源性序列或重複性序列會藉由非等位基因同源重組 (Non-Allelic Homologous Hecombination, NAHR)的機制，使重複序列間錯誤配對，引發不同的染色體重組，造成期間序列(Intervening Sequence)產生基因組劑量的變化。非等位基因同源重組會造成大片段的結構多型性，或直接導致基因組不平衡或早發型、高度遺傳的疾病。

然而，非等位基因同源重組並不能解釋所有的 CNV，部分也許是由一些非同源性重組的突變機制所造成的 (5)。如，某些 CNV 被發現與非 β 的 DNA 結構有關(與標準的右旋 β-Helix 結構不同，包含左旋的 Z DNA 及 Cruciform)，這些結構被認為會促進染色體重組，理論上會促進某些 CNV 的產生與存在。(5)

(20)

再者，非同源性末端連結修復的機制(Non-Homologous End-Joining Repair) (14, 22, 5)，為真核生物修復雙股 DNA 斷裂的一種機制，有時雙股 DNA 斷裂並不會以同源性序列為模板進行修復，而是經由一連串酵素的作用，直接將斷裂的末端連結起來，這樣的過程會導致部分遺傳物質的丟失，因而造成 CNV 的發生；而轉位 (Transposition) 和反轉位 (Retrotransposition) 也被認為是產生 CNV 變異的重要因素之一。 (26)(27)(28)

CNV 的大小與其突變的機制間是有關係的，其在基因組中的分佈並不是隨機的。最近的研究顯示 (5)，大片段的 CNV 與片段重複性序列的相關性，較小片段的 CNV 為高，雖然其間的偏差為何並不清楚。此外，缺失與重複事件之間似乎因基因組承受遺傳物質遺失或增加的差異不同而有不同的選擇壓力。無論如何，在較小的、已知 CNV 之間，非同源性片段所引發的突變是比較重要的 CNV 形成機制。

第五節基因組劑量變異(CNV)如何影響表型變化

不論是核苷酸層次或大片段的 DNA 改變，皆被認為會藉由改變基因的表達量來造成表型變化，因此藉由轉錄分析或評估單一基因的表達量的研究模式，可以瞭解 CNV 對表型變化的意義 (12)。部份文獻以老鼠模型來研究 CNV 裡的內含基因在不同組織的轉錄與表達，研究發現位於 CNV 內的基因，其基因的表達量較 CNV 外、沒有劑量變化的其他基因要來的低，表達量的變異情形也較大，

這顯示 CNV 的內含基因與其他非 CNV 區域內的基因相較，有較為獨特的轉錄表達模式。在分析的老鼠模型與組織中發現，約僅有 5%~18%的 CNV 基因表達量與基因的數目呈微弱的正比關係；而有 2~15%的 CNV 內含基因其表達量和基因的劑量呈反比關係，造成此反比效應的機制仍不清楚，但可能可以用一些僅在個體發育早期表現的基因來解釋，這一類的基因在表達的初期其表現量是與基因劑量呈正比的，但當基因表達量達到一定程度時，基因產物反而會直接或間接的

(21)

誘導 Repressor 的表達，使得原先基因的表現量下降甚至是被終止；另一個可能的解釋是，CNV 內含基因其增加的劑量，造成空間上的障礙，使得轉錄的過程中某些轉錄調控因子沒有辦法鍵結至調控區，因此當基因的劑量愈是增加，愈是使基因表現量降低。再者，有三分之二的 CNV 內含基因，不論在任何組織間，

其表達量和基因的劑量的多寡沒有關聯，顯示有代償機制的存在，或缺失/重複的片斷包含了不完整的調控序列。此外，基因印痕作用也可能調控 CNV 所在位置的基因表達。

因此，CNV 的存在影響基因的表達及表型變化，大致可以區分為以下幾種機制：

1. 劑量效應 (Dosage Effect)：DNA 片段的缺失或複製導致基因劑量改變，

基因表現量因基因的劑量呈比例的增加或減少。

2. 位置效應 (Position Effect)：CNV 的存在可能使得某些功能性基因與調控序列(Cis-Acting)的距離增加，使得調控序列表現的效能降低，間接影響基因的表現量。

3. 改變基因組的結構：CNV 的存在可能改變染色質的結構，干擾某些調控因子的結合；或影響細胞核內染色質在間期(Interphase)時的排列及分佈，進而干擾基因的表達。

4. CNV 其劑量的多態性影響基因表達的水準：外顯率(Penetrance)是研究遺傳性疾病時必需考慮的一個重要因素。值得注意的是，許多顯性遺傳疾病的外顯率有一定程度的變化。例如結節性硬化症以及第一型神經纖維瘤和乳腺癌就是典型的例子。針對此現象，Beckmann 等(23)提出 CNVs 可能是導致某些致病突變體基因外顯率降低的決定性原因。因此，對於一個致病的顯性突變基因而言，在未攜帶突變等位基因的染色體上多獲得一個正常等位基因的 CNV，可以通過基因劑量影響表型，使個體表現正常。

(22)

此外，基因組劑量的變化除了會影響其內含基因的表現外，也會影響其鄰近、沒有劑量變化的基因表現，影響的範圍甚至可以達到 0.5 Mb。而其改變鄰近基因的表現，亦是經由位置效應或改變基因組的結構等機制來達成。

第六節基因組劑量變異(CNV)對個體表型及疾病易感性的影響

基因組廣泛分佈的劑量變異可以引起基因組和分子表型的異質性，影響複雜性疾病的發生。文獻指出(16)，大約有 40%的 CNV 位於基因貧乏的區域(Gene Desert)，但儘管如此，仍有大量的基因位於 CNV 內。Redon 等(15)在 1447 個經 HapMap 檢測到的 CNVs 區域中，發現 2908 個 NCBI 參考序列基因和 285 個 OMIM 基因，顯示 CNV 與複雜性疾病或孟德爾遺傳性狀相關。存在 CNV 的基因通常不編碼與生長發育相關的蛋白，但是，存在 CNV 的基因常影響人體對外界環境的反應，在細胞連接、感觀理解、化學刺激、神經生理過程中發揮重要作用。不存在 CNVs 的基因往往是劑量敏感性基因，參與維持細胞的生長發育，包括細胞信號傳導、增殖、激酶化和磷酸化等過程。此外，一些 CNV 區域覆蓋非編碼的 RNAs 區域，包括 miRNAs。miRNAs 調節基因表達轉錄後加工的能力，

對生長發育、正常生理過程及包括癌症在內的複雜性疾病的形成起重要作用。

目前已發現不少複雜性疾病和 CNV 有密切關聯。2008 年 9 月發表在 Nature 的一項研究證實了先前的發現(18)，在 22 號染色體的一個區域有長度為 3 百萬鹼基對缺失的人，三成患有精神疾病，如自閉症 (Autism) 和精神分裂症 (Schizophrenia）等。2008 年 8 月發表在 Nature Genetics(19)的一項研究發現克羅恩病（Crohn's Disease）和 IRGM 基因（和對抗侵入性細菌有關）上游區域 20,000 鹼基對的缺失之間、存在著相關性，IRGM 缺失可能會使罹患克羅恩病的風險增加 40%，但一個人實際患病與否可能取決於別的遺傳或環境因素。而在 2009 年 1 月另一篇發表在 Nature Genetics 上的文章(21)發現體重指數和一個名為 NEGR1 的基因中、45,000 個鹼基對缺失具有很高的相關性，這個基因調節飢餓感、代謝

(23)

與下視丘的神經生長。

人群中一些發生頻率大於 1%的基因組多態性結構變異也與疾病易感性有關，如與睾丸激素代謝有關的 UGT2B17 基因，其缺失會增加罹患前列腺癌的風險；CCL3L1 基因劑量增加可以減少感染 HIV 的風險；DEFB4 基因其劑量減少會增加患節結性腸炎的風險；FCGR3 基因的劑量減少則容易患血管性腎炎。另外，在 1q21.1、15q11.2、15q13.3 等位置發生結構重組，亦被認為與智能障礙或精神分裂症有關 (12)，但在這些位置有相同結構變異的不同個體，卻不一定有完全相同的表型，這說明了某些疾病的狀況並非單純的和 CNV 的劑量相關，而與基因組存在的結構改變較有關係，因此不論基因的劑量，而是干擾了某些特殊的途徑。至於多樣、不同類型的結構變異，也可能同時對某一類複雜疾病產生影響。

由於複雜性疾病染色體層次的分子機制仍未完全明朗，在基因組層次僅憑 CNVs 來解釋複雜疾病的發生是不適當的。理論上，複雜性疾病的基因組變異，

對表型的影響應較為“彈性(Soft)＂。例如，非編碼區序列基因組劑量的變異，

儘管改變了基因的劑量但並不使基因的功能完全消失。由於 CNVs 存在多種作用機制，對於分子表型和基因表達的影響效果也不同，因此對 CNVs 的臨床意義和遺傳方式的解釋必須加倍小心，需要基於全面的基因組變異評估。

第七節基因組劑量變異(CNV)的臨床意義與重要性 (5)

根據先前的「人類基因組計劃」，原本認為人類的基因組有 99.9%的序列是相似的，隨著分析方法的進步，才揭露了基因組劑量變異的大量存在，推翻了早期認為人類基因組大致相似的結論。由於 CNV 發生的頻率遠遠高於顯微鏡下觀察到的染色體結構變異，而且在整個基因組中覆蓋的核苷酸總數大大超過 SNP 的總數，因此基因組劑量變異必定和表型變異緊密關聯，同時在物種的演化和發展中發揮著重要作用。

(24)

大片段的重複或缺失已知與某些遺傳疾病的存在有關，可能是因為對劑量敏感的生長發育基因，其劑量發生了改變。這樣的觀念引導了基因診斷方法的建立。如果一個新偶發的染色體異常在一個基因組結構異常的病人被辨識出來，而這個變異並不是已知常見的染色體多型性，那麼這個異常便會被認為可能是引起異常表型的原因。

一般而言，標準的細胞遺傳學分析方法，全基因組的染色分析通常可以辨識 5~8 Mb 及更大的染色體重組/變異。然而，更高解析度的全基因組分析方法，

可以發現更多細微的基因組異常，隨著分析方法解析度的改善，伴隨而來的是增加解釋基因組不平衡的難度。為了協助全基因組、高解析度 CGH 分析結果做正確的診斷解釋，關於人類基因組不平衡與相關表型的資料庫已經被建立，並且廣泛收集許多 CGH 的分析結果及其他相關的分析訊息，這個資料庫的目標是要改善次顯微染色體不平衡的研究及醫療照護。

基因組的不平衡若是由一個表型正常的人遺傳而來，通常會被認為臨床的重要性較低。但若另一個人有著相同的基因組變異，但也許沒有遺傳其他代償性的變異，就可能就會導致不一樣的臨床表型。這些情形顯示著解釋這些基因組不平衡的臨床意義是缺乏信心的，因此瞭解基因組劑量變異在基因組中存在的位置，及其與個體健康之間的關連性，是非常重要的。

CNV 並不會導致早發型、高度遺傳的疾病，因此被認為其必然是功能正常的，但其可能會和其他的結構變異相互作用，或結合 SNP 及環境因素共同對個體的表型發生影響，因此在晚發型遺傳疾病或一般性、複雜性的疾病，仍然扮演著相當重要的角色。根據最近已知的 CNV 其功能性的貢獻，顯示特殊環境因素的刺激，影響著分子與環境之間的交互作用，例如藥物的解毒作用

(Glutathione-S-Tranferase, Cytochrome P450 Gene, Carboxylesterase Gene Families)、免疫反應和發炎反應(Leukocyte Immunoglobulin Like Receptor, Defensin, APOBEC Gene)、組織表面完整性(Late Epidermal Confide Envelop and Mucin Gene Families)、表面抗原(Galectin, Melanoma Antigen Gene, RH Blood

(25)

Typing Gene family)等。同樣的，某些包含有基因的 CNV，會使得不同的個體在藥物反應、免疫能力、疾病抗性/ 易感性等有差異性。例如不同的個體、不同的族群間 CCL3L1 基因的劑量有所不同，其是 HIV-1 的 Suppressive Cytokine 和 Ligand for HIV Coreceptor CCR5 的基因，當個體 CCL3L1 的基因劑量較少時，

CCR5-CCL3L1 的複合體就較少，便會留下較多的 CCR5 供 HIV 病毒結合、進入，

因此會加 HIV/AIDS 的易感性。最近，在老鼠體內發現 Fcgr3 基因的劑量變化，

當其基因劑量較少時，易引發類似人類的腎絲球腎炎。Fcgr3 負責製造 Macrophage 表面的 Transmembrane Receptor，當其活化時會導致吞噬作用及毒殺作用，Fcgr3 基因的增加對 Fcgr3 的功能有抑制的效應，因此 Fcgr3 基因劑量減少卻會增加其免疫反應，在某些老鼠個體便可能導致自體免疫疾病。而人類 Fcgr3 的直系同源 (orthologous)基因亦經常觀察到有 0~4 個基因劑量變化，相關的研究顯示，人類 Fcgr3 同源性基因的低劑量是造成個體易罹患腎絲球腎炎的危險因子。

對這些結構變異的認識愈是深入，醫學界可以瞭解基因組中基因的增加、

損失或者改變與疾病的關係，以及特定藥物或者療法用在不同人身上為何會有不同反應，並有助於瞭解目前為止仍無藥可醫的疑難雜症，找出新藥或者新的治療方式。因此，基因組劑量變異圖譜可以發現特定基因差異對特定疾病的影響，幫助治療和預防疾病。所以建立基因組劑量變異的資料庫，分享基因組劑量變異知識，將對基因組劑量變異影響表型改變及疾病易感性的特質，能有更深入的瞭解及應用。

第八節偵測基因組劑量變異的方法

偵測基因組劑量變異的方法有非常多，傳統的細胞生物學檢驗方法，如染色體組型(Karyotyping)、原位螢光雜交技術(Fluorescence In Situ Hybridization) ，以及以 PCR 為原理的分析方法，都能偵測基因組劑量變異的存在，但上述的方法分別受限於解析度及分析範圍的限制，直到近幾年比較式基因組雜交技術及電

(26)

腦運算技術的進步，才改善了上述的問題，同時對於發現基因組裡 CNV 的廣泛存在及分佈，有著極大的貢獻。針對近幾年常用的基因組劑量變異分析方法，分別介紹如下：

1. 比較式全基因組雜交技術 (Genome-Wide, Comparative Genomic Hybridization)

比較式基因組雜交晶片是目前檢測 CNV 最常用的方法，它能快速、有效的掃描全基因組劑量變異的情形。比較式基因組雜交技術最初用於檢驗癌症樣本與對照樣本間的染色體重組，由於是在玻片上使樣本與中期染色體(Metaphase Chromosome)進行雜交反應，因此解析度較差，通常需大於 4 Mb 的片斷才能做清楚判讀(3)。而隨著人類基因組定序工作的順利進行，BAC 資料庫、 cDNA 資料庫和 Contig 資料庫在公共數據庫中大量累積，加上微矩陣技術的成熟，細菌人工染色體被廣泛的應用於微矩陣中，以細菌人工染色體製備的微矩陣又稱為基因晶片，由此發展出的技術稱為比較式微矩陣全基因組雜交晶片 (Array-CGH)，其雜交後的影像解析度可以大大的提高，並簡化整個實驗的分析步驟。Array-CGH 的原理與 CGH 的原理基本相同，區別在於將基因組 DNA 轉移到晶片( 微矩陣 )上以替代細胞分裂中期的染色體。用於建構微陣列的 DNA 序列(亦指晶片上的探針)，可以有許多不同的形式，包括大小介於 75~200 Kb 左右的細菌人工染色體(Bac Artificial Clone)，較小的插入 Clone 如大小介於 30~40 Kb 的 Cosmid、大小介於 40~50 Kb 的 Fosmid，以及 cDNA Clone (0.5 ~2 kb) 、 PCR 產物 (100 bp

~1.5 Kb) 和寡核苷酸鏈 (25 ~85 bp) 等(29)。隨著晶片上所涵蓋的探針的數目不同、探針本身長度的大小不同，及探針所含蓋的基因組的密度不同，使得不同的 Array CGH 晶片其解析度有所差異。目前基因組雜交技術的發展趨勢致力於縮短探針的長度及增加晶片上微陣列的密度，因此解析度由最早期 CGH 的幾個 Mb 提升到 Bac Array 的 1Mb 左右，再到

(27)

Oligo- array 的 30~50Kb (3)。

SNP 晶片是另一種有效檢測 CNV 的技術(29)。與比較基因組雜交晶片不同的是，SNP 晶片不需要同時使用兩個樣本的 DNA (實驗組和對照組) 和探針進行雙雜交，只需單雜交即可完成。每一個 SNP 位元點由一組探針來對應，每組探針包括 Perfect-Match(PM)和 Miss-Match(MM) 探針，MM 探針除了中間鹼基不同於 PM 探針外，兩者有相同的 DNA 序列，主要作為內部對照之用。為了降低基因組的複雜性，常常使用限制性內切酶對整個基因組 DNA 消化後再進行 PCR 擴增，然後與晶片雜交。通過對 Perfect-Match、Miss-Match 探針的信號強度與其他個體相對值的比較，使用特殊的演算法，可確定基因組裡特定位置的劑量變化。

此外，SNP 晶片還有另一個優點，即能提供基因型的訊息，如：能顯示雜合缺失 (Loss of Heterozygosity) ，或指出單一親方雙倍染色體 (Uniparental Disomy)的存在。雖然 SNP 晶片探針的密度足夠大，但由於其在基因組中不是均衡分佈，在一些重複序列和複雜的 CNV 區域，SNP 密度較小，因而 CNV 圖譜的解析度較差。於是 Affymetrix 公司和 Illumina 公司提出了一種新的策略，即在新一代晶片中增加偵測 CNV 多型性的探針以提高圖譜的解析度。例如 Affymetrix 公司的 Genome-Wide Human SNP Array 5.0，除了包含約 500,000 個全基因組 SNP 探針外，還包含有 500,000 個多型性探針，可用於檢測全基因組的 CNV 多型性，建構較高解析度的 CNV 圖譜。

與傳統的細胞遺傳學方法相較，Array CGH 由於高解析度及可掃描全基因組的優勢，因此可以顯示額外的、原先非預期存在的基因組不平衡情形，同時精確的指出基因組不平衡發生的位置。此外，由於其操作不受限於需製備足量、高品質的中期染色體，因此操作較容易、需要的檢體量較少，臨床上完成檢驗報告所需的時間也較短。還有，Array CGH

(28)

病(Microdeletion/ Microduplication Syndrome)。綜合以上優點，Array CGH 除了是分析基因組 CNV 的有效工具，更是對許多疾病的臨床診斷、研究有著非常大的貢獻，相信隨著成本的逐漸降低，Array CGH 將會逐漸成為臨床上主要的、例行性的分析工具。

2. 以 PCR 原理為基礎的分析方法(Target, PCR-Base Analysis Method) 針對基因組裡特定區域的分析，以 PCR 為基礎的方法是最快速且有效的，其中定量型 PCR (Real-Time Quantitative PCR: qPCR)是最被廣泛使用的一種，定量 PCR 也可用於 CNV 的檢測，雖然每次 PCR 都能有效的評估待測區域其基因劑量的增加或減少，但每次 PCR 只限於一個位置。近年來 PCR 檢測 CNV 的方法發展迅速，已可針對多個位置同時進行分析，如下列：

(1) 多重可擴增探針雜交技術 (Multiplex Amplifiable Probe 圖一：CGH 與 aCGH 的操作原理

(29)

Hybridization ，MAPH)：根據所檢測的 DNA 序列，製備數個具有通用引子的 PCR 產物作為探針組，與待測基因組 DNA 雜交、擴增並回收特異性雜交探針，透過螢光信號的強度差異分析來了解基因組中特定基因片段其基因組劑量的變化。

(2) 多重連接探針擴增技術 (Multiplex Ligation-Dependent Probe Amplification，MLPA)：是一種靈敏度極高的相對定量技術，

利用簡單的雜合、連接及 PCR 擴增反應，於單一反應管內同時檢測多個 DNA 片段的基因組劑量變化。

偵測基因組結構變異的 PCR 相關方法還包括一些常規分子生物學技術，如短片段多重定量 PCR(Quantitative Multiplex PCR of Short Fluorescent Fragments, QMPSF) 、 qPCR 、 DNA 印痕技術 (Southern blotting)、同源序列比率實驗等。

3. 電腦運算方法(Computational Approaches)

基因組裡的結構變異也可以經由比對不同來源的 DNA 序列而予以辨識，由於在基因組中富含 CNV 的區域，SNP 位點的逐代傳遞可能並不符合孟德爾遺傳，也可能不符合 Hardy–Weinberg 平衡，因此利用 SNP 的基因型數據 (Parent–Offspring Trios )，通過特定的演算法，可以進行 CNV 的預測。如上所述，Conrad 等(22)和 McCarroll 等(8)通過分析 HapMap Project 的 SNP 基因型資料即發現了多個 CNV。而以電腦運算方法來比對既有資料庫，其中最簡單的方式就是直接比較兩個個體的 DNA 序列的不同處，這種方法的好處是所有類型的結構變異都可以被偵測到，包含平衡的變異(Balanced Variant)，且其解析度可以達到核苷酸的水平。

(30)

代表性的 Fosmid Clone，逐一比對 Clone 的端點序列，然後再組合 Fosmid Clone 的序列為染色體的序列，此即 Paired-End Sequence 方法，這種方法也能偵測部分倒位的存在，雖然它不像前者可達到核苷酸水平的解析度，但由於前者全基因組定序的工作相當龐大且費用昂貴，因此在成本的考量下，它仍然是一個實用的方法。

另外，末端配對作圖(Paired-End Mapping, PEM)是將基因組 DNA 打斷為 3 kb 左右的片段，經過生物素標記、連接、成環、測序，與人類基因組參考序列比。這是目前在全基因組範圍內分析小片段結構變異方法。

以上三類主要的分析方法，各有其優勢及限制，如比較式全基因組雜交技術，雖然可以快速、有效的掃描全基因組的劑量變化情形，但其只能鑑別劑量的改變，無法偵測倒位或易位等平衡變異、無法辨識在不同位置發生的 Interchromosomal Duplication，也無法有效的指出 CNV 發生範圍的起迄位置，只能進行大略的估計，且隨著不同平台所設計的探針長度、分佈位置與分度密度的不同，其解析度會有不同程度的差異。而以 PCR 為基礎的方法，雖然便宜、有效，可鑑別 1~50 kb 小片段的結構變化，卻受限於分析的範圍；至於以定序為基礎的分析方法或運算方法，可以分析倒位或易位等結構變異，且解析度最高，可以窺見< 1Kb 等更小的結構變化，甚至可以達到核苷酸的水平，但受限於基因組廣泛定序的費用，在擴充有效的樣本數及花費時間上，是這一類方法主要面臨的問題。另外，若以電腦運算方式直接作序列的比對，則須考量基因組資料庫的完整性。鑑於不同研究方法的優缺點，使得不同方法的分析結果有不同類型及不同大小的差異，而由於分析的結果也必須排除可能存在的偽陰性或偽陽性反應，因此研究基因組的劑量變異，最好能結合兩種不同類型的方法進行驗證。

(31)

第九節近期文獻對 CNV 的研究

目前基因組劑量變異(CNV)的研究內容包括偵測 CNV 在全基因組的分佈、

基因組某個特定區域 CNV 的多態性與某種複雜疾病及疾病易感性的關聯分析，

以及 CNV 的進化等。

2004 年有兩個研究團隊首先描述了在健康人群中，沒有明顯疾病表型的基因組劑量變異在基因組中的存在及分佈。Iafrate 等(7)使用解析度為 1 Mb 的 Bac 矩陣晶片(Bac Array)，檢測 55 個正常個體的全基因組，發現了 255 個富含 CNV 的區域，這些 CNV 區域的大小介於 150~425 Kb 不等，平均每個人有 12.4 個基因組劑量變異；255 個富含 CNV 的區域(CNVR: Copy Number Variation Region) 中有 41%在人群中有重複出現的現象，而其中有 24 個 CNVR 發生率超過 10%；

6 個 CNVR 的頻率超過 20%。此研究族群中，最常見的 CNVR 為含有 AMY1A 及 AMY2A 基因的 1p13.3 的位置，49.1%的研究族群在 1p13.3 的位置有劑量變化的情形，顯示澱粉酶基因其基因組劑量的多型性變化，是造成不同個體間對澱粉的消化能力有所差異的原因之ㄧ。

Sebat 等(6) 使用解析度約為 35 Kb 的代表性寡核苷酸微矩陣晶片分析技術 (Representational Oligonucleotide Microarray Analysis, ROMA)，檢測 20 個正常個體，發現了 76 個 CNVR，其平均大小約 465 Kb，大約有一半的 CNVR 在研究樣本中有重複出現的現象，且平均每個人有 11 個基因組劑量變異。這 76 個 CNV 的位置，總共涵蓋了 70 個不同的基因，這些基因有的和調節細胞生長、代謝及神經功能有關；有的則已知會引起疾病。

接著於 2005 年，Tuzen 等(14)以電腦運算技術( Paired- End Sequencing)直接比較兩個基因組的 Fosmid DNA 序列資料 ( Build 35, May, 2004，覆蓋基因組序列長度為 581 Mb，平均 Fosmid 長度為 40 Kb)，辨識出 241 個 CNVs，約 41%CNVs 覆蓋已知基因，其大小大多介於 8 Kb~40 Kb，而約有 86%的 CNV 位置並沒有與

(32)

分析方法不同，尤其解析度的水平有很大的差異，因此此篇文獻大多數發現的 CNV 都小於前者所使用的晶片平台的解析度。而這種比較 DNA 序列的方法，由於能比較序列的排列順序，故還能偵測〝倒位〞這一類的結構變異。在這一篇文獻中除了發現 241 個 CNVs，還辨識出 56 個倒位的斷裂點，這說明了這兩個基因組間將近有 300 個基因組結構變異。

2005 年 Sharp 等(15)於整個基因組中選擇了 130 潛在的染色體重排區域，即基因組裡已知的重複片段( Segmental Duplication)，用以設計 Bac 基因晶片的探針(2194 個，總計長度 274 Mb，占全基因組序列的 10%)，然後使用比較基因組雜交的方法，分析 47 個健康歐洲人的基因組，鑑別出 119 個有發生 CNV 的區域，

其中 73 個在先前的文獻沒有被報告過，66 在研究族群中是重複出現的。而這些區域是在基因組裡發生重組的熱門區域(Hot spot)，其 CNV 的發生頻率是基因組一般區域的 4 倍，這說明了基因組裡的重複片段因為容易引發染色體重組，所以是促進遺傳物質發生劑量變異的重要因素，特別是大片段的重複性序列(長度大於 10 Kb；序列相似性大於 95%)，愈容易透過非等位重組的機制，造成遺傳物質的增加或減少。令人驚訝的是，大部分的 CNV 並未涵蓋整個重組的熱門區域，

有許多因素可能造就這樣的結果，這意味著個體之間可能還存在著許多潛在的、

容易發生重組的位置。此外，由於重複性片段在不同染色體散發存在的特性，故其也具有基因組劑量變化的特質，因此藉由晶片所偵測到的大片段結構劑量變異，部分是起源於基因組本身所存在的重複性結構。

2006 年 Conrad 等(22)提出了一種透過 SNP 基因型數據 (Parent–Offspring Trios)分析來鑑別 CNV 的方法。藉由對 HapMap Project 的 SNP 基因型資料的分析，發現了 586 個區域存在較大片段的缺失，大小介於 300 bp~1.2 Mb 之間，其中有 30~50 個區域缺失片段大於 5 Kb；覆蓋的核苷酸總數為 550~750 Kb，覆蓋的基因總數為 267 個(包括已知的基因和預測的基因)。在缺失的區域，基因的密度相對較小，此篇文獻推論可能是淨化選擇(Purifying Selection)的結果。

(33)

2006 年 McCarroll 等(8)使用前段所述同樣的基因型資料，開發了另一種算法，在整個基因組中共發現 541 個片段缺失，片段大小約在 1~745 Kb 之間。

而英國 Wellcome Trust（Institute, Wellcome Trust Genome Campus）Sanger 研究院，以及美國 Affymetrix 公司等多國研究人員組成的研究小組，於 2006 年公佈了人類基因組第一代 CNV 圖譜（First-Generation CNV map）(16)。這張遺傳圖譜是透過對歐洲、非洲和亞洲（HapMap collection）4 個族群的 270 個樣本進行分析(30 個源於奈及利亞 Yourba 核心家系；30 個源於美國猶他州歐洲後裔核心家系；45 個來自於日本東京、無親源關係的個體；45 個來自於中國北京、

無親源關係的個體)，使用單核苷酸多態性（SNP）基因分型和以 Bac Clone 為基礎的比較基因組雜交技術進行 CNV 掃描，共發現了 1447 個富含 CNV 的區域，

CNV 的平均長度於 Bac Array 平台為 341 Kb；於 SNP Array 平台則為 206 Kb。

所發現的 CNV 中，有 43%在研究族群是重複出現的，所有的 CNVR 覆蓋基因組的範圍為 360 Mb，佔整個基因組的 12%，這些 CNV 包含了數百個功能基因、多個致病基因位置及基因的調控性序列。全部的 CNV 其包含的核苷酸總數顯著高於整個基因組的 SNP 總數，說明 CNV 在遺傳的多樣性、表型的多型性以及系統演化中可能扮演著重要角色。

2007 年 Wong 等(24) 使用 Bac Clone Based 比較式基因組雜交晶片掃描整個基因組，共發現 3654 個、大於 40 Kb、位於常染色體的 CNV，77%的 CNV 未在先前的相關文獻報導過。有趣的是，14 個 CNV 多態性豐富的區域，包含 21 個編碼有已知功能的 micro-RNAs 分子，顯示著 micro-RNAs 可能也與表型的多樣性有關。

2008 年 Kidd 等(26)使用 Fosmid Subclone，建構了 8 個個體的全基因組資料庫(4 樣本為奈及利亞約魯巴人，4 樣本來自非洲以外)，經由和已發表的人的基因組序列相比對，發現了 1695 個大片段的 DNA 變異位點(序列長度大於 6 kb)，及 525 個未在參考基因組發現的插入性序列。所發現的 CNV 中，有 50%

(34)

在研究族群中重複出現，也有 50%是在此篇文獻中新發現的。另外，261 個 CNV 的解析度可以達到單核苷酸水平。

2008 年 Wang（31）等公佈了第一個亞洲個體的雙倍體(Diploid)基因組序列，其鑑別了超過三億個 SNP，其中有 13.6%未在 dbSNP Database 發表過，此外，也分別偵測到 2441 個 Deletion 與 33 個 Duplication，其平均變異的大小為 492 bp，其中 Deletion 的數量較 Duplication 高出甚多，可能與所使用的分析方法

（Paired-End Sequencing）有關，當插入序列的長度大於 Paired-End Library 的 DNA 片段長度時，Duplication 的訊息比較容易被忽略。

2009 年 Shaikh（32）等發表了一篇研究群體極大的研究，使用 SNP-based、

高密度的 Oligo-Array，分析 2026 個沒有疾病表型的個體，這篇文獻的研究對象仍就以美國白人及黑人為主，亞洲人種僅佔了 0.6%。研究發現了 3272 個富含 CNV 的位置，總計占基因組的 5.9%，有 77.8%的 CNVs 在研究族群中重複出現，

而 51.5%所發現的 CNVs 是先前文獻未報導過的。此篇文獻由於研究的樣本數大，因此對於美國本土族群提供了一個有用的臨床參考數據。

目前在人類基因組中檢測到發生 CNV 的位置總數已超出 14478 個 (http://projects.tcag.ca/variation/; Last updated: Mar 25, 2010)。比較上述不同的研究，結果的重疊性並不高。由於不同的分析平台其解析度不同，所涵蓋的基因組範圍也不同，且許多研究在檢測 CNV 的過程中過度強調避免假陽性，可能導致假陰性的比例升高。因此，上述估計還很有可能是一種偏低的估計(25)。

第十節研究目的與動機

隨著分子診斷技術的進步，我們對基因組變異的情形有更深入及廣泛的瞭解，尤其是微陣列比較式全基因組雜交技術 (Array Comparative Genomic Hybridization)的發展，提供了一個高解析度的分析平台，使得我們能更精確、快速的瀏覽整個基因組的劑量變異情形，特別是針對部分異常的臨床表型，當其基

(35)

因組的變異位置仍不清楚時，全基因組雜交技術是一個非常有效的分析及研究工具。

然而以全基因組雜交技術進行分析的過程中，我們發現正常人的基因組也存在著大量的基因組劑量變異(Copy Number Variations)，其變異的大小為 1 Kb (Kilobases)到幾個 Mb (Megabases)不等，涵蓋基因組極大的比例，包含許多基因及功能調節區(Regulatory Element)，由於這些 CNVs 並沒有明確的疾病表型相關性(Non-Diseased Phenotype Associated)，因此這些 CNVs 的存在，會增加檢測結果判讀及遺傳諮詢的困擾。故建立 CNVs 的參考資料庫，有效的鑑別 CNVs 發生的位置，區分人群中正常存在的多型性變異及有疾病相關性的 CNVs，對於臨床的遺傳諮詢工作是非常重要的。

近年來有越來越多的研究致力於人類基因組中 CNVs 的鑑別與分析，這些研究結果幫助我們瞭解人類族群中 CNVs 在基因組裡發生的位置、頻率與形式，

雖然目前(Mar, 25, 2010)人類基因組變異資料庫http://projects.tcag.ca/variation已發表了 14478 個 CNVs 的位置，但早期的研究樣本數較小，難以呈現出人類基因組變異的全面樣貌；且仍有許多不同種族的 CNVs 尚未研究，尤其在先前的相關文獻中，亞洲族群的 CNVs 研究樣本比起歐美族群要少的多，因此調查台灣族群 CNVs 的分佈情形，以豐富 CNVs 資料庫的族群變異性，祈使對人類基因組變異資料庫的完整性有所助益；同時建立屬於台灣族群的 CNVs 圖譜，期待在臨床上解釋全基因組的分析數據時，能有效的鑑別有病理意義的結構突變及造成人群多型性的多態變異，以對遺傳諮詢有所幫助。

(36)

第二章研究方法

第一節研究樣本來源

本研究所採用的樣本主要來源於接受產前診斷的孕婦，剔除有家族遺傳史及有病理意義診斷的樣本後(如超音波影像顯示結構或發育上的畸形)，共收集了 1015 個樣本，其中內含羊水、臍血、絨毛膜等樣本各971、35、9 個。這些樣本採用 Puregene DNA Isolation Kit (Gentra Systems, Minneapolis, MN)來萃取 DNA，並以標準的操作步驟執行。

第二節以 CMDX Bac Clone aCGH 分析基因組中的基因組劑量變 異

所萃取的1015 個 DNA 樣本以微陣列基因晶片(CMDX: CA2500/ CA3000)執行基因組劑量變化的分析。CMDX Bac array CA2500/ CA3000 Platform 分別含有 2437 個與 3039 個不同的 Large-Insert Clone，分佈於整個基因組，每個 Clone 的大小約150~250kb 不等。CMDX Bac Array Platform 採用 Dye swap，使待測檢體與參考檢體分別在Forward 與 Reverse Array 區進行競爭型雜交反應，由於每一個 Bac Clone 在 Forward Array 區與 Reverse Array 區分別有 3 個重複的探針，因此整張晶片上每一個Bac Clone 總計有 6 個重複的探針，由 6 個探針所測得螢光訊號的平均值來評估該相對應位置的遺傳物質劑量。當待測基因組有劑量不平衡的現象存在時，Forward Array 區與 Reverse Array 區探針的螢光值應呈相對的增加或減少(即當一區為Duplication 的反應，另一區必為 Deletion 的反應)，而當兩區的平均螢光值呈現相對應的結果，取 Log2 後的數值若超過評估的閾值(±0.3)，分析軟體才會判讀為有劑量變異發生；若兩區螢光值呈現一致性的結果，或平均螢光值取Log2 後未達閾值，則不予判定。這樣的設計提供了操作上品質管制的機制，能降低偽陽

(37)

性率及雜訊的干擾，提供良好專一性及再現性的判讀結果。

以標準的操作方法進行比較式基因組雜交分析，首先配置適量(2μι)的待測樣本及參考樣本，於超音波震盪器上將DNA 打碎成適當的片段，然後將 DNA 樣本分裝成兩組，分別標示不同的螢光，即待測樣本+Cy3、參考樣本+Cy5；另一組則將螢光交換染色(待測樣本+Cy5、參考樣本+Cy3)。接著將已加入螢光的 DNA 樣本置於 99℃的乾浴槽加熱 5 分鐘，再放置冰上 5 分鐘，然後加入 3μι 之 Exo-Klenow，此目的為造成 DNA 變性(Denature)，促使螢光染劑嵌入 DNA 雙股結構，然後將DNA 樣本置於 37℃水浴槽，至少作用兩個小時。

兩個小時後，將染有Cy3 的待測樣本與染有 Cy5 的參考樣本混合，另一組染有Cy5 的待測樣本與染有 Cy3 的參考樣本亦混合在一起，接下來便利用特殊的 Spin Column Tube ( Invitrogen)，與 Binding Buffer、Wash Buffer、5M NaCl、75％

Isopropanol、70％Ethanol 來純化並沉澱 DNA，過程中亦加入 Cot-1 DNA 來降低非特異性重複序列所引起的交叉干擾。

純化後的 DNA 樣本先置入乾燥箱中做完全乾燥，然後再加入 25μl Hybridization Buffer 將 DNA 樣本打散、混合均勻，接著將兩組 DNA 樣本放置於基因晶片上Forward 矩陣區與 Reverse 矩陣區、蓋上蓋玻片，進行競爭型雜交反應，

此雜交反應須於42℃恆溫培養箱中至少作用 16 個小時，並保持適當的溼度。雜交步驟後，以Wash Solution 2X SSC-0.5％SDS、2X SSC-50％ Formamide、2X SSC-0.1

％ Igepal、2X SSC 等，分別於 50℃恆溫振盪培養箱中緩慢搖晃以去除蓋玻片、清洗晶片，並使其乾燥。最後以掃描儀與CMDX Software 偵測晶片上每一個探針的相對螢光強度，判讀是否有Segmental DNA Gain 或 Loss 的訊號。如遇有病理意義的結構變異，則將該樣本由研究族群中予以排除。

(38)

Fragmentation

Random Priming

Incubation in 37℃, 2 小時

(39)

圖二：Bac Array CGH 的操作流程

純化、沉澱、乾燥

以Hybridization Solution 均質化

雜交，42℃，16 小時

清洗，乾燥

掃描，分析

(40)

第三節以 Competitive Multi-Plex PCR 驗証 CMDX Bac Array 的基 因組劑量變異訊號

Competitive Multi-Plex PCR 是評估特定位置的基因其劑量增加或減少的有效方法，其原理為使目標基因與參考基因在同一個PCR 反應中進行競爭型的基因產物擴增，然後執行電泳，依待測檢體其目標基因產物與參考基因產物的訊號比值、參考檢體其目標基因產物與參考基因產物的訊號比值，進行相除比較，以評估基因劑量的增加或減少。分析方法如下所示。(30)

Peak area of candidate gene (U)/ Peak area of reference gene (U) Peak area of candidate gene (C)/ Peak area of reference gene (C)

(U): Unknown，表示未知的待測檢體 (C): Control，表示參考檢體

挑選 4 個 Bac Clones 作為驗證基因組劑量變異訊號的對象，其中兩個 Bac Clones：RP11-556H10、RP11-85G7，僅在一個進行人工流產所取得的臍帶檢體觀察到基因組劑量變異的訊號，其位於12p12.3 的位置；另外兩個 Bac Clones 則在台灣族群中普遍存在 CNV，分別是位在 4p16.1 的 RP11-301J10 與位在 6p25.3 的 CTD-2249D1。針對上述 4 個 Bac Clones，分別挑選其所內含的基因：RERG、

PIK3C2G、CPZ、DUSP22 等設計引子，並隨機挑選樣本，以 Competitive Multi-Plex PCR 驗證樣本在上述 4 個 Bac Clones 的劑量變異訊號。

將源自於上述4 個 Bac Clone 的基因：RERG、PIK3C2G、CPZ、DUSP22，

與參考基因 FGFR2、Kirt 分別在同一 PCR 反應中進行競爭型的 PCR 反應，PCR 反應的最終容積為25μL，其包含的內容物與相對應的反應模組敘述如下：

(1) RERG+ FGFR2 +Kirt

PCR 反應溶液裡含 100ng DNA、200μM dNTP、2mM MgCl2、2.5μL 10X

Copy Number = X 2

(41)

buffer II、0.5U AmpliTaq Gold enzyme、0.025μM FGFR2 引子、0.03μM Kirt 引子、0.08μM RERG 引子，先於 95℃下使 DNA 變性 10 分鐘，接著連續在94℃/30 秒、57℃/45 秒、72℃/45 秒擴增基因產物 25 循環，最後於 72℃延伸 10 分鐘。

(2) PIK3C2G+ FGFR2 +Kirt

PCR 反應溶液裡含 100ng DNA、200μM dNTP、2mM MgCl2、2.5μL 10X buffer II、0.5U AmpliTaq Gold enzyme、0.025μM FGFR2 引子、0.03μM Kirt 引子、0.05μM PIK3C2G 引子，先於 95℃下使 DNA 變性 10 分鐘，接著連續在94℃/30 秒、57℃/45 秒、72℃/45 秒擴增基因產物 25 循環，最後於72℃延伸 10 分鐘。

(3) CPZ+ FGFR2 +Kirt

PCR 反應溶液裡含 100ng DNA、200μM dNTP、2mM MgCl2、2.5μL 10X buffer II、0.5U AmpliTaq Gold enzyme、0.025μM FGFR2 引子、0.03μM Kirt 引子、0.05μM CPZ 引子，先於 95℃下使 DNA 變性 10 分鐘，接著連續在94℃/30 秒、54℃/45 秒、72℃/45 秒擴增基因產物 25 循環，最後於 72℃延伸 10 分鐘。

(4)DUSP22+ FGFR2 +Kirt

PCR 反應溶液裡含 100ng DNA、200μM dNTP、2mM MgCl2、2.5μL 10X buffer II、0.5U AmpliTaq Gold enzyme、0.035μM FGFR2 引子、0.04μM Kirt 引子、0.05μM DUSP22 引子，先於 95℃下使 DNA 變性 10 分鐘，接著連續在94℃/30 秒、57℃/45 秒、72℃/45 秒擴增基因產物 25 循環，最後於72℃延伸 10 分鐘。

接著使用GCK-500 cartridge kit (eGene, Irvine, CA, USA)來分離不同大小片段的DNA 產物，首先取用 5μL 的 PCR 產物加入 15μL 的 dH2O 中，稀釋 4 倍，

(42)

後Biocaculator Software 便可自動標示出 DNA 產物的大小、分離先後順序及相對劑量。

將Competitive Multi-Plex PCR 的結果與原 CMDX Bac Array 的基因組劑量變異訊號進行比對，分別評估CMDX Bac Array 的偽陽性率及偽陰性率。偽陽性率=

基因晶片顯示有劑量變化但 Multi-Plex PCR 未顯示出劑量變化的件數/ 基因晶片顯示有劑量變化的總件數；偽陰性率=基因晶片未顯示劑量變化但 Multi-Plex PCR 顯示有劑量變化的件數/ 基因晶片未顯示劑量變化的總件數。分析的結果可用以評估此CMDX CA2500/ CA3000 Bac Array 平台的準確度。

第四節與現有基因組變異資料庫進行比對

人類基因組變異資料庫http://projects.tcag.ca/variation 持續收錄自 2004 年以來研究基因組結構變異的文獻的研究結果，提供了人類基因組全面的結構變異摘要，透過這個平台，將1015 個樣本所觀察到的基因組劑量變異與先前文獻的分析結果做一比對，統計台灣族群廣泛存在或具獨特性的基因組劑量變異。

圖三：人類基因組變異資料庫http://projects.tcag.ca/variation 搜尋介面

(43)

圖四：Bac Clone: CTD-2041D13 (Chr5:69364823-69448911)於資料庫的搜尋結果

(44)

第三章結果

以 CMDX Bac Array CA2500/ CA3000 觀察 1015 個產前檢查樣本其基因組劑量變異在基因組的分佈，總計發現 4152 個劑量變異(gain or loss)的訊號，分佈在 438 個 Bac Clone 與 252 個 Cytobands 中。平均每個人可觀察到 4.36 個基因組劑量變異，但如果將 CA2500 與 CA3000 平台分開統計，CA2500 可觀察到的平均基因組劑量變異次數為 4.84 次，CA3000 則略低，為 3.88 次。

全基因體結果圖示(Whole genome View)

表一：分析檢體來源一覽表

表二：個體的平均基因組劑量變異

圖五：樣本 509 的全基因組基因組劑量變異掃描結果圖

(45)

以 Multi-Plex PCR 方法驗證 CMDX Bac Array 的可信度，挑選於 6p25.3、

4p16.1、12p12.3 等位置有劑量變化的樣本共 57 個，而由 Multi-Plex PCR 取得一致性的結果共 56 個，評估偽陽性率為 1.75%。其中，分析結過呈現不一致的樣本為 Sample313-2，經重覆分析後 Sample313-2 的 Multi-Plex PCR 結果仍為 Wild Type (Bac Array 結果為 Deletion Type)，此偽陽性的結果極可能為 Multi-Plex PCR 於 6p25.3 所設計的探針位置，並未和 sample313-2 產生劑量變異的位置重疊，因此使得 CMDX Bac Array 的分析結果與 Multi-Plex PCR 不一致。另於上述位置挑選沒有劑量變化的樣本 30 個，以 Multi-Plex PCR 取得一致性的結果為 30 個，評估偽陰性率為零。由上述精確度的分析，評估此 Bac Array 的平台適合用於鑑別基因組劑量變異的存在。

圖六：樣本 313-2 在 Chr 6 的 aCGH 結

圖七：參考檢體在 6p25.3/ DUSP22 gene 的劑量

圖八：樣本 313-2 在 6p25.3/ DUSP22 第一次 Multi-Plex PCR 結果

圖九：樣本 313-2 在 6p25.3/ DUSP22 第二次 FGFR2

FGFR2 FGFR2

Kirt Kirt Kirt

DUSP22 DUSP22 DUSP22

台灣族群全基因組劑量變異分析：建立供作臨床與研究應用的數據資料

國立台灣大學醫學院分子醫學研究所 碩士論文

National Taiwan University master thesis

台灣族群全基因組劑量變異分析：

建立供作臨床與研究應用的數據資料

Whole Genome Analysis of Copy Number Variations in Taiwan Populations: A Data Resource for Clinical and

Research Applications

陳佩芬 Chen, Pei Fen

指導教授: 蘇怡寧 博士

Advisor: Su, Yi-Ning , M.D./ Ph.D.

中華民國 99 年 6 月

誌謝

摘要

Abstract

內 文 目 錄

圖 目 錄

表 目 錄

第一章 研究背景與動機

第二章 研究方法

第三章 結果