討論 - 台灣族群全基因組劑量變異分析：建立供作臨床與研究應用的數據資料

研究樣本的取材來自於妊娠中的胎兒，在收集樣本的過程中已然剔除有家族遺傳病史及有相關病理診斷的來源，而所有生出的胎兒皆具有正常的表現型，

如此可以排除研究中所鑑別的 CNV 與早發性、高度遺傳性(High Penetrance)疾病的相關性。然而，由於追蹤所有胎兒的生長發育直至其成年後的健康情形，有其困難度，因此研究中所鑑別的 CNV 確實無法完全排除與晚發性、複雜性疾病的相關風險。由於研究對象的測試時機為產前診斷，因此以胎兒檢體所得的 CNV Database 來說明、代表一般健康族群的 CNV 分佈，確實有其限制性。

CMDX Bac Array CA2500/ CA3000 所選用的探針大小界於 150~250 Kb，原則上要大於 85 Kb 以上的基因組劑量變化才容易被 Bac Array 平台偵測到，因此 C2500/ CA3000 平台無法鑑別較小的基因組劑量變化，而無法精確指出基因組劑量變異的起迄位置、實際大小，也是 Bac Array 平台分析基因組劑量變異的限制，

因此當基因組劑量變異的大小超出了 Bac Array 平台的敏感度，或基因組劑量變異發生的位置不在 Multi-Plex PCR 所設計的探針的偵測範圍時，可能是導致 Bac Array 分析結果與 Milti-Plex PCR 結果不一致的原因。當然，人為的操作問題、

螢光強度判讀上的誤差，也是造成兩種方法不一致的可能因素。

CA2500 Bac Array 平台含有探針數 2437 個，而 CA3000 平台則含有探針數 3039 個，理論上探針的密度愈高，應能提供愈豐富的基因組訊息，但 CA2500 平台所觀察到的個體平均 CNV 發生次數為 4.84 次，CA3000 平台卻略低、為 3.88 次。仔細比對 2 個平台的選用探針，發現 CA2500 平台有部份探針並未包含在 CA3000 平台中，例如 1q21.1 的 RP11-160L8、2p11.1 的 RP11-90E3、3p14.1 的 RP11-14D22 與 11p15.4 的 RP11-1031H14，而上述 4 個 Bac Clones 在 221 個以 CA2500 進行分析的樣本中，發生基因組劑量變異的頻率並不低，分別是 2.71% (6/

221)、21.72% (45/ 221)、0.45% (1/221)、0.90% (2/221)，這應是造成 CA3000 平

台觀察到的基因組劑量變異較 CA2500 為低的主要原因。

於 Bac Array 平台所觀察到的基因組劑量變異，只出現 Deletion 訊號的 CNVR 與只出現 Duplication 訊號的 CNVR 所佔的比例沒有明顯差異，約各占 39.6%與 36.47%；而同時兼具 Deletion、Duplication 訊號的 CNVR 則約佔了 23.93%。由於絕大多數的 CNVR 在研究族群中發生 CNV 的頻率不高，因此罕見的 CNVR 很難由少數幾個出現 CNV 的樣本來判斷該 CNVR 的變異形式究竟是僅有 Deletion 或 Duplication，但人群中高發生率的 CNVR(>1%)，則幾乎同時具有 Deletion 及 Duplication 兩種變異形式，顯示 Non-Allele Homologous Rearrangement 是促進大片段結構變異發生的主要機制，藉由同源性片段的互換、重組，因此 Deletion、Duplication 的發生、存在是相對的。

統計結果顯示 CNV 的發生與 Segmental Duplication 有極高的相關性，且經常集中於 Centromere 與 Telomere 的位置，甚至與某些致病基因的位置很接近，

例如發生在 5p15 的 Cri du Chat Syndrome、5q13.2 的 Spinal Muscular Atrophy、

7q11.23 的 William- Beuren Syndrome、11p15.4 微缺失導致的 Charcot-Marie-tooth disease、15q11-q13 突變引起的 Prada-Willi Syndrome/ Angelman Syndrome、17p11.2 微缺失導致的 Smith-Magenies Syndrome 或 22q11.2 微缺失造成的 Digeorge Syndrome 等，均位於 Pericentromere 的區域，這些已知的遺傳疾病，其致病位置附近的 CNV 發生率均很高，這表示 CNV 的發生並不是隨機的，而是與基因組本身的結構有關，由於重複性序列、 Segmental Duplication 經常集中於 Centromere、Telomere 以及致病基因的附近，因此這些區域的基因組結構較不穩定，容易發生重組，自然也容易出現 CNV 的結構變異。當重組的 DNA 片段僅限於同源性序列或重複性序列的涵蓋範圍時，其變化的範圍不大，且不包含關鍵性的功能基因，則其重組的結果就只是造成個體之間的多型性變化；但若發生重組的片斷較大，其內含關鍵性的功能基因，則重組的結果就會造成關鍵性基因的重覆或丟失，這樣的染色體分配到配子中時，就可能使下一代出現基因表現失衡的疾病變化。

而 CNV 對基因的高覆蓋率，顯示其對人類的遺傳變異性及表型多型性扮演重要的角色，但 CNV 並不會直接引起疾病的發生，或單一的造成某個特殊表型改變，它必須要集合多個基因的效應或接受環境因子的刺激或調控，才會導致某個複雜表型出現。例如個體間免疫力的差異、對某些疾病的易感性或風險性的差別、對某些藥物代謝或食物消化能力的不同等，都與 CNV 在基因組中存在的多型性有關。

再者，大片段的基因組劑量變異(>1 Mb)，一如預期的，在基因組涵蓋的比例較低(7.30%)，涵蓋功能性基因的比例也較低，這是演化的結果，顯示大片段的結構變異承受較大的演化選擇壓力。而由 aCGH 分析結果所觀察到的大片段結構變異的好發位置，也與傳統染色體組型分析經常觀察到的 Heteromorphism 區域一致，如 9p13.1~q12、15q11~q13、16p11~p13 等位置，經常在正常、健康個體的染色體組型觀察到不同大小及染色特性。這些大片段的結構變異，通常由一些重複性的序列組成，涵蓋基因的比例較低，或是大多包含一些控制多型性表型的基因，如：嗅覺接受體基因、免疫球蛋白基因等，這也說明了這些大片段的結構變異在經過數百萬年的演化後，為何還能夠存在現行人類基因組的原因。

表三：在健康個體所看到的 CNV，部分座落於相關遺傳疾病的致病位置

於研究中所發現的 438 個 CNVR，92.47%已在先前相關的 CNV 文獻報導過，僅有 33 個 CNVR( Bac Clone)是首次在此次研究中發現，而 33 個 CNVR 中又有 26 個 CNVR 不涵蓋功能性基因，或是在研究族群中反覆出現。產前、臨床診斷上，判斷基因組中的劑量變化是否具有病理意義，已建立的 CNV 資料庫具有非常重要的參考價值，比對健康人群中是否有出現相同的劑量變化是解讀分析結果的第一步。一般而言，已被報導過的劑量變異或在研究族群中重複出現的劑量變異，原則上認同其為多型性的 CNV；若 CNV 資料庫裡查無相同的劑量變異，

則建議須尋求個案的雙親做進一步的分析，以鑑別該結構變異為由健康的雙親遺傳而來，或是為一新發生( De novo)的案例。由健康的雙親遺傳而來的 CNV 可認定其為無病理意義的多型性變化；至於新發現的 CNV，則需進一步檢查該 CNV 是否涵蓋功能性基因，若不含有功能性基因，則推斷該結構變異造成病理表型的可能性極低；而涵蓋有功能性基因者，再確認基因的功能，了解其是否為多型性基因，或是 NCBI、OMIM 等疾病資料庫有無相關病例報導，若該基因屬多型性基因，或無疾病相關性，則判定其為多型性 CNV；而涵蓋的功能性基因如已知會引起相關病理表型，則宜以其他的基因劑量分析方法進一步偵測、確認功能性基因缺損或擴增的位置，並結合 NCBI、OMIM 等疾病資料庫的資訊，來提供完整的遺傳諮詢。產前、臨床診斷結構變異的流程如下圖所示。

圖二十八：在染色體 9、15、16 所觀察到的 Heteromhorphism

註：CNV Database 來自於 DGV 資料庫及台大分子遺傳實驗室 aCGH 資料庫圖二十九：多型性 CNV 的鑑別流程

將台灣族群基因組劑量變異的分析結果與先前的文獻相較，除了 2006 年 Wellcome Trust 發表的全球廣泛性的 CNV 研究，囊括了 45 個中國人的樣本、45 個日本人的樣本外，其於文獻的研究對象多集中於歐美人種，亞洲人種較少，而這些文獻基於所使用的分析方法不同、解析度不同、探針選擇不同、涵蓋基因組的比例不同、研究族群不同、樣本大小不同、參考樣本不同，使得其各自看到的 CNV、個體平均 CNV 發生次數，有很明顯的差異。原則上當方法的解析度越高時，看到的 CNV 更豐富、多樣，且 CNV 的平均長度更小。鑑於小於 50 Kb 的 CNV 佔了基因組劑量變異主要的比例，因此解析度愈高的分析方法，如探針密度愈高的 Oligo Array、SNP Array，或 DNA Sequencing 等，愈適合用來研究、鑑別族群中 CNV 的存在與分佈。但即使是高解析度的方法，也分別有其限制，如廣泛型(Whole Genome)的基因晶片雖然可以快速的掃描全基因組的劑量變異情形，但無法精確的定位核苷酸的起迄位置，所以 CNV 的大小只能做概略性的估算，同時，也無法觀察平衡性的結構變異；而基因組的定序方法其解析度可以達到核苷酸的水準，因此可以精確的指出結構變異的點位及變異 DNA 片段的實際大小，並偵測倒位等 DNA 序列倒置的結構，然而，全基因組定序曠日費時，且費用昂貴，無法在短時間內針對大規模的樣本進行分析，難以取得足以代表整個族群或不同族群的廣泛性資料，因此，研究基因組的結構變異應根據研究目的來選擇一個合適的分析平台。

表四：研究結果與相關文獻的比較 (C 表示中國人；J 表示日本人；K 表示韓國人)

在文檔中台灣族群全基因組劑量變異分析：建立供作臨床與研究應用的數據資料 (頁 53-60)