人類染色體中的重覆序列之統計分析

(1)

行政院國家科學委員會專題研究計畫成果報告

人類染色體中的重覆序列之統計分析

計畫類別：個別型計畫計畫編號： NSC93-2112-M-006-012- 執行期間： 93 年 08 月 01 日至 94 年 07 月 31 日執行單位：國立成功大學物理學系（所）計畫主持人：楊緒濃報告類型：精簡報告處理方式：本計畫可公開查詢中華民國 94 年 10 月 27 日

(2)

行政院國家科學委員會補助專題研究計畫成果報告

人類染色體中的重複序列之統計分析

計畫類別：■ 個別型計畫 □ 整合型計畫計畫編號：NSC 93－2112－M－006－012 執行期間：93 年 08 月 01 日至 94 年 07 月 31 日計畫主持人：

楊緒濃

共同主持人：計畫參與人員：成果報告類型(依經費核定清單規定繳交)：□精簡報告 ■完整報告本成果報告包括以下應繳交之附件： □赴國外出差或研習心得報告一份 □赴大陸地區出差或研習心得報告一份 □出席國際學術會議心得報告及發表之論文各一份 □國際合作研究計畫國外研究報告書一份處理方式：除產學合作研究計畫、提升產業技術及人才培育研究計畫、列管計畫及下列情形者外，得立即公開查詢 □涉及專利或其他智慧財產權，□一年□二年後可公開查詢 執行單位：國立成功大學 中華民國

九十四

年

十

月二

十五

日

(3)

行政院國家科學委員會專題研究計畫成果報告

國科會專題研究計畫成果報告撰寫格式說明

Preparation of NSC Project Reports

計畫編號：NSC 93-2112-M-006-012

執行期限：93 年 8 月 1 日至 94 年 7 月 31 日主持人：楊緒濃國立成功大學物理學系

演化特徵建立在不同物種基因序列 k-mers 分佈是被研究的，生物依照演 化分歧時期概略分為三類(a) E.coli, T.pallidum (b) yeast, mustard, zebrafish, fruit fly (c) mouse, chick, human。這三群的 6-mers 分佈分別地顯示(a)單一模式 (b)單一模式有著峰質偏移到較小的頻率 (c)雙模式。描述雙模式的特徵，模型建立在基因序列的”CG”含量上，提供一合理的討論。 1. 簡介基因序列是一由四種鹼基組成的長鏈，一般以複雜的三維結構緊密地壓縮在細胞內。它攜帶著生物遺傳訊息，局部的基因序列以三個核甘酸為一組密碼轉錄、轉譯成蛋白質。 在微生物基因的逐字分析[1]，對於不同 k-mers 頻率分佈發現具有較小的 隨機系統的統計特徵。這裡的 k-mers 是指少量核甘酸長度 k，短 k-mers 的頻 率是被用來研究分子演化[2]。這樣的分佈支持微生物的基因成長來自於兩階段的過程[1]。一初始隨機序列長度約 1000 核甘酸，跟隨著隨機片段複製，平均片段約 25 核甘酸。我們將這一應用在微生物的分析使用在其他的生物上，包含脊椎動物，這裡我們也考慮一簡單與時間無關的模型來描述人類基因的 k-mers 分佈。 2. 方法與材料我們所分析的基因序列物種列於表 1，序列的取得從 Ref.[3]。基因序列的檔案格式為 FASTA 格式，序列中還包含著部分未確定的鹼基標著為”N”。表 1

Taxonomic name Name used in text

Escherichia coli K12 E. coli Treponema pallidum T. pal Drosophila melanogaster fruit fly Saccharomyces cerevisiae yeast Arabidopsis thaliana mustard Danio rerio zebrafish Mus musculus mouse Gallus gallus chicken Homo sapiens human

(4)

首先我們定義 k-mers 的分佈，是指不同事件發生頻率落在一頻率區間時 令為同一頻率，整合所有事件發生頻率的分佈為 k-mers 分佈。不同事件意指 不同的鹼機排列。N_k為 k-mers 落在頻率f 的次數。我們將考慮表一中物種基 因序列在 k=2,4,6,8 時的分佈，由於不同物種基因長度不同，基於比較方便， 我們將重整化序列長度到 1Mb。我們也比較了人類第 21 條染色體與隨機生成序列的差異。從圖 1-4，可發現在先前研究[1,6]已指出的，與隨機序列分佈有顯著的差異。且我們發現人類的不同染色體有相似的 k-mers 分佈，當 k 值增加時呈現雙模式的分佈(圖 3,4)。而隨機序列(序列長度 4k L? )遵守 Poisson 分佈。 ( ) 2k m(1 )k m, 0 m f p = f p − p − ≤ ≤m k p為 A+T 含量，f 為平均發生頻率(f =L/ 4k)，在圖 3 中隨機序列的 6-mers 分佈有 7 個峰值對應m=0,1,...,6。圖 1 圖 2 圖 3 圖 4 我們也研究了三群演化分歧時期物種的 k-mers 分佈。(a)物種為單一模式 分佈(圖 5)；(b)物種也為單一模式分佈(圖 6)，但比較(a)，有輕微偏移向低 頻率分佈；(c)物種為雙模式分佈；k-mers 分佈的複雜性增加隨著族群(a)到 族群(c)。族群(b)中的 mustard 是一種小的開花植物行為上較接近族群(a)。

(5)

際分類，由於我們只分析了少數生物。實際上許多的微生物基因有著高度鹼基偏壓[1,7]，以致較族群(b)有較大的歪斜。圖 4 圖 5 圖 6 為了解釋 k-mers 分佈特徵在微生物基因演化模型，利用兩種演化事件， 突變與複製，的最小模型被提出[1]。在該模型中突變造成單一鹼基取代 (SBR)，複製是偶發的隨機複製(RD)延展一特徵長度尺度σ 的少量核甘酸。模型序列從一長度L0的隨機序列開始，允許演化成長藉由 SBR 與 RD，直到生成為 1Mb 的序列。在 RD 事件中，先隨機選取複製長度_l，然後隨機選取位置s，複製s到s+ −l 1的鹼基插入在之後。模型中有三個參數，初始長度L₀，SBR 與 RD 事件比例η，長度尺度σ 。在電腦模擬[1]隨機複製長度_l是根據 Erlang probability function[8]， 1 / ( ) ( ) , 0,1,2,... ! m m F e m m σ σ σ − = l l = l ，σ 是一長度尺度， m是模型參數，平均值為(m+1)σ，標準差為 1/2 (m+1) σ。當實際生物基因長度為 c L ，則每單位長度選取片段長度x的機率為 1 / / 1 ( ) x (1 Lc ) w x =σ− −e σ −e− σ − ， 0 ( ) 1 c L w x dx=

∫

。選取複製片段長度_l，我們建構一函數G，G( , )σ y =l, [0,1)y∈ 是一電腦產生亂數。因函數 1 0 ( ) G− ≡ =y

∫

lw x dx要求 / ( , ) ln[1 (1 Lc )] G σ y σ y e− σ = = − − − l [1]。

(6)

這樣的模型產生的序列在給定參數下，k-mers 分佈符合真實微生物基因序列 的分佈。進一步顯示[7]，最小模型的三個參數是用來建構基本上所以微生物 的 k-mers 分佈的主要特徵。 然而最小模型並無法給定雙模式的 k-mers 分佈，而這發生在一些真核生 物如我們在表 1 的族群(c)。產生 k-mers 分佈的雙模式結構需要更多的情況被 考慮。我們在分析雙核甘酸含量上發現，”CG”在 DNA 甲基化上扮演重要角色 [10]。因此猜測，若”CG”在全部基因序列中含量比例為p₀，一選取複製長度 l，設計一演化抑制因子_e−p p/ 0，_p=_n _(CG)/ l l，nl(CG)代表”CG”數目在一長度

l。在加入複製抑制因子後，我們考慮 Erlang probability function 對於隨機複製片段_l，我們採取平均複製片段_l，這相關於m,σ，與 SBR 與 RD 比例η。然後我們增加一條件，複製是允許發生在電腦產生 0 到 1 之間的隨機數小於 0 / p p e− ，否則禁止。我們發現在所有人類染色體上”CG”含量只約佔 0.01，遠低於隨機平均值的 2 1 / 4 =0.0625。 3. 結果與結論我們模型所生成序列，選擇平均複製長度l=20 bp(m=3, σ =5) 和 SBR 到 RD 比例η=0.6，複製達到 5 1.5 10× 次。我們首先產生l和計算n_l(CG)遵守 (CG)/ p=n_l l，然後一次複製被允許，如果隨機產生 0 到 1 數值小於 p/0.01 e− ，否則就被禁止。利用這樣產生的過程，我們獲得一模型序列滿足人類基因”CG” 含量接近 0.01。從模型所產生的序列，並計算雙核甘酸的含量，見圖 7，顯示合理地符合真實基因的雙核甘酸分佈在”CG”的含量。然而也顯示雙核甘酸的含量在強氫鍵鹼基 S=(C,G)較符合，但在弱氫鍵鹼基 W=(A,T)，如”AT”,”TA”,”TT” 上有較大的差異。這樣的符合可能是偶然的，因為我們只考慮”CG”這單一情況去符合所有 16 種雙核甘酸。因此需比較所有類型的雙核甘酸平均含量， WW,WS,SW,SS 四種類型。我們計算了平均值WW,WS SW+ ,SS,SS CG− 在人類第 21 條染色體與模型序列，列於表 2。 將模型產生的序列做 k-mers 分佈與第 21 條染色體的比較，見圖 8-11。事 實上模型產生的序列確實產生了雙模式的分佈，合理地同意模型可產生相似於第 21 條染色體的分佈。在人類染色體中 A,T 分別佔約 30%，C,G 分別佔約 20%，在這之中約 5% 的”C”是被甲基化，佔總體基因的 1%。這個值約為”CG”在人類染色體中的比例。我們認為多數的”CG”被甲基化，因此藉由抑制”CG”的複製，我們有效地校正了相關鹼基 C 與鹼基 G 的分佈。抑制的原因可能來自”CpG”甲基化使 DNA 雙螺旋結構更緊密以致較少複製有關。最後模型序列有較大的不一致在弱氫鍵的雙核甘酸含量上，而我們只考慮了”CG”的抑制，其他也可能需考慮。圖 7

(7)

圖 8 圖 9 圖 10 圖 11 表 2 Fraction Dimer chromosome 21 model WW 0.340 0.350 WS SW+ 0.502 0.490 SS 0.158 0.160 SS CG− 0.147 0.150

(8)

＊參考文獻＊

[1] L.C. Hsieh and H.C. Lee, Mod. Phys. Lett. B 16, 821 (2002); L.C. Hsieh, L. Luo, F.Ji, and H.C. Lee, Phys. Rev. Lett. 90, 018101 (2003); L.C. Hsieh, L. Luo, and H.C. Lee, Evidence for Growth of

Microbial Grnome by Short Segmental Duplications, in Proceedings

of the 2nd IEEE Computer Society Bioinformatics Conference (CSB 2003), Stanford University, Stanford, CA , p.474 (2003).

[2] C. Burge, A.M. Campbell, and S. Karlin, Proc. Natl. Acad. Sci. U.S.A. 89, 1358 (1992); S. Karlin, J. Mrazek, and A.M. Campbell, J. Bacteriol. 179, 3899 (1997).

[3] ftp://ftp.ncbi.nih.gov/genomes/

[4] ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/April_14_2003/

[5] A. Sidow, Curr. Opin. Genet. Dev. 6, 715 (1996); A. Sidow, Cell

111, 13 (2002).

[6] H. Xie and B. Hao, Visualization of K-tuple distribution in

procaryote complete genome and their randomized counterparts, in

Proceedings of the 2002 IEEE Computer Society Bioinformatics Conference (CSB 2002), Stanford University, Stanford, CA , p.31 (2002).

[7] C.H. Chang, L.C. Hsieh, T.Y. Chen, H.D. Chen, L. Luo, and H.C. Lee,

Shannon Information in Complete Genomes, in Proceedings of the

2004 IEEE Computer Society Bioinformatics Conference (CSB 2004), Stanford University, Stanford, CA , p.20 (2004).

[8] E. Brockmeyer, H.L. Halstrom, and Arne Jensen, The Life and Works of A.K. Erlang, (Trans. Dan. Acad. Techn. Sci. No.2, Copenhagen, 1984).

[9] T.Y. Chen, L.C. Heish, C.H. Chang, L. Luo, F.M. Ji, and H.C. Lee, Int. J. Mod. Phys. B 18, 2448 (2004).

人類染色體中的重覆序列之統計分析

行政院國家科學委員會專題研究計畫 成果報告