題目：權重基因重排問題之分析

(1)

中華大學

碩士論文

題目：權重基因重排問題之分析

Analysis of Weighted Genome Rearrangement Problem

系所別：資訊工程學系碩士班學號姓名：E08902010 鄭其昌指導教授：吳哲賢博士

中華民國九十二年一月

(2)

中文摘要 i

權重基因重排問題之分析

研究生：鄭其昌指導教授：吳哲賢博士 中華大學資訊工程研究所

摘要

基因重排問題是在分析比較兩個基因序列，具有相同數目及種類的基因，但

是序列排列不同，如何經由部分序列翻轉（ reversals）的方式，相互轉換的方法。

目前基因重排問題的研究，假設轉換次數即為基因序列突變次數，主要是尋找最

少翻轉次數的最佳方法。

本篇論文提出新的假設：每次基因序列突變的機率和序列翻轉的長度有關，

並提出一個簡單的模型：基因序列突變的權重即為翻轉序列的長度。因此權重基

因重排問題，便是尋找基因序列經由翻轉方式，相互轉換，最少翻轉權重總和的

最佳方法。

首先我們利用尋找“最短路徑問題”的方法，求出權重基因重排問題的最佳

解，但是此演算法的時間複雜度為指數時間，不適合實際上的應用。接著我們設

計出一個啟發式（heuristic）的演算法：依序翻轉法，其時間複雜度為多項式時

間。為了改良此一演算法的效率，最後我們提出另外一個多項式時間複雜度的啟

發式演算法：最小權重優先翻轉法。

(3)

English Abstract ii

Analysis of Weighted Genome Rearrangement

Student：Kent Chang Advisor：Dr. Jer-Shyan Wu

Institute of Computer Science and Information Engineering

Chung Hua University

ABSTRACT

This research presents an algorithm for genome rearrangement. Basically the

number of rearrangement is according to the number of genome mutations. The goal

of this research is to find the optimal method of the genome reversals.

This thesis propose a new assumption: the probability of genome reversal is

dependent on the sequence length, and the weight of genome reversal is the length of

the sequence. So the problem of weighted genome rearrangement is to find the

optimal method of the minimum total weights by reversal.

First we apply “finding the shortest path problem” method to get the optimal solution

of the weighted genome rearrangement, but its time complexity is exponent ial. And

then, we design one he uristic algorithm: order reversal method, its complexity is

polynomial. In order to improve this algorithm, we finally design another

(4)

誌謝 iii

誌謝

本論文之能順利完成要感謝的人，實在很多。首先要感謝的是台中縣私立僑泰中學廖校長，廖校長對辦學充滿熱誠，更鼓勵學校教師進修，於是得以進入中華大學資工所在職專班進修。再來是中華大學資工所吳哲賢教授。從論文題目的確定，研究的過程到最後的定稿，

皆蒙吳教授的大力協助，才使得本論文能完成。

最後要感謝的是我的家人，由於你們的全力支持，使我能夠無後顧之憂，全心在課業上衝刺，才有今天的一點點成績，僅能以此論文的完成來感謝你們為我所做的一切。

對於曾經幫助我的師長、同仁等等再此一併致上謝意，還有我的

學生黃詩雯，利用課餘時間幫我謄稿。因為有你們的協助，才能順利

克服各種困難，使得本論文能完成。

(5)

目錄 iv

摘要… … … ..i

ABSTRACT… … … ...… … … .ii

致謝… … … .… … … .iii

目錄… … … ..… .… … … .iv

第一章簡介… … … ..… .… … … .1

1-1 基因 … … … .1

1-2 基因重排… … … ..… ..5

1-3 章節綱要… … … 8

第二章有方向性之基因重排… … … ..… … .10

2-1 斷點分析… … … .… … … .10

2-2 真實與渴望之圖… … … .15

2-3 插敘圖… … … .… 22

2-4 壞的元件… … … … ...… … … ...26

2-5 演算法… … … ..30

(6)

目錄 v

第三章無方向性之基因重排… … … ..… … 32

3-1 斷點分析… … … ..… … … 32

3-2 字串帶分析… … … ..35

3-3 演算法… … … ..… … … … 38

第四章權重基因重排… … … ...… … … 40

4-1 最短路徑法… … … ..40

4-2 依序翻轉法… … … ..44

4-3 最小權重優先翻轉法… … … ..… … 46

4-4 比較分析… … … ..49

第五章結論… … … ...… … 52

5-1 研究成果… … … ..52

5-2 未來研究方向… … … ..… … … … 54

參考文獻… … … ...… … … 55

(7)

圖示列表 vi

圖示列表

圖 1.1 基因與去氧核糖核酸… … … 2

圖 1.2 Alfafa 與 Garden pea 之間的基因關係圖… … … 5

圖 1.3 Alfafa 與 Garden pea 基因的可能翻轉方式… … … 6

圖 1.4 Alfafa 與 Garden pea 無方向性的翻轉方式… … … 6

圖 2.1 箭頭表示方向，圓圈代表相同字母但方向不一樣的兩個同類型基因… … … .11

圖 2.2 圖 2.1的可能翻轉方式… … … 13

圖 2.3 有方向性的字母，如同電池一般有正負兩端正極代表箭頭方向… … … .16

圖 2.4 斷點消去時的真實線與渴望線… … … 17

圖 2.5 建構真實線與渴望線的結構圖… … … 17

圖 2.6 真實與渴望之圖… … … 18

圖 2.7 未翻轉前真實與渴望之圖… … … 19

圖 2.8 圖 2.7翻轉後的真實與渴望之圖… … … 20

圖 2.9 (a)e，f 來自不同的循環(b)收斂的邊(c)發散的邊… … … 20

(8)

圖示列表 vii

圖 2.10 六個循環的插敘圖，好的循環用黑色圓圈表示… … … .23

圖 2.11 沒有好元件的插敘圖… … … 24

圖 2.12 有三個循環，但其中只有一個適當的循環… … … 24

圖 2.13 壞元件的分類… … … 26

圖 2.14 壞元件 B，E 分離其他壞元件… … … 27

圖 2.15 最小的堡壘… … … 28

圖 3.1 兩個不同染色體，具有相同的基因元素… … … 33

圖 3.2 搜尋基因排列 21375486… … … 33

(9)

簡介 1

第一章

簡介

1 – 1 基因

基因是決定遺傳特徵的基本單位，位於細胞核內的染色體中，決定了生物

的性狀，每一個基因控制著人體上一種特徵，且基因之間會交互影響。最新研

究資料顯示，人體內大約有 3 至 4 萬個基因，而每個基因大約可含帶幾千至幾

萬個鹼基對。

腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)、鳥嘌呤(G)四個鹼基的排列方式，

亦即 DNA 序列，稱為基因遺傳密碼。如同電腦軟體用「0」與「1」作為機器

語言的密碼，在生物世界，小至細菌、病毒，大至人類，都是以 A、T、C、G

(10)

簡介 2

這四個字母的密碼形成，將遺傳訊息儲存於 DNA 分子裡。

而雖然基因的主體為 DNA，但實際構成生物體組織、以及進行體內化學

反應的，幾乎全是蛋白質。因此，若將 DNA 比喻為生物體的設計圖，蛋白質

就是實戰部隊，DNA 若未製造蛋白質便不具意義，可以說，「基因遺傳密碼」

正是 DNA 製造蛋白質的情報。

圖 1.1 基因與去氧核糖核酸

ＤＮＡ即是 Deoxyribonucleic acid 的簡稱，中文譯為去氧核糖核酸。人體

約由 60 兆個細胞所組成，除了成熟的紅血球沒有細胞核之外，人體內每一個細

胞都存有一個細胞核，每個細胞核內則有著 23 對染色體，而大部份的 DNA 是

以染色體的形式存在於細胞核當中，染色體上所擁有的遺傳物質又稱為基因，

每一段基因則是由 DNA 的序列所組成，一個人體內的 DNA 序列約長達 30 億

(11)

簡介 3

個，而每一段基因控制著人體上有形與無形的特徵，包含有五官、體形、心智、

感官等等，並可達到代代相承目的宛如是生物個體的一個結構設計圖且是獨一

無二、絕無僅有。

每個 DNA 單元由一個五碳醣、磷酸和含氮鹼基所組成，彼此可互相鏈合

成為一個很長的分子鏈，DNA 依其含氮鹼基的不同可分為嘌呤（ purine）、嘧啶

（pyrimidine）兩大類，其中嘌呤類可細分為腺嘌呤（A , adenine）、鳥糞嘌呤（G ,

guanine）兩種，而嘧啶類又可分為胞嘧啶（C , cytosine ）與胸線嘧啶（T , thymine）

兩種，所以 A、G、C、T 可說是生物之遺傳密碼，經由這些密碼建構出整個生

命。

在生物體內 DNA 鏈通常以雙股螺旋的方式存在的，這也是 DNA 較穩定

的結構，但其配對有一定的規則，亦即胞嘧啶配對鳥糞嘌呤 (C-G)，或胸腺嘧

啶配對腺嘌呤 (T-A)，中間以氫鍵互相吸引來穩定其結構；而根據推測人類的

核酸大約是由三十億對鹼基所組成。

DNA 鏈因為很長，所以若沒有好好收藏打結了可不妙，因此以人類為例

子，除成熟的紅血球外，身體約由 60 兆個細胞組成，每個細胞中都存有一個細

胞核，DNA 就收藏在裡面，在平常的時候因為又細又長不容易被看到，但在特

殊的情況下，DNA 鏈會聚縮成一條一條的染色體，人類的每個細胞核中有共

23 對染色體，染色體上所攜帶的遺傳物質稱為基因，而每一段基因都是由

(12)

簡介 4

DNA(去氧核醣核酸)所組成。DNA 是大部分生物遺傳訊息的攜帶者，存在於每一個有核細胞的細胞核內，控制著各種生理的功能，且藉由生殖的過程可將這

些訊息傳給下一代。

基因突變（gene mutation），其實就是 DNA 上的鹼基序列發生改變，於是

遺傳密碼發生變化，突變就產生了，任何 DNA 密碼的改變或破壞，都會嚴重

影響細胞的功能，而且如此的基因突變會傳遞給後代的所有細胞。基因突變是

所有生物間變異的原始來源，這些變異性可以是有利的，也可以是有害的。經

過紫外線、化學藥品……等的處理，都可能造成 DNA 的鹼基序列發生改變。

舉例來說，胞嘧啶在亞硝酸的作用之下，會變成尿嘧啶，使得原本是 CG 配對

的遺傳密碼，轉變成 UA 配對，再經過修補後，就變成 TA 配對了，於是就發

生變化了。同理，經亞硝酸的作用後的腺嘌呤，也會變得能與胞嘧啶配對。

當然 DNA 鹼基序列本身也會自發性的發生變化，只是機率比較低而已，

這其中包含插入（insertion），刪除（deletion），替代（substitution）。

那什麼是基因重排（Genome Rearrangement）呢？簡單的說就是兩個物種，

他們具有相同基因種類與數目，只是基因序列不同，我們經由部分基因序列翻

轉的方式，得到兩者之間的關聯，事實上兩者之間除了翻轉的次數外，應該也

要考慮翻轉序列的長度，也就是權重（Weighted）的問題，這也是我們所要探

討的主題。

(13)

簡介 5

1 – 2 基因重排

所謂基因重排（gonome Rearraugenent）問題，是由二個物種，具有相同

數目及種類的基因，但是序列排列不同，經由部分序列翻轉，而達到完全相同

的組合。例如：圖 1.2、圖 1.3。

圖 1.2 Alfafa 與 Garden pea 之間的基因關係圖

(14)

簡介 6

圖 1.3 Alfafa 與 Garden pea 基因的可能翻轉方式

圖 1.4 Alfafa 與 Garden pea 無方向性的翻轉方式

針對這個問題 J. Kececioglu and D. SankoH 在 1995 年提出了兩個演算法，

一個是 gredy approximdtion 演算法，在一個基因排列中有 n 個元素，那麼可以

得到一個接近最佳化的解決方案，而其時間複雜度為 O（n²），另一個是 branch

and-bound exact 演算法，也可以得到一個最佳化的解，它的時間複雜度為 O（m,L

(15)

簡介 7

（n，n））其中 m 是搜尋（search tree）的大小，而 L（n，n）是解決有 n 個和

n 個固定量線方程式所需的時間。

1998 年 DAVID Sankoff and Mathien Blanchotte 基於在重新分類編輯- 距離

的計算和解釋中固有的困難，提出了多個基因重排和斷點分析（Breakpoint

phyhgeny）理論。

1999 年 Qian-Ping Gu，Shientung Peng 和 Hal Sudborough 也提出了一個新的論點，基因重排應用翻轉和置換的二接近演算法。他們主要是探討有方向

性的基因重排，並且得到一個下限值（lower bound）。

(16)

簡介 8

1 – 3 章節綱要

在本論文中，我們探討的是權重基因重排織分析。論文內容大致分為五個

部分。在開始的第一章內容，最主要的是就論為所討論的問題，進行定義，並

將問題的的歷史演進，做一個有系統的介紹，使大家可以很容易知道問題的所

在，進而能夠提出更前瞻性的看法。

在第二章之中，我們將介紹基因重排在有方向性方面的探討，包括（1）

斷點分析（2）真實與渴望之圖（3）插敘圖（4）壞的元件（5）演算法。首先

在 2-1 節中，定義何謂斷點及一些定義，在 2-2 節中介紹如何繪製真實與渴望

之圖，在 2-3 節中，找出所謂好的循環與壞的循環，所組成的插敘圖。在 2-4

節中找出壞的元件，根據這些壞的元件，找到一個最佳解。在 2-5 節中，介紹

一個演算法，希望得到最多 O（n²）次翻轉，而每個翻轉所需檢查的時間為 O

（n²），所以我們得到在翻轉搜尋最差的時間複雜度為 O（n⁴），但我們需要去

呼叫這個功能 d^β（α）次，所以最後的時間複雜度為 O（n⁵）。

在第三章中我們將介紹基因重排在無方向性方面的研究！包括（1）斷點

(17)

簡介 9

分析（2）字串分析（3）演算法，再 3-1 節介紹如何得到一個下限（low bound）。

在 3-2 節中討論增加字串與減少字串的定義和它們的作用。在 3-3 節中介紹一

個演算法能夠很快的找到答案。

在第四章中，將提出我們對基因重排的看法，也就是將翻轉的權重包含進

去。在 4-1 節中介紹最佳化的解，但因為時間複雜度為 O（（n！）³），不符實

際應用，在 4-2 節中，提出第一個演算法：依序翻轉法，時間複雜度為 O（n），

在 4-3 節中，提出另一個演算法：最小權重優先翻轉法，時間複雜度也是 O（n）。

在第五章中，針對過去的研究與未來的展望，提出一些觀點與方向，並說

明將來研究的目標。

(18)

有方向性之基因重排 10-

第二章

有方向性之基因重排

2 – 1 斷點分析

如第一章所言，基因重排可分為有方向性與無方向性，第二章就來討論有

方向性的問題，兩個基因序列除了位置不同，還有方向性的問題如圖 2.1 所示，

相對位置由直線連接，其中小圓圈代表方向不同。而圖 2.2 則是其中的一組解

決方案。那麼我們如何知道沒有比上述翻轉次數更少的，這也是我們爭論地方。

(19)

有方向性之基因重排 11

圖 2.1 箭頭表示方向，圓圈代表相同字母但方向不一樣的兩個同類型基因

現在有兩個基因排列α、β，我們的目的是從α翻轉到β，而翻轉的最少

次數為 t，而ρ代表翻轉的過程，ρ即代表第一次翻轉，所以αρ1ρ2… .ρt=β，

而 t 我們也稱為翻轉距離。其中α我們稱為最初排列，而β稱為目標排列，對

已知α、β，t=d^β（α）是固定的。

我們比較感興趣的是找到一個翻轉過程ρ使得α能夠更朝向β。ρ我們就

稱他為「搜尋翻轉」（sorting reversals），而它的特徵是 d^β（αρ）＜d^β（α），

也就是該 d^β（αρ）=d^β（α）-1，因為α與αρ的距離不能超過 1。這是非常

重要的。它用來觀察α與β的翻轉是否對稱，也就是說 d（α）=d（β）。如果

不成立，換句話說，對每一個翻轉ρ是沒有效率的，如果αρ1ρ2… ..ρt=β，

而這個方程式兩個是可逆的，我們得到α=βρt、ρt-1… ..ρ1，我們斷定β也可

以翻轉到α，但是它們必須是應用在翻轉次序上。

在這一節中我們將提出斷點的概念。當我們得到一個基因排列，首先要做

的是定義斷點，並且考慮基因排列的延伸，也就是在α（1）（第一個字母）的

(20)

左邊加上一個 L，在α（n）（最後一個字母）的右邊加一個 R，因此我們如果

有一個基因排列α=（2σ

，3ρ

，1ρ

，6ρ

，5σ

，4σ

），加上延伸則得到α=（L，2σ

，3ρ

，

1ρ

， 6ρ

， 5σ

，4σ

，R），而β=（L，1ρ

，2ρ

， 3ρ

，4ρ

， 5ρ

， 6ρ

，R）。

一個斷點是表示從α翻轉到β中相鄰兩個字母，不是連續或者字母相鄰但

方向不符。例如：L2σ

，2σ 3ρ

，3ρ 1ρ

，1ρ 6ρ

，4σ

R 是斷點，其中2σ 3ρ

雖然相鄰，但因

方向不對，所以也有一個斷點。而斷點的數目，我們可以用 b^β（α）或者是 b

（α）來表示，以上面的例子而言 b（α）=6，要注意的是，我們加上去的 L，

R 是不能移動的，除非α與β的第一個字母相同，而且方向一致，否則 L 就是

一個斷點，相同的道理，R 也是如此。

我們現在來討論一下斷點和翻轉距離之間的關係。假設β是固定的。那

麼，每一個翻轉ρ最多可以消去兩個斷點，因此 b（α）-b（αρ）≤2。我們

觀察每一個翻轉ρ，馬上可以在翻轉距離得到一個下限。假設ρ1，ρ2… ..ρt

是從α翻轉到β的過程（不必一定是最佳解）因此得到αρ1ρ2… … .ρt=β。

所以 b（αρ1ρ2… … ρt）=b（β）=0。因為β就是目標序列，所以 b（β）

=0。

我們可以得到 b（α）-b（αρ1）≤2

b（αρ1）-b（αρ1ρ2）≤2

•

(21)

•

b（αρ1ρ2… … .ρt-1）-b（αρ1ρ2… … .ρt）≤2

不等式兩邊相加，我們得到 b（α）≤2t。我們現在假設，t 是最佳「翻轉

距離」t=（α），因此得到

( )

2 α

b ≤d

( )

α 。

我們確信那是一個最小值，因為每次翻轉要消去兩個斷點「翻轉距離」d

（α）才會等於

( )

2 α

b ，所以這個下限並不會時常出現。例如：圖 2.2

圖 2.2 圖 2.1 的可能翻轉方式

最上面一列是α，最下面一列是β，斷點 b（α）=4，因此下限是 2，但

(22)

是「翻轉距離」d^β（α）=3。

(23)

2 – 2 真實與渴望之圖

對我們而言，下限 d（α）≥b

( )

α /2 是非常寬鬆的，並沒有什麼重大的意義。因此我們提出一個此下限更嚴謹的方法。我們稱之為真實與渴望之圖

（reality-desire diagram）。在真實與渴望之圖的架構下，我們直覺翻轉時能夠

消去斷點，描述如下：

α … … x|y… … z|w

其中 xy 有一斷點、翻轉

αρ … … xz… … .yw

文字上橫線代表方向改變。假設 xy 之斷點被消去，代表 xy 在α中出現，

但yx不會出現在β中。

在描繪真實與渴望之圖，我們先來定義文字的正負兩端。

(24)

圖 2.3 有方向性的字母，如同電池一般有正負兩端

正極代表箭頭方向

在箭頭的前端就如圖示電池的正極，而箭號的尾端就如同電池的負端一

般。現在我們開始來描繪真實與渴望之圖。

其實真正相鄰的給它一條線，稱之為「真實線」（reality line），而翻轉後

相鄰的再給它一條線，稱之為「渴望線」（desire line），要注意的是這個可消

去斷點翻轉的結果，必須是兩個字母同邊（可是左邊或右邊），這時翻轉後的結

果αρ中，會出現如圖 2.4 中，x 與Z的情形，真實線與渴望線會平行存在。但

我們無法知道是正端或是負端。

(25)

圖 2.4 斷點消去時的真實線與渴望線

根據圖 2.4 我們可先建立真實線與渴望線的結構圖

圖 2.5 建構真實線與渴望線的結構圖

要注意的是有時它們會出現，兩個平行的邊，也就是說一邊是真實線，另

(26)

一邊是渴望線。這會讓我們想起那裏不是斷點。換句話說，如果有斷點，那麼

它們不會有自己的循環（self-loop），再根據圖 2.5 我們可以畫出真實與渴望之

圖

圖 2.6 真實與渴望之圖

同時原始的基因序列α，可定義為 RD（α）。在這 RD（α）中的循環個

數定義 C^β（α）或 C（α），要注意的是 C^β（β）=n+1 循環。正常來說每消

去一個斷點，會增加一個循環，但是並不意味，每一個翻轉增加一個循環便是

好的。這個次後我們會談到。下面我們來看幾個定理。

(27)

定理 1：假設（s，t）和（u，v）是兩個真實邊緣在一個翻轉ρ中，（s，t）

在（u，v）之前，而 RD（αβ）不同於 RD（α）則

1.（s，u）和（t，v）取代真實線（s，t）和（u，v）

2.渴望線不變

圖 2.7 未翻轉前真實與渴望之圖

定理 2：假設在 RD（α）中，ρ是在兩個真實線 e 和 f 間翻轉，則

1. 如果 e 和 f 屬於不同的循環，則 C（αβ）=C（α）-1

2. 如果 e 和 f 屬於相同而且是收斂的，則 C（αρ）=C（α）

如果 e 和 f 屬於相同而且是發散的，則 C（αρ）=C（α）

+1

(28)

圖 2.8 圖 2.7 翻轉後的真實與渴望之圖

圖 2.9 (a)e，f 來自不同的循環(b)收斂的邊(c)發散的邊

據定理 2.我們得到一個非常重要的概念，那就是每經過一次翻轉，則循環

的數目最多改變 1 個，這個結論可以引導我們得到一個較具體的「翻轉距離」

(29)

的下限值。

αρ1ρ2… … .ρt=β

計算兩邊的循環數

C（αρ1ρ2… … … ρt）=C（β）=n+1

另一方面根據定理 2.我們得到

C（αρ1）-C（α）≤1

C（αρ1ρ2）-C（αρ1）≤1

.

C（αρ1… … ρt）-C（αρ1… ρt-1）≤1 不等式兩邊相加

n+1-C（α）≤t

假設ρ1… … ρt是最佳「搜尋翻轉」，則 t=d（α），所以 n+1-C（α）≤d

( )

α

這個下限值很棒，事實上已經非常接近實際上的「翻轉距離」了。

(30)

2 – 3 插敘圖

根據定理 2 我們來定義好的或壞的循環，如果一個循環有兩個發散真實的

邊，我們稱它為好的循環（good cyc le ）若果不是，我們說它是壞的循環（bad

cycle）。而好的循環能夠幫助我們繪製真實與渴望之圖，因為至他們少有 2 個渴望的邊。其中我們要特別注意的是，並非所有包含渴望邊的循環都是好的循

環，還要檢查他們是否具有發散的性質，如果一個循環他至少四個邊。我們稱

它為適當的循環。

如果一個基因排列α只有一個好的循環，那麼這個下限就是 n+1-c（α）。

甚至當這個基因排列有壞的循環，而這些真實邊包含相同的方向，有時候每一

次的翻轉會產生一個壞的循環。所以當我們打破一個壞的循環，卻可能產生另

一個壞的循環,直到我們翻轉到目標基因排列。然而，假設有兩個不同的循環，

有相同的渴望邊，作交叉就會產生另外一個壞的循環。所以我們說有兩個循環，

在這個交叉的局面。要注意的是，在一個旋環裏面，渴望邊就是弦，而直實邊

是弧。

(31)

我們現在建構一個新的圖，我們稱之為插敘圖（interleaving graph）。用來

表示從基因排列α翻轉到基因排列β。如圖 2.10 它包含 6 個循環，每一個循環

都包含兩個真實邊和兩個渴望邊。而其中定義循環 C 和循環 F 是好循環，因為

他們有交叉。接下來定義好的元件（good component）和壞的元件（bad

component）。如果一個循環本身是好的循環，那麼它就是好的元件。或者是本身是壞的循環，但是卻有好的循環交叉重疊，我們也說它是好元件，否則就稱

之為壞的元件。圖 2.10 中，有兩個好的元件，分別是由 F 循環自己組成。另一

個是由 B、D、C 三個循環組成。有一個壞的元件是由 A、E 循環組成。

圖 2.10 六個循環的插敘圖，好的循環用黑色圓圈表示

我們再來看看圖 2.11 在這個插敘圖中，只有兩個壞的循環之，而沒有好的

循環。這個所表示的意義是沒有一個翻轉，可以增加這個循環數 C（α）。也就

(32)

是說「翻轉距離」一定比這個下限 n+1-C（α）大

圖 2.11 沒有好元件的插敘圖

再來看下一個例子，如圖 2.12 中兩個適當的循環（B 和 C 循環），其中 B

是壞的循環，而 C 是好的循環，至於 A 只有兩個邊，所以不是循環。

圖 2.12 有三個循環，但其中只有一個適當的循環

(33)

我們現在使用圖 2.12 來說明這個好的元件的用途。回想前面提到，我們需

要在一個循環內的兩個發散邊。去翻轉，來增加一個循環數減少「翻轉距離」，

在圖 2.12 中，只有 C 一個好的循環，它有三個真實邊 e=（L1,+3），f=（-3,-4）

和 g=（-1,+2），其中 f 和 g 是收斂（方向相同）所以並不是好的選擇，而 e 和 f

是發散的，所以它可以產生一個好的元件，包含兩個循環。而且沒有產生壞的

元件。也就是說在這個例子中，有兩個搜尋翻轉。

定理 3：在相同的循環內，有兩個散邊的搜尋翻轉，若且唯若，它不會創

造出壞的元件。

(34)

2 – 4 壞的元件

在上一節中，我們探討好元件的方法，現在我們轉移注意力到壞的元件，

而且將它分類，同時根據這些分類提出一個公式來計算這個「翻轉距離」。

如圖 2.13，我們先將壞的元件分為柵欄形（hurdles）和非柵欄形

（nonhurdles）再將柵欄形細分為簡單柵欄（simple hurdles）和超級柵欄（super

hurdles）

圖 2.13 壞元件的分類

(35)

接下來次圖 2.14 來說明非柵欄形、簡單柵欄和超級柵欄。B 元件把 A 元

件和 C 元件分離，同時也把 F 元件和 D 元件分離。而 E 元件把 A 元件和 F 元

件分離。我們開始來定義，一個壞的元件，如果把其他壞的元件分離，那麼它

就是非柵欄形，而如果一個壞的元件，沒有把任何兩個壞的元件分離，那麼即

為柵欄形。而 h（α）代表柵欄形的數目。

圖 2.14 壞元件 B，E 分離其他壞元件

我們再來把柵欄形的壞元件分類，如有一個柵欄形的元件被非柵欄形的元

件包圍，且被包圍的柵欄形元件只有一個，那麼就稱之為超級柵欄。在圖中，

B、E 是非柵欄形元件，而 A、C、D 則簡單形柵欄形元件，只有 F 是超級柵欄

(36)

形元件。

如果一個基因排列α它的真實與渴望圖只由奇數個超級柵欄形元件組

成，我們就稱之為保壘（fortress）基因排列。我們至少需要二個字母組成適當

的循環，四個字組成壞元件，八個字母組成超級柵欄，所以至少需要二十四個

字母組成保壘形基因排列，而圖 2.15 是最少的保壘。

圖 2.15 最小的堡壘

現在寫出一個公式來計算，有方向性基因排列的「翻轉距離」

d（α）=n+1-c（α）+h（α）+f（α）

n：基因排列α的基因數目

d（α）：翻轉距離

c（α）：循環的數目

(37)

h（α）：柵柵欄形元件的數目

f（α）：1,α是保壘形

f（α）：0, α非保壘形

(38)

2 – 5 演算法

在這一節中，將描述我們提出的演算法。它可以搜尋任何一個有方向性的

基因排列。而且這個演算法的每一的翻轉都是「翻轉距離」，所以可以確定這個

「翻轉距離」是最小。

在相同循環裏的柵欄形元件翻轉我們稱之為柵欄剪裁（hurdles cutting），

而當這個柵欄是簡單形的的，柵欄剪裁並不會改變 c（α）和減少

h（α），但要注意 f（α）是否改變。

而在不同柵欄元件翻轉稱之為柵欄合併，而它的意義是這兩個柵欄形元

件，會變成好的元件。而演算法如下

Algorithm Sorting Reversal

input: distinct permutations α and β

output: a sorting reversal for α with target β

if there is a good component in RD^β(α) then

(39)

pick two divergent edges e, f in this component,

making sure the corresponding reversal does not

create any bad components

return the reversal characterized by e and f

else

if h(α) is even then

return merging of two opposite hurdles

else

if h(α) is odd and there is a simple hurdle

return a reversal cutting this hurdle

else

// fortress

return merging of any two hurdle

(40)

無方向性之基因重排 32

第三章

無方向性之基因重排

3 – 1 斷點分析

在這一章中，我們將探討無方向基因重排的問題。在上一章中的理論都可

以類比應用於這一章中，其中有一個非常重要而且不同的地方，就是無方向性

的翻轉結果是一個 NP-hard 的問題。而有方向性的問題在我們看來，可以用多

項式時間來解決。

我們開始給它一些定義，一個無方向性的基因排序，相同於有方向性的基

因排列，除了字母上沒有箭號，這裡要特別注意的是單一個字母的翻轉，本身

對整個基因排列並沒有任何改變。因為它本身沒有正負兩端之分。

我們的目標還是一樣，僅可能去得到一個最短的「翻轉距離」，使得能從

α翻轉到β所以αρ1ρ2… … ρt=β

(41)

而這個從α翻轉到β的「翻轉距離」仍然定義 d^β（α），而 d^β（α）=d^α

（β）。我們舉個例子來看看，有兩個同源的染色體，假設他們各有 8 個相同字

母但排列不同的基因，從一個較低等的染色體轉換成較高等的染色體，如圖

3.1，圖 3.2

圖 3.1 兩個不同染色體，具有相同的基因元素

圖 3.2 搜尋基因排列 21375486

問題是我們如何得到一個較短的「翻轉距離」，來假設我們這四次翻轉是

(42)

必須的。我們注意這個基因排列的斷點，剛好就是上一章的方式，在這一章中，

儘量簡單化。所謂一個無方向性的斷點，就是不會在目標基因排列中出現，當

然也要考慮延伸的部分，就是左邊（ L）和右邊（R）兩個要素。同樣的 b（α），

代表原始基因排列α的斷點個數，次下面的例子而言，只有 1.2 和 5.4 間沒有斷

點，所以這個基因排列，一共有 7 個斷點。

L.21.3.7.54.8.6.R

每一次翻轉最多可以消去 2 個斷點，剛好和有方向性的基因排列一樣，因

此我們可以得到和先前一樣的界限 d（α）≥b（α）/2

根據這個觀點，我們知道「翻轉距離」不能少於四次，因為 d（α）≥3.5，

而 d（α）必須是整數。因此我們「翻轉距離」d（α）=4 是最佳解。

(43)

3 – 2 字串帶分析

考慮一個基因排列α，包括延伸左右兩邊而目標上斷點 L•4•5•3 2 1•

R 我們觀察在兩個相鄰斷點之間的字母，排序它們如果不是逐漸增加，就是逐漸減少。也就是說，有兩個相鄰的字母，它們之間如果沒有斷點，那麼他們必

定是

… … x（x+1）

或

… … x（x-1）

之中的一種。在第一種情形，假說 x+1 沒有斷點，那麼 x+1 的右邊一定是

x+2，因為另外一個相鄰字母，x 已經存在。所以它是一個逐漸增加一個序列。

而且是向右邊延伸，直到碰到下一個斷點。相同的論點也可以同樣類比於第二

種情形。

一個相鄰字母的序列，被兩個斷點包圍，而其區間沒有斷點，這時我們給

這個序列一稱名稱「帶子」（strip），我們會有兩種帶子，一種是逐漸增加的帶

(44)

子（increasing strips），一種就是逐漸減少的帶子（decreasing strips），另外

還有一種情形，就是兩斷點之間只有一個字母，這時候他可以是逐漸增加的帶

子，也可以是逐漸減少的帶子，舉個例子來說明 L 1 2•8 7•3•5 6•4•R 這

時有 5 個帶子，其中有兩個以上逐漸增加帶子，1 2 和 5 6，一個是逐漸減少帶

子（3 和 4）而這些帶子將有助於我們消去斷點。

定理 3：如果字母 k 屬於一個逐漸減少的帶子，而 k-1 屬於一個逐漸增加

的帶子，那麼存在一個翻轉，使將至少可以消去一個斷點。

(a) … … （k-1）. … … k . … …

(b) … … … k . … … (k-1). … …

定理 4：假設字母上 k 屬於一個逐漸減少的帶子，而 k+1 屬於一個逐漸增

加的帶子，那麼存在一個翻轉，至少可以消去一個斷點。

定理 5：假設α是屬於一個逐漸減少帶子的基因排列，假設所有的翻轉均

可以從α消去斷點，而且沒有剩下逐漸減少帶子，那麼存在一個翻轉，可以同

時消去兩個斷點。

(45)

(a) … … （k-1）. … … k . … …

(b) … … … … . l … … … … .(l+1) … …

(46)

3 – 3 演算法

現在準備提出一個演算法來搜尋一個基因排列，希望使用最多兩倍的最少

可能次數。根據定理 2,3,4 得之它是一個逐漸的演算法，而每次翻轉都至少可以

減少一個斷點，並且最少留下一個減少帶子，如果所有可能翻轉的情況都沒有

留下減少帶子，那麼必然存在有一個翻轉，可以一次減少兩個斷點。

Algorithm Sorting Unoriented Permutation

input: permutation α

output: series of reversals that sort α

list ← empty

while ≠ I do

if a has a decreasing strip then

k ← the smallest label in a decreasing strip ρ← the reversal that cuts after k and after k-1

(47)

if αρhas no decreasing strip then

l ← the largest label in a decreasing strip

ρ← the reversal that cuts before l and before l+1

else

ρ← the reversal that cuts the first two breakpoints

α←αρ

list ← list +ρ

return list

(48)

權重基因重排 40

第四章

權重基因重排

4 – 1 最短路徑法

在尋求最佳翻轉方法時，我們可利用圖形的方法來解決，其中我們想到可

利用最短路徑的方法。我們把所有可能的基因排列當作頂點，而把它們用線連

接，可一次翻轉的，我們把它的長度寫下來，如果無法一次翻轉，則長度為∞，

我們用三個字母的例子來看

(49)

123 132 213 231 312 321

123 0 2 ∞ ∞ ∞ 3

132 2 0 ∞ 3 2 ∞

213 ∞ ∞ 0 ∞ 3 ∞

231 ∞ 3 ∞ 0 ∞ 2

312 ∞ 2 3 ∞ 0 ∞

321 3 ∞ ∞ 2 ∞ 0

再利用下面的演算法，就可以從頂點 1 到其他頂點所需要的最短路徑了，

而它所需要的時間為 O（m²），其中 m 是頂點的數目。

procedure SHORTEST-PATH（V, COST, DIST, m）

declare S（1：m）

for I ←1 to m do

s（I ）←0；DIST（I ）←COST（v, I ）

end

S（v）←1；DIST（v）←0；num←2

while num＜m do

(50)

choose v；DIST（v）–min｛DIST（w）｝^s（w）=0

s（v）←1；num←num+1

f o r a l l w w i t h s（w）=0 do

D I S T （w）←min｛DIST（w）,DIST（v）+ COST（v, w）｝

e n d

e n d S H O R T E S T -PATH

但是我們的問題是要找出所有的頂對之間的最短路徑，而其中有一種想

法，就是執行 n 次最短路徑的演算法，所以需時 O（m³）。我們稱為所有路徑法

演算法如下

procedure ALL-COSTS（COST, A, m）

for j←1 t o m d o f o r j←1 t o m d o

A（i, j）←COST（ i , j）

e n d

f o r k←1 t o m d o

(51)

f o r v←1 t o m d o

f o r j←1 t o n d o

A（i,j）←min｛A（i,j）,A（i,k）+A（k,j）｝

e n d

e n d A L L -COSTS

假設基因序列長度為 m，則頂點個數為 n！，所以時間複雜度為 O((n！)³)，

所以我們利用 7 個字母來作分析，並將部分結果列印出來。

(52)

4 – 2 依序翻轉法

由於最短路徑法，所花的時間代價真的太高，我們可以試著找到一些多項

式時間複雜度的方法來代替，雖然它的權重不會是最少，但比最短路徑法可減

少很多時間。第一個就是依序翻轉法。它的原理非常簡單，只要依序找到目標

基因排列的相對位置，再接基因位置依序翻轉，然後將其長度全部相加即可。

(53)

原始基因排列 7541263 翻轉權重

↓

1457263 4

↓

1275463 4

↓

1236457 2

↓

1234657 2

↓

原始基因排列 1234567 2

總權重=4+4+2+2+2=14

這個演算法，它所需要的時間為 O（n²），而最差情況的總權重為 n+（n-1）

+（n-2）+……..+1=

( )

2 +1 n n

，而最好的情況是 O。

(54)

4 – 3 最小權重優先翻轉法

由於最短路徑法，時間複雜度太高，而依序翻轉法所得到的權重也不是很

好，我們嘗試另一種方法：「最小權重優先翻轉法」。原理是利用斷點的特質，

先搜尋相鄰兩斷點間最小的長度優先翻轉，而每次翻轉時，至少消去一個斷點

原始基因排列 L.21.543.76.R 翻轉權重

↓

L12.543.76.R 2

↓

L12.543.67R 2

↓

目標基因排列 L1234567R 3

(55)

總權重=2+2+3=7

如果最短相鄰兩斷點之字母翻轉，無法減少斷點，則找其他次短相鄰兩斷

點間字母翻轉，可減少斷點來作翻轉

原始基因排列 L1.7.23.54.6.R 翻轉權重

↓

L1.7.23456.R 2

↓

L1.7654332.R 5

↓

總權重=2+5+6=13

但是如果相鄰兩斷點之字母翻轉，無法使斷點減少，則必須擴大範圍到相

鄰三個斷點來作翻轉，當然每次翻轉至少要消去一個斷點

原始基因排列 L.7.5.3.1.6.4.2.R 翻轉權重

↓

(56)

L.7.5.3.12.4.6.R 3

↓

L.7.5.321.4.6.R 2

L.7.5.1234.6.R 3

↓

L.7.54321.6.R 4

↓

L.7.123456.R 5

↓

L.7654321.R 6

↓

總權重=3+2+3+4+5+6+7=30

(57)

4 – 4 比較分析

我們現在就把這三種翻轉的方式來作一個比較分析，我們把 1234567 定為

目標序列，再任意取出三十個原始序列來作比較，並用表格與折線圖來分析。

最短路徑依序翻轉最小權重優先翻轉

1 1234567 0 0 0

2 7654321 7 7 7

3 1234756 4 4 4

4 1234657 2 2 2

5 1234765 3 3 3

6 1234675 4 5 5

7 4321756 8 8 9

8 4321765 7 7 7

9 4321657 6 6 6

10 4321675 7 9 7 11 1235476 4 4 4 12 1235467 2 2 2 13 1235764 7 7 7 14 1235647 5 5 5 15 1235746 6 7 7

(58)

16 1235764 9 9 9 17 1245763 8 11 8 18 1245673 9 9 9 19 1246573 11 11 11 20 1246753 10 14 10 21 1246573 11 11 11 22 1247563 10 12 10 23 1247653 8 12 8 24 1254763 9 11 9 25 1254673 7 13 7 26 1256743 8 8 12 27 1256473 10 10 10 28 1257463 9 12 9 29 1257643 10 10 14 30 3215476 7 7 7

標準差 2.8 3.5 3.1

(59)

三種翻轉方式比較圖

0 2 4 6 8 10 12 14 16

1234567 1234657 4321756 4321675 1235764 1235764 1246573 1247563 1254673 1257463 基因序列

翻轉權重

最短路徑依序翻轉最小權重優先翻轉

由上面的表格及圖我們可以很清楚的知道，以最短路徑最佳而最小權重優先翻

轉法次之。

(60)

結論 52

第五章

結論

5 – 1 研究成果

從 1995 年，J. kececiogu 和 D. Sankoff 提出的擴展和接近理論，到 1998 年，

D. Sankoff 和 M. Blanchette 提出多重基因排列與斷點分析，到 1999 年，Qian-ping.

Shietung peng 和 Hal Sudborough 提出基因重排經由翻轉和轉換的 2-接近演算法。都是在探討基因重排的翻轉距離，也就是翻轉次數。但是都沒有提出反翻轉

長度的問題。

我們換個角度來思考，翻轉長度也是很重要的，畢竟，部分翻轉序列愈

短發生的機率也愈高，比較符合自然的現象。於是我們提出兩個啟發式的演算法

來探討，如何找到翻轉的總長度最短，也就是所謂的最小權重，提供大家一個新

(61)

結論 53

的思考方向。

(62)

結論 54

5 – 2 未來研究方向

在本篇論文中，我們所提出的兩個啟發式演算法，依序翻轉法和最少權重

優先翻轉法，都是針對無方向性來做研究。事實上，有方向性的情況更能符合

生物的特徵。這也是我們未來可以朝這個方向來努力的。

(63)

參考文獻 55

參考文獻

[1] V. Bafna and P. A. Pevzner, “Sorting by transpositions”, Proceedings of the 6th

Annual ACM-SIAM Symposium on Discrete Algorithms, pp.614-623, 1995.

[2] V. Bafna and P. A. Pevzner, “Genome rearrangenments and sorting by

reversals”, SIAM Journal of Computing 25, pp.272-289, 1996.

[3] M. Blanchette, T. Kunisawa and D. Sankoff, “Parametric genome

rearrangement”, Gene-Combis (online) and Gene 172, pp.11-17, 1996.

[4] A. Caprara, “Formulations and complexity of multiple sorting by reversals”,

University of Bologna, 1997.

[5] D. J. McGeoch, “Molecular evolution of large DNA viruses of eukaryotes”,

Sem. Virol.3, pp.399-408, 1992.

[6] B. DasGupta, T. Jiang, S. Kannan and Z. Sweedyk, “On the complexity and

approximation of syntenic distance”, pp.99-108, 1997.

[7] T. Dobzhansky, “Genetics of the Evolutionary”, Process. Columbia University

(64)

參考文獻 56

Press, New York, 1970.

[8] J. R. DriscoiL and M. L. Furst, “Computing short generator sequences.

Information and Computation”, pp.117-133, 1987.

[9] S. Even. and O. Goldreich., “The minimum- length generator sequence

problem is NP-hard”, Journal of Algorithm 2, pp.311-313, 1981.

[10] M. Furst, J. Hopcroft and E. Luks, “Polynomial-time algorithms for

permutation groups”, Proceedings of the 21st Symposium a Foundations of

Computer Science, pp.36-41, 1980.

[11] W. H. Gates and C. H. Fapadimitriou, “Bounds For sorting by prefix reversa”,

Discrete Mathematics 27, pp.47-57, 1979.

[12] Q. P. Gu, K. Iwata, S. Peng and Q. M. Chen, “A heuristic algorithm for

genome rearrangements”, pp.268-269, 1997.

[13] D. Gusfield, “Algorithms on Strings, Trees and Sequences”, Computer Science

and Computational Biology, Cambridge University Press, 1997.

[14] S. Hannenhalli, “Polynomial algorithm for computing translocation distance

between genomes”, pp.162-176. In Combinatorial Pattern Matching, 6th

Annual Symposium. Lecture Notes in Computer Science, Springer Verlag,

New.York, 1995.

(65)

參考文獻 57

[15] S. Hannenhalli and P. A. Pevzner, Transforming cabbage into turnip,

(polynomial algorithm for sorting signed permutations by reversals), In

Proceedings of the 27th Annual ACM-SIAM Symposium on the Theory of

Computing, pp.178-189, 1995.

[16] S. Hannenhalli, C. Chappey, E. V. Koonin and P. A. Pevzner, “Genome

sequence comparison and scenarios for gene rearrangements”, Genomics 30,

pp.299-311, 1995.

[17] S. Hannenlialli and P. A. Pevzner, “Transforming men into mice” (polynomial

algorithm for genomic distance problem), In Proceedings of the IEEE 36th

Annual Symposium on Foundations of Computer Science, pp.581-592, 1995.

[18] J. D. Palmer and L. A. Herbon, “Plant mitochondrial DNA evolves rapidly in

structure, but slowly in sequence”, J. Mol, Evol.27, pp.87-97, 1998.

[19] M. R. Jerrum, “The complexity of finding minimum- length generator

sequences”. Theoretical Computer Science.36, pp.265-289, 1985.

[20] D. B. Johnson, “Finding all the elementary circuits of a directed graph”. SIAM

Journal on Computing, 4(1), pp.77-84, 1975.

[21] H. Kaplan, R. Shamir and R. E. Tarjan, “Faster and simpler algorithm for

sorting signed permutations by reversals”. In Proceedings of the 8th Annua l

(66)

參考文獻 58

ACM-SIAM Symposium on Discrete Algorithms, 1997.

[22] J. Kececioglu and R. Ravi, “Of mice and men. Evolutionary distances between

genomes under translocation”, 1995.

[23] J. Kececioglu and R. Ravi, “Of mice and men. Evolutionary distances between

genomes under translocation”, In Proceedings of the 6th Annual ACM-SIAM

Symposium on Discrete Algorithms, pp.604-613, 1995.

[24] J. Kececioglu and D. Sankoff, “Exact and approximation algorithms for

sorting by reversals, with application to genome rearrangement”, Algorithmica

13, pp.180-210, 1995.

[25] J. Kececioglu and D. Sankoff, “Efficient bounds for oriented

chromosome-inversion distance”. Proceedings of the 5th Symposium on

Combinatorial Pattern Matching, Lecture Notes in Computer Science, vol. 807,

Springer-Verlag. Berlin, June, pp.307-325, 1994.

[26] D. E. Knuth, “The ART of Computer Programming”, Vol.3-Addison-Wesley,

Reading, MA, 1973.

[27] H. Mannila, “Measures of presortedness and optimal sorting algorithms”,

IEEE Transactions on Computers, 34, pp.318-325, 1985.

[28] J. H. Nadeau and B. A. Taylor, “Lengths of chromosomal segments conserved

(67)

參考文獻 59

since divergence of man and mouse”. Proceedings of the National Academy of

Sciences of the USA, 81, pp.814, 1984.

[29] J. D. Palmer, B. Osorio and W. F. Thompson, “Evolutionary significance of

inversions in legume chioroplast DNAs”. Current Genetics, 14, pp.65-74,

1988.

[30] M. Schoniger and M. S. Waterman, “A local algorithm for DNA sequence

alignment with inversions”. Butielin of Mathematical Biology, 54, pp.521-536,

1992.

[31] W. F. Tichy, “The string-to-string correction problem with block moves”.

ACM Transactions on Computer Systems. 2(4), pp.309-321, 1984.

[32] V. Bafna and P. Pevzner, “Genome rearrangements and sorting by reversals”,

SIAM J. Comput. 25 (2), pp.272-289, 1996.

[33] V. Bafna and P. Pevzner, “Sorting by reversals: genome rearrangements in

plant organelles and evolutionary history of x chromosome”, Mol. Biol. Evol.

12, pp.239-246, 1995.

[34] G.. A. Watterson, W. J. Ewens, T. E. Hall and A. Morgan, “The chromosome

inversion problem”. Journal of Theoretical Biology.99, pp.1-7, 1982.

題目： 權重基因重排問題之分析

中 華 大 學

碩 士 論 文