Divide-and-Conquer v.s. Dynamic Programming

(1)

國立聯合大學

國立聯合大學資訊管理學系資訊管理學系陳士杰老師陳士杰老師

Course 6

動態規劃

Dynamic Programming

(2)

本章重點

Divide-and-Conquer v.s. Dynamic Programming

Dynamic Programming v.s. Greedy Approach

Floyd's Algorithm for Shortest Paths

Chained Matrix Multiplication

Dynamic Programming and Optimization Problems

(3)

由前一單元得知，Divided-and-Conquer即為遞迴解法。

以費氏數 (Fibonacci Number) 說明:

⎪ ⎩

⎪ ⎨

⎧

≥ +

=

−

, 2

1 ,

1 0 ,

0

2

1

F if n

F

n if

F

n n

n

終止條件終止條件

遞迴關係遞迴關係

(4)

inputs

inputs: num identified the ordinal of the Fibonacci number

outputs

outputs: returns the nth Fibonacci number

void Fib(int n)

{

if (n is 0

OR n is 1)

return n;

else

return (Fib(n-1) + Fib(n-2));

}

(5)

Based on recursive function, 求取Fib (8)的過程如下:

Top-Down求算方式

子問題重覆 (Overlapping Subproblem)

>是Divided-and-Conquer主要的問題所在

(6)

以人的方式求算:

求算F₈和F₇時，F₆會被用到2次，但我們用表格表格記錄已算過的部份!!

Bottom-Up求算方式

動態規劃動態規劃 (Dynamic Programming)

(Dynamic Programming)

是一種表格式的演算法設計原則。

其精神是將一個較大的問題定義為較小的子問題組合，先處理較小的問題，

並將其用表格儲存起來，再進一步地以較小問題的解逐步建構出較大問題的將其用表格儲存起來解。

ProgrammingProgramming: 用表格存起來，有 “以空間換取時間以空間換取時間”之涵意

{ 屬於作業研究 (OR)的技巧

n 0 1 2 3 4 5 6 7 8

F

_n

0 1 1 2 3 5 8 13 21

(7)

Divide-and-Conquer 和 Dynamic Programming都是將問題切割再採用遞迴方式處理子問題，但是:

Divide-and-Conquer可能會對相同子問題進行重覆計算重覆計算

Dynamic Programming會使用表格表格將子問題的計算結果加以儲存，在後面階段如果需要這個計算結果，再直接由表格中取出使用，因此可以避免許多重覆的計算，以提高效率。

Divide-and-Conquer v.s. Dynamic Programming

Divide-and-Conquer Dynamic Programming

額外記憶體空間不需額外記憶體空間需要額外記憶體空間

解題方式 Top-Down Bottom-Up

適用時機適用non-overlap子問題適用overlap子問題

(8)

對於具有限制的最佳化問題具有限制的最佳化問題，可以採用 “貪婪法則” 或 “動態規劃” 來設計演算法則。

Greedy Approach:

{ 是一種階段性階段性 (Stage)(Stage)的方法

{ 具有一選擇程序選擇程序 (Selection Procedure)(Selection Procedure)，自某起始點(值) 開始，在每一個階段逐一檢查每一個輸入是否適合加入答案中，重複經過多個階段後，即可順利獲得最佳解

{

{ 較為簡單較為簡單 (∴若遇最佳化問題，先思考可否用Greedy Approach解，若不行再考慮用Dynamic Programming)

{ 如果所要處理的最佳化問題無法找到一個選擇程序來逐一檢查，則需要以一次考慮所有的可能情況的方式來處理，就是屬於Dynamic Programming

Dynamic Programming

{ 先把所有的情況都看過一遍，才去挑出最佳的結果

{ 考慮問題所有可能的情況，將最佳化問題的目標函數表示成一個遞迴關係式，

結合Table的使用以找出最佳解

(9)

Ex 1. 有一Graph如下，每一個邊都有一權重值，試找出 “具最小權重值總合且不包含Cycle” 的 Graph。

Sol: (選擇程序) 從最小的邊

最小的邊開始逐一選擇，挑選出來的邊

不能構成Cycle，直到所有的邊都被選完為止。

A B

C 2 D

1

4 3

2

A B

C

D 3 1

2

A B

C 2 D 3 1

或

(10)

Ex 2. 一有向加權圖Graph如下，該圖可分成2個部份，請找出由第一個部份的出發頂點到最後部份的目的地頂點的最短距離路。

Sol: 找不到一個選擇程序，可自某起始點(值) 開始逐一檢查每一個輸入是否適合加入答案中。

A

B

C

D 2

4

3 2

A

B

C

D 2

4

3 2

(11)

使用Dynamic Programming解決問題的過程如下：

先找出問題的

遞迴式遞迴式

(遞迴關係式; Recurrence Relations)

接著，透過Forward Approach或是Backward Approach，

利用

迴圈與迴圈表格來處理遞迴式，進而解決問題。表格

{ 假設有n個數值 (X₁, X₂, …, X_i-2, X_i-1, X_i, X_i+1, X_i+2, …, X_n-1, X_n)

{{ Forward Approach

Forward Approach

(前向法；順向法)

如果要計算出X_i的值，需要透過前方(X_i+1, …, X_n-1, X_n)等數值資料

由X_n向後求解問題的解答(Solved Backward)

{{ Backward Approach

Backward Approach

(後向法；逆向法)

如果要計算出X_i的值，需要透過後方(X₁, X₂, …, X_i-1)等數值資料

由X₁向前求解問題的解答(Solved Forwards)

(12)

最短路徑最短路徑

(Shortest Path) (Shortest Path)

問題問題

求單一頂點到其它頂點之最短路徑求單一頂點到其它頂點之最短路徑 (Single pair shortest path

Single pair shortest path)

{ 使用DijkstraDijkstra’s’s AlgorithmAlgorithm

採用 “貪婪演算法” 之解題策略

找出某一頂點到其它頂點之最短路徑之時間複雜度為O(n²)

求所有頂點之間的最短路徑求所有頂點之間的最短路徑 (All pair shortest path

All pair shortest path)

{ 使用nn次次Dijkstra’Dijkstra’ss AlgorithmAlgorithm

每一次帶不同的起始點

需要的時間複雜度 O(n³)

{ 使用Floyd’Floyd’s Algorithms Algorithm

採用 “動態規劃” 之解題策略

(13)

最短路徑問題其實是

最佳化問題最佳化問題

(Optimization (Optimization problem)

problem) 。

一個最佳化問題可能會有一個以上的候選解候選解

(Candidate (Candidate Solution)

Solution)

。

每一個候選解都具有一個值值

(Value) (Value)

，而該問題的解就是具有最佳值的那個解。

隨著問題的不同，最佳解可能是要求最小值，也可能是最大值。

因此，在Shortest Paths problem中：

一個

Candidate solution Candidate solution

就是從某個頂點到另一個頂點的路徑

候選解的

value value

^{則是該條路徑的長度}

Optimal value Optimal value

則是這些長度當中最小的值

(14)

All-

All

-pair Shortest Pathpair Shortest Path問題問題

給定一個有向加權圖形 (Directed Weighted Graph)，G=(V, E)，找出任意任意兩個頂點兩個頂點 (v1, v2 ∈ V) 之間的最短路徑

在Figure 3.2中，

v

₁ 到

v

₃存在三條簡單路徑：[[

v v

₁₁, ,

v v

₂₂, ,

v v

₃₃]，] [[

v v

₁₁, ,

v v

₄₄, ,

v v

₃₃]] 與 [[

v v

₁₁, ,

v v

₂₂, ,

v v

₄₄, ,

v v

₃₃]] 。由於：

因此，[

v

₁,

v

₄,

v

₃] 是

v

₁ 到

v

₃的最短路徑。

簡單路徑(Simple path)：該路徑中，同一頂點不會出現兩次。

(15)

佛洛依德最短路徑演算法 (Floyd‘s Algorithm for Shortest Paths) :

Floyd-Warshall Algorithm

假設G=(V, E)，|V| = n

D D

^k^k矩陣: 為一 n×n的矩矩陣陣，其中D^k[i, j]表示自 v_i 至 v_j (v_i → v_j )的最短路徑長，且途中經過的頂點編號均 ≤≤ kk (其中k≥0)

v₁ v₂

v₃ 6 11 4

3 2

D¹[2, 1] = 6 2 → 1 (合法)

2 → 1 → 2 → 1 (不合法) 2 → 3 → 1 (不合法)

D²[2, 1] = 6 2 → 1 (合法)

2 → 1 → 2 → 1 (合法) 2 → 3 → 1 (不合法) D³[2, 1] = 5

2 → 1 (合法)

2 → 1 → 2 → 1 (合法) 2 → 3 → 1 (合法)

範例:

∵節點個數為 3

∴ D³[i, j]可得到總體最短路徑總體

(16)

當k = 0時，矩陣D

⁰[i, j]表示為Adjacency Matrix (

Adjacency Matrix (相鄰矩

相鄰矩陣陣

; W)。 ; W)

自 v_i 至 v_j 途中不會經過其它頂點

Floyd‘s Algorithm求解過程:

找出相鄰矩陣 W

逐步求出D¹, D², …, Dⁿ矩陣

Dⁿ矩陣即為結果

v₁ v₂

v₃ 6 11 4

3 2

⎥ ⎥

⎥

⎦

⎤

⎢ ⎢

⎢

⎣

⎡

∞

=

0 3

2 0

6 11 4

0

3 2 1

3 2

1

v v v

v v

v W

D

⁰

(17)

求解右圖的All-pair Shortest Path Sol:

找出相鄰矩陣 W

逐步求出D¹, D², D³矩陣

{ Step 1: 由 W 矩陣求出 D¹ 矩陣

⎥ ⎥

⎥

⎦

⎤

⎢ ⎢

⎢

⎣

⎡

∞

=

0 3

2 0

6 11 4

0

3 2 1

3 2

1

v v v

v v

v W

D

⁰

v₁ v₂

v₃ 6 11 4

3 2

⎥ ⎥

⎥

⎦

⎤

⎢ ⎢

⎢

⎣

⎡

=

D

¹

3 2 1

3 2

1

v v v

v v

v

⎥ ⎥

⎥

⎦

⎤

⎢ ⎢

⎢

⎣

⎡

∞

=

0 3

2 0

6 11 4

0

3 2 1

3 2

1

v v v

v v

v W

0

0 4 11 6

3

⎩ ⎨

⎧

=

→

=

→

17 3

1 2

2 3

2

⎩⎨

⎧

=

→

∞

=

→

7 2 1

3

2

3 2

7

(18)

{ Step 2: 由 D¹矩陣求出 D² 矩陣

{ Step 3: 由 D²矩陣求出 D³矩陣

⎥ ⎥

⎥

⎦

⎤

⎢ ⎢

⎢

⎣

⎡

=

0 7 3

2 0 6

11 4

0

3 2 1

3 2

1

v v v

v v

v D

1

⎥ ⎥

⎥

⎦

⎤

⎢ ⎢

⎢

⎣

⎡

=

D

³

3 2 1

3 2

1

v v v

v v

v

⎥ ⎥

⎥

⎦

⎤

⎢ ⎢

⎢

⎣

⎡

=

0 7 3

2 0 6

6 4 0

3 2 1 2

3 2

1

v v v

v v

v D

0

0 3 7 0

6

2

⎩ ⎨ ⎧

∞

=

→

=

→

2 3

1 4 2

1

⎩⎨

⎧

=

→

=

→

5 1 3

2

6 1

2 4

5

⎥ ⎥

⎥

⎦

⎤

⎢ ⎢

⎢

⎣

⎡

=

D

²

3 2 1

3 2

1

v v v

v v

v

0

6 2

4

7

⎩ ⎨

⎧

=

→

=

→

6 3 2

1 11 3

1

⎩⎨

⎧

∞

=

→

=

→

1 2

3

3 1

3 6

3

(19)

//k為 D^k的k值

Time Complexity: O(n

³³

) )

(20)

Floyd‘s Algorithm觀念圖解:

求矩陣D^k[i, j]，是由矩陣D^k-1[i, j]而來

遞迴式：

v_i v_j

v_k D^k-1[i, j]

D^k-1[i, k] D^k-1[k, j]

⎩ ⎨

⎧

>

+

=

₋ ₋ ₋

=

0 k

if

0 k

if

]), ,

[ ]

, [ ],

, [ min(

], , ] [

,

[

₁ ₁ ₁

j k D

k i D

j i D

j i j W

i

D

^k _k _k _k

(21)

Floyd‘s Algorithm的假設條件:

圖形中不得有

負長度的Cycle存在負長度

例 1: 1 →2的最短路徑為 -∞

例 2: 1 →2的最短路徑為 3

1 2 3

2 4

-4

1 2 3

3 4

-1

(22)

假設我們要將一個 2 × 3 的矩陣乘上一個 3 × 4 的矩陣：

所產生的結果為一個 2 × 4的矩陣

結果矩陣中的每一個元素都必須經過3次乘法的運算

因為結果矩陣中有 2 × 4 = 8個元素，因此總共需要的乘法次數為：

一般來說，一個 i × j matrix 乘上一個 j × k matrix ，總共需

要的乘法次數為：

(23)

Note: n個matrix相乘有種可能的配對組合 (括號方式)

Ex: 以下有四個矩陣相乘:

由Note得知共有五種不同的相乘順序，不同的順序需要不同的乘法次數：

其中，以第三組是最佳的矩陣相乘順序。

n n

C_n n ⎟⎟

⎠

⎜⎜ ⎞

⎝

⎛

−

= −

− 1

) 1 (

2

1

(24)

Chained Matrix Multiplication:

Def: 給一Matrix Chain: A₁, A₂, …, A_n，求此Chain所需之乘法次數為最最少之括號方式少 (即: 最佳的矩陣乘法組合方式)。

若A

_i

, A

_i+1

, …, A

_j

在某組合方式所需的乘法次數為最小 (最

佳)，則必存在一個k，使得A

_i

, A

_i+1

, …, A

_k

和A

_k+1

, A

_k+2

, …, A

_j

皆為最佳。

((A

_i

A

_i+1

… A

_k

)(A

_k+1

A

_k+2

…, A

_j

))

最佳組合

最佳子組合最佳子組合

(25)

Matrix Chain的遞迴式

此遞迴式涵蓋以下兩個規則：

M[i][j] = 矩陣Ai乘到Aj所需的最少乘法數 (其中 i < j)

M[i][i] = 0

⎪⎩

⎪ ⎨

⎧

<

+ +

+

= =

− −

≤

min {M[i, k] M[k 1, j] d d d } if i j j i if

j] 0 M[i,

j k 1 1 i

j k i

(26)

Chained Matrix Multiplication 問題的演算法需有兩個表格和一個主要變數:

M[i, j]

{ 記錄多個矩陣相乘 (e.g., A_i × … × A_j)時，所需的 “最少” 乘法次數

P[i, j]

{ 記錄多個矩陣相乘 (e.g., A_i × … × A_j) 所需最少乘法次數之 “最佳乘法順序” 是由哪一個矩陣開始分割

diagonal

{ 主要指出在Matrix Chain中，每一次有多少個矩陣要相乘

diagonal = 1 > 只有1個矩陣，∴不會執行乘法動作

diagonal = 2 > 每一次有2個矩陣要相乘

…

(27)

(28)

六個矩陣相乘的最佳乘法順序可以分解成以下的其中一種型式：

第k個分解型式所需的乘法總數，為前後兩部份 (一為A

₁

,

A

₂

, …, A

_k

和A

_k+1

, …, A

₆

) 各自所需乘法數目的最小值相加，再

加上相乘這前後兩部份矩陣所需的乘法數目。

(29)

Matrix Chain的遞迴式

Example: A

¹_3×3

, A

²_3×7

, A

³_7×2

, A

⁴_2×9

, A

⁵_9×4

, 求此五矩陣的最小乘法次數。

Sol:

建立兩陣列 M[1…5, 1…5]及P[1…4, 2…5]

⎪⎩

⎪ ⎨

⎧

<

+ +

+

= =

− −

≤

min {M[i, k] M[k 1, j] d d d } if i j j i if

j] 0 M[i,

j k 1 1 i

j k i

M 1 2 3 4 5 1

2 3 4 5

P 2 3 4 5 1

2 3 4

(30)

Case 1 (When diagonal = 1)

diagonal = 1，∵只有1個矩陣，∴不會執行乘法動作

陣列M的中間對角線為0，陣列P則不填任何數值

Case 2 (When diagonal > 1)

diagonal = 2，有2個矩陣相乘

當 i = 1及 j = 2，為A¹及A²矩陣相乘，此時:

M[1, 2] = M[1,1]+M[2,2]+3×3×7 = 63，

其中 A¹及A²的分割點 k 如下:

A¹×A²

M 1 2 3 4 5

1 0

2 0

3 0

4 0

5 0

P 2 3 4 5 1

2 3 4

diagonal = 1

M 1 2 3 4 5

1 0 63

2 0 42

3 0 126

4 0 72

5 0

P 2 3 4 5 1 1

2 2

3 3

4 4

diagonal = 2 分割點k = 1

(31)

Case 2 (When diagonal > 1)

diagonal = 3，有3個矩陣相乘

當 i = 2及 j = i+diagnal-1 = 2+3-1=4，為A²至A⁴間的所有矩陣相乘，此時:

M 1 2 3 4 5

1 0 63 60

2 0 42 96

3 0 126 128

4 0 72

5 0

P 2 3 4 5 1 1 1

2 2 3

3 3 3

4 4

⎩ ⎨

⎧

=

×

× + +

=

×

× +

= +

3 k

96, 9

2 3 M[4,4]

M[2,3]

2 k

315, 9

7 3 M[3,4]

M[2,2]

min M[2,4]

分割點分割點

diagonal = 3

(32)

Case 2 (When diagonal > 1)

diagonal = 4，有4個矩陣

當 i = 1及 j = 4，為A¹至A⁴間的所有矩陣相乘，此時:

M 1 2 3 4 5

1 0 63 60 114

2 0 42 96 138

3 0 126 128

4 0 72

5 0

P 2 3 4 5 1 1 1 3

2 2 3 3

3 3 3

4 4

⎪ ⎩

⎪ ⎨

⎧

=

×

× + +

=

×

× + +

=

×

× + +

=

3 k

114, 9

2 3 M[4,4]

M[1,3]

2 k

378, 9

7 3 M[3,4]

M[1,2]

1 k

177, 9

3 3 M[2,4]

M[1,1]

min M[1,4]

分割點分割點分割點

diagonal = 4

(33)

Case 2 (When diagonal > 1)

diagonal = 5，有5個矩陣

當 i = 1及 j = 5，為A¹至A⁵間所有矩陣相乘，此時:

M 1 2 3 4 5

1 0 63 60 114 156 2 0 42 96 138

3 0 126 128

4 0 72

5 0

P 2 3 4 5 1 1 1 3 3

2 2 3 3

3 3 3

4 4

⎪ ⎪

⎩

⎪ ⎪

⎨

⎧

=

×

× + +

=

×

× + +

=

×

× + +

=

×

× + +

=

4 分割點 k

222, 4

9 3 M[5,5]

M[1,4]

3 分割點 k

156, 4

2 3 M[4,5]

M[1,3]

2 分割點 k

275, 4

7 3 M[3,5]

M[1,2]

1 分割點 k

174, 4

3 3 M[2,5]

M[1,1]

min M[1,5]

diagonal = 5

(34)

[Note]此演算法的概念如下:

A

¹

, A

²

, A

³

, A

⁴

, A

⁵

A

¹

A

²

, A

²

A

³

, A

³

A

⁴

, A

⁴

A

⁵

A

¹

A

²

A

³

, A

²

A

³

A

⁴

, A

³

A

⁴

A

⁵

A

¹

A

²

A

³

A

⁴

, A

²

A

³

A

⁴

A

⁵

A

¹

A

²

A

³

A

⁴

A

⁵

diagonal = 1

diagonal = 2

diagonal = 3

diagonal = 4

diagonal = 5

(35)

Case 1 (When diagonal > 1)

Case 2

(When diagonal > 1)

(36)

(37)

Dynamic Programming 和 Greedy Approach看似可以處理所有的最佳化問題，然而它們所能處理的最佳化問題需滿足下列原則

最佳化原則(Principle of Optimality): 當一個問題存在著最佳解，則表示其所有子問題也必存在著最佳解

{ 以最短路徑問題來看，如果v_k 是 v_i 到 v_j間最短路徑上的一個頂點，則 v_i 到 v_k 以及從 v_k 到 v_j 這兩個子路徑也必定是最短路徑.

(38)

每一個輸入的計算都必須是根據先前輸入的最佳結果再進一步計算，

如此才能夠得到最佳解，同時可以將無法獲得最佳解的情況去除，以避免需要將每一種可能情況都加以考慮。

對於n個輸入的最佳化問題 (X1, X2, …, Xn):

{ 有些被歸類為 “部份集合” (Subset) 問題，會有2ⁿ種可能的情況

{ 有些被歸類為 “排列組合” (Permutation) 問題，會有n!種可能的情況

因此皆屬指數複雜度的問題，若可採用最佳化原則通常可以將這一些問題的複雜度由指數複雜度降為多項式複雜度。

然而，並不是所有求最佳化的問題都合乎最佳化原則，此

時就只能用其它的方法求解了。

(39)

(40)

補補充充

(41)

假設有一條字串(String) S:

S = “a t g a t g c a a t”

Substrings of S: “g a t g c”, “t g c a a t”.

Subsequences of S: “a g g t”, “a a a a”.

String

a segment of consecutive characters.

usually called sequence in Biology.

Sequence

need not be consecutive.

In Biology,

String String = Sequence = Sequence

.

(42)

Common subsequences

of two string X = < B, C, B, A, C > and Y

= < B, D, A, B, C > :

BC, BA, BB, BAC, BBC, ...

The longest common subsequence (LCS)

longest common subsequence (LCS)

of X and Y = BAC or BBC

[Note]

LCS可能不唯一

若用暴力法來解，必須先產生字串X的所有子序列，再逐一檢查這些子序列是否存在於字串Y中。如果字串X的長度為m，則X會產生

2 2

^m^m個子序列。因此，採用暴力法來解共同子序列問題的時間複雜個子序列度會是指數等級，不適用於長的序列。指數等級

(43)

求LCS 問題：

給定兩個Sequence X=<x₁, x₂, …, x_m>和Y=<y₁, y₂, …, y_n>，求X和Y所構成的最長共同子序列LCS(X, Y) = Z = < z₁, z₂, …, z_k > 為何。

LCS

LCS 問題的遞迴式

問題的遞迴式

令c[i, j]表示為兩個序列 X = <x₁, x₂, …, x_i> 和 Y = <y₁, y₂, …, y_j> 所構成之最長共同子序列的長度，則：

⎪ ⎩

⎪ ⎨

⎧

≠

>

=

>

+

=

j i

y x

0 j

i, if j]) 1, - c[i 1], - j Max(c[i,

y x

0 j

i, if

1 1]

- j 1, - c[i

0 j

or 0 i

if

0 j]

c[i,

且

(44)

LCS

LCS 問題的遞迴式設計概念：

問題的遞迴式設計概念：

若 i 或 j 為 0，表示 X 或 Y 這兩條序列的其中一條為空序列。

若

x x

_i_i

= = y y

_j_j，則 c[i, j]所表示的序列長度，是由<x₁, x₂, …, x_i-1>和<y₁, y₂, …, y_j-1>兩序列所構成之最長共同子序列的長度(即: c[i-1, j-1])再加上 1。

若

x x

_i_i ≠≠

y y

_j_j，則 c[i, j]的序列長度，是由下列兩個不同的最長共同子序列長度當中之最大值所構成：

{ <x₁, x₂, …, x_i-1> 和 <y₁, y₂, …, y_j> 兩序列所構成之最長共同子序列的長度 c[i-1, j]

{ <x₁, x₂, …, x_i> 和 <y₁, y₂, …, y_j-1> 兩序列所構成之最長共同子序列的長度 c[i, j-1]

(45)

Ex. 1 (當 x x

_i_i

= = y y

_j_j

):

X = <A, B, C, D> Y = <A, C, D>

共同子序列：<A>, <C>, <D>, <A, C>, <A, D>, <C, D>, <A, C, D>

最長共同子序列 Z = <A, C, D>

{ 長度為3，此序列長度是由<A, B, C>和<A, C>所構成之最長共同子序列的長度再加上1

Ex. 2 (當 x x

_i_i ≠≠

y y

_j_j

):

X = <A, B, C, D> Y = <D, B, C>

共同子序列：<D>, <B>, <C>, <B, C>

最長共同子序列 Z = <B, C>

{ 長度為2，序列長度是由下列兩個不同的最長共同子序列長度當中之最大值所構成：

<A, B, C> 和 <D, B, C> 兩序列所構成之最長共同子序列的長度: 2

<A, B, C, D> 和 <D, B> 兩序列所構成之最長共同子序列的長度: 1

(46)

0 1 2 … j … 0

1 2

i

… …

^{c[i, j]}

c[i-1, j-1] c[i-1, j]

c[i, j-1]

Time Complexity: O(mn)

Space Complexity: O(mn)

(47)

Give two sequences X = <A, B, D, B, C> and Y = <B, A, D, C>.

Find the longest common subsequence of X and Y.

Ans:

最長共同子序列的長度 = 3

最長共同子序列：

{ <A, D, C>

{ <B, D, C>

Y0 Y1 Y2 Y3 Y4 B A D C

X0 0 0 0 0 0

X1 A 0 0 1 1 1

X2 B 0 1 1 1 1

X3 D 0 1 1 2 2

X4 B 0 1 1 2 2

X5 C 0 1 1 2 3

(48)

Compare two or more sequences

Some reasons to perform the sequence alignment operations

Measure the similarity of some sequences.

A DNA sequence X and a database containing a set of DNA sequences.

Data compression.

(49)

We have two DNA sequences S

₁

and S

₂

:

A scoring rule to measure the goodness of an alignment:

ai=bj, Score=2

ai or bj align with a blank, Score=-1

ai≠bj, Score=-1

Better

A A C T G ---

G --- ---

A --- C T G G --- --- G

S

₁

S

₂

A A C T G

G

A C T G

G G

S

₁

S

₂

+2

-1

2 +2 +2 +2

Score=9

+2

-1 -1 -1 -1

2

-1 -1

+2

Score=0

(50)

(51)

A

A C G T

--- G

--- A

C T G ---

G

--- G

S

₁

S

₂

Sequence A: GAACTG Sequence B: GAGCTG

An alignment of A and B:

Match

Deletion gap Mismatch

Insertion gap

(52)

Find an alignment which has the highest score.

0 -1 -2 -3 -4 -5 -6

-1 -2 -3 -4

-1 -2 -3 -4 -5 -6

1 0 -1 -2 -2 -3

0 0 -1 1 0 -1

-1 2 2 1 0 -1

T T C A G A

S

₁

S

₂

G A C T

A T T C A G

0 1 2 3 4 5 6

i

a

_i

G A C T 0

1 2 3 4 j

b

_j A(i,j)=the score of optimal

alignment A(0,0)=0 A(i,0)= -i A(0,j)= -j

If a_i=b_j,then

A(i,j)= A(i-1,j-1) +2 Else

A(i,j)=Max(A(i-1,j) –1, A(i,j-1) –1, A(i-1,j-1) –1 )

(53)

0 -1 -2 -3 -4 -5 -6

-1 -1 -2 -3 -4 -5 -6

-2 1 0 -1 -2 -2 -3

-3 0 0 -1 1 0 -1

-4 -1 2 2 1 0 -1

A T T C A G

0 1 2 3 4 5 6

G A C T 0

1 2 3 4

i j

Tracing back the table T T C A G

A

A C T G

-

- - - T T C A G A

A C T

G -

- - -

T T C A G A

A C T

G -

- - -

T T C A G A

S

₁

S

₂

G A C T

0 2 1 0 -1 0

-1

1 0

-1

1 0 -1

1 0 0

-1

1 0 -1

1 0

(54)

核酸是以核苷酸

核苷酸

(Nucleotide ) (Nucleotide ) 為單元體所聚成的巨分子，乃細胞內分子量最鉅大的功能性分子，包括：

去氧核糖核酸 (Deoxyribonucleic acid，DNA)

核糖核酸 (Ribonucleic acid，RNA)

核酸主要功能為

遺傳訊息的遺傳訊息的貯存貯存、、傳遞傳遞與與表現，是現代表現

分子生物學的主角。

由於DNA與RNA是由許多個核苷酸連接而成；因此，我

們可以得知核酸是聚合物

聚合物，單體是核苷酸。

(55)

核苷酸的概要結構：

磷酸根磷酸根 (phosphate group )

戊糖戊糖 (pentose sugar；又稱五碳糖) -可以是去氧核糖

(deoxyribose )

或者是核糖

(ribose)

，造成 DNA 與 RNA 的差別。

鹼基鹼基 (base；又稱含氮鹼基(nitrogenous base ))

DNA是由A、T、G、C四個不同的鹼基組成。

RNA是由A、U、G、C四個不同的鹼基組成。

(56)

(骨架)

5’ 3’

(57)

給一數字序列 X = <x

₁

, …, x

_m

>，找出X之最長遞增子序列。

Ex: X = <5, 1, 4, 2, 3>，則 LIS(X) = <1, 2, 3>

Algorithm:

c Y ← Sort(X); ^{//Y具有遞增性}

d Z ← LCS(X, Y); //找出X與Y之間的最長共同子序列，且具有遞增性。

e Return Z

(58)

X = <5, 1, 4, 2, 3>，找出 LIS(X)。

<Ans>:

c Y ← Sort(X)。∴Y = <1, 2, 3, 4, 5>

d Z ← LCS(X, Y);

Z = <1, 2, 3>，LIS長度為3 e Return Z

Y0 Y1 Y2 Y3 Y4 Y5 1 2 3 4 5

X0 0 0 0 0 0 0

X1 5 0 0 0 0 0 1 X2 1 0 1 1 1 1 1 X3 4 0 1 1 1 2 2 X4 2 0 1 2 2 2 2 X5 3 0 1 2 3 3 3

Divide-and-Conquer v.s. Dynamic Programming

Course 6