III Dynamic Programming

(1)

III

Michael Tsai 2013/10/11

(2)

 最笨翻譯機:

每個英文單字直接翻成法文單字

 做法: 建一棵balanced binary search tree (例如紅黑樹), 裡面用英文單字當 key, 法文單字當作對應的資料

 則每個字平均花𝑂 log 𝑛 的時間

 假設我們知道每個字出現的頻率(或機率), 可以做得更好嗎?

 答: 可以! 把常用的字放離root近一點.

the

machicolation

(3)

Tree

 問題:

 給一個序列𝐾 = 𝑘₁, 𝑘₂, … , 𝑘_𝑛 共n個排好序的key (𝑘₁ <

𝑘₂ < ⋯ < 𝑘_𝑛 ). 我們要用這些key建立一棵binary search tree.

 𝑘_𝑖出現的機率為𝑝_𝑖.

 另外我們也有n+1個”假key”代表沒有出現在K中的值, 可用 𝑑₀, 𝑑₁, 𝑑₂, … , 𝑑_𝑛來表示. 𝑑₀代表小於𝑘₁的值, 𝑑₁代表介於𝑘₁ 和𝑘₂的值,…,𝑑_𝑛代表大於𝑘_𝑛的值.

 假key 𝑑_𝑖出現的機率為𝑞_𝑖.

 則目標是找出一棵binary search tree使得Expected cost最小.

𝑘₁ 𝑘₂ …… 𝑘_𝑛 𝑑₀ 𝑑₁ 𝑑₂ ……𝑑_𝑛−1 𝑑_𝑛

(4)

 𝐸 𝑠𝑒𝑎𝑟𝑐ℎ 𝑐𝑜𝑠𝑡 = _𝑖=1^𝑛 (𝑑𝑒𝑝𝑡ℎ_𝑇 𝑘_𝑖 + 1) ∙ 𝑝_𝑖+ _𝑖=0^𝑛 (𝑑𝑒𝑝𝑡ℎ_𝑇 𝑑_𝑖 + 1) ∙ 𝑞_𝑖

= 1 + _𝑖=1^𝑛 𝑑𝑒𝑝𝑡ℎ_𝑇 𝑘_𝑖 ∙ 𝑝_𝑖+ _𝑖=0^𝑛 𝑑𝑒𝑝𝑡ℎ_𝑇 𝑑_𝑖 ∙ 𝑞_𝑖

 since _𝑖=1^𝑛 𝑝_𝑖 + _𝑖=0^𝑛 𝑞_𝑖 = 1

 使得以上E[search cost]最小的binary search tree稱為 optimal binary search tree.

𝑘₁ 𝑘₅ 𝑘₄ 𝑘₃ 𝑑₀ 𝑑₁

𝑑₂ 𝑑₃ 𝑑₄

𝑑₅

(5)

i 0 1 2 3 4 5 𝒑_𝒊 0.15 0.10 0.05 0.10 0.20 𝒒_𝒊 0.05 0.10 0.05 0.05 0.05 0.10 𝑘₁ 𝑘₅

𝑘₄ 𝑘₃ 𝑑₀ 𝑑₁

𝑑₂ 𝑑₃ 𝑑₄

𝑑₅

 假設給定的key的出現機率為右上表格所顯示, 則左上圖為optimal binary search tree (expected cost=2.75)

 觀察: 機率最大的key不見得在root (𝑘₅不在root)

(6)

暴力法有多暴力?

 n個node的binary search tree總共有Ω(⁴^𝑛

𝑛

3 2

)個 (Catalan number)

(7)

 小觀察: binary search tree的subtree必包含一段連續的 key 𝑘_𝑖, 𝑘_𝑖+1, … , 𝑘_𝑗及𝑑_𝑖−1, … , 𝑑_𝑗, 1 ≤ 𝑖 ≤ 𝑗 ≤ 𝑛.

 小定理: 假設T為𝐾 = 𝑘₁, 𝑘₂, … , 𝑘_𝑛 之optimal binary search tree. 則T之subtree 𝑇^′,包含𝑘_𝑖, … , 𝑘_𝑗這些key, 也必定是𝐾′ = 𝑘_𝑖, 𝑘_𝑖+1, … , 𝑘_𝑗 這些key的optimal binary search tree.

 證明: 如果𝑇′找出的不是optimal binary search tree, 則表示可以找出一個更好的binary search tree 𝑇^′′,

expected cost比𝑇^′更好, 則可以用𝑇^′′取代T中的𝑇^′, 得到一個比T cost更低的binary search tree (矛盾)

Dynamic Programming出招

1. 找出Optimal Substructure

(8)

𝑇^′′

𝑇^′ 𝑇

𝑘_𝑖, 𝑘_𝑖+1, … , 𝑘_𝑗

𝑚=1(𝑑𝑒𝑝𝑡ℎ_𝑇 𝑘_𝑚 + 1) ∙ 𝑝_𝑚 + _𝑚=0^𝑛 (𝑑𝑒𝑝𝑡ℎ_𝑇 𝑑_𝑚 + 1) ∙ 𝑞_𝑚

𝐸_𝑖𝑗 = _𝑚=𝑖^𝑗 (𝑑𝑒𝑝𝑡ℎ_𝑇 𝑘_𝑚 + 1) ∙ 𝑝_𝑚 + _{𝑚=𝑖−1}^𝑗 (𝑑𝑒𝑝𝑡ℎ_𝑇 𝑑_𝑚 + 1) ∙ 𝑞_𝑚

= 𝐸_𝑖𝑗 + 𝐶

𝐸_𝑖𝑗^′ < E_ij

𝐸_𝑖𝑗^′ + 𝐶 < 𝐸_𝑖𝑗 + 𝐶

矛盾!

(9)

Dynamic Programming出招

 如何用小問題的答案組出大問題的答案?

𝑘_𝑖, 𝑘_𝑖+1, … , 𝑘_𝑟−1 𝑘_𝑟

𝑘_𝑟+1, 𝑘_𝑟+2, … , 𝑘_𝑗 𝑑_𝑖−1, 𝑑_𝑖, … , 𝑑_𝑟−1 𝑑_𝑟, 𝑑_𝑟+1, … , 𝑑_𝑗

選出一r, 𝑖 ≤ 𝑟 ≤ 𝑗

𝑘_𝑖, … , 𝑘_𝑖−1 𝑘_𝑖

𝑘_𝑖+1, 𝑘_𝑖+2, … , 𝑘_𝑗 𝑑_𝑖−1, … , 𝑑_𝑖−1 𝑑_𝑖, 𝑑_𝑖+1, … , 𝑑_𝑗

null 𝑑_𝑖−1

(10)

Dynamic Programming出招

2. 列出遞迴式子 (表示花費)

𝑇_𝐿

𝑘_𝑖, 𝑘_𝑖+1, … , 𝑘_𝑟−1

𝑇_𝑅 𝑘_𝑟

𝑘_𝑟+1, 𝑘_𝑟+2, … , 𝑘_𝑗 𝑑_𝑖−1, 𝑑_𝑖, … , 𝑑_𝑟−1 𝑑_𝑟, 𝑑_𝑟+1, … , 𝑑_𝑗 𝑒 𝑖, 𝑟 − 1

=

𝑚=𝑖 𝑟−1

(𝑑𝑒𝑝𝑡ℎ_𝑇_𝐿 𝑘_𝑚 + 1) ∙ 𝑝_𝑚

+

𝑚=𝑖−1 𝑟−1

(𝑑𝑒𝑝𝑡ℎ_𝑇_𝐿 𝑑_𝑚 + 1) ∙ 𝑞_𝑚

𝑒 𝑟 + 1, 𝑗

=

𝑚=𝑟+1 𝑗

(𝑑𝑒𝑝𝑡ℎ_𝑇_𝑅 𝑘_𝑚 + 1) ∙ 𝑝_𝑚

+

𝑚=𝑟+1 𝑗

(𝑑𝑒𝑝𝑡ℎ_𝑇_𝑅 𝑑_𝑚 + 1) ∙ 𝑞_𝑚

𝑑𝑒𝑝𝑡ℎ_𝑇 ∙ = 𝑑𝑒𝑝𝑡ℎ_𝑇_𝐿 ∙ + 1 = 𝑑𝑒𝑝𝑡ℎ_𝑇_𝑅 ∙ + 1 𝑇

(11)

𝑙=𝑖 𝑙 𝑙=𝑖−1 𝑙

 𝑒 𝑖, 𝑗 = 𝑝_𝑟 + 𝑒 𝑖, 𝑟 − 1 + 𝑤 𝑖, 𝑟 − 1 + 𝑒 𝑟 + 1, 𝑗 +

,if 𝑗 = 𝑖 − 1 ,if 𝑗 ≠ 𝑖 − 1 包含𝑘_𝑖, … , 𝑘_𝑗的subtree

所發生的機率

r有多種選擇

條件不同, 使用的subproblem不同

(12)

Dynamic Programming出招

 填表: e & w

 e[i,j]: i=1 to n+1, j=0 to n

 w[i,j]: i=1 to n+1, j=0 to n

 為什麼w要填表? 不然計算每個e[i,j]都需要做Θ(𝑗 − 𝑖)次加法

3. 計算花費

w 0 1 2 3 4 5

1 2 3 4 5 6

w 0 1 2 3 4 5

1 2 3 4 5 6

Θ 𝑛² i

j

𝑤 𝑖, 𝑗

= 𝑞

_𝑖−1

𝑤 𝑖, 𝑗 − 1 + 𝑝

_𝑗

+ 𝑞

_𝑗

,if 𝑗 = 𝑖 − 1 ,if 𝑗 ≠ 𝑖 − 1

(13)

e 0 1 2 3 4 5 1

2 3 4 5 6

e 0 1 2 3 4 5

1 2 3 4 5 6

橘色是會用到的subproblem i

j

一次填一條對角線 Θ 𝑛³

(14)

大家來練習

𝒊 0 1 2 3 4 5

𝑝_𝑖 0.15 0.10 0.05 0.10 0.20

𝑞_𝑖 0.05 0.10 0.05 0.05 0.05 0.10

𝑤 𝑖, 𝑗

= 𝑞

_𝑖−1

𝑤 𝑖, 𝑗 − 1 + 𝑝

_𝑗

+ 𝑞

_𝑗

,if 𝑗 = 𝑖 − 1 ,if 𝑗 ≠ 𝑖 − 1

𝑒 𝑖, 𝑗

=

𝑞

_𝑖−1

𝑖≤𝑟≤𝑗

min {𝑒 𝑖, 𝑟 − 1 + 𝑒 𝑟 + 1, 𝑗 + 𝑤 𝑖, 𝑗 }

,if 𝑗 = 𝑖 − 1 ,if 𝑗 ≠ 𝑖 − 1

(15)

root[1..n,1..n] be new tables for i=1 to n+1

e[i,i-1]=𝑞_𝑖−1 w[i,i-1]=𝑞_𝑖−1 for l=1 to n

for i=1 to n-l+1 j=i+l-1

e[i,j]=∞

w[i,j]=w[i,j-1]+𝑝_𝑗+𝑞_𝑗 for r=i to j

t=e[i,r-1]+e[r+1,j]+w[i,j]

if t<e[i,j]

e[i,j]=t

root[i,j]=r return e and root

邊界起始值

填表: 兩層迴圈, 對角線順序

e紀錄expected cost, root紀錄選擇結果

Θ(𝑛³)

(16)

Dynamic Programming出招

 自己回家研究一下 15.5-1 on p. 403

4. 印出Optimal Binary Search Tree結果