• 沒有找到結果。

高密度片段的尋找高密度片段的尋找

N/A
N/A
Protected

Academic year: 2022

Share "高密度片段的尋找高密度片段的尋找"

Copied!
6
0
0

加載中.... (立即查看全文)

全文

(1)

專題報導 生物資訊

「生命科學」、「電腦」與「幾何」可以有怎樣的關聯呢?

「演算法」的技術很巧妙地,

把似乎沒有交集的三個領域串連在一起。

呂學一

生物

資訊學的 問題重整

高密度片段 的尋找 高密度片段

的尋找

(2)

「問題重整」(problem reduction)

是資訊科學很重要的觀念與技巧,科 學家遇到一個不熟悉的問題時,會把 原始的問題轉換成比較熟悉的「形式」

(f o r m u l a t i o n),進而藉由新形式相關 領域中的工具解決原先的問題。在生 物資訊相關研究中,這種「問題重整」

的例子屢見不鮮。

「生命科學」、「電腦」與「幾何」

可以有怎樣的關聯呢?「演算法」的 技術很巧妙地把似乎沒有交集的三個 領域串連在一起。

生命科學

先從生命科學談起吧。

半個世紀以前,科學家對於去氧核醣核酸(D N A)的結構並沒有太多的認識,而 顯微鏡可憐的放大倍

數,也很難提供肉眼 可見的影像。直到

1 9 49

年查爾葛夫與維 雪才確定 D NA 是由腺 嘌呤(a d e n i n e, A)、

鳥糞嘌呤( g u a n i n e,

G)、胞嘧啶(c y t o s i n e,

C

)、 胸 腺 嘧 啶

(t h y m i n e, T)4 種成分 所組成。稍後薩門霍 夫加入這個團隊,開 始對 D NA 的 4 種成分 進行定量的分析。

當 時 普 遍 猜 測

A、G、T、C 在 D NA

裡的比率應該相去不

每個細胞有2 3對染色體,它們其實是由捲得很緊密的D N A所構成。D N A已被證明是遺傳的基 本物質,它是由A、G、C及T四種鹼基組合而成的長鏈分子。所謂基因,就是指那些儲存蛋白 質製造模具的DNA片段。

問題重整是資訊科 學很重要的觀念與 技巧,科學家遇到 一個不熟悉的問題 時,會把原始的問 題轉換成比較熟悉 的形式,進而藉由 新形式相關領域中 的工具解決原先的 問題。

問題重整

基因

染色體 細胞

生命科學 資訊科學

幾何學

(3)

26

科學發展 2005年12月,396期

在 1 9 62 年與威爾金斯獲得諾貝 爾生理與醫學獎的殊榮。

雖然查爾葛夫等人所觀察 到的規律性已經有了清楚的解 釋,但是 A-T 與 G-C 的數量 在不同 D NA 序列為什麼會有 明顯的差異,至今科學家還是 有兩派意見,誰也不服誰。倒 是有一些研究顯示,在 G-C 密度比較高的片段當中,通常 會有比較豐富的生物意義。於 是這裡衍生出一個電腦演算法 的問題,就是怎麼在一個D NA 序列中找到一個 G-C 密度最 高的片段。

電腦

以上這個題目讓我們想到

「電腦」。電腦的快速計算能 力,這幾年成了「生命科學」

相關研究的一具強力噴射引 擎,使得 D NA 定序的進展一 日千里。過去生物學家必須埋 頭苦幹好幾年才能完成的實 驗,如今靠著電腦的幫忙,可以在短短幾天之 內完成。

不過要讓電腦幫忙,得靠程式設計人員撰 寫程式。電腦跑得快不快,跟程式寫得好不好 大有關係,而一個程式寫得好不好,又跟程式 背後那個解決問題的想法,也就是「演算法」

(a l g o r i t h m)有絕對的關聯。

比較演算法孰優孰劣有一套粗略但相當客 觀的標準,就是演算法解決問題時所需要的運 算時間,跟所輸入資料的長度之間是怎樣的關 係。如果是成線性的關係,這個演算法就是最 佳的解題法,如果是平方的關係,這個演算法 就沒有那麼受人青睞,萬一是立方的關係,這 個演算法就不切實際了。

遠,但 3 人獲得的實驗數據卻完全不是這麼回 事,他們發現在不同 D NA 當中,A、G、T、C 的比率並不相同。最有趣的是,不管 4 種成分 的比率如何變化, A 與 T 的數量總是非常相 近,G 與 C 的數量也幾乎相同。當時查爾葛夫 甚至在論文中寫下:「我們的定量分析觀察到 一個令人驚訝,但或許是毫無意義的規律性。」

幾年之後全世界才恍然大悟,原來查爾葛 夫等人所觀察到的規律性,有非比尋常的重大 意義。1 9 53 年華生與克里克提出D NA的「雙螺 旋結構」,結構中互相纏繞的兩道 D NA 序列 裡,A 總是黏著 T,而G總是與 C 為伍。那篇短 短兩頁不過9 00 字的論文,深深影響過去這半個 世紀生命科學的研究發展。為此華生與克里克

華生與克里克所發現的雙螺旋結構深深地影響了過去這半個世紀的生命科學 鹼基對

鹼基對

核?酸 氫鍵

(4)

以上面提到的例子來說:我們 手中有一個長度是 n 的 D NA 序列,

而想要寫個程式找出這個序列當中 長度超過m,而且 G-C的密度最高 的片段。這個程式所需要的運算時 間如果與 m×n 成正比(即所謂成平 方關係),程式背後的演算法就還有 待改進。如果程式所需要的運算時 間與 n 成正比(即所謂成線性關 係),這個程式背後的演算法便是最 佳的解題方法。

這個「G-C 密度最高片段」的 問題,很自然地可以重整成一個

「數列」的問題:輸入一個長度是 n 的數列,其中每個數字非 0 即 1(A 或 T 用 0 代表, G 或 C 就用 1 代 替),要求輸出該數列一個不短過 m 的片段,使得這片段的平均值為最 高。而所謂平均值就是,這個片段 當中數字的和除以片段的長度。

這個數列上的問題,很容易就 有一個平方時間的演算法,道理很

1 9 5 3年華生與克里克發表於《自然》期刊有關D N A雙螺旋結構的論

解開DNA結構之謎的華生(左)和克里克(右)

(5)

係,數列演算法好像沒有現成的工具可以直接 套用,這時候就需要「幾何」來幫忙了。

幾何

幾何學是一門非常古老的學問,上至天

28

科學發展 2005年12月,396期

簡單,因為長度 n 是的數列最多只有 n2個片 段,只需挑出這個片段當中長度大於或等於

m,且平均值為最高的一個片段即可。簡簡單單

就讓平方時間的演算法完成任務。不過如果想 讓執行時間跟數列長度的關聯降低到線性關

電腦提供了生物學家分析染色體所含龐大基因資訊的能力

(6)

由於「計算幾何」領域當中,有諸多現成 的演算法工具可以處理各式各樣「斜率選擇」

問題的變形,所以稍為再費點心思,線性時間 的演算法就垂手可得。

換個角度看

科學家在著手研究的時候,有高「智商」

(I Q,intelligence quotient)固然吃香,但是高

CQ

或許更要緊。甚麼是CQ 呢﹖就是「創意商 數」(creativity quotient)。當年愛因斯坦用微分 幾何發展出相對論,近年來不管是在生命科學 研究當中引進電腦演算法,或是利用物理上

「量子」的性質來解決數學上「因數分解」的大 難題,背後全都是「問題重整」的創意。

您手中有甚麼懸宕已久的難題嗎?換個角 度來看看吧,做個「問題重整」或許就會「山 窮水盡疑無路,柳暗花明又一村」呢!

呂學一

台灣大學資訊工程學系

文,下至地理,莫不與幾何密切相關。過去這

20

年在「計算幾何」這個領域當中,有許多問 題被研究得非常透徹。舉例來說,如果給定平 面上 n 個點,如何快速從 n 這個點當中挑出兩 個點,使得通過這兩點的那條直線的斜率為最 大,這就是曾被深入研究過的「斜率選擇」問 題。

其實上述的最高均值片段的問題,正可以

「重整」成一個特別的「斜率選擇」問題。乍聽 之下這兩個問題似乎毫不相干,但是底下這個 轉換,說穿了一點也不稀奇。

把數列當中的 n 個數字分別對應到平面上 面的 n 個點:第 i 個數字的 x 座標就是 i 。至於

y

座標,為了方便起見,我們想像有個第0點在 平面的原點(0 , 0)上,也就是第 0 點的 y 座標 是 0。此後第 i 個點的 y 座標,就是第 i-1 個 點的 y 座標加上第 i 個數字。有了這 n+1 個在 平面上的點,尋找平均值最高的數列片段,就 變成尋找兩個 x 座標相差大於或等於 m 的兩個 點,使得通過這兩個點的直線有最大的斜率。

為了找出在平面上尋找橫座標距離不小於3,且可拉出斜率是最高的兩點什麼程式的背後演算法才是最佳的解 題方法?

為了找出長度大於等於 3,且G-C密度最高的片段,什麼程式的背後演算法才是最佳的解題方法?

參考文獻

相關文件

你在閱讀時是否有以片語 (phrase) 和子句 (clause)

您只要點擊影片清單上的名稱後,就會彈出一個 Youtube 影片播放視窗,這時便可進行 影片的觀看。... 當

以級數 (12) 為例, 它 的收斂速度很快, 僅需計算五個迴圈就可得到 15 位圓周率小數位數。 而且, 由於這是只有兩 個反正切項的 Euler 型公式, 程式的設計非常簡單。 最重要的是, 除了 χ(n)

White, Skolnick 和 Davis 等人提倡以限制 碡切割出的片段 長度 (簡稱 RFLP) 來構建 人 類連鎖基因圖成為可行。 他們的想法是: 要 標定出任一遺傳疾病的控制基因,

• 後段工程是從由矽晶圓切割成一個一個的晶片 入手,進行裝片、固定、接合連接、注模成 形、引出接腳、按印檢查等工序,完成作為元

FPPA 是 Filed Programmable Processor Array 的縮寫,簡 單的說:它就是一個可以平行處理的多核心單晶片微控器。與一般 微控器如 8051、pic,…

判斷二個結是否同型並不是一件簡單 的事, 最好的方法是先找出一些結不變量 (knot invariant), 也就是對於同型的結給一 個廣 義的代數數值 (可能是數值、

香港中學文憑考試中國文學科試卷一(文學創作)將於 2014 年開始取消「片 段寫作」 。為甚麼要取消「片段寫作」的考核?是否表示中國文學課程不重 視「片段寫作」?. ‧