混合型演算法應用於 DNA 序列編碼
楊正宏1,2 , 李奇翰2, 莊麗月3 1稻江科技暨管理學院網路系統學系 2國立高雄應用科技大學電子工程系 3義守大學化學工程系[email protected], [email protected], [email protected]
摘要―DNA 計算依照 DNA 分子間化學反應進行計 算,理想的 DNA 序列編碼不僅影響其計算效率,亦影響 計算正確性,故設計穩定的 DNA 序列使 DNA 計算過程更 具穩定且提高正確率,為目前 DNA 計算的研究重點。DNA 序列設計牽涉到一些相關聯的約束條件限制,由傳統方法 設計出的 DNA 序列於計算時穩定性及正確性都略顯不 足。故本研究提出以粒子族群最佳化結合侵入雜草演算法 針對 DNA 序列做最佳化組合編碼,以便後續 DNA 計算更 為穩定,進而提升實驗結果正確率。與其他文獻結果相 比,本方法不僅編碼出更為穩定的 DNA 序列於 DNA 計算 上,於尋找單極值類型之最佳化問題,亦較混合式演算法 更具效率。 關鍵詞―DNA 計算、DNA 序列編碼、侵入雜草最佳 化、粒子族群最佳化
一、前言
DNA計算(DNA computing)是一種模擬生物 DNA分子結構並借助現代分子生物學技術所開 創的新計算概念,其利用DNA、生物化學及分子 生物學取代傳統以矽為基礎的電腦技術。DNA 計算藉由Watson–Crick互補鹼基對為特定生化反 應提供有效幫助,如大規模並行計算及更大儲存 容量[8][12]。Adleman於1994年[1]提出利用DNA 分子計算漢瀰爾頓七個節點之有向路徑,並成功 在 DNA溶液試管進行實驗,此種計算方式為 NP-complete問題帶來一種新的解決途徑。目前已 有許多研究應用DNA計算來解決此類型問題,如 SAT 問 題 (satisfaction problem) [3] 、 TSP 問 題(traveling salesman problem)[21]及最大集合問題 (maximal clique problem) [15]等。DNA計算主要 受到DNA序列間之雜交特異性反應影響,但亦可 能因DNA分子間化學特性,而產生錯誤不良反應 [4],錯誤的DNA計算可能會產生偽正類(false positive, FP)及偽負類(false negative, FN)兩種錯 誤結果。良好的DNA編碼方式能降低此情形發生 [6]。故如何編碼良好DNA序列提升DNA計算的 效率及結果正確性便成為目前DNA計算研究的 重要課題。 DNA計算基於DNA分子間生化反應來作為 計算方式,因此當DNA序列產生雜交反應時,相 當容易受生化反應各種因素影響(如反應物濃 度、溫度及溶液PH值等),且DNA計算之序列皆 由兩類約束原則限制:組合約束及熱力學約束。 故如何設計理想的DNA編碼成為DNA計算重要 的研究課題之一。DNA編碼研究目的在於當每一 個DNA分子在實際生化反應過程中,皆對雜交反 應有正向效果並降低錯誤雜交發生,以提高DNA 計算效率及可靠性。實際DNA計算中,DNA編 碼問 題主 要降低相似距離 之 DNA序列出現機 率,目前已有文獻針對此問題提出許多方法進行 DNA編碼設計,如漢明距離(Hamming distance) 及自由能(free energy, ΔG) 之動態規劃演算法[9] [13]、模板映射[7]、“SCAN”程序[10]及模擬退火 法(Simulated Annealing) [18]等。由於 DNA編碼問 題屬於多條件的最佳化問題,因此應用最佳化問 題之啟發式演算法於尋找DNA最佳化編碼,亦有
相 當 不 錯 的 表 現 , 如 基 因 演 算 法 (Genetic Algorithm, GA)[2] , 粒 子 族 群 最 佳 化 (Particle Swarm Optimization, PSO)[5]。本文提出於相異評 估條件下,以PSO演算法結合雜草侵入最佳化 (Invasive weed optimization, IWO)設計數條最佳 化DNA序列,藉由改良PSO達到改善DNA編碼之 目的,且與文獻GA[2]、GA/PSO[20]、傳統進化 式 演 算 法 (Conventional evolutionary algorithm, CEA)[17]之結果相比較,實驗證明本研究能有效 改善DNA編碼最佳化。 本研究將在第二章節介紹DNA編碼需定義 的約束條件,此外,除了介紹目前較為熱門的最 佳化演算法PSO外,亦對Mehrabian及Lucas兩位 學者於2006年提出之雜草侵入最佳化演算法作 詳盡說明[14]。第三章節對本文使用方法之實驗 結果進行分析及比較。第四章節將討論本方法之 結論及未來應用的可能性。
二、研究背景
使 用 DNA 進 行 計 算 時需 編 碼 出 一 組 不 受 DNA特定生物反應(如雜交、斷裂、二級結構的 形成)所影響的DNA序列,避免實驗結果產生誤 差,故可將DNA編碼視為DNA計算一個初始參 數最佳化問題。目前DNA編碼常用的約束條件有 Hamming 、 H-measure 、 Melting Temperature(Tm)、Similarity、Continuity及Hairpin 等。其設計之 DNA 序列皆能滿足以上約束,且 各約束間具有相互關聯。本研究在不同約束條件 下進行最佳化DNA組合編碼,並將實驗結果與其 他文獻比較。以下分別介紹:1.約束條件設計, 2.粒子族群最佳化,3.侵入雜草最佳化及4.粒子族 群最佳化結合雜草侵入。 1. 約束條件設計: (1) Tm: 一條DNA序列對是由兩條完全互補的 DNA序列組成,當DNA到達一定溫度,即分離 為 兩 條 DNA 序 列 , 此 時 溫 度 稱 為 Melting temperature(Tm)。在PCR實驗中,Tm預測是一個 相當重要的預測,錯誤的Tm會導致預期外之生 化反應進而影響結果。目前已有許多方法進行預 測 Tm , 如 GC% [19] 或 nearest neighbor mode [16],本研究將採用 nearest neighbor mode 進行 預測,其公式如下:∑
= = Σ m i i fTm FTm 1 ) ( ) ( (1) 2 )] ( ) ( [ ) (i Tm i Tmi fTm = target − (2) 15 . 273 ) / ln( ) ( − + ∆ ∆ = α Cs R S H i Tm (3) 其 中 公 式 (3) 中 R 為 氣 體 常 數 1.987 1 1 − − ⋅ ⋅K mol cal ,Cs為核酸濃度,α設定為4。 (2) Similarity: 在一大群DNA序列中,某一條 DNA和DNA群於同一個方向(5’→3’)是否相似, 稱之為DNA的相似性(Similarity)。相似性過高可 能使多條相似DNA序列對一項反應引物同時產 生不同化學反應,而造成DNA計算的結果紊亂。 因此設計之DNA序列須具有較低相似性,DNA 序列間的相似性以公式(4)(5)來評估:∑∑
= = = Σ m i m j j i Similarity y Fsimilarit 1 1 ) , ( ) ( , j≠ (4) i )) ( , ) ( ( max max ) , ( 1 0 0 S i i shift j j i similarity g k g n k n g − = − + ≤ ≤ ≤ ≤ (5) 其 中 (-)g為 g 個 間 隙 , shiftk為 位 移 k 個 位 置 , )) ( , ) ( (i i shift j S − g k 表示有多少相同的DNA分子在 序列i(−)gi及序列shiftk( j)中。 (3) H-measure: DNA序列間的H-measure類似 於Similarity,與Similarity相異處在於H-measure 是評估一群DNA序列中一條DNA於不同方向(3’→5’)是否會和其他DNA產生互補,而結合成雙 股螺旋結構,以下列公式計算:
∑∑
= = = Σ − m i m j j i Similarity measure FH 1 1 ) , ( ) ( (6) )) ( , ) ( ( max max ) , ( 1 0 0 R k g g n k n g C i i j j i measure H− = − σ − + ≤ ≤ ≤ ≤ (7) 其中jR為反轉該條DNA序列,C(i(−)gi,σk(jR)表 示有多少相同的DNA分子在序列i(−)gi及序列 ) ( R k j σ 中。 (4) Continuity: DNA序列中若分子連續性太高 (如:AAAA),可能出現不穩定的DNA序列結構 而影響實驗結果,為避免設計出DNA序列連續性 過高,本研究定義DNA連續性限制如下:∑
= = Σ m i i con Fcon 1 ) ( ) ( (8)∑ ∑
−+ = ∈ = 1 1 2 ) , ) , ( ( ) ( t l j bp t j x B T i con α α (9) ≠ ≤ ≤ = ≠ = ++ + otherwise x b k x x b j x B j k k j j , 0 , 1 , , ) , ( 1 α α α α (10) > = otherwise j i i j i T , 0 , ) , ( (11) 其中Bα(x,j)表示第j個鹼基連續性,t為所設定的 連續性門檻值。 (5) Hairpin: DNA序列中假使有太多互補特性 分子,可能使DNA序列自行鏈結而成髮夾結構 (如:AAACAGATACCGTTT)。若一般DNA序列 出現此情況,則會 導致結果錯誤,因此予以限制。 ∑ ∑
∑
= − − − + = = Σ m i pl n r r pl n r pl c c i Hairpin FHairpin 1 ) * 2 ( ( /2) 2 / ) , ( ) ( (12) 其中r為最小的莖環長度,pl為枝幹長度,c為形 成髮夾結構莖環中央的鹼基所在位置。 (6) GCcontent: DNA序列之分子G、C比例, 會對Tm高低造成影響,因此GC在DNA序列中的 比例為DNA序列相當重要的評估條件,一般來 說,GC所佔比例約為40-60%。 2. 粒子族群最佳化(PSO)PSO於1995年被 Kennedy 及 Eberhart 提出 [11],其靈感來自於觀察自然界中鳥群飛行和魚 群活動。其概念是依據個體和族群間經驗做移動 參考,以找出最佳搜尋目標之啟發式學習演算 法。PSO族群是由數個粒子所構成的,並且在d 維度的搜尋空間中進行移動。首先,藉由隨機方 式初始多個可能的解,其中第i個粒子的位置和速 度可分別表示為xi = (xi1, xi2, …, xid)和vi = (vi1, vi2, …, vid),且每個粒子的位置與速度皆限制在 [Xmin, Xmax]d及[Vmin, Vmax]d的範圍。此外,所有粒 子皆有各自的搜尋區域,並會將自身搜尋經驗記 錄下來。對單一粒子而言,本身記錄最好適應值 稱為pbest,可以表示為pi = (pi1, pi2, …, pid);然而 在粒子群中,最好個體最佳適應值則稱為gbest, 可以表示為g = (g1, g2, …, gd)。PSO的位置和速度 之更新公式如下: ) ( * * ) ( * * * 2 2 1 1 old old old new x gbest r c x pbest r c V V − + − + =ω (14) new old new V x x = + (15)
∑
= = Σ m i i GC FGC 1 ) ( ) ( (13)其中ω為慣性權重值,c1、c2分別為pbest和gbest 的學習因子,r1、r2為0~1的隨機亂數,在本研究 中,我們將c1、c2設定為2[11]。 3. 侵入雜草最佳化(IWO) 侵入雜草最佳化是利用自然界雜草植物的韌 性及快速繁殖能力所設計開發的一種最佳化演 算法。雜草的適應性、穩健性及生長習性已被證 明對環境有著強大適應能力。當數顆雜草種子到 達一個新環境時,將會快速繁殖並將子代散播至 此環境中最適合生長的地點,讓子代能快速到達 最適合生存的地點以確保整個族群的競爭力,其 方法描述如下: (1) 初始族群: 隨機於d維空間中初始數株雜草 (2) 繁殖: 每株雜草都會依據適應函數值產生 不同數量種子,種子的產生數量如圖1所示: 圖1 根據適應函數所能產生的種子數 (3) 空間驅散: 產生出的子代種子將會常態散 佈於d維搜索空間內。在迭代過程中,使用以下 公式確保產出子代種子會隨機分佈在自身母代 附近。 final final inition n now now iterative iterative iterartive ω ω ω ω + − − = ) ( * ] ) ( [ max max (16) 其中iterativemax為最大迭代數,n為非線性調 變參數,ωinition及 ωfinal分別為3及0.001。 (4) 生存競爭: 當族群無法再產生有競爭力的 後代時,此族群可能因無法適應環境變化及物種 間競爭而滅絕。因此當雜草繁殖的子代散佈出 去,使得族群達到最大數量時,需將各個母代及 子代進行適應函數比較,適應函數較低之雜草所 產出子代種子數量將會減少或無法產生子代種 子而滅絕。 4. 粒子族群最佳化結合雜草侵入(PSO-IWO) 本研究使用方法將粒子族群最佳化及雜草侵 入兩種方法相結合,利用粒子族群搜尋在更新過 程中,以雜草快速繁殖特性將找到的區域快速搜 尋並引導其他粒子往此方向移動。當其他粒子往 此方向移動時,若找到適應性更佳的粒子,將改 變其他粒子移動方向,往新的最佳粒子移動並搜 尋出最佳解。本研究所用方法說明如下: (1) DNA 粒 子 編 碼 : 目 前 DNA 序 列 都 採 用 Watson–Crick模型[22],將四種鹼基以較容易計 算的方式呈現。本研究分別設定ACGT這四種鹼 基為0、1、2、3,將這條DNA序列視為一個四進 制數列。透過此四進制轉換為一般所使用的十進 制,並使用最佳化演算法來找出最佳解,例如一 條 序 列 ”AAAA” 可 以 被 視 為 0000(4)=00(10),”ACGA”可看做0121(4)=25(10)。 (2) 適應函數設計: DNA分子間的生化反應將 影響DNA計算的結果,故編碼DNA序列後,需 判斷是否合乎物理、化學及邏輯約束避免錯誤配 對 。 一 般 來 說 , 約 束 條 件 如 H-measure 、 Similarity、Continuity、melting temperature及GC content等,都須考慮個別最佳化,故DNA序列編 碼可視為多極值最佳化問題,其描述如下:
Optimize: Σ Σ Σ Σ − Σ Σ ) ( ), ( ), ( ), ( ), ( ), ( FGC FHairpin Fcon measure FH y Fsimilarit FTm (17) 本研究制定此多目標函數為最小化問題,並且使 用加權來處理各約束條件所產生的數值,藉權重 加權的方法。轉換為單一目標最佳化問題,其適 應函數轉換方程式如下:
∑
Σ = i wiFi Fitness ( ) (18) − ∈ con GC Hairpin measure H similarity Tm i , , , , , 其中wi為權重加權值,本研究設定為1。 (3) 雜草繁殖: 本研究利用PSO之快速搜尋能 力,在解空間中搜尋全域最佳解,並使用IWO於 gbest附近快速繁殖產生子代種子,藉此 加強區域 搜尋的能力以找到最佳解。雜草繁殖的位置如 下: ) 4 ), 1 , 0 ( * (gbest Random Mod Seeds= +ωnow (19) 其中Mod( ji, )為除以j後取餘數,Random(0,1)為隨 機產生0~1之間的數,ωnow為公式(16)計算之數 值。 (4) 粒子更新: 當在gbest附近的種子繁殖到一 定的數量時,gbest及子代適應函數將決定gbest 是否會被取代。當所繁殖出的子代適應函數值較 gbest更為優秀時,將取代gbest成為新的gbest, 並引導剩下的粒子往此方向移動。 本方法的虛擬碼如下:Pseudo-code for PSO-IWO procedure
01: begin
02: Randomly initialize particles swarm 03: while (the stopping criterion is not met)
04: Evaluate fitness of particle swarm 05: for n=1 to number of particles 06: Find pbest
07: Find gbest
08: Reproduction Seed by Eq. (19) 09: if fitness of Seed better then gbest 10: change gbest
11: end if
08: for d = 1 to number of dimension of particle 09: update the position of particles by Eq. (14)-(15) 10: next d
11: next n
12: update the iterative value by Eq. (16) 13: next generation until stopping criterion 14: end
三、實驗結果及討論
本研究參數設定如下,迭代為 100 次,粒子 數量為 20,每個粒子中有 7 條長度為 20 的 DNA 序列,繁殖種子為 10 顆種子,wi為 1。在約束 條件中,我們設定 Tm 核酸濃度 Cs 為 1uM , Continuity 為 3,Hairpin 形成至少 6 個鹼基對連 結才會形成。 將編碼出的序列與其他方法編碼出的結果 相比較。首先比較 Deaton et al.[6]使用 GA 模擬 Aldmen 實驗,其編碼出結果如表 1 所示。其 4 個約束條件:Similarity、H-measure、Continuity 及 Hairpin ,比較結果如圖 2 所示。 在 圖 2 中 , 可 清 楚 看 到 Similarity 、 Continuity 、Hairpin 都比 GA 平均結果好,此實 驗結果得知,編碼 DNA 序列將關係著之後的化 學反應步驟是否能成功達到使用 DNA 計算來解 決問題,因此不能只針對公式(18)一味尋找最小 目標適應函數,而需考慮這些約束條件所編碼的 DNA 序列能夠穩定呈現各種化學反應的實驗結 果,也就是需達到公式(17)中針對各個約束條件 最佳化。由於 GA 利用交配及突變來跳脫區域最 佳解,當迭代次數逐漸增大時,此機制跳脫機率 將越來越低,因此實驗結果將只針對某些約束條 件最佳化,對後續化學反應改善效果較為有限。 本研究方法使用 PSO 尋找 gbest 後,以 IWO 繁殖方法於 gbest 附近繁殖,使 gbest 附近區域被快 速搜尋,判斷此區域是否有更好的可能解,且 PSO 更新過程中其他粒子往 gbest 移動外亦尋找 其路徑上是否有更佳解。故某個約束條件有較佳 表現時,將以此為主要方向搜尋附近是否有更佳 解。研究中發現,對各個約束條件做最佳化時, 約束條件間將相互影響而使編碼的 DNA 序列有 所不同。研究結果顯示本方法僅 H-measure 平均 結果不如 GA,在其他約束條件表現上較為優 秀 。 本 研 究 方 法 Similarity 為 50~55 , 而 H-measure 為 60~69,這些約束條件將會影響 DNA 序列是否會於化學反應時產生不良反應。 DNA 序列的二級結構常用來預測 DNA 序列成為 RNA 時的功能形式,如何控制編碼 DNA 的二級 結構亦是考量要素之一。 在 Continuity 、Hairpin 這 2 個約束條件中, 本研究所提出的實驗結果亦較優秀,平均數值均 為 1.28,而在最容易影響化學反應成功與否的溫 度上,PSO-IWO 所編碼的 DNA 序列在 Tm 及 GCcontent 皆較 GA 穩定,GA 最高解鏈溫度為 69.2009;但最低解鏈溫度為 48.4451。其表示在 溫度上升過程中,有可能某幾條 DNA 序列失去 活性,而使實驗結果產生誤差;反觀本研究所得 之結果,最高解鏈溫度為 55.4303;最低解鏈溫 度為 42.2240,相較之下更為穩定且降低誤差結 果產生的可能性。由以上結果得知,本方法所編 碼出的 DNA 序列將較 GA 所得結果在後續反應 上較為穩定,且各種表現亦更優秀。 與 GA 之結果比較得知,本研究所提之方法 能對多目標最佳化有顯著效果。但在多極值最佳 化問題中,為使本研究方法能應用在不同問題 上,我們和 Shin[17]應用於最短路徑問題(TSP) 所編碼的結果相比較,其結果如表 2 所示,而比 較結果如圖 3 所示。在尋找最短路徑本研究偏重 利用公式(18)轉化為一個尋找最小化極值問題, 相對於模擬 Aldmen 實驗編碼出來的 DNA 得考 慮之後化學反應穩定使得各個約束條件需落在 理想範圍中,此實驗將尋找一個最小化最佳解而 較不考慮各約束條件的理想範圍。在圖 3 中本方 法結果雖然有一條 DNA 序列 Tm 不盡理想,但 卻 改 善 其 他 約 束 條 件 , 像 是 Similarity 、 H-measure、Hairpin,Continuity 則是有著相同的 結果,顯示本方法在改善單極值問題最佳解有一 定程度效果。 為 表 示 本 方 法 是 將 兩 種 演 算 法 優 點 相 結 合,故與使用 GA/PSO[20]結果相比,其結果如 表 3,比較結果如圖 4 所示,本研究結果在尋找 最 短 路 徑 上 較 為 優 秀 , 在 H-measure 及 Continuity 皆有相當改善,於 Similarity 及 Hairpin 則小幅改善或具相同結果。在 GA/PSO 中,其方 法分別經過 GA 及 PSO 更新才將其編碼出來,計 算時間較為冗長。而本方法於 PSO 的更新過程 前便先進入 IWO,而後將 PSO 粒子依照 gbest 方向開始做空間驅散,雖然亦提高 PSO 時間複 雜度,卻可降低整體時間複雜度,且結果亦較為 優秀。故由本方法得知,PSO 結合 IWO 將能有 助於提升演算法的搜尋能力。
四、結論
由 於DNA本身具不穩定性及複雜性,故採用 DNA來計算前必需有穩定的DNA序列來進行計 算,DNA編碼屬於多極值目標最佳化問題,本研 究 提 出 一 種 新 穎 的 演 算 法 將 PSO 與 IWO 相 結 合,利用PSO搜尋全域最佳解結合IWO快速搜尋 附近區域,針對數個約束條件進行DNA序列編 碼,實驗結果顯示本方法和其他傳統演算法於此 問題上有著更為優秀的表現,且將此問題轉換為 單一極值最佳化問題上亦較混合GA與PSO演算 法有效率。未來如何在加入更多及不同約束條件 限制下使編碼DNA序列之計算結果正確性及穩 定性提升將是本研究未來重點所在。五、參考文獻
solutions to combinatorial problems”, Science, Vol. 266, pp. 1021-1024, 1994.
[2] M. Arita, and A. Nishikawa, M. Hagiya, K. Komiya , H. Gouzu , K. Sakamoto, “Improving Sequence Design for DNA Computing”, in Proceedings of Genetic and Evolutionary Computation Conference, 2000.
[3] R. S. Braich, N. Chelyapov, C. Johnson, P. W. K. Rothemund, and L. Adleman, “Solution of a 20-Variable 3-SAT Problem on a DNA Computer”, Science, Vol.296, pp.499-502, 2002.
[4] A. Brenneman, and A. Condon, “Strand design for biomolecular computation”, Theoretical Computer Science, Vol.287, pp.39-58, 2002. [5] G. Z. Cui, Y. Y. Niu, Y. F. Wang, X. C. Zhang,
and L. I. Pan, ” A new approach based on PSO algorithm to find good computational encoding sequences”, Progress in Natural Science, Vol.17, pp.712-716, 2007.
[6] R. Deaton, R. C. Murphy, M. Garzon, and D. R. Franceschetti, S. E. Stevens, Jr., “Good Encodings for DNA-based Solutions to Combinatorial Problems” Proceedings of 2nd DIMACS Workshop on DNA Based Computers, pp.159-171, 1996.
[7] A. G. Frutos, “Demonstration of a Word Design Strategy for DNA Computing on Surfaces”, Nucleic Acids Research, Vol.25, pp.4748-4757, 1997.
[8] M. H. Garzon, and R. J. Deaton, “Biomolecular computing and programming”, IEEE Transactions on Evolutionary Computation, Vol. 3, pp. 236-250, 1999.
[9] M. Garzon, P. Neathery, R. Deaton, R.C. Murphy, D.R. Franceschetti, and S.E. Stevens, Jr., “A New Metric for DNA Computing”,
Proceedings of the 2nd Annual Gentic Programming Conference, USA: Stanford University, 1997.
[10] A. J. Hartemink, D. K. Gifford, and J. Khodor, “Automated constraint-based nucleotide sequence selection for DNA computation” Biosystem, Vol.52, pp.227-235, 1999.
[11] J. Kennedy, and R.C. Eberhart, “Particle swarm optimization, in: Proceedings of IEEE International Conference on Neutral Net works, pp. 1942-1948, 1995.
[12] C.C. Maley, “DNA computation: Theory, practice, and prospects”, Evolutionary Computation, Vol.6, pp. 201-229, 1998.
[13] A. Marathe, A. E. Condon, and R. M. Corn, “On Combinatorial DNA Word Design”. Proceedings of the 5th DIMACS Workshop on DNA-based Computers. Cambridge, MA, USA : DIMACS Press, 1999.
[14] A.R. Mehrabian, and C. Lucas, “A novel numerical optimization algorithm inspired from weed colonization”, Ecological Informatics, Vol.1, pp.355-366, 2006.
[15] Q. Ouyang, P. D. Kaplan, S. Liu, and A. Libchaber, “DNA Solution of the Maximal Clique Problem”, Science, Vol.278, pp.446-449, 1997.
[16] L. Santa, “A unified view of polymer, dumbbell, and oligonucleotide DNA nearest-neighbor thermodynamics”, Proc. Nat. Acad. Sci., USA, pp.1460-1465, 1998.
[17] S.Y. Shin, I.H. Lee, D. Kim, and B.T. Zhang, “Multiobjective evolutionary optimization of DNA sequences for reliable DNA computing”, IEEE Transactions on Evolutionary Computation, Vol.9, pp.143-158, 2005.
T. Shiba, and A. Ohuchi, “Developing Support System for Sequence Design in DNA Computing”, Proceedings of 7th International Workshop on DNA-Based Computers, 2001. [19] J.G. Wetmur, “DNA probes: Applications of the
principles of nucleic acid hybridization”, Critical Reviews in Biochemistry and Molecular Biology, Vol.26, pp.227-259, 1991.
[20] C. Xu, Q. Zhang, B. Wang, and R. Zhang,
“Research on the DNA Sequence Design Based on GA/PSO algorithms”, The 2nd International Conference on Bioinformatics and Biomedical Engineering, ICBBE 2008.
[21] K. Zimmermann, “Efficient DNA sticker algorithms for NP-complete graph problems”, Computer Physics Communications, pp. 297-309, 2002.
表1 GA和PSO-IWO之DNA序列編碼
DNA序列(5’→3’) Similarity H-measure Hairpin Continuity GC% Tm(C) PSO-IWO GCCAATACAATGAGGGCGGG 55 61 3 18 60 55.4303 AACTCTAATGAGTCGGTAGC 55 69 0 0 45 50.4841 CCGCAGCTTGCATATAACCT 53 66 0 0 50 48.8674 CATTACCATCCGCTTTAGAA 55 60 0 9 40 43.0013 CCAAGCAGCGATGAATACAG 51 65 0 0 50 50.4799 GCTCCCTTTCATACGAGCGG 50 64 0 18 40 42.2240 CCCGACTAGCGTCACGATCG 51 63 3 9 55 53.7547 Deaton’s sequence(GA) ATAGAGTGGATAGTTCTGGG 64 55 3 9 45 52.6522 CATTGGCGGCGCGTAGGCTT 51 69 0 0 65 69.2009 GTTGTGACCGCTTCTGGGGA 63 60 0 16 60 60.8563 CAAAAACGACCAAAAGAGAG 45 58 0 41 40 52.7111 GATGGTGGTTAGAGAAGTGG 54 58 0 0 50 55.3056 TGTATCTCGTTTTAACATCC 50 61 4 16 35 48.4451 TTGTAAGCCTACTGCGTGAC 55 75 3 0 50 56.7055 圖2 比較GA和PSO-IWO編碼之平均結果於4個約束條件
表2 CEA和PSO-IWO之DNA序列編碼
DNA序列(5’→3’) Similarity H-measure Hairpin Continuity GC% Tm(C) PSO-IWO AGAGATAGCTGGGCCACGTA 51 62 0 9 55 53.4969 TTACACTACCGGACGTAAGT 53 67 3 0 45 48.7496 ACTCAGAATCTCTGATCTTT 49 68 3 0 35 47.0155 TTACTGAAGACCAGAGGCAC 55 65 0 0 50 50.3165 ACCGTATGCTCAAGTTCCTA 55 63 0 0 45 46.0255 CGTGTAATGCCGGTGACCAC 49 62 3 0 60 52.6457 CCTCCTCAGTTGACCTATCC 52 61 0 0 55 39.6152 Shin’s sequence(CEA) AGGCGAGTATGGGGTATATC 48 66 0 16 50 47.6070 CCTGTCAACATTGACGCTCA 57 66 3 0 50 50.6204 TTATGATTCCACTGGCGCTC 58 61 0 0 50 50.1205 ATCGTACTCATGGTCCCTAC 54 64 0 9 50 47.8464 CGCTCCATCCTTGATCGTTT 58 62 0 9 50 50.4628 CTTCGCTGCTGATAACCTCA 54 68 3 0 50 49.8103 GAGTTAGATGTCACGTCACG 51 67 3 0 50 48.3995 圖3 比較CEA和PSO-IWO編碼之平均結果於4個約束條件
表3 GA/PSO和PSO-IWO之DNA序列編碼
DNA序列(5’→3’) Similarity H-measure Hairpin Continuity GC% Tm(C) PSO-IWO GCGCATATCTTCAATGTATC 50 68 0 0 40 48.5149 TCGCAATGCGGTCCTTACTT 55 62 0 0 50 53.2576 TTATTGTTATCCTATGTGCC 54 62 0 0 35 39.8866 GCTGTTAGATTCGTGTGTAG 53 58 0 0 45 50.0855 GAGCTACTTACATTGCTTAT 58 65 0 3 35 46.5020 TGCTATCTTGGAGTAGATCG 53 61 0 3 45 49.9901 AACTTGTGGTGGGTGGACTG 52 55 0 0 55 56.4718 Xu’s sequence(GA/PSO) AGGAGGTCTCAGTTAGCATG 56 67 0 0 50 49.2149 TATCTAAGTCGCCGCAGATC 56 70 0 3 50 50.3076 TAGACTGGGTCTAGACGAG 54 65 9 0 50 51.4684 CTGCTACGCTTGTGATATCC 54 68 0 0 50 49.5876 TCCTAGATCCGTAGAGTCAC 55 70 0 0 50 45.0597 TTAGGAGTACACTCTCACGC 58 70 0 0 50 52.5508 ACGAACATCATCCCTACATCG 55 62 9 3 50 47.8391 圖4 比較GA/PSO和PSO-IWO編碼之平均結果於4個約束條件