I-Shou University Institutional Repository:Item 987654321/11095
全文
(2)
(3) 謝誌 驪歌響起,又是莘莘學子離開校園的季節,這次將是我徹底離開校園與學生生涯 的時刻。在碩士就學中,若寫論文靠一人的單打獨鬥,那過程會肯定少了溫暖、生活 暗淡許多。感激我的論文一路走來得到許多人的幫助,我將慎重而真誠地深表感謝。 在整個碩士生涯中,無庸置疑最感謝我的指導教授江育民老師,在一開始尋找教 授時,願意收留大學期間表現不彰的我,在求學路途上,不厭其煩聆聽與解決解惑課 業上的難題、指引並協助論文的方向訂定、順利完成論文;在生活上,如朋友般的相 處方式,可無戒心的談論國事、家事、天下事,事事皆可談,並提供許多工讀機會, 減輕生活上的負擔、開銷,讓我求學歷程的心靈、知識有了穩健與踏實基礎。惠我良多,深 感恩於心。. 再來感謝一起學習、同樂的朋友們,首先要感謝益賢、政潔、玉潔、宜君、羿 伶、謦伃、雅婷、應綸、妮純、虹伶,一起同樂、討論課業、分享生活喜、怒、哀、 樂,使碩士生涯七百多個日子天天都不孤單,特別是益賢、政潔、玉潔、宜君、羿 伶、謦伃一起度過許多節日、遊玩與共享許多美食;感謝女排球隊的雅娟、大頭、 Action、文琪及我三個直屬學妹萬太、翊旗、英琪,願意聽從我的指導方針,一起運動 減輕求學路上的煩惱,謝謝妳(你)們。 另外還要感謝研究室的冠良學長教導課業及實驗室所需會的事,以減輕求學的壓 力;感謝若綿學姊、學弟曜璋、宗翰幫忙分擔實驗室的工作,使得碩二多出更多的時 間撰寫論文;感謝 OR、暐迪、歐肥、宗鑫、昶騰一起搞笑、一起同樂及勉勵;感謝子 鈺及恩如兩位可愛的系助,從大學到碩士求學期間,幫忙提供許多工讀資訊、解決許 多對於系上不懂的事,也一同歡笑了許多日子,讓我進到系辦如同到家一般地清鬆自 在,由衷的感謝妳們。 最後是我的家人,我的父母、姐姐、姊夫,完全信任且完全無反對我一人去做任 何事,並給予無憂的生活經費,使得求學過程中能安穩的生活;感謝我的女友宜珍, 陪我度過許多繁雜的瑣事與心情、同遊樂許多縣市;因為有了您們,使我的碩士生涯 完美,我將這份榮耀獻上給予妳(你)們,謝謝您們。. 廖俊明 謹誌於. 義守大學工管所 智慧型製造系統研究室 中華民國九十九年七月.
(4) 摘要 人類基因體計畫的推動及分子生物學的進步,使得大量的去氧核醣核酸 (Deoxyribonucleic Acid, DNA) 和蛋白質 (Protein) 序列被定序完成。基因活動與轉錄機 制受到結合轉錄因子(Binding Transcription Factors)的影響,這些結合的基因片段由核甘 酸(Nucleotides)或胺基酸(Amino acids)組成,稱為Motif。在大量的DNA或蛋白質序列中 找到這些Motif,從而進一步分析其在生物演化上扮演的角色,是一個具挑戰的模式辨 識(Pattern Recognition)問題。尋找Motif 亦是多重序列排比的一項重要主題。利用一般 的詳盡搜尋方式雖可準確的找到Motif,但在基因序列和搜尋的Motif長度過長時,運算 時間容易呈指數的倍數成長。本研究利用啟發式演算法(Heuristic)中的粒子群演算法, 透過一些輔助的技巧,發展一快速尋找Motif的演算法,以解決Motif尋找時的挑戰者問 題(Challenge Problem) ,如(15,4)表示如何在20條長度為600的序列中是否能找出所植入 長度為15、突變個數為4的Motif。研究目的為避免因基因序列長度的增加使得運算時間 增長,並能快速而正確的找到相異程度最低之Motif,來提升基因序列比對的品質與效 能,以供生物學家瞭解基因的功能。 關鍵詞:Motif、粒子群演算法(PSO)、啟發式演算法. I.
(5) Abstract Remarkable advances on human genome project and the molecular biology provide availability of genome-wide gene expression data. Gene activity and regulation mechanism is often affected by binding transcription factors to short fragments in DNA sequences called motifs. The motif is significant pattern of letters (nucleotides, amino acids) contained within long sequences. Identification of subtle regulatory motifs in a DNA or protein sequence is a difficult pattern recognition problem in genetics. Motif finding is also an important area of multiple sequence alignment. Exhaustive search method could find motifs with high accuracy. However, it is very time consuming and the computational time will grow exponentially as the sequence length and motif length increasing. This research therefore developed a particle swarm optimization (PSO) algorithm with a number of ancillary techniques for motif finding problem, especially for Motif Challenge Problems such as (15,4) (instances of a motif of length 15 with 4 mutations are implanted once in each sequence in a sample of twenty 600 sequences). The objectives are to avoid a substantial amount of computational time as the length of sequence increasing, and to discover the optimal result with satisfactory efficiency and accuracy. It would be beneficial for biologists to analyze the functionality of genomic sequences. Keywords: Motif, Particle Swarm Optimization (PSO), Heuristic Algorithm. II.
(6) 目 錄 摘要 .......................................................................................................I Abstract ............................................................................................... II 目錄 .................................................................................................... III 表目錄 ................................................................................................ IV 圖目錄 ................................................................................................. V 第一章 緒論 ........................................................................................ 1 第一節 第二節 第三節 第四節 第五節. 研究背景 ........................................................................................... 1 研究動機 ........................................................................................... 5 問題敘述 ........................................................................................... 6 研究目的 ........................................................................................... 9 研究限制與架構 ............................................................................. 10. 第二章 文獻探討 .............................................................................. 12 第一節 Motif 簡介 ....................................................................................... 12 第二節 Motif 尋找演算法 ........................................................................... 14 第三節 粒子群演算法 ................................................................................. 33. 第三章 研究方法 .............................................................................. 43 第一節 研究模式 ......................................................................................... 44 第二節 原始與改良粒子群演算法 ............................................................. 46. 第四章 實證分析 .............................................................................. 61 第一節 第二節 第三節 第四節 第五節. 研究樣本 ......................................................................................... 61 測試資料的產生及設計 ................................................................. 62 實驗環境及參數設計 ..................................................................... 65 實驗結果與分析 ............................................................................. 74 實驗結果討論 ................................................................................. 82. 第五章 結論與建議 .......................................................................... 83 第一節 結論 ................................................................................................. 83 第二節 建議與未來展望 ............................................................................. 84. 參考文獻 ............................................................................................ 85 中文部分 ....................................................................................................... 85 英文部分 ....................................................................................................... 86. III.
(7) 表 目 錄 表 2.1 在不同序列長度下不同演算法的執行係數比較 .................................. 32 表 2.2 不同演算法找尋不同類型 Motif 的執行係數比較 ............................. 33 表 2.3 粒子群演算法演進 .................................................................................. 41 表 4.1 實驗樣本 .................................................................................................. 67 表 4.2 測試樣本田口方法控制因子水準表 ...................................................... 68 表 4.3 挑戰者問題田口方法控制因子水準表 .................................................. 68 表 4.4 真實生物資料田口方法控制因子水準表 .............................................. 68 表 4.5 測試樣本田口方法實驗配置 .................................................................. 69 表 4.6 挑戰者問題田口方法實驗配置 .............................................................. 69 表 4.7 真實生物資料田口方法實驗配置 .......................................................... 69 表 4.8 兩種 PSO 於測試樣本田口方法實驗配置結果 .................................... 70 表 4.9 兩種 PSO 於挑戰者問題田口方法實驗配置結果 ................................ 70 表 4.10 兩種 PSO 於真實生物資料田口方法實驗配置結果 .......................... 71 表 4.11 兩種 PSO 於測試樣本望大特性 SN 比結果 ....................................... 71 表 4.12 兩種 PSO 於挑戰者問題望大特性 SN 比結果 ................................... 72 表 4.13 兩種 PSO 於真實生物資料望大特性 SN 比結果 ............................... 72 表 4.14 田口方法因子水準回應值-測試樣本 .................................................. 73 表 4.15 田口方法因子水準回應值-挑戰者問題 .............................................. 73 表 4.16 田口方法因子水準回應值-真實生物資料 .......................................... 73 表 4.17 三類樣本最佳參數組合 ........................................................................ 74 表 4.18 兩種選取方式 20 次實驗結果 .............................................................. 76 表 4.19 挑戰者問題於參數設計實驗結果 ........................................................ 77 表 4.20 與其他演算法結果比較 ........................................................................ 78 表 4.21 各種 Motif-(l, d)實驗結果..................................................................... 78 表 4.22 各種挑戰者問題 Target ......................................................................... 79 表 4.23 生物資料的各種 Target ......................................................................... 79 表 4.24 PSO 於真實生物資料實驗結果 ........................................................... 80 表 4.25 改良 PSO 於真實生物資料實驗結果 .................................................. 81. IV.
(8) 圖 目 錄 圖 1.1 DNA 雙股螺旋 .......................................................................................... 1 圖 1.2 DNA 與 RNA 主要四種鹼基結構 ............................................................ 2 圖 1.3 華生-克立克配對(Watson-Crick Base Pair) ............................................. 3 圖 1.4 構成生物細胞的三種生物分子 ................................................................ 4 圖 1.5 DNA 轉譯成蛋白質 .................................................................................. 4 圖 1.6 Motif 搜尋範例 ......................................................................................... 7 圖 1.7 Motif 比對計算方式 .................................................................................. 8 圖 1.8 本研究論文架構 ...................................................................................... 11 圖 2.1 TEIRESIAS 演算法範例一 .................................................................... 15 圖 2.2 TEIRESIAS 演算法範例二 .................................................................... 15 圖 2.3 WINNOWER 演算法範例一 .................................................................. 17 圖 2.4 WINNOWER 演算法範例二 .................................................................. 18 圖 2.5 Consensus 演算法範例 ........................................................................... 19 圖 2.6 Random Projection ................................................................................... 23 圖 2.7 利用 EM or Gibbs Sampler 反覆運算 .................................................... 23 圖 2.8 框選的個別集合 Xi=( 8, 22, 31, 17, 6, 23, 13, 27, 10) ........................... 24 圖 2.9 區域搜尋虛擬碼 ...................................................................................... 25 圖 2.10 IPSO-GA 速度及位置更新虛擬碼 ....................................................... 26 圖 2.11 IPSO-GA 粒子間單點交配 .................................................................. 27 圖 2.12 QPSO 編碼方式 ..................................................................................... 28 圖 2.13 Motif 間位置及不相似關係 .................................................................. 30 圖 2.14 鄰近不相似矩陣範例 ............................................................................ 31 圖 2.15 粒子速度及位置之搜尋示意圖 ............................................................ 35 圖 2.16 吸引階段與互斥階段的關係 ................................................................ 40 圖 3.1 模式一、二粒子群演算法流程圖 .......................................................... 46 圖 3.2 隨機選取初始位置範例 .......................................................................... 48 圖 3.3 第一次搜尋 .............................................................................................. 49 圖 3.4 第二次搜尋 .............................................................................................. 50 圖 3.5 第 L-l+1 次搜尋 ....................................................................................... 50 圖 3.6 第四次搜尋失敗 ...................................................................................... 51 圖 3.7 第四次重新搜尋 ...................................................................................... 51 圖 3.8 第一個粒子產生 ...................................................................................... 52 圖 3.9 第二個粒子產生 ...................................................................................... 52 圖 3.10 粒子表示方式 ........................................................................................ 53 圖 3.11 適應值計算之範例 ................................................................................ 54 圖 3.12 更新區域最佳解範例 ............................................................................ 55 圖 3.13 更新全域最佳解範例 ............................................................................ 56 V.
(9) 圖 3.14 速度表示方式 ........................................................................................ 57 圖 3.15 dir 運算範例 .......................................................................................... 58 圖 3.16 速度及位置更新 .................................................................................... 60 圖 4.1 Excel 資料產生 ........................................................................................ 63 圖 4.2 產生 Motif、雜訊(d)及插入位置 ........................................................... 64 圖 4.3 資料處裡完成 .......................................................................................... 65 圖 4.4 實驗相關配備 .......................................................................................... 66 圖 4.5 Vista 系統電腦效能等級評定 ................................................................. 66 圖 4.6 程式介面 .................................................................................................. 67 圖 4.7 PSO 一次初始結果.................................................................................. 75 圖 4.8 改良 PSO 一次初始結果......................................................................... 76. VI.
(10) 第一章 緒論 第一節 研究背景 西元 1865 年,奧古斯丁修道院的一位修道士桂爾格‧孟德爾(Gregor Mendel),利 用碗豆實驗發現,雙親傳給下一代的每一種性狀,都是由個別「因子」所決定的。這 些「因子」就是後來所謂的「基因」。開啟了遺傳學的領域。西元 1953 年,詹姆斯·沃 森(James Watson)與佛朗西斯·克里克(Francis Click)基於羅莎琳·富蘭克林(Rosalind Elsie Franklin) 及 莫 里 斯 · 威 爾 金 斯 (Maurice Hugh Frederick Wilkins) 的 研 究 , 發 現 了 DNA(Deoxyribonucleic, 去氧核醣核酸)雙螺旋結構(如圖 1.1)。這個革命性的發現讓後 來的科學家能在這個基礎上,從分子層次進一步探討生物性狀遺傳的機制,正式開啟 了分子生物學的研究領域。 兩奈米. 副凹溝. 3.4 奈 米. 主凹溝. 圖 1.1 DNA 雙股螺旋 資料來源:(林天送,2009) 1.
(11) 1950 年代初期多位科學家的努力,終於確認核酸才是遺傳訊息的編碼者。核酸的 分為兩種,核醣核酸(Ribonucleic, RNA)和 DNA 兩種,組成 RNA 的鹼基,分別是腺嘌 呤(A)、鳥嘌呤(G)、尿嘧啶(U)與胞嘧啶(C);組成 DNA 的鹼基,分別是腺嘌呤(A)、鳥 嘌呤(G)、胸腺嘧啶(T)與胞嘧啶(C)(如圖 1.2)。. 圖 1.2 DNA 與 RNA 主要四種鹼基結構 資料來源:(林天送,2009) 隨著人類基因組計畫的完成,已將 DNA 上 29 億個核苷酸序列初步圖譜(A、G、 T、C)的排列順序定出。一股 DNA 上所具有的各類型鹼基,都只會與另一股上的一個 特定類型鹼基產生鍵結。此種情形稱為互補性鹼基配對。嘌呤與嘧啶之間會形成氫鍵 (如圖 1.3),在一般情況下,A 只與 T 相連,而 C 只與 G 相連。且研究顯示在 G-C 密 度比較高的片段當中通常會具有比較豐富的生物意義(呂學一,2005)。而 DNA 是負責. 2.
(12) 遺傳的主要分子,四種鹼基(A、G、T、C)組合而成的長鏈分子(如圖 1.4),依任意的順 序排列,以致造成相互間極大的不同;RNA 是負責傳遞遺傳訊息的分子,它將 DNA 的遺傳密碼攜帶出來,並負責將 DNA 所下達的遺傳指令,合成相關的蛋白質。DNA 分子會進行自我複製,而 DNA 分子將遺傳訊息傳遞給 RNA 分子的過程稱為轉錄, RNA 由 DNA 所提供的訊息製造出相關蛋白質的過程則稱為轉譯(如圖 1.5)。蛋白質分 子在生物細胞中,負責所有生化反應及新陳代謝的催化工作,如果身體中一個蛋白質 功能失調,或合成的數量失衡,將導致生理機制失常的連鎖反應。. 圖 1.3 華生-克立克配對(Watson-Crick Base Pair) 資料來源:(曾哲明,2008). 3.
(13) 圖 1.4 構成生物細胞的三種生物分子 資料來源:(劉宣良,2003). 圖 1.5 DNA 轉譯成蛋白質 資料來源:台聯大生命科學課程改進計劃(http://life.nctu.edu.tw/~mb/c10101.htm) 1990 年,美國由 James Watson 領導的團隊,啟動一項人類基因體計畫(Human Genome Project,HGP),預定將人類含 3.3×109 個核苷酸的基因體定序出來;2000 年人 類基因體的定序工作完成,由於生物科技及基因工程的研究近年來蓬勃發展,為了協 助處理和解讀數量龐大的遺傳密碼,利用電腦的資料處理、分析及比對,使得生物資 訊 學 (Bioinformatics) , 又 稱 為 計 算 生 物 學 (Computational Biology) 或 資 訊 生 物 學 (Information Biology),因此誕生。除了處理分析遺傳密碼的相關資訊之外,各種生物. 4.
(14) 與醫學相關的影像處理技術需求也是與日俱增 (曾哲明,2008)。 生物資訊學利用應用數學、資訊學、統計學和計算機科學的方法研究生物學的問 題。目前的生物資訊學基本上只是分子生物學與資訊技術的結合。生物資訊學的研究 材料和結果就是各種各樣的生物學數據,其研究工具是計算機,研究方法包括對生物 學數據的搜索(收集和篩選)、處理(編輯、整理、管理和顯示)及利用(計算、模 擬)。目前主要的研究方向有:序列比對,基因識別,基因重組,蛋白質結構預測,基 因表達,蛋白質反應的預測,以及建立進化論的模型。 根據美國國家衛生研究院生物科技資訊中心的說法,生物資訊學是一個結合生物 學、計算機科學及資訊科技所形成的新研究領域,最終的目標是發現新的生物認知, 進而建立生物系統的大概念,以辨識生物學的各項準則。在基因組分析剛開始的時 候,生物資訊學所關心的是如何以資料庫儲存各式各樣的生物資料,包括 DNA、RNA 及蛋白質序列。這些資料庫中的資訊,終究要結合成全面性的系統,釐清正常細胞各 階段的表現,以利我們對疾病的發展能有更精確的了解(趙坤茂,2005)。 人類基因片段複製現象的序列佔人類基因體約 5.3%,推論應該在四千萬年前開始 陸續被複製,某些複製片段包含特殊功能區(Functional Domain)的編碼序列。在生物體 的 DNA 序列長度非常的驚人,更複雜的是,人類基因並不是連續地存在於基因體 上,而是在轉錄過程中由許多小片段(表現子,Exon)組合而成的訊息片段(林文昌, 2005)。要在這些序列中找到一小片段的資訊可以想見是一件非常困難的事情。這一小 片段稱之為基因片段(Motif),Motif 是指在物種體內,隨著千萬年的演變,通過天擇的 嚴酷挑選,形成並留存在生物體內的一個重要構成部分。而生物資訊學利用數學工具 從大量數據中提取有用的生物學資訊。重要的挑戰是如何判讀、擷取這些龐大的生物 資訊,為人類社會帶來福祉(劉宣良,2003)。. 第二節 研究動機 生物資訊技術能快速、精確的對生物序列進行深入的分析與探討,在短時間內處 5.
(15) 理大量資料,不僅其效率遠遠超越傳統實驗方法,而生物資訊所能提供的整體觀 (Holistic View) 探索方式也是分子生物學家從未達成的遙遠夢想。藉由「生物資訊」這 項有力的工具,過去研究人員耗費數年之工作,幾乎可縮短在數週或數天內完成,亦 即人類生物技術開發百年來的緩慢進展,將可望透過「生物資訊」這項新的工具技術 而在二十一世紀初有重大迅速的突破(趙月秀等,2002)。 生物資訊可能面對的問題,在沒有任何的先前知識,對一組未知的序列、感興趣 的特定潛在轉錄因子,擷取一段DNA相關聯的序列,透過兩兩相似序列的比對找出相 似的共通點,最後定義序列組的特徵,則這一段感興趣的DNA序列稱為Motif。Motif是 指在物種體內,經過長久不斷的演變,通過天擇的嚴酷挑選,某些重要的基因片段依 然保存,並沒有隨著演化的過程中突變形成並留存在生物體內的一個重要構成部分(楊 鎮嘉,2004)。然而生物體的DNA 序列長度非常的驚人,要在這些序列中找到一小片 段的資訊可以想見是一件非常困難的事情。 隨著DNA上大量的核苷酸序列資料定序,這些龐大的DNA生物分子資料,記載了 人類性狀的遺傳機制,一些重大疾病可能會跟隨著遺傳機制。生物學家紛紛投入多年 的努力,漸漸的經過繁複的實驗,從DNA序列中找到許多的Motif,也建立了資料庫以 供查詢。雖然定序大量的生物基因註解,對生物學家而言大量的序列資料產生,使得 實驗研究經費及研究基因體功能所花費的時間都相對的增加非常多,但是當遇到有新 的DNA序列,我們要如何快速的找到裡面所包含的Motif資訊,是值得研究的問題(楊鎮 嘉,2004)。若能在一些Motif中有效的探索及分析,從這些龐大的序列資料中找到此段 的資訊,生物學家將能運用Motif的訊息,來調控基因甚至藉此來了解基因的功能及分 類相似的物種,對於疾病的性狀特徵能預先的掌握並加以防治,更進一步在疾病領域 達到有效的預防與治療,對於延續人類的生命與優良的特性有莫大的幫助。. 第三節 問題敘述 在生物的DNA序列中,隱藏著大量決定生物的特徵,或是某些功能等資訊,這些 6.
(16) 資訊藏於龐大生物分子序列中,可能只是一段小片段,而且可能有著許多的雜訊存在 (Branden & Tooze, 1991)。為了找出其長度、位置、雜訊或方向性,已有學者發展出不 同的尋找方法,而且也有著相當不錯的結果。假設有一固定長度序列,其中含有未知 的序列片段M,也就是我們所稱的Motif,其長度為l。在這個問題中,我們目的即是要 在長度為L的N個序列中找出這個Motif,每條序列中都有一個和M相似的片段。而這些 和M相似的片段,事實上即是將這些Motif長度為l之中的d個位置做改變,而這些改變 的位置稱為雜訊(Noise),又稱為突變。將這個和M相似的片段稱之為(l,d)-Motif,而問 題研究的目的就是將這個(l,d)-Motif找出來。例如:(7,2)-Motif表示一個長度為7的字 串,而允許有2個雜訊。圖1.6所示為在N個長度為16的字串中找到三個(7,2)-Motif,意 即一個長度為7且有2個雜訊Motif的片段。. ACCAGACAGGATTTAT 在長度為 16 的序列裡 GACAGGA 含有未知的序列片段 M,其長度 l 為 7,則稱這片段為 Motif. AGAAAGCAGTTATCGC …. TCAAGGCAAGACAGTC. 長度為 L 的 N 條序列. AAACACCCGTCAGGTA 而每條序列中都有與 M 相似的片段. signal. GACAGGA GACAGGA M: GACAGGA … 與 M 相似片段: GAAAGCA GGCAAGA GT CAGGT 而每條相似的片段,皆有兩個雜訊(signal). 圖1.6 Motif 搜尋範例 資料來源:本研究整理 至於比對的品質的評估,用以下簡單的範例作說明。假設以5條長度為40的序列, 7.
(17) 每條序列分別植入(8,2)-Motif: CGAGTTCGCGGGTAAACATAGCGGAACATACTAGCTCCGT TCCTTTGTGTTAGACACTTTTATAAAGTTGGCCACCTTTT CATATCCTATGCACATGATATGACTGCCGCTTAGTAACCG GCGCGTACCGTTTCGTCCCATCTGAGCGTTATACTCTCCA ATAGTAATGACCTTCATTCTTGGTGTTGCACTAGCGCAAT 將灰底線相同長度的片段作序列比對,其Motif的計算方式利用位置發生次數矩陣 (Position Frequency Matrix, PFM),如圖1.7:. A. T. A. C. T. A. G. C. A. C. A. C. T. T. T. T. A. T. C. C. T. A. T. G. A. T. A. C. T. C. T. C. A. T. A. G. T. A. A. T. A. 5. 0. 4. 0. 0. 3. 1. 0. C. 0. 1. 1. 4. 0. 1. 0. 2. G. 0. 0. 0. 1. 0. 0. 1. 1. T. 0. 4. 0. 0. 5. 1. 3. 2. A. T. A. C. T. A. T. C. Alignment. Profile. Consensus. T Consensus Score = 5+4+4+4+5+3+3+2 = 30. 圖1.7 Motif比對品質評估計算方式 資料來源:本研究整理 8.
(18) Consensus Score 為共通分數,其定義如式 1.1: ,. Consensus. ∑l. (式 1.1). 其中 P(s)表示 Profile Matrix 對應於開始狀態 s,DNA 為 A、T、G、C 的四個鹼 基,使用MP 如:MP. j 表示最大的計數在行 j 的 P(s),l 為 Motif 的長度,此問題的 l 為 8。例. 1 =5、MP. 2 =4…MP. 8 =2,表示第一列最高分為 5、第二列為 4、至第. 八列為 2,所以此範例的 Consensus Score(s,DNA)為 5+4+4+4+5+3 +3+2=30。 而在 Sze et al. (2002)的研究中,發現在生物定序技術上,儘管有著重大突破,但 是 仍 然 有 些 問 題 引 起 許 多 科 學 家 的 興 趣 , 其 中 之 一 便 是 挑 戰 者 問 題 (Challenge Problem)。在生物 DNA 序列中,特定基因序列片段(Motif)扮演著相當關鍵的角色,但 其 DNA 序列,卻也有著可能產生變異的可能性。當其發生變異,可能會導致在 DNA 定序的錯誤,由於 Motif 的位置變異不一,將會導致在搜尋比較時,產生相當大的落 差,其結果可能並不是所要找尋的 Motif,而真實的 Motif 卻被隱藏在龐大資料中。挑 戰者問題是指如何在 20 條長度為 600 的序列中是否能找出所植入長度 l=15 的 Motif, 突變個數 d 為 4 的 Motif 出來,一般以(15,4)表示這個問題。如果兩條序列之間突變的 位置各不重疉,那就相當於在比對序列時,有 8 個不確定的突變,剛好是序列長度的 一半,代表著長度 15 的序列有著一半的突變,這將會大幅增加搜尋的複雜度,所以找 出(15,4)-Motif 是具有一定的難度,故一個演算法能否順利解決挑戰者問題便具有指標 性意義。. 第四節 研究目的 存在蛋白質或是DNA序列裡的Motif,多半是在生物體內有著重要功能,或是說在 結構上重要的特性。這個結論是因為在生物體內重要的功能通常會隨著生物的演化而 保留下來。因為對生物越重要的功能,可以經過千百萬年的演化而不被淘汰,正可以 說明這些存活下來的特徵,對那些生物有很重要的貢獻。因此,紛紛有許多演算法投 入於尋找相關問題,而許多演算法皆只能解決較短的序列,當求解的問題長度增加, 9.
(19) 問題的複雜度會隨著長度增加呈指數成長。 由於DNA序列數量非常龐大,使得搜尋相當困難。最直接的找尋方法就是詳盡式 搜尋法,詳盡式搜尋法可確保每次搜尋都是最佳的結果,但所花費的時間隨著Motif及 序列長度的增加而呈指數倍成長;另一種方式便是利用啟發式演算法,雖然求解的品 質會降低,但是卻在求解的效率上可以獲得令人滿意的提升。本研究目的希望可以利 用粒子群演算法(Particle Swarm Optimization, PSO),透過一些輔助的技巧,在龐大的生 物資料中可以快速而正確的找到Motif,使得它共通分數(Consensus Score)為最高,或相 異程度最低,並期望能縮短運算的比對時間及提升求解的準確率。. 第五節 研究限制與架構 壹、 研究限制 本研究所提出改良式粒子群演算法用於尋找 Motif,設計方式目前只能針對固定長 度的 Motif 且未含有間隔(Gap)的 Motif 進行比對。. 貳、 研究架構 研究目標利用粒子群演算法解決 Motif 尋找問題,以提高尋找基因中 Motif 的正 確率。. 一、 確立研究目標 探討 Motif 的重要性,以確立研究方向。. 二、 文獻探討 根據過去用於尋找 Motif 的相關領域上的研究發展成果,進行探討與回顧。. 三、 建構研究模式 建構用於 Challenge Problem 的粒子群演算法。. 10.
(20) 四、 實例驗證與結果分析 利用所提出的粒子群演算法模式,尋找各種不同的 Challenge Problem,並將執 行結果加以分析。. 五、 結論與建議 將粒子群演算法的應用,做一總結,並提出後續研究之參考方向和改善的可行 性。. 確立研究目標. 文獻探討. 建構研究模式. 實例驗證與結果分析. 結論與建議 圖 1.8 本研究論文架構 資料來源:本研究整理. 11.
(21) 第二章 文獻探討 本章將針對與本研究主題相關之文獻,進行搜集、彙整,以作為研究方法之參考 依據。本研究的主要重心為粒子群演算法於 Motif 之研究,首先第一節將針對 Motif 作 介紹。第二節將介紹 Motif 搜尋演算法的發展演進做一個回顧探討。第三節回顧探討本 研究所採用的主要研究方法「粒子群演算法」的流程與演進的文獻。. 第一節 Motif簡介 壹、 Motif介紹 分子生物序列的Motif指的是核苷酸(Nucleotide)或胺基酸(Amino Acid)序列上經常 出現的局部片段或局部片段相似被推測出來。這種經常出現的序列片段通常不會太 長,在蛋白質或是DNA序列裡的Motif多半是在生物體內有著重要功能,或是說在結構 上重要的特性。(Branden & Tooze, 1991)每個人都有著許多共同的特徵,而這些特徵有 可能是對人類的生存有重大的影響,所以每個人的DNA序列不相同,但人體內的DNA 序列裡都會有著一些相似的片段存在。而這些片段也決定了我們身體某部份的特徵, 例如我們身體內器官的的功能特性。而這些存在我們體內,有著對我們身體具有影響 DNA序列片段,正是我們所說的Motif。而不僅僅是人類,所有的生物體內的有著 Motif,決定著每種生物的身體上的不同功能。. 貳、 Motif的類型 不同的搜尋方式可以找出不同類型的Motif,大部分一般的Motif可分隔為:明確樣 式 (Deterministic Pattern) 和 機 率 樣 式 (Probabilistic Pattern) 。 明 確 樣 式 是 指 給 予 一 段 Motif,在序列中可以找到這段Motif,也可以沒有找到這段Motif,例如:TATA box並非 在所有序列中可以找的到,但可以確定的是TATA box 屬於明確樣式;而機率樣式指 在序列中利用機率模式獲取樣式 (Brejová et al., 2000)。 12.
(22) 一、 明確樣式(Deterministic Pattern) 一般明確樣式的基因序列通常是簡單的形式,如:TATTATAT,然而Motif會根 據不同的類型也有其他較為複雜的樣式,一般有下列三種類型: (一) 模糊的字元(Ambiguous Character) 模糊的字元表示可能由任何字元所組成,例如:一個Motif A-[C、T]-G 由三 個字元所組成,開始字元為A,結束字元為G,介於A 和G 中間的可能為C 或 T,因此組合可能為ACG 或ATG,[C、T]就叫模糊字元。 (二) 隨意字元(Wild-Card) Wild-Card 為模糊字元的特殊類型,在蛋白質序列中以X表示,在核酸序列 中以N表示,一般也有用「.」表示,當有一連串的Wild-Card 出現時則稱為 Gap。 (三) 彈性的間隙(Flexible Gap) 序列中Gap的長度可以為變動的,例如: i表示序列中Gap最低的長度,j表示 序列中Gap最高的長度,則x(i,j)代表Gap長度介於i和j兩者之間的序列都可以, 另外一種形式x(i)定義為Gap的長度為一固定數i。例如:A-X(4)-T-X(1,3)-GC。. 二、 機率式樣式(Probabilistic Pattern) 明確樣式無法很輕易判斷隱藏在序列樣式中細微的資訊,因此需要藉由機率模 式來考慮序列中所有訊息,假設在一序列位置中可能出現A的比率為70%,而有30% 的機會出現G,無法因為G 比率較低而忽略可能出現的機率,無論字元出現機率的 強弱都必須合併考慮。此代表性的類型如:位置權重矩陣(Position-Weight Matrix)即屬 於機率式樣式類型。. 13.
(23) 第二節 Motif尋找演算法 壹、詳盡式搜尋(Exhaustive search) 一、 TEIRESIAS TEIRESIAS是一種類似詳盡式搜尋的方法,執行時間也是呈指數倍數成長,但 是相對於原始的詳盡式搜尋,它對大部分狀況卻有著不錯的效率。它運用類似修剪 列舉樣式的概念,將所有可能的短 Pattern列出,再將這些較短的序列修剪成符合所 需長度的Pattern。此演算法可以用來找尋內含隨意字元的資料,ㄧ般都以一個(L,W) 的Pattern表示,但處理時間會隨資料的數目增加而增加,且無法比對模糊字元與長 度不一的片段。TEIRESIAS演算法對參數有以下幾個限制: (一) Pattern的開頭和結尾必須是一般字元,而不能是隨意字元 (二) Pattern必須具有L個不含有隨意字元的子字串,且子字串的長度不可超過W (三) 另外至少需要有k個序列內含有(L,W)的Pattern 如圖2.1,在下列四個不同的序列中以k=2、L=3、W=4的條件找尋,也就是 必須條件為每條子字串的長度不可超過4,每個子字串內需含有3個一般字元的 可能Pattern,則可發現AAC及GT.G這兩個樣式符合條件。. 14.
(24) 圖 2.1 TEIRESIAS 演算法範例一 資料來源:(Rigoutsos & Floratos, 1998) 另一個TEIRESIAS原理是假設P為一個(L,W)的Pattern,而且在k個序列中都 有出現的話,則此P的子字串也會是一個(L,W)Pattern,而且也會在k個序列中出 現。只要將這些短的Pattern 慢慢的加長,最後就可以得到一個長度符合需要的 Pattern。例如圖2.2,有三個Elementary Patterns分別為A.AC、ACT和CTC,三個 Pattern最後可以構成A.ACTC。. 圖 2.2 TEIRESIAS 演算法範例二 資料來源:(Rigoutsos & Floratos, 1998) 15.
(25) 然而TEIRESIAS演算法仍有一些問題,例如:執行時間會隨著Pattern組合的 增加而呈指數的成長,加上TEIRESIAS只允許Mismatches為隨意字元(Wild-card) 故 對 含 有 模 糊 字 元 (Ambiguous Character) 的 Pattern 則 無 法 進 行 比 對 , 另 外 TEIRESIAS並無法處理Gap的長度可以彈性的變動。 另外,由於TEIRESIAS演算法本身即限制了Pattern 的樣式,對許多含有間 隙 (Gap) 或 模 糊 字 元 (Ambiguous Character) 的 Pattern 無 法 進 行 比 對 , 也 是 TEIRESIAS 演算法本身的一大缺點,例如:執行時間會隨著Pattern的增加而呈 指數分配成長,加上因為TEIRESIAS只允許Mismatches為隨意字元(Wild-card)故 對含有模糊字元(Ambiguous Character)的Pattern則無法進行比對,再者TEIRESIAS 並 無 法 處 理 長 度 不 一 的 片 段 ; 另 一 個 TEIRESIAS 原 理 是 假 設 P 為 一 個 (L,W)Pattern,且也會在K個序列中出現,只要慢慢將這些較短的Pattern慢慢的 加長,最後就可以得到一個長度符合需要的Pattern。(Rigoutsos & Floratos, 1998) 二、 WINNOWER WINNOWER 是種搜尋所有可能的組合,並建構一個圖型,運用圖形理論來描 繪出 Motif。而 WINNOWER 的過濾方式主要有三種模式: (一) Filtering Weak Vertices(k=1) 在k=1的模式中,每個點(Vertex)代表一個Clique,若ㄧ點(Clique)與任何區 塊中都至少有一點彼此相關聯,則稱此點為擴展的群體(Expandable Clique),反 之若在圖形G中若該點與周圍鄰近的點不相關,此點為謬誤(spurious)的須將此 點過濾。然而此方式並不是適當的,容易造成謬誤無法產生好的結果。 (二) Filtering Weak Edges(k=2) 在k=2模式中,Clique為點與點所形成的邊界(Edge)如:(x,y)兩點形成邊界 稱為Clique,假設有另一個點W,W可以和點X與點Y形成邊界,這三個點可以 構成一個循環(cycle)則此稱為Expandable Clique,利用Clique過濾移除不相關的 16.
(26) 邊界,這方式其執行的結果比CONSENSUS、GibbsDNA和MEME要來得好。 (三) Filtering Weak Triangles(k=3): 此方式能得到最好的結果,相對地也較複雜,需同時考慮頂點與邊界,在n 個點中必須至少有. 2 個Expandable Clique,也就是每一條邊界至少包含(n-2) 2. 個Extandable Triangles,舉例來說假設有三個點A、B、C可以構成(A,B)、 (A,C)、(B,C)三條邊界,在此模式下每條邊界必須包含. 2 2. 1個Expandable. Clique。 以k=1為例,WINNOWER利用建構圖形來過濾出與周圍鄰近的Pattern不相 關的謬誤Pattern,如下圖:虛線為謬誤的Pattern,而TTCGA、GCTA、GCGT、 TGCCT可以集合而成Clique如圖2.3:. 圖 2.3 WINNOWER 演算法範例一 資料來源:(Pevzner & Sze, 2000) 舉例來說,想從下列四個序列中找出(15,4)-Motif,首先標出所有可能的點 (Pattern),並將相關的點彼此間連成邊界,在過濾出與周圍鄰近的點不相關之謬 17.
(27) 誤的點如圖,虛線為謬誤的點,實線代表可形成Clique的點,最後可以找出一個 Extandable Clique如下圖2.4:. 圖 2.4 WINNOWER 演算法範例二 資料來源:(Pevzner & Sze, 2000) WINNOWER 也是一種反覆演算法,在大量的群體中,藉由反覆過濾出謬 誤的模式來尋找真正的信號,因此在尋找的過程中謬誤資訊太多不容易判斷, 所以有時候常在結果中找不到訊號(Pevzner & Sze, 2000)。. 貳、非詳盡式搜尋(Non-Exhaustive Search) 非詳盡搜尋的方式,一般藉由計分函數、機率模式、背景比率等技巧盡可能縮小 比對範圍,透過反覆精練來達到搜尋的目標,非詳盡搜尋可以快速的找到所要的答 案,但此答案未必是最精確的解,下列介紹幾個演算方式。. 18.
(28) 一、 CONSENSUS CONSENSUS類似貪婪(Greedy)演算法,主要使用Entropy來計算Motif得分把其 視為Ungapped的Patterns,並運用計分矩陣來收集越來越多的Patterns Instance,並以 得分最高的矩陣不斷循環建構出最有可能的Motif但執行速度較慢。例如:有三個序 列 S1=ACTGA 、 S2=TAGCG 、 S3=CTTGC 若 以 4-mer 為 一 組 假 設 首 先 利 用 S1 中 ACTG來建構矩陣,在以得分最高的矩陣來持續進行Pattern收集,如圖2.5:. 圖 2.5 Consensus 演算法範例 資料來源:(Hertz & Stormo, 1999) Consensus需利用兩個構面的參數(Pattern長度和期望發生數)來搜尋,相較於只 運用一個構面(Pattern的長度)的方式在執行速度上要來的慢了許多。(Hertz & Stormo, 1999). 19.
(29) 二、 Gibbs Sampling Gibbs 的 做 法 主 要 概 念 是 利 用 反 覆 式 啟 發 演 算 法 (Iterative Heuristic Method)(Claverie & Bougueleret, 1986)配合位置比重矩陣(Position Weight Matrix)來計 算每個子字串(Subsequence)出現在整個序列的機率來找到一個最接近的答案。首先 使 用 隨 機 (Randomized) 的 方 式 選 擇 在 各 序 列 上 的 開 始 位 置 , 重 複 去 改 善 起 始 的 Motif , 最 後 再 使 用 位 置 比 重 矩 陣 (Position Weight Matrix) 來 計 算 每 個 子 字 串 (Subsequence)出現在整個序列的機率,經由反覆的計算來讓位置比重矩陣趨近最佳 結果。因為是運用隨機的方式,所以每次執行時都有可能會產生不同的結果,通常 選擇執行結果為最好的一次。另有一些Gibbs Sampler是採用一些特殊物種的背景分 佈(Background Distributions)像是酵母菌(Yeast)來幫助尋找更精確的Motif。然而因為 Gibbs Sampler所找出來的解趨近於區域(Local)最佳化,所以並無法保證能找出最佳 的解,因此若有許多重要的Pattern再序列中發生的頻率不高,那將會有極大的可能 會忽略此調控特徵(Lawrebce et al., 1993)。 三、 MEME MEME對於找尋Motif是種比較常用且流行的方法,它是種統計程序用來預測遺 漏的值,可以自動搜尋Motif長度和估計候選Motif 統計上的顯著,MEME演算法基 本上是假設資料中至少須有一條相近的子序列(Subsequence) 藉由這條子序列找尋 Pattern,方式如下: (一)設立一個位置權重矩陣(Position-Weight Matrix)的起始模式(Initial Model),每 一條子序列利用起始模式將序列中每一個鹼基所對應的一個位置給予一個機率 P。 (二)將每個起始的模式運用執行反覆的 EM 演算法來計算相似得分,再選擇相似 得分最高的模式將其運用於反覆 EM 演算法。 MEME使用了一個簡單的機器學習演算法(Machine Learning 演算法),稱之. 20.
(30) 為Expectation Maximization演算法(Lawrence & Reilly, 1990)。而這個演算法的目 的在於計算出一個位置比重矩陣。希望可以計算出根據所給的不同序列,在不 同位置出現的機率。而這個方法的應用可以容易的轉換到不同的樣式尋找問 題,可以加入間隙,或是可以允許雜訊等。這個演算法可以分成兩個步驟: 1. E Step : 對每一條序列,還有每條序列的每個位置,計算出Pattern在S中每個位 置出現的機率。而之後的每次計算都根據前次所算出的機率進行修改,最 後得出一個位置比重矩陣。但若是在一開始計算的時後,一般情形下,所 有的參數通常都是使用亂數產生。 2. M Step : 對Pattern中的每一個位置計算每一個字元在此位置上出現的機率值, 而這些機率值都是根據在E Step中所算出的位置比重矩陣算出。這些值會 用 來 做 出 一 個 新 的 機 率 分 布 模 型 , 用 來 算 出 Pattern的 出 現 機 率 。 然 而 Expectation Maximization演算法(Lawrence & Reilly, 1990)卻有會因為在E Step初始化位置比重矩陣時,因為亂數產生所有一開始的機率值,有可能 因而導致最後的結果若入區域最佳化,而非全域最佳化。而另一個問題則 是,當發生每一個Pattern只出現在一條序列中的時候,而不是出現在所有 的序列時(Bailey & Elkan,1995)。 四、 SP-STAR 主要以設計得分函數(Sum of Pairs Scoring)來找尋Motif。假設得分方式為: Match得分+1;Mismatch得分-1,則序列AAGAT得分: Score(A,A)+Score(A,G)+Score(A,A)+Score(A,T)+Score(A,G)+Score(A,A)+Score(A ,T)+Score(G,A)+Score(A,T)=1-1+1-1-1+1-1-1-1=-3。再利用得分函數存取收集到的候 選Motif,從這些當中找出最好的Instance,這些收集到的Instance將成為一個起始 21.
(31) (Initial)的Motif,再利用啟發(heuristic) 區域改良方式(Local Improvement),來改良所 找到的起始(Initial) Motif。 但此演算法當長度愈長愈無法有個很好的得分估計,舉列說:假設Match得分 +1;Mismatch得分-1,則AAA和AAG兩者分別得分為3和-1兩者相差4分,當序列增 長如AAAAA和AAAAG則分別得分為10和3兩者相差7分,雖然兩種情形都只有一個 變異,但在得分卻有所不同(Pevzner & Sze, 2000)。 五、 Random projection Approach 為了增進執行效能Buhler & Tompa (2002)發展了另一種演算法PROJECTION, 此種方式就可以在序列長度超過1300bp又能精準的找到Motif,但需再利用EM或 Gibbs Sampler反覆精練才能出最好的Motif。 首先先隨機均勻選擇一個k個位置的Projection,在一個序列中以每l-tuple長度為 一組,用Hash的方式並依照所選擇的k個位置的字母相同的將其納入Bucket,再從 Bucket中找尋Motif,步驟如下: (一) Random Projection 如圖2.6,首先選個長度l-tuple,l=7(Motif Size),隨機選擇k=4(Projection Size) 的位置(1,2,5,7),用Hash方式每l-tuple為一組搜尋序列中可能的Motif放入Buckets. 22.
(32) 圖 2.6 Random Projection 資料來源:(Buhler & Tompa, 2002) (二) 反覆運算 如圖2.7,每個bucket至少有s個序列,假設s=4,計算出矩陣在利用EM或 Gibbs Sampler反覆精練(Refinement)出最好的Motif(Buhler & Tompa, 2002)。. 圖 2.7 利用 EM or Gibbs Sampler 反覆運算 資料來源:(Buhler & Tompa, 2002) 六、 MULTIPROFILER 在 2002 年學者針對 PROJECTION 做了改善發展了 MULTIPROFILER 演算法, 23.
(33) MULTIPROFILER 能夠找尋與 PROJECTION 發現相同的 Motif 並達到 99%的準確 度,另外可在序列長度為 3000 中發現約 98%的 Motif。(Keich & Pevzner, 2002) 七、 IPSO-GA(Integrating an Improved Particle Swarm Optimization with Genetic Algorithm) (Zhou, W. et. al, 2005) IPSO-GA 演算法用於 Motif Finding,從各條生物序列中,各選取一個框格的字 串,將每條序列所選取到的框架進行計算,直至找到最佳組合為止,即最大適應 值;可能的組合(搜尋空間)數目根據式 2.1: p l d . s. (式 2.1). 其中 p 為可能的組合數目、l 為序列長度、d 為 Motif 長度、s 為序列數目,生 物序列可能的核苷酸矩陣是利用適應值函數量測。IPSO-GA 用於 Motif Finding 的步 驟如下: (一)編碼(Coding) GCATGCGCCACCATGCCCAGCTAATTTTGTATTTTTTTTAGA TGCCTTCTGAGTTCTCCATCCCACCCTGGTTGTTTTTTTTCT TGAGGAAATGACCGGTATAGTCAGGAGCTGGCTTTTTTTTTG ACACGTGGATCTGTGGGACCCTCCACCCACACAAAAGCAAAA TGCCACAAGGTCCTCCTTTGACATCCCCAACAAAGAGGTGAG TCCTGCTATAGGGCCAGGAAAACAAAGATGAGCATGCCATTT CGTGATCCTTTATAGCGCTAGCCACCTGGGGGCCAAGGGGCG CAGCCTCAGAGACCCAGGTATCCCATAATGGTACAGATAGCA TTGTGGCAGGAGTTGAGGTTACTGTGAGTAGTGATTAAAGAG 111111111122222222223333333333444 123456789012345678901234567890123456789012 圖 2.8 框選的個別集合 Xi=( 8, 22, 31, 17, 6, 23, 13, 27, 10) 資料來源:(Zhou, W. et al., 2005) 圖 2.8 為 Xi 框選的集合為第 i 次運算 X 的集合。編碼的方式是在各序列. 24.
(34) 上,隨機框選一固定長度為 8 的框格,將框選最前面的字串位置記錄成集合的 數字(ex:第一條框選的起始位置為 8),隨機框選不能超過序列長度,框選的範圍 為 l-d+1 始位置成 Xi 的集合,Xi 即為第 i 個粒子。 (二)區域搜尋(Local Search) 為了擴大、加強區域搜尋的能力,提出兩種變異運算:框選位置的改變及 A+T 比率的量測,其運算虛擬碼如圖 2.9:. 圖 2.9 區域搜尋虛擬碼 資料來源:(Zhou, W. et al., 2005) 將每一個粒子(Xi 集合)額外產生九個粒子進行競爭,一個新的粒子產生從 原始粒子各位置隨機跳動 1 到 3 範圍(ex: Xi =( 8, 22, 31, 17, 6, 23, 13, 27, 10), Xi+1 =(8+1, 22+2, 31+1, 17-3, 6+3, 23-1, 13+3, 27-2, 10+1)),再隨機產生一個值, 若隨機值小於 0.2,則此新的粒子即產生;若值大於等於 0.2,則在計算所框選 裡 A+T 的頻率,A+T 的出現頻率需大於等於使用者的定義,才可產生候選解, 最後,十個粒子(1 個原始+9 個產生)進行競爭,選出最好的取代原始粒子。. 25.
(35) (三)適應值函數(Fitness Function) 利用相似度(Similarity)與複雜度(Complexity)來計算適應值函數,計算公式 如式 2.2、2.3: Fitness (i ) w1 Similarity (i ) w2 Complexity (i ). Complexity(i) log10. d! ni !. (式 2.2) (式 2.3). w1 及 w2 為分別代表的權重,經實驗訂 w1=0.6, w2=0.4;相似度是計算第 i TATA 個粒子各列(Column)A、T、C、G 的頻率,1 減去最好的值,(ex: GCGC 第一 TATA. 列 Fitness=2/3=0.67、G=1/3=0.33,1-0.67=0.33),最後加總各列的值,即為相似 度;複雜度是計算第 i 個粒子 A、T、C、G 出現的次數,框選長度的階層除以 A、T、C、G 出現次數的連乘階層(ex: NA=1, NT=2, NC=0, NG=1,所對應的序列 為 ATTG,Complexity =24/(2*1*0*1) =0),權重乘上相似度及複雜度,即為所對 應的適應值。 (四)更新與交配(Update and Crossover) 先執行粒子的速度及位置更新步驟,再進行交配。其粒子的速度及位置更 新的虛擬碼如圖 2.10:. 圖 2.10 IPSO-GA 速度及位置更新虛擬碼. 26.
(36) 資料來源:(Zhou, W. et al., 2005) 圖 2.10 的 Equation (1)、(2)為 PSO 基本速度及位置更新公式如式 2.4、2.5: Vi (t 1) w V i(t ) C1 rand () Pi t X i t C 2 rand ( Pg t X i t (式 2.4). X i (t 1) X i (t ) Vi (t 1). (式 2.5). 首先將所有粒子代入速度更新公式,每個粒子的起始速度為隨機產生 1~8 之間的速度,並有最大速度之限制,最大速度限制在正負 16,超過上、下限值 則以邊界值取代;速度更新完後,再代入位置更新公式,將粒子的位置加上新 的速度,即為新粒子的位置,位置也給予上、下限值,超出上、下限值以邊界 值取代之。 為了避免過早陷入局部最佳解,利用基因演算法交配產生資料的多樣性, 交配方式將兩個粒子進行單點交配,交配方式如圖 2.11:. 圖 2.11 IPSO-GA 粒子間單點交配 27.
(37) 資料來源:(Zhou, W. et al., 2005) 從所有粒子隨機選取兩個粒子,進行兩兩相互交配,如圖中 Particle I & J。 圖 2.11 中,Particle I & J 的 X 集合都共有 9 個,交配的切入點從這 9 個點隨機 選取一個點作切入點,切入點隨機選取到第 7 個點,兩兩粒子第七個點後的位 置進行交換,則完成交配的動作。 八、 QPSO(Quantum Particle Swarm Optimization) (Meshoul & Al-Owaisheq, 2009) QPSO 公式解決 Motif Discovery Problem 的步驟如下: (一)編碼(Coding) 編碼方式如同 IPSO-GA 演算法,從序列(Seq1)長度(L)中選取一段 Motif 長 度(l),記錄每條序列所取到 l 起始位置(P1, P2,…PN)的樣式(Pattern),如圖 2.12 所示:. 圖 2.12 QPSO 編碼方式 資料來源:(Meshoul & Al-Owaisheq, 2009) (二)適應值函數(Fitness Function). 28.
(38) 適應值是涉及 Pattern 間的匹配程度,所以給予 Pattern 與 Pattern 間一個匹 配權重,如式 2.6: Wij Matches _ number s i , s j . (式 2.6). Wij 為匹配的權重,計算兩兩 Pattern 間有多少的相同字串數目,因此,適 應值函數的計算為加總 Wij,如式 2.7: N. i 1. Fitness Pk Wij. (式 2.7). i 1 j 1. Fitness(Pk)為加總所有 Wij 的適應值數,N 為序列的總數。 (三)更新位置(Updating Position) 許多 PSO 的只探討到速度的應用,QPSO 是只針對位置做探討,其位置更 新計算如式 2.8、2.9:. If. k 0.5 then Pi (t 1) p β Mbest Pi (t) ln(1/u). (式 2.8). Pi (t 1) p-β Mbest Pi (t) ln(1/u). (式 2.9). else. k 與 u 為 0~1 隨機亂數,呈均勻分配,隨機產生一個 k 值,若 k 大於等於 0.5,則進入式 2.x,反之,代入式 2.x;p 為一變數,反映粒子收斂的指標;β 為 收縮膨脹係;Mbest 為最佳的位置或最好粒子群的重心;Pi(t)為粒子位置; Mbest 的計算如式 2.10:. Mbest . 1 M. 1 Pselfbesti i 1 M M. M. Pselfbesti1 , i 1. 1 M. M. Pselfbesti 2 , i 1. 1 M. M. Pselfbest i 1. iD. . (式 2.10) M 為粒子數的多寡;Pselfbesti 為第 i 次運算最好的位置;D 為問題的維度 大小,將所有粒子最好的值加總取平均,即為 Mbest。p 變數更新如式 2.11: p 1 Pselfbest i 1 1 Pgbest 29. (式 2.11).
(39) φ1 為 0~1 間隨機亂數,利用 φ1 分別乘區域及全域最佳,以得 p 值,最後將 式 2.10、2.11 代回 2.8 或 2.9 中,以求得新的位置。 九、 PSO (Particle Swarm Optimization) (Lei & Ruan, 2008 & 2009) 其編碼、位置更新方式與 IPSO-GA 相同、適應值的計算與 QPSO 相同,主要的 不同在於建立不相似字元圖及速度更新上的差別,其差別如下: (一)不相似字元圖(Word Dissimilarity Garph) 先隨機在每條序列中選取一段 Motif,針對每一條所選取到的 Motif,建立 不相似字元圖,如圖 2.13:. 圖 2.13 Motif 間位置及不相似關係 資料來源:(Lei & Ruan, 2008 & 2009) 圖2.13第1、2、N條序列分為ACGTTCCA、CGTTCCAT、ACGTTCCT,1 與2條的有6個不相同的字(. ACGTTCCA CGTTCCAT. )、1與N只有1個不同,則利用小範例. 作建立鄰近不相似矩陣表之說明,如圖2.14. 30.
(40) 圖 2.14 鄰近不相似矩陣範例 資料來源:(Lei & Ruan, 2008 & 2009) 圖2.14 行向(Row) 為 序 列 中 Motif的 目 前 位 置 , 列 向 (Column)為淺在新的 Motif,假設輸入的序列為CTCTGCTG、Motif長度為3、更新的選取距離為1, 則P1至P6分別為CTC、TCT、CTG、TGC、GCT、CTG,其中P1對P6只有1個不 相同,在對應P1跟P6那兩格標上1,以此類推出圖2.14表格;若P2為已知的Motif 解,則P5會被優先選上、再來P4、最後才是P1、P3、P6。然而每一條序列需作 一次這樣的動作。 (二)更新策略(Update policy) 當Motif的起始位置確定時,為了找出新的Motif(位置更新),利用不相似字 元表(Word Dissimilarity Garph),並給予速度的上、下限值,去更新、找尋新的 解,其速度上、下限值的定義如式2.12、2.13、2.14: Vi u w Vi u c1u r1 D xi , xˆ i c 2u r2 D xi , g . (式 2.12). Vi l w Vi l c1l r1 D xi , xˆ i c 2l r2 D xi , g . (式 2.13). Vi l D xi i , xi j Vi u. (式 2.14). 其中V 、V 為第i個起始位置的速度上、下限值;w為使用者自訂的權重; c 、c 、c 、c 為上、下界的學習因子;r1 、r2 為0~1間隨機亂數;D xi , xi 、 31.
(41) D xi ,g 為 目 前 Motif 位 置 (xi) 與 當 次 ( xi ) 、 全 域 (g) 最 好 Motif 位 置 的 差 異 度 ; D x i , x j 為目前與新Motif間的差異度,差異度介於最大、最小速度間。 十、 本節小結 在Pevzner & Sze(2000)的研究中比較了Consensus、Gibbs Sampling、MEME、 WINNOWER、SP-STAR幾種演算法,在找尋(15,4)-Motifs的問題上,序列長度分別 為100至1000的範圍內,其執行係數(Performance Coefficients)如表2.1: 表 2.1 在不同序列長度下不同演算法的執行係數比較 Sequence Length(N). 900. 1000. CONSENSUS. 0.92 0.94 0.53 0.31 0.29 0.07 0.15 0.09 0.01. 0.04. GibbsDNA. 0.93 0.96 0.51 0.46 0.29 0.12 0.09 0.34 0.00. 0.12. MEME. 0.91 0.78 0.59 0.37 0.17 0.10 0.02 0.03 0.00. 0.00. WINNOWER(k=2). 0.98 0.98 0.97 0.95 0.97 0.92 0.58 0.02 0.02. 0.02. WINNOWER(k=3). 0.98 0.98 0.97 0.94 0.97 0.92. 0.93 0.90. 0.88. 0.96 0.96 0.94 0.83 0.69 0.64. 0.23. SP-START. 100. 200. 0.98 0.98. 300. 1. 400. 500. 600. 700. 0.9. 800. 資料來源:(Pevzner & Sze, 2000) 表2.1中,不同序列長度下不同演算法的執行係數比較,其中執行係數,又可稱 為正確率,其定義如式2.15、2.16:. C Perfermanc e Coefficien ts T 1. T 1 d(S,P) l d T 1 C 0 d(S,P) l d . (式 2.15) (式 2.16). C為找到Motif次數,T為運算的次數,1為找到Motif,0則為沒找到,其中S為已 知的Motif片段,P為預測的Motif片段(演算法所搜尋到的解),d(S,P)為K與P的相同字 串數,l為Motif的長度,d為雜訊。例如:Motif-(6,2)S的已知解為TATATT,P為找到 的解TATATA,P跟S有4個(l-d=6-2=4)位置有相同字串。 以Gibbs Sampling、CONSENSUS、MEME三種演算法,在尋找(15,4)的Motif的 序列不長時皆有較高的效率,但隨著序列長度的增加結果越不好;另外雖然SP32.
(42) STAR和WINNOWER在搜尋(15,4)-Motif可以得到不錯的結果,但SP-STAR在序列長 度為1000bp以及WINNOWER在序列長度大於1300bp時在搜尋(15,4)的Motif也是不盡 理想。 Buhler & Tompa (2002)的研究中取了20個序列,每個序列長度為600bp,找尋不 同類型的Motif-(l,d),比較其執行係數(Performance Coefficients)結果如表2.2: 表 2. 2 不同演算法找尋不同類型 Motif 的執行係數比較 Gibbs Sampling. WINNOWER(k=2). SP-START. Random Projection. 10 2. 0.2. 0.78. 0.56. 0.8. 11 2. 0.68. 0.9. 0.84. 0.94. 12 3. 0.03. 0.75. 0.33. 0.81. 13 3. 0.6. 0.92. 0.92. 0.92. 14 4. 0.02. 0.02. 0.02. 0.77. 15 4. 0.19. 0.92. 0.73. 0.93. 16 5. 0.02. 0.03. 0.04. 0.7. 17 5. 0.28. 0.03. 0.69. 0.93. 18 6. 0.03. 0.03. 0.03. 0.74. 19 6. 0.05. 0.03. 0.4. 0.96. l. d. 資料來源:(Buhler & Tompa, 2002) 從上表可以發現Gibbs、WINNOWER、SP-STAR在面臨 (14,4)-Motif之後的問題 皆不進理想,Random Projection於(14,4)、(16,5)、(18,6)-Motif的搜尋結果不如預期。 雖然Random Projection可突破前面幾種的問題,能在20個序列每個長度為2000bp中 能 成 功 的 找 到 (15,4) 的 信 號 , 然 而 在 面 臨 尋 找 其 他 不 同 類 型 的 Motif如 : (9,2) 、 (11,3)、(13,4)、(15,5)、(17,6)仍有待進一步的改進(Keich & Pevzner, 2002)。. 第三節 粒子群演算法 壹、 粒子群演算法概述 傳統的人工智慧(Artificial Intelligence, AI),僅在探討生物個體複雜構造之組. 33.
(43) 成,進而衍生的ㄧ門計算技術。若仔細觀察大自然現象,諸如螞蟻群落、侯鳥遷徙與 覓食、魚群為躲避捕食者侵略所產生的群流效應等,看似簡單個體所組成的族群中, 僅憑著個體在環境裡與其他個體間的互動行為之簡單規則,竟隱涵了許多不可預估的 「群體智慧」 (蔡清欉,2003)。與傳統人工智慧不同的是,群體智慧強調的並非只是 研究組成個體之複雜構造,而是藉由個體間的社會行為(Social Behavior)及自我組織 (Self-Organization)之智慧,使其系統更能充分展現符合需求的整體性行為,具有進ㄧ 步探索(Exploration)與開掘(Exploitation)新方法之動力。與傳統人工智慧不同的是,群 體智慧強調的並非只是研究組成個體之複雜構造,而是藉由個體間的社會行為(Social Behavior)及自我組織(Self-Organization)之智慧,使其系統更能充分展現符合需求的整 體性行為,具有進ㄧ步探索與開掘新方法之動力。相較之下,更能突顯出群體智慧之 自我組織、分散(Distributedness)以及並行(Parallelism)等特性(Kennedy et al., 2001)。 粒子群演算法(Particle Swarm Optimization, PSO)是由Kennedy & Eberhart(1995)年所 提出,它的靈感是來自於鳥類飛行聚集的行為,理論是循著一群鳥在一個區域隨機的 搜尋食物,一開始不曉得食物在哪,鳥群會尋著自己的經驗和群體間訊息的交換,選 擇最好的方案去接近食物。粒子群演算法即是學習這樣的行為來解決最佳化的問題。 每一個單一解就像一隻鳥在空間中搜尋,也稱為「粒子」,所有的粒子有利用適應函數 去計算出適應值,並使得適應值最佳化,且粒子群也描述著飛行的速度,沿著目前最 好的解飛行穿越問題的空間(Hu, et al.,2004)。. 貳、 PSO 基本模式 PSO是一種全域搜尋法(Kennedy & Eberhart, 1995),此法具備一項重要特點,那就 是「記憶(Memory)」功能,這是其他啟發式搜尋法所無法比擬的,因此近十幾年來, 被廣泛應用於各領域中。PSO 在初始搜尋階段是以隨機方式產生一組初始粒子群,經 由反覆迭代搜尋後找到問題的最佳解。而在每一次的迭代中,每個粒子是透過兩個極 值來改變自己的搜尋方向:第一種就是粒子本身曾經找到適應值最佳的解,這個解稱 之為自身最佳解Pbest,另一種則是全部粒子群目前所找到適應值最佳的解,稱為整體最 34.
(44) 佳解Gbest。假設粒子群係由m個粒子所組合而成,在搜尋過程中,粒子i的速度及位置 乃根據下列二式進行更新: V. V. c r P. X. X. c r PG. X. x. V. (式2.16) (式2.17). 式中,k為迭代次數,V 及X 分別為粒子i於第k代之速度與位置,而P 為粒子i於第 k代之自身最佳解,P G 為第k代之整體最佳解,其更新後粒子i於第k+1代之速度為 V. ,則X. 為粒子i於第k+1代之位置,r1、r2為介於0~1之間的均勻亂數,c1和c2稱為. 學習因子(Acceleration Constants),Eberhart和Kennedy建議將c1、c2皆取值為2。PSO 的 搜尋如圖2.15所示。 Y V V. VG VP X X 圖 2.15 粒子速度及位置之搜尋示意圖 資料來源:(Kennedy & Eberhart, 1995) 在式2.16中的第二部份稱為粒子本身之認知模式,而第三部份則是粒子群中所謂的 群體模式。每一粒子之速度及移動位置,均受限於最大速度Vmax與最大位置Xmax,一旦 粒子更新後之速度及位置超出所設定的最大限制時,則需將其分別限定為Vmax 及 Xmax 。. 35.
(45) 參、 線性慣量遞減(Linear Inertia Reduction) 為了解決不易選取合理之常數慣性權重的困難,Shi & Eberhart於1998年繼而提出 將慣性權重以線性遞減方式加以處理之方法,即將式2.18中的w以下列式子決定: (式 2.18) 式中. 為使用者設定的慣性權重上限值,. 為慣性權重下限值,一般建議慣性權. 重w之範圍為0.8~1.4。 Shi & Eberhart所提出之線性遞減慣性權重的概念,使得初始搜尋階段較高的慣性 權重值,藉以保持搜尋初期全域搜尋的靈活性,並隨著進化迭代之過程逐漸調降慣性 權重,進而轉入局部搜尋之動作,加強粒子之局部搜尋能力。但許多測試結果發現並 不是所有問題皆適合使用此一線性處理方式,因此使用慣性權重之線性遞減作法,仍 然有其改善空間(Shi & Eberhart, 1998)。. 肆、 最大速度限制(Limitation of Maximum Velocity) 為了避免各粒子在使用式2.19後產生過大移動步幅,Shi & Eberhart (1998)亦建議給 予各粒子最大移動速度之限制,其最大速度計算公式如下所示: V. γ X. X. (式2.19). 式中Xub及Xlb分別為搜尋空間中設計變數之上、下限值, 則是用於取決搜尋空間中最 大速度的移動距離。 針對各粒子在更新其速度及位置時,有過大移動步幅之疑慮,經研究證實,一旦 採用最大速度限制加以約束後,使得粒子在搜尋成效上更為可靠,且可減少不必要的 計算時間(Shi & Eberhart, 1998; Carlisle & Dozier, 2001)。. 伍、 動態慣量及最大速度遞減 動態慣量及最大速度遞減(Dynamic Inertia and Maximum Velocity Reduction)由於使 36.
(46) 用線性慣量遞減的搜尋策略仍受問題之特性不同而影響其求解效能,求解品質的好壞 主要取決於線性調降之比例。一般而言,要使其能夠在初始搜尋階段以及接近最佳解 之搜尋時均有合適的w值,並不是件容易的事,且使用線性遞減易造成搜尋初期下降速 率過快,以及後期搜尋階段收斂速率過慢之現象,導致需花費較多的迭代次數才有機 會搜尋到問題之最佳解。另外,考量搜尋後期粒子會隨距離整體最佳解Gbest愈近,其 搜尋速度亦會逐漸下降,一旦搜尋初期及後期皆使用相同之最大速度限制下,不但會 造成後期搜尋效率不佳,且會浪費過多的結構分析次數。為了克服上述問題,Fourie & Groenwold(2002)提出將慣性權重及最大速度限制予以動態遞減方式處理,其使用時機 為:當整體最佳解經過連續t世代後,其適應值仍無法改善時,則需進行動態遞減處 理,亦即: (式2.20) 式中 和 分別為慣性權重及最大速度之動態調整係數,通常建議取值在0~1之間。 為第k+1代整體最佳解Gbest之適應值, 應值。其中,初始最大速度. 則代表第k世代整體最佳解Gbest之適. 則以式2.20加以定義。. 上述作法之優點在於:僅需依據搜尋過程中整體最佳解Gbest 之適應值加以判斷是 否須調降慣性權重及最大速度,如此作法除了可節省過多的結構分析次數,更能提昇 粒子之搜尋效率,進而展現不錯的搜尋性能。故本文在慣性權重及最大速度方面,即 採用此動態遞減策略加以處理,而 和 兩者動態遞減係數則採用Fourie & Groenwold (2002)的建議值,即 = 0.99, = 0.95。另外,在初始最大速度方面,保留原始解空間之 搜尋範圍,故將 取值為1。. 陸、 粒子群演算法架構 粒子群演算法初始化產生的粒子為一群隨機的粒子,透過迭代以找到近似最佳 解,在每一次的迭代中,粒子的移動受到自身目前為止所搜尋到的最佳適應值 Pbest, 以及社交鄰居中目前為止所搜尋到的最佳適應值記憶 Nbest 影響,我們也可以把母體中 37.
(47) 所有的粒子都視為鄰居,則群體所搜尋到的最佳適應值記憶為 Gbest,Gbest 可視 Pbest 的 特例(李維平、江正文,2007)。 粒子群演算法最佳化的原始架構是非常的簡單,詳細步驟如下(Eberhart & Kennedy, 1995): 步驟一:在 D 個維度的空間中,產生粒子的初始位置和速度。 步驟二:利用適應函數計算每個粒子在 D 維度中的適應值。 步驟三:將粒子先前最好的適應值 Pbest 和目前搜尋到的適應值做比較,如果目前搜尋 到的適應值較優於 Pbest,則用此粒子的新適應值和位置來更新 Pbest。 步驟四:將母體中所有粒子的 Pbest 和目前搜尋到的做比較,如果目前搜尋到的適應值 優於 Gbest 值,則更新 Gbest 值與位置。 步驟五:利用式 2.21、式 2.22 來更新粒子的速度和位置: V (t 1) V (t ) C 1 rand () ( Pbest X (t )) C 2 rand () (G best X (t )) (式 2.21). X (t 1) X (t ) V (t 1). (式 2.22). 其中,V(t+1)為下一回合的速度,V(t)為現在的速度;C1、C2 為學習因子,通常被 設定為 2.0 或 1.49445,當學習因子被設為相同值時,意味著粒子在自我搜尋以及社會 方面的搜尋具有同樣比重;Rand ()為介於 0~1 之間的隨機亂數;Pbest 為目前經歷過的 最佳解位置,Gbest 為所有粒子找過最佳解位置;X(t)為目前粒子本身位置,X(t+1)為粒 子下一回合位置。 步驟六:返回步驟二繼續重覆執行,直到滿足終止條件。 在粒子群演算法中,粒子於解空間中的移動方向是受到粒子本身目前為止所搜尋 到的最佳解,以及全域最佳解所影響。Hu, et al. (2004)認為原始架構無法保證粒子能快 速收斂且避免局部最佳解的發生。因此,提出線性慣性權重因子,使粒子群能在初始 保持多樣性,並且也能在後期有效的收斂。模式改變之後如式 2.23: 38.
(48) V (t 1) wV (t ) C1 rand () ( Pbest X (t )) C 2 rand () (Gbest X (t )). (式 2.23). 其中,增加了 w 之後,改善了許多應用的表現,w 在過去的研究實驗中通常被設 置由 0.9 線性遞減至 0.4。合適的 w 設定將可以提供局部和全域一個平衡的探索 (Exploitation) 及開發(Exploration)能力(李維平、江正文,2007)。. 柒、 吸引與互斥粒子群演算法 吸引與互斥粒子群演算法(Attractive and Repulsive Particle Swarm Optimization, ARPSO)採用以分散度為導向的搜尋(Diversity-Guided Search)策略,將分散程度區分為 吸引階段與互斥階段,並利用這兩個階段的交互交替來控制群體多樣性的變化,進而 避 免 於 求 解的初期陷入區域最佳解, ARPSO 的 速 度 更 新 公 式 如 式 2.24 (Riget & Vesterstrøm, 2002): Vid t 1 w Vid dir c1 Rand Pid X id c 2 Rand Pgd X id . (式 2.24). 其中dir參數代表粒子移動的方向,dir會根據整體粒子的分散程度(Diversity)與上下 限比較,判斷目前是屬於吸引階段或是互斥階段,如圖2.16:. diversityS . 1 S i 1 SL. p j 1. pj . 2. N. ij. (式 2.25). 若Diversity小於dLow時,代表原本是吸引階段但開始出現過於集中的現象,則dir設 為-1;若Diversity大於dHigh時,代表原本是互斥階段但開始出現過於發散的現象,則dir 設為1。. 39.
(49) Attractive dhigh. dlow Repulsive. 圖 2.16 吸引階段與互斥階段的關係 資料來源:Riget & Vesterstrom, 2002 吸引階段與互斥階段的狀態會不斷地交替,這樣的意義在於適時地保持群體的多 樣性,避免群體過早收斂於區域最佳解,因此參數dlow與dhigh是ARPSO演算法得以發揮 效用的重要參數,使用者可依照各自的需求透過Training的方式來訂定,建議將dlow設 為5×10-6,dhigh設為0.25(Riget & Vesterstrøm, 2002)。 Riget & Vesterstrøm所提出的ARPSO只考慮分散程度大於上限或小於下限值,並未 考慮當值若於上、下限值間,粒子將如何移動的方向;Pant et al. (2007)提出ATREPSO,改進ARPSO未考慮分散程度介於上、下限值間,其粒子更新速度公式如式 2.26: w V t c1 Rand id c Rand 2 Vid (t 1) c1 Rand w V t id c Rand 2 c Rand w V t 1 id c2 Rand . pid t xid t p gd t xid t . , dir d high. pid t xid t p gd t xid t . , d low dir d high. pid t xid t p gd t xid t . , dir d low. div為參數代表粒子移動的方向,移動方向判斷公式如式2.14: 40. (式 2.26).
(50) diversityS . 1 n i s1 ns. x t x t . 2. nx. j 1. ij. (式 2.27). j. 其中ns=|S|為粒子的數目;nx為問題的維度;當dir>dhigh時,則c1、c2設為+1;若dir<. dlow時,c1、c2設為-1;若dlow <dir<dhigh,則設c1為+1、c2為-1; 的值;. 為第i個粒子於第j維度. 為第j個維度所有粒子的平均值,其計算公式如式2.28:. xj. t . nx j 1. xij t . (式 2.28). ns. 將分散程度區分為三個階段吸引、互斥和介於之間階段,並利用這三個階段的交 互交替來控制群體多樣性的變化,進而避免於求解的初期陷入區域最佳解。. 捌、 本節小結 將上述粒子群演算法於個參數設計方面的相關文獻,合併整理於表2.3: 表 2.3 粒子群演算法演進 作者. 方法說明. Shi & Eberhart(1998);. 提出線性慣量遞減的概念,使初始搜尋階段較高的慣性權重. Hu, et al.(2004). 值,藉以保持搜尋初期全域搜尋的靈活性,並隨著進化迭代 之過程逐漸調降慣性權重,進而轉入局部搜尋之動作,加強 粒子之局部搜尋能力。建議慣性權重w之範圍為0.9~0.4。. Shi & Eberhart(1998);. 提出最大速度限制,避免粒子過度移動,利用搜尋空間的. Carlisle & Dozier(2001). 上、下限值相減,約束最大速度。使得粒子在搜尋成效上更 為可靠,且可減少不必要的計算時間。. Fourie &. 提出動態慣量及最大速度遞減,利用 和 分別控制慣性權重. Groenwold(2002). w 及最大速度 vmax 之動態調整係數,節省過多的結構分析次 數,提昇粒子之搜尋效率,進而展現不錯的搜尋性能。 和 41.
(51) 兩者動態遞減係數則建議採用 = 0.99, = 0.95. Riget &. 提出吸引與互斥粒子群演算法(ARPSO),增加dir參數代表粒. Vesterstrøm(2002),. 子移動的方向, dir 會根據整體粒子的分散程度 (diversity) 與 上下限比較,判斷屬於吸引或是互斥階段,以增加粒子搜尋 多樣性、靈活性。建議dlow設為5×10-6,dhigh設為0.25。. Pant et al.(2007). 將ARPSO加入介於吸引與互斥間的概念,強化粒子搜尋多樣 性、靈活性。. 資料來源:本研究整理. 42.
數據
Outline
相關文件
For different types of optimization problems, there arise various complementarity problems, for example, linear complemen- tarity problem, nonlinear complementarity problem
A derivative free algorithm based on the new NCP- function and the new merit function for complementarity problems was discussed, and some preliminary numerical results for
For different types of optimization problems, there arise various complementarity problems, for example, linear complementarity problem, nonlinear complementarity problem,
This kind of algorithm has also been a powerful tool for solving many other optimization problems, including symmetric cone complementarity problems [15, 16, 20–22], symmetric
Is end-to-end congestion control sufficient for fair and efficient network usage. If not, what should we do
They are suitable for different types of problems While deep learning is hot, it’s not always better than other learning methods.. For example, fully-connected
Usually the goal of classification is to minimize the number of errors Therefore, many classification methods solve optimization problems.. We will discuss a topic called
Moreover, this chapter also presents the basic of the Taguchi method, artificial neural network, genetic algorithm, particle swarm optimization, soft computing and