實驗結果與分析

第四章實證分析

第四節實驗結果與分析

實驗樣本可分為三類：測試樣本、挑戰者問題與真實生物資料庫，將表 4.17 參數設計組合應用於個類資料，分別利用 PSO 與改良 PSO 進行 20 次的運算，以求得序列比對最佳適應值及準確率。分別為三類樣本進行結果與分析：

壹、測試樣本

好的初始解將可帶領到較好的解，所以初始解選取是很重要的。在實驗中，先利用表4.17 的參數組合測試 PSO 與改良 PSO 一次初始化結果，測試結果如下：

圖4.7 PSO 一次初始結果資料來源：本研究整理

圖 4.7 中，一列向量(紅色方框)為一個粒子，共十個粒子；因為序列總數為六，所以前面六個數字(3 1 6 2 6 8)為各條序列上所選取的起始位置，而最後一行為所對應位置的適應值。PSO 的初始位置為的隨機選取，初始的適應值皆低於 20；反之，圖 4.8，改良 PSO 使得初始解皆高於 25。兩種不同 PSO 進行 20 次運算結果，如表 4.18 所示：

圖4.8 改良 PSO 一次初始結果資料來源：本研究整理

表4.18 兩種選取方式 20 次實驗結果選取方式運算

次數

迭代次數

粒子數目

最大

速度 Concensus 最佳適應值

平均適應值

平均執

行時間正確率 PSO 20 1000 5 5 TATATA 31 27.95 0.338s 85%

改良PSO 20 2000 5 5 TATATA 31 30.7 0.832s 100%

資料來源：本研究整理

最後一欄的正確率為運用式 2.1、2.2，找出的 Concensus 是否與所對應的 Target (此樣本的目標為 TATATA)相差 d 個字串內，是的話此次運算即為找到 Motif，則標註 Y；反之，否的話即此次運算與 Target 相差 d 個字串以上；PSO 在 20 次實驗中有 17 次找到目標 TATATA，即正確率為(17/20)*100%=85%；其中 PSO 的未標於表 4.18 之參

數 w 為 0.9、C1、C2為2；而改良 PSO 參數的 w 起始為 0.9、衰退率 0.999，w 會逐代遞減，最多降至 0.4，C1、C2為 2，dhigh、dhigh為 0.25、0.000005。兩種 PSO 利用田口所得最佳參數進行 20 次運算，PSO 並非如其每次求得解，而改良 PSO 能有較高的求解品值，可以推論改良PSO 優於 PSO。雖然 PSO 的初始值表現不佳，因為樣本較小的關係，一樣能找到目標，但在正確率及平均適應值較改良PSO 表現不彰。

貳、挑戰者問題

兩種PSO 的未標於表 4.18 之參數 w、 C1、C2皆與測試樣本相同；dhigh、dhigh依照使用者各自的需求透過 Training 的方式來訂定(Riget & Vesterstrøm, 2002)，所以改良 PSO 的 dhigh、dhigh 為 2.5、0.0005。針對挑戰者問題進行 20 次運算之比較結果如表 4.19：

表4.19 挑戰者問題於參數設計實驗結果

Target: GCGATTCGAACCACG, Motif-(N, L, l, d) = (20, 1000, 15, 4) 方法迭代

次數

粒子數目

最大

速度 Concensus 最佳適應值

執行

時間正確率 PSO 3000 150 30 CGGCAATAGGCCTCC 140 638s 0%

改良PSO 3000 150 70 GCGATTCGAAACACG

C 168 314s 90%

資料來源：本研究整理

各種參數結果顯示，找到的最佳適應值幾乎都很接近，但離所設定的適應值 223 還有些差距，因為資料為人工亂數產生，所以可能的解不只有所設定的一組，比對出來的 Concensus 還是與目標相同；從表中可看出，改良 PSO 的準確率與執行時間較 PSO 呈現較好的結果。藉由比較文獻所提出的幾項演算法用於 Motif-(15,4)的問題，以提升所提出方法之可行性與參考價值，比較結果如表4.20：

表4.20 與其他演算法結果比較 Motif-(N, L, l, d) = (20, 1000, 15, 4) 正確率

CONSENSUS 0.04 GibbsDNA 0.12

MEME 0.00 WINNOWER(k=2) 0.02 WINNOWER(k=3) 0.88

SP-START 0.23 改良PSO 0.9

資料來源：本研究整理

在20 條序列長度為 1000bp 尋找 Motif-(15,4)的挑戰者問題，本研究所提出的粒子群演算法準確率結果優於其他的演算法，其實驗的結果仍然維持一定的水準。再來對長度為600 的其他挑戰者問題進行實驗。兩種 PSO 用於以下的挑戰者問題參數皆用表 4.17 最佳準確率的參數進行實驗，實驗結果如表 4.21：

表4.21 各種 Motif-(l, d)實驗結果 Motif-(N, L) = (20, 600)-PSO Motif

-(l, d)

運算

次數 Concensus 最佳適應值

執行

時間正確率 (9, 2) 20 GGGGACGTA 91 599s 0%

(11,3) 20 AAAATGGATTC 107 624s 0%

(13,4) 20 AGCAGATACTGAT 127 702s 0%

(15,5) 20 TGAGGGTGACATGCG 139 635s 0%

(17,6) 20 GGATTACCTCATGTAAG 153 654s 0%

Motif-(N, L) = (20, 600)-改良 PSO Motif

-(l, d)

運算

次數 Concensus 最佳適應值

執行

時間正確率 (9, 2) 20 GAGCCTCTA 116 287s 100%

(11,3) 20 GGTAGATACTA 121 291s 100%

(13,4) 20 GGACAACCAGGCG 142 294s 95%

(15,5) 20 ATTTCGATTCCCAGC 198 298s 90%

(17,6) 20 GCGATTCGAACCACGGG 222 303s 90%

資料來源：本研究整理

表4.22 各種挑戰者問題 Target Motif

-(l, d) Target (9, 2) GAGCCTCTA (11,3) GGTAGACACTA (13,4) TGACAACAAGGCG (15,5) ATTTCGATTCCCAGC (17,6) CTTCCGGAGACGTTTTG 資料來源：本研究整理

表 4.22 為各種挑戰問題的 Target，在各種問題中能找到所對應的解答，或所允許接受的解，如 Motif-(11,3)與目標相差 2 個字串，但問題是允許 3 雜訊，所以此 Consensus 為可行解，改良 PSO 於各種問題的正確率皆有不錯表現。

參、真實生物資料

資料是由美國國家生物技術資訊中心(NCBI)網站上(http://www.ncbi.nlm.nih.gov/)公開資料庫的 Cyclic AMP Receptor Protein(CRP)，並加以整理後進行分析。此資料含有已知的Target(Motif)如表 4.23，兩種 PSO 實驗的結果如表 4.24、4.25：

表4.23 生物資料的各種 Target No. Target

1 AATGTTATCCACATCACAA 2 AAAGTGAACCATATCTCAA 3 CTTGTGATTCAGATCACAA 4 TGTGTGATCGTCATCACAA 5 TGTGTGAAGTTGATCACAA 6 TATGTGATTGATATCACAC 資料來源：本研究整理

表4.24 PSO 於真實生物資料實驗結果 Motif-(N, L, l, d) = (49, 222, 19, 6)-PSO 運算順

序 Concensus 最佳適應值

執行時間

相似Target (No.)

接受與否 1 TAAAAAAAAAAATTGTATA 377 706s 無相似 N 2 TTTGAAAATAATTTTTTTA 387 906s 無相似 N 3 ATTAATTTATTCTATTCTT 369 891s 無相似 N 4 TTATTTTTTTTAATTTTTT 411 704s 無相似 N 5 TTAATACATTACATATTCT 365 705s 無相似 N 6 AATTTTATTTAGAAATTTT 360 894s 無相似 N 7 ATTATATTTTTATTATTGAAA 350 706s 無相似 N 8 TAATATTTATTTTTGTGTT 358 903s 無相似 N 9 CAAATTATTTTTATTAGAA 357 902s 無相似 N 10 TTATTTATCCTTCATTTTA 360 892s 無相似 N 11 TTAAGTTTTTAATATTTTT 367 704s 無相似 N 12 AAATTTATTAAATAATTTT' 352 704s 無相似 N 13 TCATTTTGAATTTTTTTTA 359 890s 無相似 N 14 TTATTTTATCTTTTTTTTA 351 894s 無相似 N 15 ATAAAAAAATTAATGTTAA 354 706s 無相似 N 16 AAATATTTTTTTTTCGTGT 358 903s 無相似 N 17 AAATCAAACAAGGTTTTTT 346 902s 無相似 N 18 AATTAATTTTAAATATTTA 359 892s 無相似 N 19 TTACCATTTTTTAAAATATT 357 704s 無相似 N 20 TTTTTTATAATTAATTTAT 357 704s 無相似 N 資料來源：本研究整理

表4.25 改良 PSO 於真實生物資料實驗結果 Motif-(N, L, l, d) = (49, 222, 19, 6)-改良 PSO 運算順

序 Concensus 最佳適應值

執行時間

相似Target (No.)

接受與否 1 AATGTTATTCACATCGCAC 406 701s 1 Y 2 TTTGTGATTCAGATTACAA 405 702s 6 Y 3 AAAGTGAAACATATCGCAA 408 698s 2 Y 4 AGTGTGATCGTTATCACAA 423 699s 4 Y 5 TCATCATTTCCACAACGGT 412 703s 無相似 N 6 TTTTTAATTGATATCACAT 409 701s 5 Y 7 TTTGTGATTCAGATAACAA 414 700s 6 Y 8 ATTGTTATTCTTATCACAA 407 698s 2 Y 9 TTTTTTATTCAGATTACAA 401 706s 6 Y 10 AATGTTATCCAAATCACAC 403 703s 1 Y 11 ATAGTGATTCATATTAAAA 408 702s 3 Y 12 ATTGTGATTAAGATCAAAA

T T 418 700s 3 Y 13 TGTTTGATAGTTATCAAAA 416 699s 4 Y 14 TATGTAATTGATTTCACAT 410 705s 6 Y 15 AAATTTTTAGCAGTTTTTT 431 704s 無相似 N 16 TTTGTGATAATCATCACAA 416 701s 4 Y 17 TATGTTATTAATATTAAAC 413 704s 6 Y 18 AATTTTATCCACATCACAA 407 703s 1 Y 19 TTTGGCGATTTATGCAGCG 414 704s 無相似 N 20 AAAGTGAAAAATATCTCAA 414 700s 2 Y 資料來源：本研究整理

表 4.24、4.25 中為兩種 PSO 實驗 20 次所得的解，去計算它的正確率。PSO 在 20 次實驗沒有半次找到可接受解，解都是連續重複沒意義的片段；而改良 PSO 在 20 次實驗中，有 17 次可接受解，即正確率為(17/20)*100%=85%；因為序列總數過多，不但無法完全找到相似的 Target，且花費較多的時間，但還是為可接受範圍的解，在正確率上亦有好的結果可以呈現。

在文檔中 I-Shou University Institutional Repository:Item 987654321/11095 (頁 83-91)

第四章 實證分析

第四節 實驗結果與分析

壹、測試樣本

貳、挑戰者問題

參、真實生物資料

第四章實證分析

第四節實驗結果與分析