• 沒有找到結果。

第四章 實證分析

第四節 實驗結果與分析

實驗樣本可分為三類:測試樣本、挑戰者問題與真實生物資料庫,將表 4.17 參數 設計組合應用於個類資料,分別利用 PSO 與改良 PSO 進行 20 次的運算,以求得序列 比對最佳適應值及準確率。分別為三類樣本進行結果與分析:

壹、測試樣本

好的初始解將可帶領到較好的解,所以初始解選取是很重要的。在實驗中,先利 用表4.17 的參數組合測試 PSO 與改良 PSO 一次初始化結果,測試結果如下:

圖4.7 PSO 一次初始結果 資料來源:本研究整理

圖 4.7 中,一列向量(紅色方框)為一個粒子,共十個粒子;因為序列總數為六,所 以前面六個數字(3 1 6 2 6 8)為各條序列上所選取的起始位置,而最後一行為所對應位 置的適應值。PSO 的初始位置為的隨機選取,初始的適應值皆低於 20;反之,圖 4.8,改良 PSO 使得初始解皆高於 25。兩種不同 PSO 進行 20 次運算結果,如表 4.18 所示:

圖4.8 改良 PSO 一次初始結果 資料來源:本研究整理

表4.18 兩種選取方式 20 次實驗結果 選取方式 運算

次數

迭代 次數

粒子 數目

最大

速度 Concensus 最佳 適應值

平均 適應值

平均執

行時間 正確率 PSO 20 1000 5 5 TATATA 31 27.95 0.338s 85%

改良PSO 20 2000 5 5 TATATA 31 30.7 0.832s 100%

資料來源:本研究整理

最後一欄的正確率為運用式 2.1、2.2,找出的 Concensus 是否與所對應的 Target (此樣本的目標為 TATATA)相差 d 個字串內,是的話此次運算即為找到 Motif,則標註 Y;反之,否的話即此次運算與 Target 相差 d 個字串以上;PSO 在 20 次實驗中有 17 次找到目標 TATATA,即正確率為(17/20)*100%=85%;其中 PSO 的未標於表 4.18 之參

數 w 為 0.9、C1、C2為2;而改良 PSO 參數的 w 起始為 0.9、衰退率 0.999,w 會逐代 遞減,最多降至 0.4,C1、C2為 2,dhigh、dhigh為 0.25、0.000005。兩種 PSO 利用田口 所得最佳參數進行 20 次運算,PSO 並非如其每次求得解,而改良 PSO 能有較高的求 解品值,可以推論改良PSO 優於 PSO。雖然 PSO 的初始值表現不佳,因為樣本較小的 關係,一樣能找到目標,但在正確率及平均適應值較改良PSO 表現不彰。

貳、挑戰者問題

兩種PSO 的未標於表 4.18 之參數 w、 C1、C2皆與測試樣本相同;dhigh、dhigh依照 使用者各自的需求透過 Training 的方式來訂定(Riget & Vesterstrøm, 2002),所以改良 PSO 的 dhigh、dhigh 為 2.5、0.0005。針對挑戰者問題進行 20 次運算之比較結果如表 4.19:

表4.19 挑戰者問題於參數設計實驗結果

Target: GCGATTCGAACCACG, Motif-(N, L, l, d) = (20, 1000, 15, 4) 方法 迭代

次數

粒子 數目

最大

速度 Concensus 最佳 適應值

執行

時間 正確率 PSO 3000 150 30 CGGCAATAGGCCTCC 140 638s 0%

改良PSO 3000 150 70 GCGATTCGAAACACG

C 168 314s 90%

資料來源:本研究整理

各種參數結果顯示,找到的最佳適應值幾乎都很接近,但離所設定的適應值 223 還有些差距,因為資料為人工亂數產生,所以可能的解不只有所設定的一組,比對出 來的 Concensus 還是與目標相同;從表中可看出,改良 PSO 的準確率與執行時間較 PSO 呈現較好的結果。藉由比較文獻所提出的幾項演算法用於 Motif-(15,4)的問題,以 提升所提出方法之可行性與參考價值,比較結果如表4.20:

表4.20 與其他演算法結果比較 Motif-(N, L, l, d) = (20, 1000, 15, 4) 正確率

CONSENSUS 0.04 GibbsDNA 0.12

MEME 0.00 WINNOWER(k=2) 0.02 WINNOWER(k=3) 0.88

SP-START 0.23 改良PSO 0.9

資料來源:本研究整理

在20 條序列長度為 1000bp 尋找 Motif-(15,4)的挑戰者問題,本研究所提出的粒子 群演算法準確率結果優於其他的演算法,其實驗的結果仍然維持一定的水準。再來對 長度為600 的其他挑戰者問題進行實驗。兩種 PSO 用於以下的挑戰者問題參數皆用表 4.17 最佳準確率的參數進行實驗,實驗結果如表 4.21:

表4.21 各種 Motif-(l, d)實驗結果 Motif-(N, L) = (20, 600)-PSO Motif

-(l, d)

運算

次數 Concensus 最佳 適應值

執行

時間 正確率 (9, 2) 20 GGGGACGTA 91 599s 0%

(11,3) 20 AAAATGGATTC 107 624s 0%

(13,4) 20 AGCAGATACTGAT 127 702s 0%

(15,5) 20 TGAGGGTGACATGCG 139 635s 0%

(17,6) 20 GGATTACCTCATGTAAG 153 654s 0%

Motif-(N, L) = (20, 600)-改良 PSO Motif

-(l, d)

運算

次數 Concensus 最佳 適應值

執行

時間 正確率 (9, 2) 20 GAGCCTCTA 116 287s 100%

(11,3) 20 GGTAGATACTA 121 291s 100%

(13,4) 20 GGACAACCAGGCG 142 294s 95%

(15,5) 20 ATTTCGATTCCCAGC 198 298s 90%

(17,6) 20 GCGATTCGAACCACGGG 222 303s 90%

資料來源:本研究整理

表4.22 各種挑戰者問題 Target Motif

-(l, d) Target (9, 2) GAGCCTCTA (11,3) GGTAGACACTA (13,4) TGACAACAAGGCG (15,5) ATTTCGATTCCCAGC (17,6) CTTCCGGAGACGTTTTG 資料來源:本研究整理

表 4.22 為各種挑戰問題的 Target,在各種問題中能找到所對應的解答,或所允許 接受的解,如 Motif-(11,3)與目標相差 2 個字串,但問題是允許 3 雜訊,所以此 Consensus 為可行解,改良 PSO 於各種問題的正確率皆有不錯表現。

參、真實生物資料

資料是由美國國家生物技術資訊中心(NCBI)網站上(http://www.ncbi.nlm.nih.gov/)公 開資料庫的 Cyclic AMP Receptor Protein(CRP),並加以整理後進行分析。此資料含有 已知的Target(Motif)如表 4.23,兩種 PSO 實驗的結果如表 4.24、4.25:

表4.23 生物資料的各種 Target No. Target

1 AATGTTATCCACATCACAA 2 AAAGTGAACCATATCTCAA 3 CTTGTGATTCAGATCACAA 4 TGTGTGATCGTCATCACAA 5 TGTGTGAAGTTGATCACAA 6 TATGTGATTGATATCACAC 資料來源:本研究整理

表4.24 PSO 於真實生物資料實驗結果 Motif-(N, L, l, d) = (49, 222, 19, 6)-PSO 運算順

序 Concensus 最佳 適應值

執行 時間

相似Target (No.)

接受 與否 1 TAAAAAAAAAAATTGTATA 377 706s 無相似 N 2 TTTGAAAATAATTTTTTTA 387 906s 無相似 N 3 ATTAATTTATTCTATTCTT 369 891s 無相似 N 4 TTATTTTTTTTAATTTTTT 411 704s 無相似 N 5 TTAATACATTACATATTCT 365 705s 無相似 N 6 AATTTTATTTAGAAATTTT 360 894s 無相似 N 7 ATTATATTTTTATTATTGAAA 350 706s 無相似 N 8 TAATATTTATTTTTGTGTT 358 903s 無相似 N 9 CAAATTATTTTTATTAGAA 357 902s 無相似 N 10 TTATTTATCCTTCATTTTA 360 892s 無相似 N 11 TTAAGTTTTTAATATTTTT 367 704s 無相似 N 12 AAATTTATTAAATAATTTT' 352 704s 無相似 N 13 TCATTTTGAATTTTTTTTA 359 890s 無相似 N 14 TTATTTTATCTTTTTTTTA 351 894s 無相似 N 15 ATAAAAAAATTAATGTTAA 354 706s 無相似 N 16 AAATATTTTTTTTTCGTGT 358 903s 無相似 N 17 AAATCAAACAAGGTTTTTT 346 902s 無相似 N 18 AATTAATTTTAAATATTTA 359 892s 無相似 N 19 TTACCATTTTTTAAAATATT 357 704s 無相似 N 20 TTTTTTATAATTAATTTAT 357 704s 無相似 N 資料來源:本研究整理

表4.25 改良 PSO 於真實生物資料實驗結果 Motif-(N, L, l, d) = (49, 222, 19, 6)-改良 PSO 運算順

序 Concensus 最佳 適應值

執行 時間

相似Target (No.)

接受 與否 1 AATGTTATTCACATCGCAC 406 701s 1 Y 2 TTTGTGATTCAGATTACAA 405 702s 6 Y 3 AAAGTGAAACATATCGCAA 408 698s 2 Y 4 AGTGTGATCGTTATCACAA 423 699s 4 Y 5 TCATCATTTCCACAACGGT 412 703s 無相似 N 6 TTTTTAATTGATATCACAT 409 701s 5 Y 7 TTTGTGATTCAGATAACAA 414 700s 6 Y 8 ATTGTTATTCTTATCACAA 407 698s 2 Y 9 TTTTTTATTCAGATTACAA 401 706s 6 Y 10 AATGTTATCCAAATCACAC 403 703s 1 Y 11 ATAGTGATTCATATTAAAA 408 702s 3 Y 12 ATTGTGATTAAGATCAAAA

T T 418 700s 3 Y 13 TGTTTGATAGTTATCAAAA 416 699s 4 Y 14 TATGTAATTGATTTCACAT 410 705s 6 Y 15 AAATTTTTAGCAGTTTTTT 431 704s 無相似 N 16 TTTGTGATAATCATCACAA 416 701s 4 Y 17 TATGTTATTAATATTAAAC 413 704s 6 Y 18 AATTTTATCCACATCACAA 407 703s 1 Y 19 TTTGGCGATTTATGCAGCG 414 704s 無相似 N 20 AAAGTGAAAAATATCTCAA 414 700s 2 Y 資料來源:本研究整理

表 4.24、4.25 中為兩種 PSO 實驗 20 次所得的解,去計算它的正確率。PSO 在 20 次實驗沒有半次找到可接受解,解都是連續重複沒意義的片段;而改良 PSO 在 20 次 實驗中,有 17 次可接受解,即正確率為(17/20)*100%=85%;因為序列總數過多,不但 無法完全找到相似的 Target,且花費較多的時間,但還是為可接受範圍的解,在正確 率上亦有好的結果可以呈現。

相關文件