雙序列比對工具:BLAST之分析與改進
5
0
0
全文
(2) S. 序列 S 與 T,長度為 M 及 N,若其最佳比對結果 中含有少量的間隔,則其結果呈現在動態規劃中會 接近中央對角線,如圖 1 所示。 S. R T. T. 圖 3. 內 部 帶 狀 動 態 規 劃 示 意 圖 : 圖 中 實 線 為 Gapped BLAST 所找到的序列片段,在動態規劃中 所呈現的曲線,延此曲線取一寬度 R 就是圖中灰 色部份. 圖 1. S 與 T 序列最佳比對結果接近中央對角線. 若要對此種序列進行比對,並不需要如局部 序列比對中計算出 M × N 的矩陣,只須針對角線 取一寬度 K 值包含最佳比對結果曲線,在此帶狀 中去進行動態規劃計算,便可得到最佳比對解,如 圖 2,而其時間複雜度只須線性時間 O(KN)。. 動態規劃中計分方法與全域序列比對是一樣 的,唯一不同的是當點位在臨界邊上時,我們選擇 只考慮兩個方向的計分,可從圖 4 中了解。. S. T. k. 圖 2.帶狀動態規劃:針對中央對角線取一寬度 K, 在此帶狀中進行計分運算,即可找出最佳比對結果. 但此種方法的缺點在於,若兩序列長度並不相 近,或是兩序列中相似片段並不分佈在中央對角線 上,則帶狀動態規劃便無法得到最佳比對解。 接 著 描 述 如 何 進 行 內 部 改 進 方 法 。在 執 行 BLAST 後,可以得到序列比對結果曲線,以此曲 線為中央線,取一寬度 R 值,在此彎曲帶狀中利 用動態規劃做全域序列比對,如圖 3。. 圖 4. 帶狀動態規劃計分圖 此步驟經分析,其時間複雜度為 O(RM ),M 值表示 Gapped BLAST 所得到的序列片段之長度。. 三、外部改進方法 本篇論文除了針對 BLAST 所找出序列片段做 內部帶狀改進之外,同時也對此結果片段之外部作 延伸改進。我們再度應用到帶狀動態規劃的理念, 以 BLAST 所找出之片段,做前後對角線帶狀計 分,同時給予兩參數值,K 值與 L 值,K 值代表 帶狀動態規劃所取之寬度,L 值則表示在計分過程 中,分數未增加次數之值。為求能同時擁有較佳的 靈敏度及時間複雜度,我們選擇考慮間隔的帶狀動 態規劃來做延伸,而不是單針對對角線做延伸,並 且以參數 L 值控制其延伸的幅度,如圖 5 所示,. -2-.
(3) 圖中細虛線表是 BLAST 所找出之片段,前後延伸 可以控制 K 及 L兩參數值來調整其時間及靈敏度。. 假設我們採取改進比例及正確率公式如下。. 改進百分比 = S. L. 正確率 = K. 延伸改進分數 Gapped BLAST分數值. 改進後總分 Smith - Waterman分數. * 100%. * 100%. 由此我們可計算出實驗結果數據之平均改進 分數百分比可達 18%,正確率更可高達 97.65%。 由以上實驗所得數據,可以証實外部改進方法,確 實是一個簡單快速且有效率提昇序列比對分數的 演算法。. T. K’. 五、結論 L’. BLAST 已是現今,應用最為廣泛序列比對工 具。在 BLAST 比對後,再進行本篇論文中,我們 提出的既簡單又快速的外部改進方法,可以有效率 地 改 善 及 提 昇 , BLAST 序 列 比 對 分 數 和 Smith-Waterman 最佳解差距過大的情 況。. 圖 5. 外部延伸示意圖 做前後對角線帶狀帶狀動態規劃延伸計分過 程中,記錄每一列比對之最佳分數,並和最高分作 比較。若每一列所記錄的最高分數,連續 L 次都 無法取代最佳分數,便停止延伸,表示已經 L 列 分數無改善。. 四、實驗數據. SmithProtein family. 表 1 是 1997 年由 Altschul,Madden,Jinghui Zhang,Miller,Lipman[2]等人提出 Gapped BLAST 論文中,針對一些序列在 SWISS-PROT 資 料 庫 中 ,設定 E-value 值 為 0.01, 利 用 三 種 方 法 : Smith-Waterman , Original BLAST , 及 Gapped BLAST 所 找 到 的 相 似 序 列 個 數 。 其 中 可 看 出 Gapped BLAST 明顯改善 Original BLAST 結果, 但是序列 P01111、P10318、及 P14942,利用 Gapped BLAST 和 Smith-Waterman 搜尋的結果差距仍大。 於是我們針對這三個序列再做深入研究,找出 20 個 Gapped BLAST 未能找到而 Smith-Waterman 找 到的序列做為實驗分析的對象 。 表 2 是內部改進方法之實驗結果。從實驗結果 的表格中首先可看出這 20 個序列,利用 Gapped BLAST 比對結果的分數,和 Smith-Waterman 最佳 解的結果差距很大,我們的目的就是要改進比對的 分數,縮小和最佳解的差距。接著觀察內部改進方 法比對的分數和 Gapped BLAST 差距不大,顯示 內部改善並無太大的效果。 表 3 是外部改進方法之實驗結果。20 個序列 比對結果中,計分矩陣選用 BLUSOM62,間隔處 罰函數採用 仿射性間格處罰(affine gap penalty)函 數,間格扣分參數 h 值給予 10,空白扣分參數 g 值給予 1,帶狀動態規劃寬度值 K 給予 5,分數未 增加次數值 L 給予 40。實驗結果得到在 20 筆資料 中,17 筆分數有改進,顯示分數改善情況顯著 。. -3-. Original Gapped. Query Waterman BLAST BLAST. Serine protease. P00762 275. 273. 275. Ras. P01111 429. 419. 421. Globin. P02232 28. 26. 28. Interferon a. P05013 53. 53. 53. P07327 205. 205. 205. P10318 119. 88. 112. P10635 211. 197. 211. P14942 122. 102. 109. P20705 198. 191. 198. Alcohol dehydrogenase Histocompatibility antigen Cytochrome P450 Glutathione transferase H+-transporting ATP synthase. 表 1. 搜尋 SWISS-PROT 資料庫結果之對照表.
(4) Sequence. Sequence Gapped. Smith-. 內部改進. BLAST. Waterman 方法. P32559 P40617 P35295 P52198 P49703 P38987 Q9NX57 Q92737 P56559. 85 80 85 101 81 87 82 101 70. 118 99 109 127 106 107 106 133 88. 85 80 85 101 81 87 82 101 70. P10318. O00214 O46631. 102 100. 110 105. 102 100. P14942. O04437 Q93112 Q9WVL0 Q9VG93 P28342 O43708 P42860 P28338 P20432. 70 84 105 91 94 106 62 66 69. 85 103 114 104 102 120 76 80 85. 70 84 105 91 94 106 62 66 69. 1 P01111. 2. Sequence Sequence Gapped 延 伸 改 改 進 Smith1. 2. BLAST 進分數 後 總 Waterman. P01111. P32559. 85. 33. 118. 118. P40617. 80. 19. 99. 99. P35295. 85. 24. 109. 109. P52198. 101. 26. 127. 127. P49703. 81. 22. 103. 106. P38987. 87. 20. 107. 107. Q9NX57 82. 24. 106. 106. Q92737. 101. 32. 133. 133. P56559. 70. 18. 88. 88. O00214. 102. 0. 102. 110. O46631. 100. 0. 100. 105. O04437. 70. 6. 76. 85. Q93112. 84. 17. 101. 103. Q9WVL0 105. 0. 105. 114. Q9VG93 91. 13. 104. 104. P28342. 94. 5. 99. 102. O43708. 106. 10. 116. 120. P42860. 62. 11. 73. 76. P28338. 66. 11. 77. 80. P20432. 69. 16. 85. 85. P10318. P14942. 表 2. 內部改進方法之實驗結果. 表 3. 外部改進方法之實驗結果. -4-.
(5) 六、參考文獻 [1] S. F. Altschul, W. Gish, W. Miller, E. W. Myers,. and D. J. Lipman, “Basic Local Alignment search Tool”, J. Mol. Biol., 215, pp.403-410, 1990. [2] S. F. Altschul, T. L. Madden, A. A. Schaffer, J.. Zhang, Z. Zhang, W. Miller, and D. J. Lipman, “Gapped BLAST and PSI-BLAST: a new generation of protein database search programs ”, Nucleic Acids Res., 25, pp.3389-3402, 1997. [3] D. J. Lipman and W. R. Pearson, “Rapid and. sensitive protein similarity search”, Science, 227, pp.1435-1441, 1985. [4] S. B. Needleman and C. D. Wunsch, “A general. method applicable to the search for similarities in the amino acid sequences of two proteins”, J. Mol. Biol., 147, pp.195-197, 1970. [5] T. F. Smith and M. S. Waterman, “Identification. of common molecular subsequences ”, J. Mol. Biol., 147, pp.195-197, 1981.. -5-.
(6)
相關文件
宣導期程部分,請依委託製播宣導之涵蓋期程,並針對季內刊登(播出)時間或次數填列,如109.10.1-109.12.31(涵蓋期程);109.10.1、109.12.1(播出時間)
(1)建立有效之篩選機制進行篩選(不得低於 總校數之 2%) ,除能針對篩出學校之個別 情形提出改進辦法外,並需進行訪視工作 加強輔導,使各校確實依改進規劃落實執
replacement therapy」 ,請儘可能明確列出給予 外源性 FVIII 置換療法之標準 (criteria),包 括治療時機和用量。統計部分亦請說明此指 標將如何估計,針對 missing value 的插補方 法
• 後段工程是從由矽晶圓切割成一個一個的晶片 入手,進行裝片、固定、接合連接、注模成 形、引出接腳、按印檢查等工序,完成作為元
當地主管機關對期 滿續聘之雇主實施前項 規定檢查時,應以外國 人最近一次經其本國主 管部門驗證之外國人入 國工作費用及工資切結
二、為因應國內外環境、我國產業發展及人口結構之改變,勞動部推動
雇主提出「初次招 募」、「重新招募」申請 時,對於國內招募所聘 僱之本國勞工,有下列 情事之一,應廢止其招 募許可及聘僱許可之一
行為 描述行為時不要有批判成分 影響 說明行為對團隊/其他人的影響 期望 說明預期會採取甚麼改進性行為 結果