• 沒有找到結果。

自病原體蛋白質序列中定義出表頂位置及評估的方法

此研究的另一個重點為,利用我們所挑出病原體中重要的物化性質來幫助定義出病 原體上表頂的位置。由先前研究中可以瞭解欲定義某病原體蛋白質序列中表頂的位置,

一般使用與表頂相關的物化性質來定義出來,但是有研究指出其只略佳於隨機選取,因 為表頂所具有之物化性質無法以單一物化性質定義出來,也有研究使用多種物化性質來

31

交互比對定義出表頂的位置,然後利用訓練的結果決定閾值(threshold),以此來決定抗 原決定位的位置。

在此我們使用所選出的物化性質來定義出表頂的位置自病原體序列中,針對每個目 標胺基酸序列在在滑動窗口(sliding window)計算平均性質傾向為表頂或非表頂,然後給 予滑動窗口的中心目標的胺基酸殘基此性質尺度的傾向值,由於多種不同的滑動窗口所 定義出的抗原位置波動的結果,我們欲從變動的結果中找尋一致性的結論並且降低偽陽 性的結果因此在此使用訓練資料中原始實驗位置的資訊結合投票的機制並使用智慧型 基因演算法幫助找出最佳的投票組合。

決定病原體蛋白質序列中抗原決定位依照下列的三個步驟來進行:

步驟一:資料的處理,此部份要得到我們步驟二最佳化演算法所需要的格式。

(1) 利用訓練資料中的序列資訊,找到此抗原決定位在病原體序列中的位置,由先前 建立訓練資料庫中,自 NCBI 中下載病原體蛋白質序列,切成不同的滑動窗口分 別為 3、5、7、9、11、13、15、17、19、21,此滑動窗口範圍大小被決定依照 大部份抗原決定位範圍,為小於等於 20 長度大小。

(2) 將切好的序列轉成所選出的物化性質,然後假設每一序列均具有抗原決定位性 質。

(3) 將處理完成的序列,使用我們所建立 FMDV 免疫模型來決定其具抗原性質或不 具抗原性質。依照假設每一滑動窗口均假設具有抗原性質,其與 FMDV 免疫模 型預測相符合給予該滑動窗口中心位點一個值 1,若不符合給予值 0,此時在相 同位點上由於不同滑動窗口大小下,其胺基酸殘基組成的差異將造成物化性質的 差異,因此在同一位點不同滑動窗口此位點上有不同的性質尺度傾向值(圖 22)。

圖 22 為物化性質判斷抗原位點的概念

32

(4) 然後再依照真實實驗中定義出 FMDV 表頂的位置給每一位置相對應的值,具有 抗原性質給 1,不具抗原性及無實驗結果均給予 0,最後可以得到如下列例子的 資料格式(圖 23)。

圖 23 為處理完成的資料格式

實驗結果左側部分為位置右側為真實實驗的結果 不同滑動窗口的值為其評估物化性質的結果

步驟二:決定適當的抗原位點,我們必須瞭解,在同一位點上所得到抗原性質及非抗原 性質物化性質的差異是由於不同滑動窗口下胺基酸序列組成的不同導致的差異,而此差 異乃基於此物化性質綜合的結果,為了避免過度變動的結果,我們必須決定適當的方式 確認表頂的位置,此外我們欲確認出抗原表頂位置,但是又要減少偽陽性的值,因此我 們利用在訓練集中多個實驗結果所定義的位置資訊,以及我們物化性質的組合相近的位 點來找出最好的組合,並由多組不同滑動窗口找出最一致性的結果來確認表頂的位置 (圖 22)。

(5) 在此我們使用投票的方式來決定哪幾個滑動窗口值之一致性的結果與真實實驗 結果相符合,使用智慧型基因演算法幫助決定最佳的組合。

(6) 此智慧型基因演算法的適應函數(fitness function)在此設定為針對陽性預測的值 PVV=TP/TP+NP,針對所得到預測結果與真實結果的一致性為我們此投票結果所 需求的。

(7) 我們設定得到投票結果相對高票數的位置,其為表頂的可能性最大,此外若投票 得到最高票且其相近位置也都有相對高票我們認為此位置為表頂的機會相對地 也很大當作我們的假設。

(8) 由以上結果可以定義出我們要的抗原熱點(hot point)。此位點意味著自多組滑動窗 口中決定可能的抗原決定位之位置,並減少偽陽性情況下得到的位點。

33

步驟三:定義出此重要位點之後,決定適當的表頂範圍,我們依照所決定抗原位點投票 的滑動窗口當作我們決定的範圍。

(9) 接下來我們利用此熱點為中心以決定出最大的範圍,將所得到的位點以所決定投 票的滑動窗口大小當作我們決定的大小,假設為 5,7,21 看此熱點中滑動窗口投票 滑動窗口為 5,7,則此 7 當作我們此部分預測熱點抗原決定位的大小。

(10)依照此方式來定義出序列的範圍,得到抗原範圍可能為 7,21 其中一種以所推得的 結果。因此我們由具抗原性的熱點,並依我們投票所使用來投票的滑動窗口提出 的當作推論的表頂。

(11)但是依照實驗成本及需求,建議可以利用此熱點的位置延伸其範圍,使用我們決 定抗原性質的模型來決定是否選擇的範圍具有抗原性質。

假設此位點彼此具重複的部份但是又無完全重疊,我們視其為獨立的抗原。例如:

TGESADPVTTTV 及 TTGESADPVTT,黃色顯示重疊的部分,但是在抗原決定位來說 我們不能說這兩個一樣,但是可以說兩個都是。因此很難比較誰的正確在無實驗測詴,

及無完全一樣的預測結果情況下,原則上符合我們這組物化性質可以視為具有抗原性。

針對評估定義出表頂位置的效能上,在無實驗測詴下不易比較預測結果正確與否,

在無完全一樣的預測結果情況下,即使有接近相似度的序列仍然無法明確的認定此為病 原體上的表頂,但是為了比較其它預測工具定義出來的表頂之優劣,因此在此我們使用 相關文獻所提出比較的方式,在使用獨立測詴資料中病原體蛋白序列之訊息,比較測詴 資料中使用不同預測工具定義出表頂之序列,此文獻設定若有 4 個胺基酸殘基相同視為 預測正確,若無視為預測錯誤[58]。

圖 24 為評估定義出表頂位置效能的概念

34

相關文件