• 沒有找到結果。

評估最佳化演算法與相關研究之效益

基於此資料庫提取的資料集來比較分類的準確度與相關研究中,評估所使用演算法 效益。得到的結果顯示出 IBCGA 分類的效益可以有效的幫助分類上在不同的問題上。

表 9 IBCGA 基於 EL-Manzalawy 資料的分類比較結果

Performance of different method on homogy-reduced dataset of EL-Manzalawy et al flexible length data set using fivefold cross-validation.

Methods Accuracy (%) Sensitivity (%) Specificity (%) MCC

AAC(2008) 63.31 70.90 55.73 0.269

CTD(2008) 60.32 59.66 60.98 0.206

DC(2008) 63.78 63.05 64.51 0.276

AAP (2007) 61.42 62.85 60.00 0.229

FBCPred (2008) 65.49 68.36 62.61 0.310

IBCGA 70.39 72.37 68.41 0.408

此結果中其他資料的來源,皆為此資料庫相同的序列資料,使用不一樣的特徵 (feature),AAC(amino acid composition)為使用胺基酸的組成當做特徵,CTD

(Composition- Transition Distribution)使用 21 個 feature 基於不同長度的序列映射到固定 長度的向量,DC(Dipeptide Composition)使用雙胜肽特徵。AAP(amino acid pairs)使用 positive 及 negative 序列組成比例當作特徵,FBCPred 使用 string Kernels。最後得到結果 可以顯示出利用 IBCGA 結合物化性質可以幫助分類效率的改善。

6.2 FMDV 預測模型的訓練及測詴

在我們使用物化性質指標結合特徵選取的方式來建立免疫的預測模型,使用 FMDV 免疫表頂的訊息來幫助建立免疫的模型。在 100 批次實驗中,每一個 IBCGA 訓練資料 中設定 IBCGA 的參數為 Npop = 30, Pc = 0.8, Pm = 0.05, rstart = 40 及 rend = 10 及 10 倍的交互 驗證下(tenfold cross-validation)。對於每一個訓練模型中的特徵數 r,IBCGA 選擇一個 m 的物化性值特徵集(feature set)以及決定 SVM 的參數值。我們最終選擇第 99 組訓練模型 來當作我們的免疫模型(如圖 26)。

37

圖 26 在 100 批次實驗下所建立的免疫預測模型

根據上面的敘述在這最高準確度的模型中,最終選擇 m=36 的物化性質特徵集、得 到 SVM 的 C=8.00 及 γ = 0.25,且得到最好的平均準確度(Mean of Accuracies)為 84.83%

以及整體準確度(Overall Accuracy)為 89.33%。雖然另一組特徵集 m=26 也有相當高的準 確度達到 84.80%,但是基於前面的設定,選擇最高的訓練集,我們仍然選擇 m=36 特徵 集當作我們分類上的物化性質(圖 27)。

圖 27 最高訓練準確度其物化特性組別

此外可知此模型的敏感度(sensitivity)為 75.23%,特異性(specificity)為 94.43%,

Matthews 相關係數(Matthews correlation coefficient, MCC)為 0.720,由此看出對於模型的 敏感度低於特異性許多,亦即針對序列正反應的資料的分類準確度上低於負反應的資料。

由抗體辨識抗原位置的性質可以略窺一二,既使是一個胺基酸的差異都可能導致抗體無 法辨識出抗原表頂的位置,在某些免疫研究表頂位置其序列上有相似性但是僅是幾個胺 基酸的差別,這也是預測 B 細胞表頂的困難之處,若基於序列的相似性來預測,可能會 陷入高的 FP 值,於此我們利用物化性質的相似性可以降低 FP 值,而且由於此病原體具 有高度的序列變異性,其透過突變轉變抗原上的胺基酸來逃避宿主的免疫系統,所以以 序列相似性來預測可能無法預測出新品系的抗原決定位。

為了比較我們基於 B 細胞表頂次分類群所萃取出重要的物化性質所建立的模型,我 們使用獨立測詴集來測詴模型間的效益,並且與其他相關研究所建立預測 B 細胞表頂的

38

模型做比較,我們選擇基於不同病原體表頂範圍所建立的模型來做比較獨立測詴的結果,

使用我們的所建立的獨立測詴資料庫。

此獨立測詴資料庫如第二章所描述,其主要包含兩個部分,第一個部分由病原體相 關免疫研究文獻所收集而來,其由實驗定義出包含正反應的資料及負反應的資料各為 26 及 24 條序列。利用我們所建立的模型比較與 Bcpred、Fbcpred 基於 Bcipep 資料庫中序 列建立的模型[40-41],包含固定長度及變動長度降低同源性序列。此我們基於 FMDV

39 Asia SAT1 血清型及 VP1、VP2、VP3、VP 及 nonstructural part 包含實驗的結果 556/806,

有一條編號 ABI16232.1 具有雖然有 187 個實驗結果我們選擇捨棄因為其序列中包含非 20 個典型胺基酸。使用前面所描述決定表頂的方式來決定表頂的位置熱點,最後由所使 用的資料,決定使用 5、7、21 當作我們 IGA-voting method 的最終滑動窗口,我們所設 定的適應函數之 PPV 值最高 0.559322(TP=33,FP=26),在三個滑動窗口物化性質綜合結 果的情況下,若大於 2 票我們認為此點為抗原性質的熱點,此外在所有此 3 票的時候可

40

註紅色部分顯示出我們的演算法所預測的熱點,藍色的部分顯示出實驗上所定義出的位 置,其中若低於 0 的位置代表其為抗原位點的機會小,此病原體編號為 no 6318188。

然後可以依照票數決定其表頂的範圍,或以此部位擴張其在實驗上所需要的範圍。

例如:最高票位置為 145,我們可以以此為中央點 TYTASTRGDLAHLTATHARHL 擴張 至 21 個胺基酸殘基,或選擇 GDLAHLT 擴張至 7 個胺基酸殘基,143DLAHLT148

則是為實際實驗的結果。接下來,我們自 PDB 中找出 no 6318188 其結構圖,然後標示 出其實驗結果的位置,利用圖形上的註解進行分析比較,可以看出是一個變動性較高的 位置,形狀較為不固定且具帶電性胺基酸。

圖 30 病原體編號為 no 6318188 之結構

註:黃色部位表示實驗所得到的抗原決定位的結構位置,使用軟體[59]呈現圖型化 接下來,我們以同樣的結構標出這些被我們使用投票方式定義出的熱點,然後利用圖形 上的註解進行分析比較,可以發現大部份我們計算方式找出物化性質定義出來的點在結 構上較為靈活的部位為 loop,且其附近帶有帶電性胺基酸,且與實驗上得到的抗原決定 位相近。

圖 31 為使用呈現病原體編號為 no 6318188 之結構 註:黃色部位表示所有熱點位置的結構位置

41

以上結果其利用由訓練資料中序列抗原位置及抗原性質的資訊所得到的位點及範圍,

使用 IGA-投票的方式決定出最好的投票組合。接下來利用我們獨立測詴資料中的資料 進行測詴此演算法定義出來的效果。以下顯示出測詴資料中,使用相同的方式所定義的 熱點與實驗得到的位置之結果。此為獨立測詴集中的序列。

利用視覺化顯示出病原體序號 4038547 實驗的結果在使用黃色標示 VSNVRGDLQVLAQKAERALP,然後將熱點標示紅色大寫部位。

TTSAGESADPVTATVENYGGETQVQRRQHTDISFILDRFVKVTPKDQINVLDLMQI PAHTLVGALLRTAAYYFSDSELAVKHKGGLTWVPNGAPETALDNTTNPTAHHKAPLT RLALPYTAPHRVLATVYNGSCKYSDARVSNVRGDLQVLAQKAERALPTSFNYGAIK ATRVTELLYRMKRAETYCPRPLLAIQPSDARHKQEIVASAKQLL

4038547(VP1) type O

283554648(VP1) type O

圖 32 獨立測詴集中為定義出來的熱點位置

視覺化結構來看可以瞭解,實驗的序列位置為藍色部位,結果顯示出,此序列重疊 性很高且其位置在於可變動性較高的位置。以下為此同源結構的註解

Annotated according to the program DSSP. "H" for alpha-helix, "G" for 3-10 Helix, "E" for beta-strand, "T" for turn, "X" for

residues not in PDB, space for loop.得知此抗原決定部位是一個 loop。比較我們使用 IGA 投票結果,

針對我們研究的對象進行定義出下面的位點,此顯示出與真實實驗結果得到抗原決定位 的部分有許多的重疊。另一個熱點的位置的結構特徵為紅色所顯示出的部位,可以看出 其為一個變動性較高的 turn 結構。

42

圖 33 為獨立測詴集中定義出的位置顯示在同源結構下

由圖可以顯示出,我們所標示出的熱點與實驗所得之結果位置一致性很高,另外若 以我們決定滑動窗口的方式,可以得到更接近實驗結果的序列覆蓋率。

另一種,比較方式為利用不同工具預測的表頂結果與我們所預測的結果與真實實驗 對照,當做我們的比較方式之一,但是由於實驗結果數量不多我們比較命中率,此指所 有預測結果與真實實驗結果相符合的數目。

我們比較四個與免疫預測相關的工具,為 Bepipred、 ABCpred 、BcePred 及 LEPD,

分別依照其文獻中最佳參數設定,比較各個預測結果的命中率。下面顯示測詴的參數設 定:

ABCpred,window length of 16 residues threshold = 0.6 Bepipred, threshold=0.35

BcePred ,default is 2.38 chose hydrophilicity, flexibility, polarity and exposed surface properties

LEPD,without

IGA-Voting,5,7,21 windows size vote

表 12 為比較獨立測詴集中不同病原體之序列在使用不同工具之下

ABCpred Bepipred BcePred LEPD IGA-Voting No.4038547 2/19 1/9 0/6 2/10 7/20 No.283554648 3/18 1/9 2/7 2/18 8/32

True positive rate 12.22% 6.3% 17.64% 13.4% 28.85%

由上面的結果可以知道由於各個病原體序列所得到的實驗結果並不多,在我們使用 比較的方式中,這個假設預測結果中若無與實驗映射出位置大於等於四個相同的序列,

則我們當作為 FP,因此再少的 TP 實驗結果下以及多個預測值下,可以得到如表的比較 值,可以看出我們的結果優於其它預測工具。

43 關的物化性質占了大部分在所選出來的 feature 中(17/36)。此與抗原表頂位的相關研究中 指出符合,表頂常出現在 loop 或 turn 蛋白質表面突出的部分,某些則是出現在 alpha-helix 及 beta-shee 但是很少出現在 beta-shee 的中央[61]。疏水性/親水性指標則是具有認為表 頂位於蛋白質表面大部分為親水性殘基,其占有第二多數量(11/36),其它極性及易曲性 則是各占 3 項,最後一項為分析蛋白質表面與內部組成之物化性質。

被選到的物化性質中不乏先前相關研究中被用來預測 B 細胞表頂的指標,如:

HOPT810101 此物化性質為 Hopp 及 Woods 利用 Levitt 所提出的親水性性質尺度 ( hydorophilicity propensity)[26],BHAR880101、KARP850102 則是先前利用易曲性 (flexibility)預測預測 B 細胞表頂[30]。若看單一指標可以看出在某些相關物化性質的局 部峰值,可能為的表頂位點,但並非絕對在基於實驗得到的結果下。

由此我們可以推想使用多種相似性質指標但不同數值下,共同‖合作‖來預測效果會 比起單一指標效果更佳,在我們基於此病原體表頂免疫資料下使用特徵選取的方式所選 出的物化性質。

44

圖 34 為所選出的物化性質單一指標所得到的值

接下來我們進一步分析物化性質,使用MED針對主效果分析分析各物化性質對於分 類上的影響,可以得到各組feature影響此模型分類上(如圖35)。可以發現BUNA790101 具有最高的MED數值,查詢相關文獻發現此物化特性指標來自1H-NMR核磁共振對於研 究線性四聚胜肽在水溶液中構型的變化所得到的物化性質數值,此外BUNA790103與此 文獻相關的也在MED排名中佔第9此為與構形相關的feature,特別地是與random coil相 關[62]。接下來的MONM990201則是與膜蛋白間alpha-helix間turn相關的物化性質[63],

RICJ880106及ONEK900101為與alpha-helix組成相關的物化特性[64]。QIAN880110及 QIAN880114則是與alpha-helix及beta-shee二級結構相關[65]。NAKH920104則是研究膜 蛋白膜內膜間膜外的組成,此與親水性/疏水性指標相關。

RICJ880106及ONEK900101為與alpha-helix組成相關的物化特性[64]。QIAN880110及 QIAN880114則是與alpha-helix及beta-shee二級結構相關[65]。NAKH920104則是研究膜 蛋白膜內膜間膜外的組成,此與親水性/疏水性指標相關。

相關文件