第五章 實驗資料與結果討論
5.2 實驗結果
我們已將詳細的實驗數據放在附錄中,並且每個蛋白激酶的資料均以 1:1 等比例 的positive 和 negative 做為計算,標準差是以括弧括號起來。我們以 30 次 5 等份交 叉驗證(5-fold cross-validation, 5-CV)來比較 HMM-1、HMMer 和 iHMM 兩個演算法 的效能。所謂 5-CV 是將原始資料均勻切成五等份,每次輪流用其中的四等分做為訓練 資料,訓練完畢後,再以剩下的一第分做為測試資料,5 次做完之後,將 5 次測試資料 的辨識率平均,及為此系統的辨識率。附錄一中的每條曲線均是 30 次 5-CV 平均後的 結果(也就是 30x5 = 150 次實驗的平均),為了公平比較 HMM-1、HMMer 和 iHMM 的效能,全部都只訓練 “Positive” 這一類。我們例出兩種門檻值的結果,並以代號δ1
和 δ2 來表示,δ1 表示門檻值取訓練資料正確率最高的那一點來當測試資料的門檻 值,δ2表示門檻值取測試資料正確率最高的那一點來當測試資料的門檻值。我將δ1的
門檻值下的正確率整理在表 5.1。所有數據都四拾五入到小數以下第四位。而在 PKG
(S),CK1 (S)跟 CK2 (S) 這三組資料由於 HMM-1 跟 iHMM 在 BIC 的選擇下都只用到 一個狀態,由於在一個狀態中 first-order 跟 second-order 並無區別,所以這組資料的正 確率和標準差是一樣的。
在表 5.1 中 HMMer 的平均正確率是 0.7439,HMM-1 的平均正確率是 0.7508,而 我們提出的HMM-1 的平均正確率是 0.7871。另外我們用標準的配對 t-test 來檢驗比較 兩個演算法的 30 次 5-CV 正確率樣本的平均值之間是否存在顯著差異,若以 X1表示
A 演算法的正確率平均值,以 X2 表是 B 演算法的正確率平均值,其虛無假設為
2 1 0 :X =X
H ,t-test 的機率與我們拒絕了該假設有關。統計學上 t-test 值小於 0.05 表示 存兩組觀察樣本存在顯著差異,相反的則是不存在顯著差異。而我們可以看到iHMM 在 PKA (S),PKC (S),CaM-KII (S),CK1 (S),CDK (S),MAPK (S),ATM (S),PKA (T),
PKC (T),CK2 (T),CDK (T),EGFR (Y)和 INSR (Y) 等資料相對於 HMMer 都有顯著 改善。
23
0.0034 6.92E-12 PKB
8.41E-14 0.6779 PKC
0.2890 9.59E-9 PKG
0.2571 0.2571 CaM-KII
(76)
1.5E-9 6.69E-12 CK1
1.15E-18 1.15E-18 CK2
0.3120 0.4622 CDK
0.0003 1.15E-7 MAPK
0.0002 3.65E-8 S
3.25E-7 9.43E-11 PKA
5.71E-10 1.66E-21 PKC
0.2892 0.0010 CK2
8.46E-23 8.46E-23 CDK
3.35E-11 7.55E-8 T
0.0172 0.9424 EGFR
1.06E-5 4.76E-10 INSR
0.4213 2.57E-6 Y
1.6E-18 4.07E-5
平均 0.7439 0.7508 0.7871
24
圖 5.1: PKA sequence logos
圖 5.2: PKA (S)資料的 HMMer 結構
S4
S1
S6 S0 S3
S8
S7 S5
S2 a26 = 1.0 a67 = 1.0
a37 = 1.0
a38 = 1.0 a81 = 1.0
a15 = 1.0
a50 = 1.0 a04 = 1.0
a44 = 0.938575
a42 = 0.061423 a46 = 0.000002
begin = 1.0
圖 5.3: PKA (S)資料的 HMM-1
結構 圖 5.4: PKA (S)資料的 HMM-1 結
構的符號觀測機率圖
25 a201 = 0.035268 a202 = 0.964732
a120 = 1.0
a132 = 0.004016 a332 = 1.0
a022 = 0.997695 a222 = 0.999727
a33 = 1.0 a133 = 0.995984 a021 = 0.002305 a221 = 0.000273
begin = 1.0
S01 S02
S22
a201 = 0.035268 a202 = 0.964732 a120 = 1.0
a133 = 0.995984
a022 = 0.997695
a222 = 0.999727 a013 = 1.0
a213 = 1.0
a021 = 0.002305
a221 = 0.000273
a332 = 1.0 a132 = 0.004016
a333 = 1.0
begin = 1.0
圖 5.7: HMM-1 等價展開圖
26
在這裡我們以 PKA 資料做為此章節的實驗結果的討論,我們將 HMMer 以實際資 料訓練出來的結構圖放在圖5.2,它的狀態內部的符號觀測機率 (observation probability) 已經在狀態的上面,另外也將HMM-1 和 iHMM 的結構圖分別展現在圖 5.3 跟圖 5.5,
而它們對應的狀態內部的符號觀測機率分別放在右邊的圖5.4 跟圖 5.6,為了方便讀者閱 讀,我己將符號觀測機率轉換成序列圖案(sequence logos)。圖 5.1 是 PKA 資料的序列圖 案,左右兩邊各取 7 個殘基,中間絲氨酸(S)的地方歸零。圖 5.7 是圖 5.5 的 HMM-1 等 價展開圖,其中狀態 S20 的符號觀測機率等於 S0;狀態 S01、S11、S21、S31 的符號 觀測機率等於狀態 S1;狀態 S02、S12、S22、S32 的符號觀測機率等於 S2;狀態 S13、
S23、S33 的符號觀測機率等於 S3,雖然兩個結構等價,但一般來說,以 HMM-1 沒
a023 = 0.998544 a223 = 0.000004 a323 = 0.250676
a121 = 1.0 a221 = 0.249892 a321 = 0.006564 a022 = 0.001456
a222 = 0.750105 a322 = 0.742759
a012 = 1.0
a12 = 1.0 a331 = 1.0
a102 = 0.999853 a310 = 1.0
a103 = 0.000004 a101 = 0.000143
a113 = 1.0
27
a414 = 0.780529 a431 = 0.038359 a113 = 1.0
a121 = 0.28877 a221 = 0.24560
a420 = 1.0
a343 = 1.0 a242 = 1.0
a324 = 1.0 a311 = 1.0
a204 = 0.014302
a130 = 1.0 a141 = 1.0
a441 = 1.0
a203 = 0.040895 a202 = 0.017392
a234 = 1.0 a334 = 1.0
a33 = 1.0 a033 = 1.0 a122 = 0.970987
a222 = 0.783418
a432 = 0.961641 a201 = 0.927412
a301 = 1.0
a012 = 1.0 a212 = 1.0 a412 = 0.219471
a23 = 1.0 a023 = 1.0 a123 = 0.000135 a223 = 0.192022
begin = 0.682794 S2
begin = 0.317206
圖 5.12: CDK (S)資料的 HMM-2 結構 圖 5.13: CDK (S)資料的 HMM-2 結構的 符號觀測機率圖
28