實驗結果

第五章實驗資料與結果討論

5.2 實驗結果

我們已將詳細的實驗數據放在附錄中，並且每個蛋白激酶的資料均以 1:1 等比例的positive 和 negative 做為計算，標準差是以括弧括號起來。我們以 30 次 5 等份交叉驗證（5-fold cross-validation, 5-CV）來比較 HMM-1、HMMer 和 iHMM 兩個演算法的效能。所謂 5-CV 是將原始資料均勻切成五等份，每次輪流用其中的四等分做為訓練資料，訓練完畢後，再以剩下的一第分做為測試資料，5 次做完之後，將 5 次測試資料的辨識率平均，及為此系統的辨識率。附錄一中的每條曲線均是 30 次 5-CV 平均後的結果（也就是 30x5 = 150 次實驗的平均），為了公平比較 HMM-1、HMMer 和 iHMM 的效能，全部都只訓練 “Positive” 這一類。我們例出兩種門檻值的結果，並以代號δ1

和 δ2 來表示，δ1 表示門檻值取訓練資料正確率最高的那一點來當測試資料的門檻值，δ₂表示門檻值取測試資料正確率最高的那一點來當測試資料的門檻值。我將δ₁的

門檻值下的正確率整理在表 5.1。所有數據都四拾五入到小數以下第四位。而在 PKG

(S)，CK1 (S)跟 CK2 (S) 這三組資料由於 HMM-1 跟 iHMM 在 BIC 的選擇下都只用到一個狀態，由於在一個狀態中 first-order 跟 second-order 並無區別，所以這組資料的正確率和標準差是一樣的。

在表 5.1 中 HMMer 的平均正確率是 0.7439，HMM-1 的平均正確率是 0.7508，而我們提出的HMM-1 的平均正確率是 0.7871。另外我們用標準的配對 t-test 來檢驗比較兩個演算法的 30 次 5-CV 正確率樣本的平均值之間是否存在顯著差異，若以 X1表示

A 演算法的正確率平均值，以 X2 表是 B 演算法的正確率平均值，其虛無假設為

2 1 0 :X =X

H ，t-test 的機率與我們拒絕了該假設有關。統計學上 t-test 值小於 0.05 表示存兩組觀察樣本存在顯著差異，相反的則是不存在顯著差異。而我們可以看到iHMM 在 PKA (S)，PKC (S)，CaM-KII (S)，CK1 (S)，CDK (S)，MAPK (S)，ATM (S)，PKA (T)，

PKC (T)，CK2 (T)，CDK (T)，EGFR (Y)和 INSR (Y) 等資料相對於 HMMer 都有顯著改善。

0.0034 6.92E-12 PKB

8.41E-14 0.6779 PKC

0.2890 9.59E-9 PKG

0.2571 0.2571 CaM-KII

(76)

1.5E-9 6.69E-12 CK1

1.15E-18 1.15E-18 CK2

0.3120 0.4622 CDK

0.0003 1.15E-7 MAPK

0.0002 3.65E-8 S

3.25E-7 9.43E-11 PKA

5.71E-10 1.66E-21 PKC

0.2892 0.0010 CK2

8.46E-23 8.46E-23 CDK

3.35E-11 7.55E-8 T

0.0172 0.9424 EGFR

1.06E-5 4.76E-10 INSR

0.4213 2.57E-6 Y

1.6E-18 4.07E-5

平均 0.7439 0.7508 0.7871

圖 5.1: PKA sequence logos

圖 5.2: PKA (S)資料的 HMMer 結構

S6 S0 S3

S7 S5

S2 a26 = 1.0 a67 = 1.0

a37 = 1.0

a38 = 1.0 a81 = 1.0

a15 = 1.0

a50 = 1.0 a04 = 1.0

a44 = 0.938575

a42 = 0.061423 a46 = 0.000002

begin = 1.0

圖 5.3: PKA (S)資料的 HMM-1

結構 圖 5.4: PKA (S)資料的 HMM-1 結

構的符號觀測機率圖

25 a201 = 0.035268 a202 = 0.964732

a120 = 1.0

a132 = 0.004016 a332 = 1.0

a022 = 0.997695 a222 = 0.999727

a33 = 1.0 a133 = 0.995984 a021 = 0.002305 a221 = 0.000273

begin = 1.0

S01 S02

S22

a201 = 0.035268 a202 = 0.964732 a120 = 1.0

a133 = 0.995984

a022 = 0.997695

a222 = 0.999727 a013 = 1.0

a213 = 1.0

a021 = 0.002305

a221 = 0.000273

a332 = 1.0 a132 = 0.004016

a333 = 1.0

begin = 1.0

圖 5.7: HMM-1 等價展開圖

在這裡我們以 PKA 資料做為此章節的實驗結果的討論，我們將 HMMer 以實際資料訓練出來的結構圖放在圖5.2，它的狀態內部的符號觀測機率 (observation probability) 已經在狀態的上面，另外也將HMM-1 和 iHMM 的結構圖分別展現在圖 5.3 跟圖 5.5，

而它們對應的狀態內部的符號觀測機率分別放在右邊的圖5.4 跟圖 5.6，為了方便讀者閱讀，我己將符號觀測機率轉換成序列圖案(sequence logos)。圖 5.1 是 PKA 資料的序列圖案，左右兩邊各取 7 個殘基，中間絲氨酸(S)的地方歸零。圖 5.7 是圖 5.5 的 HMM-1 等價展開圖，其中狀態 S20 的符號觀測機率等於 S0；狀態 S01、S11、S21、S31 的符號觀測機率等於狀態 S1；狀態 S02、S12、S22、S32 的符號觀測機率等於 S2；狀態 S13、

S23、S33 的符號觀測機率等於 S3，雖然兩個結構等價，但一般來說，以 HMM-1 沒

a023 = 0.998544 a223 = 0.000004 a323 = 0.250676

a121 = 1.0 a221 = 0.249892 a321 = 0.006564 a022 = 0.001456

a222 = 0.750105 a322 = 0.742759

a012 = 1.0

a12 = 1.0 a331 = 1.0

a102 = 0.999853 a310 = 1.0

a103 = 0.000004 a101 = 0.000143

a113 = 1.0

a414 = 0.780529 a431 = 0.038359 a113 = 1.0

a121 = 0.28877 a221 = 0.24560

a420 = 1.0

a343 = 1.0 a242 = 1.0

a324 = 1.0 a311 = 1.0

a204 = 0.014302

a130 = 1.0 a141 = 1.0

a441 = 1.0

a203 = 0.040895 a202 = 0.017392

a234 = 1.0 a334 = 1.0

a33 = 1.0 a033 = 1.0 a122 = 0.970987

a222 = 0.783418

a432 = 0.961641 a201 = 0.927412

a301 = 1.0

a012 = 1.0 a212 = 1.0 a412 = 0.219471

a23 = 1.0 a023 = 1.0 a123 = 0.000135 a223 = 0.192022

begin = 0.682794 S2

begin = 0.317206

圖 5.12: CDK (S)資料的 HMM-2 結構 圖 5.13: CDK (S)資料的 HMM-2 結構的 符號觀測機率圖

在文檔中以二階隱藏式馬可夫模型預測特定蛋白激酶磷酸化的位置 (頁 35-41)

第五章 實驗資料與結果討論

5.2 實驗結果

第五章實驗資料與結果討論