• 沒有找到結果。

第五章 實驗結果與討論

5.4 IGA-scoring card 結果與討論

不同於 scoring card,IGA-scoring card 加入了智慧型基因演算法來調整 scoring card 中的分數,使整張 scoring card 能得到更好的分類效果。下表為 IGA-scoring card 的結果,資料分法如圖 7 所示,統計出的十張 scoring card 被用 來當做 IGA 的初始族群,經過十組 validation data 的調整後再將十組 scoring card 做平均來並測詴 independent test。

在表 7 的結果中,IGA-scoring card 中的 AUC 值比 scoring card 的 AUC 高出 許多,平均為 0.84,且其實如果不是將十組 scoring card 做平均,各別由 IGA 調 整過後的 validation data 之 AUC 幾乎都可以到達 0.9 以上甚至幾乎接近 1 的分數,

由此可證明智慧型基因演算法的效力,且有達到以 AUC 來做為 IGA 在調整時的 適應性函數。而在 independent test 的準確率也比沒有經過 IGA 調整的結果高出 5 個百分點左右。

30

表 7 IGA-scoring card 之結果

說明:IGA-scoring card 的結果。Training 中包含了 validation 的準確率與最高準 確率之臨界值與每組 validation data 的 AUC。一組的 test 則由十組 scoring card 與十組臨界值之平均來做分類。

圖 12 IGA-scoring card 的 heat map 表示法

說明:為包含 400 個值的雙胜肽 scoring card,並以 heat map 的形式表現,每間 隔 100 分即為不同顏色。雙胜肽的組合先看行再看列。

但從圖 10 的 heat map 來看,400 個雙胜肽的極端值稍為被拉近了,經過 IGA 調整後的 scoring card 的極端值變得較少且較不極端,且總觀而言,所有分數值 幾乎都往上提升,整張 heat map 的顏色有從藍色轉變為綠色與黃色的趨勢。但

31

與 scoring card 相同之處就是 LA、GN 和 SS 仍是處於整個 400 個值得最極端值。

而經過調整後的 scoring card 改變最多的雙胜肽包括 EA、VR、LA、AA、

TP、MC 和 SD 等,其中較令人注意的是,EA 在原本的 scoring card 中第二高的 值,而經過 scoring card 的調整後卻變得不是那麼極端,反而是由 AE 跟 AL 取代,

推測 AE 與 AL 在 soluble 的蛋白質類別中也扮演了具有影響力的角色。而不同於 soluble 類別的蛋白質,insoluble 蛋白質類別中仍然以 GN 與 SS 佔優勢,

5.4.1 長條圖分數分析

因為每個蛋白質 sample 被轉換成一個數值,再從中選擇某個臨界值來將兩 類分開。圖 11 為以長條圖的方式來表示 scoring card 之 test 資料中蛋白質的分佈,

soluble 蛋白質在計算時為+1 分,所以會偏往高分區,相對的,insoluble 為-1 分,所以會往低分區偏向。但從圖 11 來看,未經過 IGA 最佳化的 scoring card 計算出的分數中兩類蛋白質之重疊率相當大,所以分類準確率當然也不會太高。

圖 13 Scoring card 之 independent test data 的分數分佈長條圖

說明:此為 scoring card 實驗中 test 資料的分佈圖,在此 test 資料中分數最高值 為 441.49,最低為 300.2,X 軸為分數,以每 10 分為一個間隔,Y 軸為此分數範 圍內蛋白質 sample 的數量。藍色的 bar 代表 soluble 蛋白質,紅色為 insoluble 蛋 白質。圖中黃色框框處的範圍為臨界值的切點,此臨界值為 393.49。

而圖 12 為經過 IGA 最佳化後的 IGA-scoring card 的 test 資料中蛋白質的分 佈,與圖 11 比較起來,可以很明顯的看出兩類蛋白質有往兩極區分開的趨勢,

此可以證明 IGA 最佳化的效果是真的能將蛋白質依照雙胜肽的分數來區分溶解 度。

從圖 12 也可看出以 dipeptide scoring card 來分析蛋白質的溶解度,的確是可 以將兩類蛋白質依照此分數來分開,在長條圖中形成兩個雙峰。圖中可看出在

32

420~430 分的區間中,兩類蛋白質重疊率較高,而分類此資料的臨界值為 423.3 (圖中黃色框框內),就是位於此範圍內。

圖 14 IGA-scoring card 之 independent test data 的分數分佈長條圖

說明:此為 IGA-scoring card 實驗中 test 資料的分佈圖,在此 test 資料中分數最 高值為 438.99,最低為 346.24,X 軸為分數,以每 5 分為一個間隔,Y 軸為此分 數範圍內蛋白質 sample 的數量。藍色的 bar 代表 soluble 蛋白質,紅色為 insoluble 蛋白質。圖中黃色框框處的範圍為臨界值的切點,此臨界值為 423.3。

5.4.2 視窗型臨界值實驗結果

原本的臨界值只是一個值,用來切來兩類的蛋白質,而此實驗則是將此切開 的臨界值拉大成一個範圍,使超出此範圍的蛋白質 sample 再來做分類予以計算 準確率。圖 13 為此實驗之結果,從原本的臨界值開始每回合都加減 1 分來拉大 範圍直到到達 test 資料的邊界,所以當 X 軸在原點時,代表沒有加減任何分數,

即為原本的一個數值的臨界值,而 Y 軸的準確率一開始也是 IGA-scoring card 中 的準確率(81.68%,如表 7 所示)。

33

圖 15 視窗型界值的結果

說明:X 軸為臨界值加減的分數,Y 軸為準確率。隨著臨界值的範圍被拉大準確 率也會提升。

因為由圖 13 的長條圖可得知兩類蛋白質會依照分數往兩邊偏向,所以在將 臨界值的範圍拉大時就越能夠將蛋白質的類別預測準確。圖中有幾個部分準確率 往下掉是因為從圖 11 可看出有幾個範圍內的兩類蛋白質有較大的重疊率,所以 造成準確率下降。

此方法可讓使用者依照自身的需求來選擇準確率的範圍,例如使用者可以選 擇只相信準確率到達 0.9 以上的蛋白質之預測結果,或是更嚴苛的標準要到達準 確率超過 0.95 以上的蛋白質預測結果等,可增加生物學家在實驗上對預測結果 的信任。而此種依照使用者來決定要相信準確率到達幾分以上的方法是一般機器 學習之分類器無法做到的,所以這也是 scoring card 方法的優勢之一。

相關文件