IGA-scoring card

第四章研究方法

4.5 IGA-scoring card

此方法為使用 IGA(intelligent genetic algorithm)加以改良雙胜肽分數卡，調整其中之雙胜肽分數，並藉由 ROC 的 AUC(area under curve)來判斷調整過後的分數卡之效能。在基因演算法中，即挑選 AUC 最高的個體遺傳至下一代，使經過每一代的演化後，最後能找到效能最高的 scoring card。下圖為 IGA-scoring card 的實驗分法與流程。

圖 8 IGA-scoring card 實驗流程示意圖

說明：以整個 dataset 的 4/5 來建立 IGA-scoring card 的模型。在初始族群(圖中紅色框框內)設定中 10 個為真實統計的 scoring car，另外 10 個為隨機產生之個體，

並用此 4/5 中之 1/5 的 data 來進行最佳適應度之 scoring card 的搜尋，最後將 10 個結果平均得到一組適應度最高的 scoring card，並用剩餘且沒有參與建立模型過程中的 5/1 dataset 來測詴調整後的 scoring card。

圖 9 IGA 應用在 scoring card 的流程圖。

說明：如 3.3 章節所述，基因演算法之步驟包括了初始族群(initiation)、適應值評估(evaluation)、選擇(selection)、交配(crossover)、突變(mutation)和終止條件 (termination)。此圖中變簡單敘述了每個步驟的方法。

基因演算法的最佳化效果被應用在很多方法中，如 3.3 中所述之過程。而加了直交表的智慧型基因演算法應用在 scoring card 中的步驟如圖 8 所示，其與一般基因演算法差異較大的步驟包括初數族群之設定、適應度計算與最佳化的交配方法，所以下文中會再對此幾個步驟做詳細的說明。

4.5.1 初始族群設定

在 IGA-scoring card 的族群中(population)，每個個體(individual)的基因編碼為 400 個基因(gene)，就是由 400 個雙胜肽分數構成的 scoring card。

在圖 7 的紅色框框中，初始族群個數設定為 20 個，其中 10 個個體為利用 10 個 training data 所統計出的 400 個雙胜肽分數，統計方法如 3.5.1 中所述，每張卡中的分數都是經過 scale 成 0~1000 之範圍內的整數。而另外的 10 個個體則是隨機產生 400 個分數，此分數的最大值與最小值分別為 0 與 1000。

4.5.2 適應度計算

在從 validation data 來每次增加 2 分當作臨界值來區分 0 組與 1 組時，會同時利用真陽性率(TPR)和假陽性率(FPR)來畫出 ROC(Receiver Operating

Characteristic) curve。TPR 與 FPR 的計算公式如下：

再從 validation data 中找尋一個適當的臨界值，而從找尋臨界值的過程中，可以藉由準確率、真陽性率和假陽性率來畫出 ROC curve，而計算每個個體的 AUC 就是每個個體的適應度。AUC 的值越大，代表此個體的適應度越好。

在此圖 7 的實驗設計中，原本 4/5 的 training data 又被分為 1/5 的 validation data 與 4/5 的 scoring card 統計資料，所以總共有 10 個不同的 validation data。每個 validation data 都會參與一次的 IGA 的調整來得到一張適應度最高的 scoring card，因此最後會有 10 張由 10 個不同 validation data 得到的 scoring card，在最後將 10 張卡片中每個雙胜肽數值予以平均，就會產生如圖 7 中箭頭符號所代表的一張最好的 scoring card (Best scoring card)。將 10 組從 validation data 得到的準確率最高的 threshold 做平均，之後得到一個 threshold 的值再拿來用在分類 independent test 的資料上。

4.5.3 直交交配法 validation data 的測詴來計算出適應函數值。

最後由兩個親代、512 組實驗與兩個子代中再挑選適應度最高的兩個進入下一個世代，但通常是由兩個經過直交表篩選後的子代會擁有最高的適應函數值。

在交配過程中加入了直交表來使交配後的結果能得到最佳化，如此經過幾個世代很快的就可以得到最佳化因子組和的個體，也就是適應函數值最高的個體。

4.5.4 IGA-scoring card 演算法流程

此節為介紹 IGA-scoring card 方法的完整演算法流程，流程圖如圖 10 所示。

綜合上述所介紹之 IGA-scoring card，在訓練的流程中，一開始由 training dataset 與 validation dataset 來建立出雙胜肽分數卡來經過智慧型基因演算法之最佳化調整(如圖 10 左半部)，並得到最佳化過後的分數卡與最佳之臨界值。而在測詴的流程中每個輸入的蛋白質 sample 藉由分數卡的計算來得到一個分數，再由臨界值來判斷此蛋白質 sample 是屬於可溶或是不可溶類別。

圖 10 IGA-scoring card 演算法之流程圖

說明：此流程圖主要分為 training 與 test 兩個主要流程。在 training 部分一開始為利用 training dataset 來建立出分數卡，再將這些分數卡與 validation dataset 經由 IGA 的最佳化來得到最佳的分數卡與臨界值；而在 test 的流程中，輸入的蛋白質 sample 藉由最佳化後的分數卡來計算出一個分數，再依據臨界值來分類此蛋白質的類別。

4.5.5 視窗型臨界值實驗

在利用 validation data 找到一個使準確率最高的臨界值後就可以用來區分 test data，但 scoring card 的實驗還可以利用 window threshold 的方法來將準確率再提高。

視窗型臨界值實驗(Window threshold)為從最佳臨界值開始，每回合都加減 1 分，直到到達 test data 最邊界的分數。因為在分數計算時 soluble 蛋白質為正分，

insoluble 蛋白質為負分，所以兩種類別的蛋白質會由分數高低而往兩邊被區分開，

然而將臨界值從單一數值慢慢拉大成一個範圍時，在此範圍內的蛋白質被認為是不明確(unknown)的蛋白質，不予以計算此範圍內蛋白質的準確率，而超過這範圍兩邊的蛋白質就越來越會是屬於本身的類別，如此準確率就會隨著 window threshold 的範圍增大而慢慢提高。

在文檔中使用雙胜肽分數卡預測蛋白質在大腸桿菌表現系統中之溶解度 (頁 29-34)

第四章 研究方法

4.5 IGA-scoring card

第四章研究方法