經由 4.1 節將資料編碼後,本章節使用四個目標參數,將比較 IMOGA 與NSGA2 演算法所求選取最少的 Tag SNPs 解集合;參數設定如表 5。目標 一:最小化Tag SNPs,目標二:Tag SNPs 容錯率最大化,目標三:Haplotype 的變異性最大化;目標四:Haplotype 的多樣性最小化。
表 5 IMOGA 與 NSGA2 參數設定
參數 值
編碼表示(Representation) 二進制編碼 (選或不選) 族群大小(Population size) 200
交配率(Crossover) Pc = 0.7
突變率(Mutation) Bit-flip 突變;Pm = 1/l
(其中 l 代表可用的 SNPs 個數) 終止條件(Termination) 500 次迭代
評估值(Evaluation) 25000
由圖15 得知目標一與目標二互不為衝突,當目標一求最少 Tag SNPs 解 集時,目標二Haplotype 樣式中 SNP 遺失資料也會增加,即計算最少 Tag SNPs 的容錯也會增加,所以這兩個目標示互不相衝突的。Tag SNPs 解集要望小,
Haplotype 樣式中 SNP 遺失資料容錯要望大。
圖 15 IMOGA 與 NSGA2 實驗比較,X 軸為目標一、Tag SNPs 個數,Y 軸為 目標二、Tag SNPs 容錯
圖 16 目標一與目標三互為衝突,當目標一求最少 Tag SNPs 解集時,
Haplotype 樣式之間過於相似時,無法識別出最佳的 Tag SNPs,所以這兩個 目標示互相衝突的。Tag SNPs 解集要望小,Haplotype 平均漢明距離要望大。
圖 16 IMOGA 與 NSGA2 實驗比較,X 軸為目標一、Tag SNPs 個數,Y 軸為 目標三、Haplotype 平均漢明距離
圖 17 目標一與目標四互為衝突,目標一求最少 Tag SNPs 解集時,
Haplotype 樣式上的 SNP 每個等位基因需平衡,如果每個等位基因變異性大,
無法識別出最佳的Tag SNPs,因此,Tag SNPs 解集要望小,Haplotype 變異 漢明距離要望小。最佳解集合會落在圖12 淡藍色區域。
圖 17 IMOGA 與 NSGA2 實驗比較,X 軸為目標一、Tag SNPs 個數,Y 軸為 目標四、Haplotype 變異漢明距離
圖18 目標二與目標三互為衝突,目標二為 Haplotype 樣式中 SNP 遺失資 料容錯,目標三Haplotype 樣式之間的 SNP 遺失的資料越大時,整的 Haplotype 樣式就會越複雜,計算上所需要的成本也就越大,所以SNP 能容錯的值愈大 時,則仍要考慮到 Haplotype 樣式中 SNP 彼此之間的的相似度。因此,SNP 容錯解集要望大,Haplotype 平均漢明距離要望大。
圖 18 IMOGA 與 NSGA2 實驗比較,X 軸為目標二、Tag SNPs 容錯,Y 軸為 目標三、Haplotype 平均漢明距離
圖19 目標二與目標四互為衝突,目標二為 Haplotype 樣式中 SNP 的容錯,
目標四Haplotype 樣式上的 SNP 每個等位基因需平衡,如果每個等位基因變 異性大,加上有SNP 資料遺失,會影響整個 Haplotype 樣式求 Tag SNPs 的最 佳解,所以SNP 能容錯的值愈大時,則仍要考慮到 Haplotype 樣式中 SNP 等 位基因之間的的平衡。因此,SNP 容錯解集要望大,Haplotype 變異漢明距離 要望小。
圖 19 IMOGA 與 NSGA2 實驗比較,X 軸為目標二、Tag SNPs 容錯,Y 軸為 目標四、Haplotype 變異漢明距離
目標三與目標四互為衝突,當目標三 Haplotype 樣式中的獲得相似 Tag SNPs 越多,則會無法找出 Tag SNPs 最佳解,加上每個 SNP 的等位基因相似 性要低,變異性要高,才能求得Tag SNPs 最佳解。其中,Haplotype 平均漢 明距離解集要望大,Haplotype 變異漢明距離要望小。
圖 20 IMOGA 與 NSGA2 實驗比較,X 軸為目標三、Haplotype 平均漢明距離,
Y 軸為目標四、Haplotype 變異漢明距離