Tag SNPs 選取問題 - 使用智慧型三目標基因演算法選取標籤單核苷酸多型性

Tag SNPs選取問題，由於DNA單點發生突變的機率很低，可以推論同一點發生兩次突變的可能性十分渺小，因此學者通常會假設單點上僅可能發生一次突變( 0 → 1 )，故我們可將Haplotype的SNP鹼基用0、1表示，標記為0代表主要等位基因(major allele)，標記為1代表次要等位基因(minor allele) [17]。

一列Haplotype是由多個SNP鹼基組成之序列，因此個Haplotype : 1, … , 內含個SNP S : 1, … , 可表示為一個的0、1資料矩陣，如

圖5矩陣 _, 所示。

為了比較Haplotype間之差別，我們可將任兩個Haplotype 與配對成

, ，而令 _, : 1, … , ; 1, … , 代表所有可能的 Haplotype配對所構成之集合。舉例來說，與可配對形成 _, ；與可配對形成 _, 。圖5有四個Haplotype，總共形成 6種配對方式，因此集合

, , _, , _, , _, , _, , _, 。另外，針對每一個及 _, 可定義一個指標函數 _, , ∈ 0,1 ，其中若 _, , _, ∈ 0,0 , 1,1 時，將無法被用來辨識該組Haplotype配對 _, ，因此 _, , 0；相反地，假若

, , _, ∈ 0,0 , 1,1 時，可被用來辨識該組Haplotype配對 _, ，而

, , 1 。如圖 2.1 以、與之鹼基交集位置為例，由於

, , _, 0,0 ，代表不能被用來辨識 _, ，因此 _, , 0；同理，

由於 _, , _, 1,1 ，代表不能被用來辨識 _, ，因此 _, , 0；反之， _, , _, 0,1 ，代表可被用來辨識 _, ，因此 _, , 1。以此類推，可得可否被用來辨識中所有Haplotype配對的狀態，如圖5所示。

圖 5 SNP 及其所能辨識的 Haplotype 配對

針對所有的SNP( )重複其與所有 _, 的比對步驟，可建構一個Haplotype

配對與SNP間的比對矩陣，該矩陣內的元素即為其所對應的 _, , 之值，

如圖6之矩陣經轉換後可得比對矩陣。

圖 6 比較 Haplotype 配對差異與轉換矩陣

若將視為一個bipartite網路圖 , 的相鄰矩陣(adjacency matrix)，

我們可將所有的SNP( )與Haplotype配對( _, )視為節點與節點，亦即

∪ ；針對所有 _, , 1之關係，我們可將其所對應之、節點

連結，亦即 , _, : ∀ , _, ∈ ；反之，對所有 _, , 0之關

係，其所對應之、節點將不被連結。如此一來即可將SNP與Haplotype配對

的比對關係以一個bipartite 網路圖 , 表示，並將各節點 ∈ 的 degree( deg(k ) )記錄於其旁。舉例來說，圖7即為圖6的 矩陣所對應之 bipartite網路圖 , 。

圖 7SNP 與 Haplotype 配對辨別關係 bipartite 網路圖

由圖7可觀察出，當被挑選時， _, 、 _, 、 _, 皆可被其所辨識。選取 Tag SNPs之主要限制在於所選出之SNP集合必須保證可以辨識集合內的所有元素；此外，在所有滿足此限制條件的候選SNP集合中，Tag SNPs所包含的SNP個數必須為最少。以圖8與圖9為例，選擇 , , 可以辨識出所有的元素;同理，選擇 , 也可以辨識出所有的元素;由於 , 的個數為所有可辨識集合全部元素之SNP集合中最小者，因此 , 將被選為Tag SNPs。

值得注意的是，在Tag SNPs的選取問題中，其最佳的Tag SNPs解可能不只一個。

圖 8 選取 S1、S2、S4 Tag SNPs 之圖示

圖 9 選取 S3、S5 Tag SNPs 之圖示

2.5 以多目標求解Tag SNPs選取問題

上一章節介紹了Tag SNPs選取問題是一種集合覆蓋問題，在大量的單核苷單酸多型性中選取最少的強固型Tag SNPs解集和。本研究制定最小化強固型Tag SNPs問題作為二進制目標問題，另外還包含兩個新目標，考慮單倍型之間的區別。

數學模式定義Tag SNPs [8, 24]：給一組集合，SNP , … , 和個等位基因類別 , … , 。 _, 表示等位基因中有的元素。為Tag SNPs的集合，為辨識任何兩個等位基因類別的子集合。也就是說，對於任何兩個等位基因與，至少存在一個Tag SNPs ∈ ，這樣 _, _, 。

四個目標方程式定義如下 [8]：

2.5.1 最小化強固型Tag SNPs

第一個目標找出Haplotype配對上涵蓋所有重要的SNP。假設一個集合表示所選擇的Tag SNPs， _, 表示Haplotype樣式與則代表Haplotype矩陣中的維度；其中要找到最少的Tag SNPs，目標方程式如下 [24]：

minimize ‖ ‖ (1)

‖ ‖ , _, 1, 1 (2)

該Haplotype配對維度是指可以識別並區分SNP的個數，由於每個SNP包含兩個等位基因，Tag SNPs可以視為一個二進制的Haplotype，因此集合所

代表的最小基數至少為log 。

2.5.2 容錯(Tolerance)

第二個目標主要計算Haplotype樣式中SNP的遺失資料部分，我們又可稱為計算Tag SNPs的容錯。經由SNP微陣列所獲得的資料，而每個微陣列中都會有SNP的遺失資料部分，為了防止資料遺失所造成計算Tag SNPs的複雜度，

容錯應的越大越好。目標方程式如下 [24]：

maximize min_, (3)

方程式中，表示為Tag SNPs一個集合，可以識別等位基因與

。

2.5.3 Haplotype的相異性

第三個目標主要是為了避免相似的Haplotype中獲得Tag SNPs。因Tag SNPs已經轉成二進制編碼，本研究採用漢明距離量化Haplotype樣式之間的相似性，並對所有Haplotype配對計算平均的漢明距離。由於在演化式計算中會求出不同的Tag SNPs解，因此Haplotype配應對Tag SNPs的每個解都必須正規化。目標定義方程式如下：

⋃ _∈ (4)

其中，表示的索引集合。兩個等位基因與在漢明距離表示如下：

, ∑ _∈ _, _, (5) 每個等位基因配對最大平均漢明距離方程式如下：

maximize (6)

∑ , (7)

2.5.4 Haplotype的多樣性

除了上面敘述的計算Haplotype的相異性外，第四個目標主要計算平衡 SNP檢測在每個等位基因類別。這樣的現象可以獲得漢明距離的最小變異值，

在全部的Haplotype配對背景中定義一個標籤的解。因此，識別Tag SNPs結果是對每一個等位基因都有充足的採樣。目標定義方程式如下：

minimize Var (8)

Var ∑ , (9)

三、最佳化演算法之應用

智慧型基因演算法(Intelligent Genetic Algorithm；IGA) [10] 和一般基因演算法最大的不同之處在於，IGA 在交配(crossover)的過程使用直交表 (Orthogonal Arrays)挑選好的參數，使得 IGA 能克服參數過多染色體過長的問題。直交表(OA)與因素分析常用在品質控制的方法中 [30]，也可運用於很有

直交因素實驗為一種部分因素實驗方式，可以有效減少參數設計時的實驗次數，並同時考慮實驗因素之間的交互作用。將直交因素實驗後的數據經過主效果分析，便可以將每個因素對於設計目標的貢獻優劣計算出來，推論出最佳解的實驗參數。

表 3 2 直交表

3.1.2 智慧型交配運算

智慧型基因演算法與傳統基因演算法最大的不同，乃是已智慧型交配取代一般的單點交配或多點交配。傳統的交配方式無法評估染色體中參數個別的優劣，加上交配點是隨機方式產生，得到的後代染色體品質不容易提昇。

事實上，我們可以將染色體交配過程視為一種實驗因素；將來自父代的兩個染色體已切割好欲交配的片段，做為直交實驗的因素，並以染色體片段

「互換」或「不換」作為兩種水準值。如此，以兩水準值交實驗產生出優良品質的染色體的機率便可大幅提昇，進行步驟如下：

步驟一：令產生染色體中的由交配點所切割出的基因片段為實驗因素；

假設因素數目為欄作為實驗之用，其中β 2 。

步驟二：令因素的水準1 與水準 2 分別表示來自父代染色體與第個基因片段。

步驟三：根據直交表，計算個因素組合實驗的評估值， 1,2, … , 。步驟四：計算個因素之主效果， 1, 2, 3, … , ； 1, 2。

步驟五：決定各因素的最佳水準。在評估函數望大時，則選擇主效果值較大之水準；在評估函數望小時，則各因素的最佳水準為主效

果值較小之水準。如評估函數望大且，則因素的最佳

水準為1；反之則最佳水準為 2。

1, 2, 3, … , 1。 (Generalized Pareto-based Scale-Independent Fitness Function，GPSIFF)作為評估函數[10]。

3.3.1 基於 Pareto 理論通適化且不因尺度影響之評估函數

函數

為了分辨出各染色體之間的優劣，本論文應用了基於 Pareto 理論為基礎的記分方式以避免受到尺度因素的影響，並且對於被支配解(dominated)和未

被支配解(non-dominated)給於具有區分能力的適應函數值，用以取代傳統有失準確性的排名法和距離方式，稱之GPSIFF。

GPSIFF 使用類競爭式(Tournament-Like)的記分方式來評估 Pareto 解集中 染色體個體 x 的適應值，GPSIFF 的數學式如下：

Score (11)

其中表示在目前欲評估的解集中所支配的個體數目，表示在目前欲評估的解集中能夠把支配的個體數目，是一個較大的正整數，以保證求出的適應值為一正整數。通常以目前參與評估運算的所有個體的數目作為正整數的值。

GPSIFF 的優點如下：

(a) 不需調整權重值：基於 Pareto 理論來評估解的好壞，沒有權重加總法需決定權重值的困難，也不會受到人為主觀判斷的影響。

(b) 不需考量尺度因素：由於各目標函數值的尺度適應值不盡相同，在權重加總法中需考慮到尺度因素，以免使得權重設定失之準確。

圖 10 支配與被支配關係示意圖

我們用圖 10 表示出在兩個目標中同時做最小化問題之說明，在 Pareto 解集中所有個體在雙目標軸的關係。我們以點B 為例，點 B 之 1和 2同時都

比點A 小，所以點 A 被點 B 所支配；同理，點 C 與點 D 位於點 B 之左下角，

點B 就被點 C 與點 D 所支配，所以點 B 將不會被收在 Pareto 解集中。

圖 11 GPSIFF 之示意說明圖[10]

同樣的最小化問題，在圖 11 中點上的數字為適應值。以 A 為例，其 12， 是未被支配解  是被支配解， 3， 2，所以適應值為 13。

3.3.2 演算法流程

圖 12 智慧型多目標基因演算法流程圖

輸入：族群大小

最大容量的菁英集合選擇比例

交配機率突變機率

γ IGC 運算因素個數

輸出：未被支配解集

智慧型多目標基因演算法之流程，其步驟詳細敘述如下：

步驟一：(初始化，Initialization)亂數產生初始用的族群數量個染色體以及兩個空的優秀基因集合，一個是；一個是 ′。

步驟二：(評估初始值，Fitness Evaluation)計算族群裡全部染色體的兩項目標函數值，並藉由GPSIFF 分配每條染色體一個評估值。

步驟三：(更新優秀基因集合，Elite sets)將未被支配(non-dominated)的染色體同時丟入和 ′，然後清空 ′。考量中的所有染色體，將被支配(dominated)的染色體移除。若的數量大於原本的所設

定數量，則將從亂數去除超過的部分。

步驟四：(挑選，Selection) 從族群裡用 binary tournament selection 挑選出

個染色體，並從中亂數挑選出個染色體形成一

組新的群組。其中，若，則令。

步驟五：(重組，Crossover) 藉由 Intelligent Gene Collector (IGC)運作從選擇親代。每次 IGC 皆是由 OA 重組因子(副產物)找出未被支配的染色體以及兩個子代加入至 ′。

步驟六：(突變，Mutation)根據對整個族群進行突變機制。

步驟七：(終止條件，Termination Test)假設已滿足停止條件即可停止演算，

反之回到步驟二。

四、實驗結果與討論

4.1 實驗資料蒐集

本實驗數據來源為國際單型圖譜計畫網站(International HapMap Project)

在文檔中使用智慧型三目標基因演算法選取標籤單核苷酸多型性 (頁 21-0)