• 沒有找到結果。

Tag SNPs選取問題,由於DNA單點發生突變的機率很低,可以推論同一 點發生兩次突變的可能性十分渺小,因此學者通常會假設單點上僅可能發生 一次突變( 0 → 1 ),故我們可將Haplotype的SNP鹼基用0、1表示,標記為0代 表主要等位基因(major allele),標記為1代表次要等位基因(minor allele) [17]。

一列Haplotype是由多個SNP鹼基組成之序列,因此 個Haplotype : 1, … , 內含 個SNP S : 1, … , 可表示為一個 的0、1資料矩陣,如

圖5矩陣 , 所示。

為了比較Haplotype間之差別,我們可將任兩個Haplotype 與 配對成

, ,而令 , : 1, … , ; 1, … , 代表所有可能的 Haplotype配對所構成之集合。舉例來說, 與 可配對形成 , ; 與 可 配對形成 , 。圖5有四個Haplotype,總共形成 6種配對方式,因此集合

, , , , , , , , , , , 。另外,針對每一個 及 , 可定義一個 指標函數 , , ∈ 0,1 ,其中若 , , , ∈ 0,0 , 1,1 時, 將無法 被用來辨識該組Haplotype配對 , ,因此 , , 0;相反地,假若

, , , ∈ 0,0 , 1,1 時, 可被用來辨識該組Haplotype配對 , ,而

, , 1 。 如 圖 2.1 以 、 與 之 鹼 基 交 集 位 置 為 例 , 由 於

, , , 0,0 ,代表 不能被用來辨識 , ,因此 , , 0;同理,

由於 , , , 1,1 ,代表 不能被用來辨識 , ,因此 , , 0;反 之, , , , 0,1 ,代表 可被用來辨識 , ,因此 , , 1。以此 類推,可得 可否被用來辨識 中所有Haplotype配對的狀態,如圖5所示。

圖 5 SNP 及其所能辨識的 Haplotype 配對

針對所有的SNP( )重複其與所有 , 的比對步驟,可建構一個Haplotype

配對與SNP間的比對矩陣 ,該矩陣內的元素即為其所對應的 , , 之值,

如圖6之矩陣 經轉換後可得比對矩陣 。

圖 6 比較 Haplotype 配對差異與轉換矩陣

若將 視為一個bipartite網路圖 , 的相鄰矩陣(adjacency matrix),

我們可將所有的SNP( )與Haplotype配對( , )視為 節點與 節點,亦即

∪ ;針對所有 , , 1之關係,我們可將其所對應之 、 節點

連結,亦即 , , : ∀ , , ∈ ;反之,對所有 , , 0之關

係,其所對應之 、 節點將不被連結。如此一來即可將SNP與Haplotype配對

的 比 對 關 係 以 一 個bipartite 網 路 圖 , 表 示 , 並 將 各 節 點 ∈ 的 degree( deg(k ) )記錄於其旁。舉例來說,圖7即為圖6的 矩陣所對應之 bipartite網路圖 , 。

圖 7SNP 與 Haplotype 配對辨別關係 bipartite 網路圖

由圖7可觀察出,當 被挑選時, ,,, 皆可被其所辨識。選取 Tag SNPs之主要限制在於所選出之SNP集合必須保證可以辨識 集合內的所 有元素;此外,在所有滿足此限制條件的候選SNP集合中,Tag SNPs所包含 的SNP個數必須為最少。以圖8與圖9為例,選擇 , , 可以辨識出所有的 元素;同理,選擇 , 也可以 辨識出所有的 元素;由於 , 的個數為所 有可辨識 集合全部元素之SNP集合中最小者,因此 , 將被選為Tag SNPs。

值得注意的是,在Tag SNPs的選取問題中,其最佳的Tag SNPs解可能不只一 個。

圖 8 選取 S1、S2、S4 Tag SNPs 之圖示

圖 9 選取 S3、S5 Tag SNPs 之圖示

2.5 以多目標求解Tag SNPs選取問題

上一章節介紹了Tag SNPs選取問題是一種集合覆蓋問題,在大量的單核 苷單酸多型性中選取最少的強固型Tag SNPs解集和。本研究制定最小化強固 型Tag SNPs問題作為二進制目標問題,另外還包含兩個新目標,考慮單倍型 之間的區別。

數學模式定義Tag SNPs [8, 24]:給一組集合 ,SNP , … , 和 個等 位基因類別 , … , 。 , 表示等位基因 中有 的元素。 為Tag SNPs的集 合, 為辨識任何兩個等位基因類別的子集合。也就是說,對於任何兩個等位 基因 與 ,至少存在一個Tag SNPs ∈ ,這樣 , ,

四個目標方程式定義如下 [8]:

2.5.1 最小化強固型Tag SNPs

第一個目標找出Haplotype配對上涵蓋所有重要的SNP。假設一個集合 表示所選擇的Tag SNPs, , 表示Haplotype樣式 與 則代表Haplotype矩陣 中的維度;其中要找到最少的Tag SNPs,目標方程式如下 [24]:

minimize ‖ ‖ (1)

‖ ‖ , , 1, 1 (2)

該Haplotype配對維度是指可以識別並區分SNP的個數,由於每個SNP包 含兩個等位基因,Tag SNPs可以視為一個二進制的Haplotype,因此集合 所

代表的最小基數至少為log 。

2.5.2 容錯(Tolerance)

第二個目標主要計算Haplotype樣式中SNP的遺失資料部分,我們又可稱 為計算Tag SNPs的容錯。經由SNP微陣列所獲得的資料,而每個微陣列中都 會有SNP的遺失資料部分,為了防止資料遺失所造成計算Tag SNPs的複雜度,

容錯應的越大越好。目標方程式如下 [24]:

maximize min, (3)

方程式中, 表示 為Tag SNPs一個集合,可以識別等位基因 與

2.5.3 Haplotype的相異性

第三個目標主要是為了避免相似的Haplotype中獲得Tag SNPs。因Tag SNPs已經轉成二進制編碼,本研究採用漢明距離量化Haplotype樣式之間的相 似性,並對所有Haplotype配對計算平均的漢明距離。由於在演化式計算中會 求出不同的Tag SNPs解,因此Haplotype配應對Tag SNPs的每個解都必須正規 化。目標定義方程式如下:

(4)

其中, 表示 的索引集合。兩個等位基因 與 在漢明距離表示如下:

, , , (5) 每個等位基因配對最大平均漢明距離方程式如下:

maximize (6)

∑ , (7)

2.5.4 Haplotype的多樣性

除了上面敘述的計算Haplotype的相異性外,第四個目標主要計算平衡 SNP檢測在每個等位基因類別。這樣的現象可以獲得漢明距離的最小變異值,

在全部的Haplotype配對背景中定義一個標籤的解。因此,識別Tag SNPs結果 是對每一個等位基因都有充足的採樣。目標定義方程式如下:

minimize Var (8)

Var ∑ , (9)

三、最佳化演算法之應用

智慧型基因演算法(Intelligent Genetic Algorithm;IGA) [10] 和一般基因 演算法最大的不同之處在於,IGA 在交配(crossover)的過程使用直交表 (Orthogonal Arrays)挑選好的參數,使得 IGA 能克服參數過多染色體過長的問 題。直交表(OA)與因素分析常用在品質控制的方法中 [30],也可運用於很有

直交因素實驗為一種部分因素實驗方式,可以有效減少參數設計時的實 驗次數,並同時考慮實驗因素之間的交互作用。將直交因素實驗後的數據經 過主效果分析,便可以將每個因素對於設計目標的貢獻優劣計算出來,推論 出最佳解的實驗參數。

表 3 2 直交表

3.1.2 智慧型交配運算

智慧型基因演算法與傳統基因演算法最大的不同,乃是已智慧型交配取 代一般的單點交配或多點交配。傳統的交配方式無法評估染色體中參數個別 的優劣,加上交配點是隨機方式產生,得到的後代染色體品質不容易提昇。

事實上,我們可以將染色體交配過程視為一種實驗因素;將來自父代的 兩個染色體已切割好欲交配的片段,做為直交實驗的因素,並以染色體片段

「互換」或「不換」作為兩種水準值。如此,以兩水準值交實驗產生出優良 品質的染色體的機率便可大幅提昇,進行步驟如下:

步驟一:令產生染色體中的由交配點所切割出的基因片段為實驗因素;

假設因素數目為 欄作為實驗之用,其中β 2

步驟二:令因素 的水準1 與水準 2 分別表示來自父代染色體 與 第 個 基因片段。

步驟三:根據直交表,計算個因素組合實驗的評估值 , 1,2, … , 。 步驟四:計算個因素之主效果 , 1, 2, 3, … , ; 1, 2。

步驟五:決定各因素的最佳水準。在評估函數望大時,則選擇主效果值 較大之水準;在評估函數望小時,則各因素的最佳水準為主效

果值較小之水準。如評估函數望大且 ,則因素 的最佳

水準為1;反之則最佳水準為 2。

1, 2, 3, … , 1。 (Generalized Pareto-based Scale-Independent Fitness Function,GPSIFF)作為評 估函數[10]。

3.3.1 基於 Pareto 理論通適化且不因尺度影響之評估函數

函數

為了分辨出各染色體之間的優劣,本論文應用了基於 Pareto 理論為基礎 的記分方式以避免受到尺度因素的影響,並且對於被支配解(dominated)和未

被支配解(non-dominated)給於具有區分能力的適應函數值,用以取代傳統有 失準確性的排名法和距離方式,稱之GPSIFF。

GPSIFF 使用類競爭式(Tournament-Like)的記分方式來評估 Pareto 解集中 染色體個體 x 的適應值,GPSIFF 的數學式如下:

Score (11)

其中 表示在目前欲評估的解集中 所支配的個體數目, 表示在目前欲 評估的解集中能夠把 支配的個體數目, 是一個較大的正整數,以保證求出 的適應值為一正整數。通常以目前參與評估運算的所有個體的數目作為正整 數 的值。

GPSIFF 的優點如下:

(a) 不需調整權重值:基於 Pareto 理論來評估解的好壞,沒有權重加總法需決 定權重值的困難,也不會受到人為主觀判斷的影響。

(b) 不需考量尺度因素:由於各目標函數值的尺度適應值不盡相同,在權重加 總法中需考慮到尺度因素,以免使得權重設定失之準確。

(c) 以積分方式有效辨識不同解的優劣程度:取代傳統排名法可能將不同的解 給予相同的排名,以及距離法有尺度因素影響的缺點,以精確的記分評估 解的優劣程度。

圖 10 支配與被支配關係示意圖

我們用圖 10 表示出在兩個目標中同時做最小化問題之說明,在 Pareto 解集中所有個體在雙目標軸的關係。我們以點B 為例,點 B 之 1和 2同時都

比點A 小,所以點 A 被點 B 所支配;同理,點 C 與點 D 位於點 B 之左下角,

點B 就被點 C 與點 D 所支配,所以點 B 將不會被收在 Pareto 解集中。

圖 11 GPSIFF 之示意說明圖[10]

同樣的最小化問題,在圖 11 中點上的數字為適應值 。以 A 為例,其 12, 是未被支配解  是被支配解, 3, 2,所以適應值為 13。

3.3.2 演算法流程

圖 12 智慧型多目標基因演算法流程圖

輸入: 族群大小

最大容量的菁英集合 選擇比例

交配機率 突變機率

γ IGC 運算因素個數

輸出: 未被支配解集

智慧型多目標基因演算法之流程,其步驟詳細敘述如下:

步驟一:(初始化,Initialization)亂數產生初始用的族群數量 個染色 體以及兩個空的優秀基因集合,一個是 ;一個是 ′。

步驟二:(評估初始值,Fitness Evaluation)計算族群裡全部染色體的兩項 目標函數值,並藉由GPSIFF 分配每條染色體一個評估值。

步驟三:(更新優秀基因集合,Elite sets)將未被支配(non-dominated)的染 色體同時丟入 和 ′,然後清空 ′。考量 中的所有染色體,將 被支配(dominated)的染色體移除。若 的數量大於原本的所設

定數量,則將從亂數去除超過的部分。

步驟四:(挑選,Selection) 從族群裡用 binary tournament selection 挑選出

個染色體,並從 中亂數挑選出 個染色體形成一

組新的群組。其中 ,若 ,則令 。

步驟五:(重組,Crossover) 藉由 Intelligent Gene Collector (IGC)運作從 選擇親代。每次 IGC 皆是由 OA 重組因子(副產物)找 出未被支配的染色體以及兩個子代加入至 ′。

步驟六:(突變,Mutation)根據 對整個族群進行突變機制。

步驟七:(終止條件,Termination Test)假設已滿足停止條件即可停止演算,

反之回到步驟二。

四、實驗結果與討論

4.1 實驗資料蒐集

本實驗數據來源為國際單型圖譜計畫網站(International HapMap Project)

本實驗數據來源為國際單型圖譜計畫網站(International HapMap Project)

相關文件