第二章 文獻回顧
2.2 一些親緣關係重建問題的分群演算法
分群是一種十分廣泛被應用到各個領域的問題,也是一個非常需要深入研究 的問題。分群定義為把一堆未曾分類過的資料,經由分群演算法將資料分門別 類。常見的分群方式有兩種,一種為 Partition-Based(分割式)分群;一種為階 層式分群。給定一集合 N 內包含 n 個元素,分割式分群指的是將集合中的資料 分成兩個或更多個互斥的群(Cluster) (N 的非空子集),也就是每個元素必須 屬於某一群集(Han and Kamber, 2006; Tan, Steinbach and Kumar, 2006)。階層式 的分群方式則是將已給定的集合建構成一巢狀結構的群集。
在生物資訊與作業研究的領域上,有相當多的分群演算法已被提出來重建兄 弟關係的群組。Almudevar and Field (1999)提出一個分群演算法利用 Minimal Sibling Groups Under Likelihood 方法,透過 DNA Markers 將有親緣的放在同一群 裡面,求最少可以分成的群數,他們所採用的資料是有關漁業養殖的資料。
Konovalov, Manning and Henshaw (2004)則利用 java 程式實做一個新的分群方 法稱為KinGroup,評估所有可能的分割情況後,重新建構物種演化關係。Beyer and May ( 2003 ) 所 提 出 的 圖 形 理 論 的 分 割 法 ( Partition Population using Likelihood Graphs)求物種的親緣分群。Wang (2004)提出的 Simulated Annealing
(模擬退火法)重建親緣關係並實作成軟體套件COLONY。Fernández and Toro
(2006)也提出 Blind Search Algorithm 類似 Simulated Annealing 找出家譜中高關 聯性的共同祖先矩陣。
Berger-Wolf et al.(2005)及 Chaovalitwongse et al.(2007)提出了以孟德爾 遺傳法則為基礎,在一群物種中重建親緣關係稱為親緣關係重建問題(Full
13
換到最小集合涵蓋(Minimum Set Cover, MSC)問題後利用 Greedy 的方法直接 把符合遺傳規則的分在同一群(見2.4 節),可在無親代資料下重建整個親緣體 系。其缺點是分群速率不好(考慮性徵越多越慢)。而他們採取使用MSC 的原 因是因為當要能涵蓋全部個體,也就是把相似度最高的放在一起,使分群最少。
所謂的 4 對偶基因則是一個群組內的物種每個 Locus 的所有對偶基因不超過 4 種,這是一種常見於辨別是否為親緣關係的方法。Sheikh et al.(2007)與 Berger-Wolf et al.(2007)另外提出一種分群的方法,原理則是利用微衛星體資 料(Microsatellite Data)統計和啟發式技術(Heuristic Techniques)來重建親緣 關係,並且必須仰賴於事先瞭解的各種基因特徵。上述這兩種方法是專為大量基
(2007)與 Berger-Wolf et al.(2007)提出滿足 2 對偶基因限制的完全親緣關係 重建問題並將它轉換到最小集合涵蓋問題同時使用模擬和實際的物種(小蘿蔔、
鮭魚及小蝦)來進行比較和驗證其方法。Sheikh et al.(2008)提出一些一致性 consensus 的方法來重建親緣關係,利用基因數據來分析親緣關係在許多生物學 上是非常重要的,其中包括在許多保護生物學與遺傳學上,並使用了 Strict Consensus、Voting Consensus、Majority Consensus 等三種不同的一致性技術來解 決親緣關係重建問題。Sheikh et al.(2009)認為用微衛星體(Microsatellites)資 料重建完全親緣關係是一個很好的研究,但他們發現半親緣關係重建較少人進行 研究,進而在理論上為其關鍵點。因而提出不同構想的半親緣重建問題,並證明 此問題為NP-Hard,並為此問題設計其啟發式演算法,利用生物和模擬的資料集 進行分析實驗,然後與先前的軟體COLONY (Wang, 2004)進行比較。Ashley,
et al.b (2009)設計了一個名為 KINALYZER 軟體利用顯性標記基因座資料重建 無父母資訊的完全親緣群組,如微衛星體。並採用新的演算法來重建親緣關係,
此問題的基本假設仍然是以孟德爾遺傳法則為基礎並利用最小 2 對偶基因集合 涵蓋法找到最少的親緣群組。這是一個「Greedy Consensus」的方法,可以重建 親緣群組的基因座子集合並找出他們的部份一致性。Ashley et al. (2009)他們 證明了親緣關係重建問題法設計出多項式時間的 1.0065 倍(當 Locus 的數目為 O(n3))及 1.00014 倍(當 Locus 的數目為 2)的近似演算法除非 RP=NP,n 為物 種的個數。之後Ashley et al.(2010)的論文 Survey(收集)了目前的全親緣重 建的微衛星遺傳標記方法。接著介紹以孟德爾法則和其延伸出即使是以錯誤數據 為基礎的親緣關係重建新組合問題並提出一些相關演算法。本研究將利用表 3 作一相關研究的統整。
15
表 3 相關親緣關係的分群法研究整理
作者 發表時間 內容概述
Almudevar and
Field 1999 年
提 出 一 個 分 群 演 算 法 利 用 Minimal Sibling Groups Under Likelihood 的方法,將有親緣的放 在同一群裡面,求最少可以分成的群數,採用的 是有關漁業養殖的資料。
Beyer and May 2003 年
提 出 圖 形 理 論 的 分 割 法 (Partition Population using Likelihood Graphs)求物種的親緣分群,且 使 用 單 基 因 座 共 顯 性 標 記 Single-Locus co-dominant marker。
Konovalov, Manning and
Henshaw
Berger-Wolf
et al. 2005 年
提 出 親 緣 關 係 重 建 問 題 ( Full Sibling Reconstruction Problem),利用最小集合涵蓋法
(Minimum Set Cover, MSC)與 4 對偶限制,在 無親代資料下可重建整個親緣體系。
Fernández and
Toro 2006 年
提 出 Blind Search Algorithm 類 似 Simulated Annealing 找出家譜中高關聯性的共同祖先矩陣
(matrix)。
Berger-Wolf
et al. 2007 年 問題(Berger-Wolf et al. 2005 的期刊版本)。
Sheikh et al. 2007 年 為了親緣關係重建提出滿足 2-對偶基因限制的 完全親緣關係重建之組合最佳化問題,並將此問
作者 發表時間 內容概述
題轉換到最小集合涵蓋問題且利用2 對偶基因的 最小集合涵蓋的技術進行分群。(Berger-Wolf et al. 2007 的會議版本)
Sheikh et al. 2008 年
研究了利用 Consensus 的方法來重建親緣關係,
並且討論了不同的一致性(Consensus)方法。
提出KINALYZER 軟體利用顯性標記基因座資料 重建無父母資訊的完全親緣群組,利用2 對偶基
17