• 沒有找到結果。

研究背景與動機

第一章 緒論

1.1 研究背景與動機

第一章 緒論

本章節主要針對研究背景與動機做概要的介紹,闡明研究的問題與目的,然 後描述本研究所探討的的演算法分群問題定義。本章共分為三節:第一節為研究 背景與動機;第二節為研究目的;第三節為研究架構流程。

1.1 研究背景與動機

近年來,生物醫學資料的需求與重要性與日俱增,專家學者無不想盡速破解 人類的基因密碼,目前生物學家已先行找出許多生物的基因資料片段,但面對龐 大的基因資料,要如何判斷將具有親緣關係的物種基因資料放在一起,實為一件 棘手的工程,為了讓生物學家或是醫藥研究相關的專家學者能直接獲取想要的基 因資料,節省整理時間,便需要資訊相關人員先行在電腦上進行模擬測試。然而 如何將一群未知親緣關係的物種分群就需要設計一些方法以及一些分群的條件 限制,因此,非常多不同的分群方法紛紛被提出。

不同的限制條件與不同的演算法將會產生不同的分群結果,本研究的研究主 要是探討Berger-Wolf et al.(2005)這篇論文,所用的條件為孟德爾遺傳法則中 的4 對偶 (4-allele) 基因的特性將物種分群,群內的物種都有親緣(兄弟姐妹)

關係稱為「a Full Sibling Group」。他們的方法是透過將此問題轉成最小集合涵蓋

(Minimum Set Cover)方法(詳見第 2.4 節),把無親代資料的基因,重新分群 找出各個具有親緣的體系。因此,本研究便朝向此方向探討一種分群演算法,其 條件也是以孟德爾遺傳法則作為分群規則,將未分類的基因進行分群。基因分群 問題從上述就得知是個面對龐大基因資料分類非常重要的方法,因此本研究主期 望達到降低比對次數,使分群演算法錯誤率降低。

本研究將會常常使用到完全親緣關係(Full Sibling Relationship)與 4 對偶 基因這兩名詞,因此先行在這做個定義介紹。以人類來說,是由男女雙方分別提 供的基因染色體結合後,誕生所謂的下一代,基因型就會由上一代傳承到下一 代,小孩拿到父母各一半的基因型,當他們擁有相同父母中所有特質時就稱為純 親緣,亦稱為完全親緣關係(交通大學生物科技結構及細胞生物諮詢網,2000);

而所謂 4-對偶基因特性是從孟德爾遺傳定律可推導出在沒有親代資料樣本時,

任兩人都可能是兄弟姐妹關係作為樣本規則。以某性徵為例,假設A, B 兩人基 因型完全不相同,A 控制此性徵的基因型為(1/2, 3/4),B 的基因型為(5/6, 7/8),

他們仍有可能為同一對親代之子女。舉例來說若有一對父母的基因型,一個為

(1/5, 3/7),另一位是(2/6, 4/8),他們就有可能生出像 A, B 兩基因型完全不同 的子代。由此可知,在孟德爾遺傳定律的規則裡,任兩個基因型完全不同的兩人,

仍有可能為同一對親代所生。

Berger-Wolf et al. ( 2005 ) 提 出 完 全 親 緣 關 係 重 建 問 題 ( Full Sibling Reconstruction Problem)。給定 n 個物種的集合 N,每個物種 i 有 l 個 Locus,每locus 有兩個對偶基因以<aij,bij>,0<jl,完全親緣關係重建問題的目的是要 將 n 個物種進行分群且每個群必須是 a Full Sibling Group 也就是要滿足 4 對偶基 因特性(即∀ 1jl |i S aij bij |4)且群組的個數要最小。他們的方法假設每 個物種不需要親代(父母)的樣本的資料即可分群。

3

本研究正式定義此問題如下:

問題:完全親緣關係重建問題(Full Sibling Reconstruction Problem)

輸入:n 個物種的集合 N,每個物種 i 有 l 個 Locus,每個 Locus 有兩個對偶 基因<aij,bij>,0<jl

輸出:n 個物種分成 1 個以上互斥的群

目標:分群個數最少並且滿足4 對偶基因特性(即∀ 1jl |i S aij bij |4)

底下本研究舉例說明此問題如下:給定8 個已知基因的物種,每個物種內含 有2 個 Locus,每個 Locus 含有 2 個對偶基因如表 1 所示,本研究將輸入的物種 依照 4 對偶基因規則(符合孟德爾遺傳定律之親緣關係的物種分到同一個群 集),如將物種(2,3,4,5,6)分成一群,Locus 1 內有 3 種不同的 Alleles = {149, 155, 177},Locus 2 內有 4 種不同的 Alleles = {245, 253, 267, 277},則此群組滿足 4 對偶特性,此外將物種(1,7,8)分為一群,locus 1 內有 4 種不同的 Alleles = {149, 151, 167, 173},Locus 2 內有 3 種不同的 Alleles = {243, 251, 255}同樣也滿 足4 對偶基因特性。因此,此範例將會把這 8 個物種分成兩群(2,3,4,5,6)

與(1,7,8),如表 2 所示。

表 1 樣本資料範例針對完全親緣關係重建問題 Animal Locus 1 Locus 2

allelel1/allele2 1

2 3 4 5 6 7 8

149/167 243/255 149/155 245/267 149/177 245/253 155/155 253/253 149/155 245/267 149/155 245/277 149/151 251/255 149/173 255/255

表 2 最佳的分群結果針對完全親緣關係重建問題 Sibling Groups:

2,3,4,5,6 1,7,8

5

相關文件