• 沒有找到結果。

以遺傳演算法與最近鄰居分類法篩選遺傳疾病基因之研究

N/A
N/A
Protected

Academic year: 2021

Share "以遺傳演算法與最近鄰居分類法篩選遺傳疾病基因之研究"

Copied!
8
0
0

加載中.... (立即查看全文)

全文

(1)以遺傳演算法與最近鄰居分類法篩選遺傳疾病基因之研究 尹柏元 1 黃代鈞 楊又潔 江素倩 紀曉燦 陳春賢 2 長庚大學資訊管理學系、長庚生物資訊中心 1 E-mail: m9144022@stmail.cgu.edu.tw, 2 cchen@mail.cgu.edu.tw. 患兩類呢? 據 Chiara Romualdi 等人的研究,以 cDNA 微陣列的基因表現量來鑑別一個病患是否 患有某特定癌症,在以具區別力的基因作為辨識基 礎的情況下,倘若不篩選掉與該癌症不相關的基 因,將無法達到有效的識別正確率,可見基因篩選 的重要性[21]。如果我們將一個基因視為一個特 徵,搜尋的目標就是要找出與癌症或遺傳疾病有關 的基因,因此篩選癌症的相關基因可用特徵挑選的 技術來處理。在特徵挑選問題中的所有特徵,大部 分有可能是不相干或相互依存的特徵,這些不相干 或多餘的特徵不會對類別鑑識有所幫助[12]。 特徵選擇的定義曾經被許多學者從不同角度 詮釋過,主要可分為以下四個部分[5]:. 摘要 尋找基因與疾病的關係是醫學與生命科學致 力追求的目標之一,也是生物資訊領域的研究重 點。目前,微陣列(Microarray)技術的使用,有助於 個別基因表現量的定量分析。醫學上使用基因表現 資料針對遺傳疾病關鍵基因的搜尋與篩選,可借用 特徵選擇(Feature Selection)的資訊技術來處理。一 般我們所採用來解決此一問題的分析方法,除需要 考慮精確度外,所需要的時間成本也是不可忽視的 考慮因素。在許多實際的應用上,如果搜尋空間非 常大,則耗竭式的搜尋顯的切不可行,主因其大量 的運算時間需求所致。 遺傳演算法(Genetic Algorithm, GA)與最近鄰 居分類法(K-Nearest Neighbor, KNN)的併用,可快 速找到許多組具區別力的關鍵特徵,並可將這些關 鍵特徵的區別力按在各組出現頻率的次數作一統 計評分,根據出現頻率的高低作為判斷相關性高低 的依據。然而,搜尋這些關鍵特徵組的時間需求凸 顯了此一方法的弱點,因此,如何進一步改善與分 析此方法來有效減少運算時間並兼顧精確度,是本 文的探討重點。. 1 2. 3. 關鍵字:遺傳演算法(Genetic Algorithm, GA),最近 鄰居分類法(K-Nearest Neighbors, KNN), 特徵挑選(Feature Selection),基因挑選 (Gene Selection),基因捐贈(Gene Donation)。. 4. 理 想 的 (Idealized): 找 出 一 組 最 小 的 特 徵 子 集,使得該子集足以區別不同的類別。 古典的(Classical): 從 N 個特徵值中找出一組 大小為 M 的子集合 (M<N),使得這組在所有 大小為 M 的解中為最佳者。 改 良 預 測 精 確 度 (Improving Prediction Accuracy): 這種特徵選擇的方法主要在改進 預測的精確度;或是在不影響精確度的情況 下,降低目前子集合的大小。 近 似 原 始 資 料 分 佈 (Approximating Original Class Distribution): 以挑出的特徵子集作測 試,產生出的類別分佈必須與資料的原始分佈 盡可能相近,這是此方法的目的。. 總結特徵挑選的目的雖然是嘗試找出一組最 小的子集,但應兼顧三、四兩項原則。至於一般特 徵選擇的方法,主要包含以下四個步驟(圖一):. 一、緒論 多種的微陣列技術已在過去數年間被逐漸發 展,直至目前來看,該領域的技術發展仍維持穩定 成長。cDNA 陣列的設計是著眼於基因表現量的觀 察,cDNA 陣列可同時檢測數千或數萬個基因的表 現量,因此生物學家可藉實驗產生出大量的原始資 料,分析後可幫助了解生物的生命運作系統,包括 基因的調控、細胞發展、生物演化,甚至是基因與 疾病之間的複雜關係[1]。在癌症分子診斷的問題 中,一般比較癌症患者與正常人的基因表現量作為 診斷的基礎;但在一張基因數目有數千個的基因維 陣列中,怎麼找出那些基因可能直接與該癌症相 關,並可藉以將未知的樣本區分為正常人與癌症病. 1.. 2. 3. 4.. 1. 產生程序(Generation Procedure): 可以視為一 個搜尋的程序,負責產生下一代的候選子集 合。 評估函數(Evaluation Function): 負責評估子 集合的適合度,並與前一代的最佳值做比較。 停止條件(Stop Criterion): 決定特徵選擇的終 止條件,避免無止盡的搜尋動作。 驗證程序(Validation Procedure): 當取得子集 合時,用以評定該子集合是否合理的程序。.

(2) 本論文採用遺傳演算法的原因。至於評估函數方 面,雖然有多種定量的分類方法[2,7],但所需的時 間複雜度大小不同,為縮短運算時間,最近鄰居分 類法是最簡單而可行的選擇[3, 4 , 14]。在遺傳演算 法與最近鄰居分類法的合併使用中,我們試圖將兩 個類別完整區隔開來,依基因出現在區別的基因組 的高低加以排序,出現頻率愈高,表示一個基因與 目標癌症愈相關,反之則愈低。 Leping Li 等人在 2001 年將 GA/KNN 的方法用 在基因微陣列分析上[15],文中針對不同染色體長 度的靈敏性(Sensitivity)、再現性(Reproducibility)、 穩定性(Stability)等部分作探討,並論述 GA/KNN 用在類別預測的準確度與不錯的結果。但在 Li 文 中對於演算法的速率、取可能解的組數與適當的終 止條件等相關議題上都還留有討論的空間,故本文 將針對 GA/KNN 演算法的改進與可能解的組數加 以探討。. 圖一、特徵選擇的主要程序 當我們在選擇特徵挑選方法來處理生物醫學 的問題時,存在著幾個使我們必須要考慮該演算法 限制的問題: 1.. 2.. 3.. 資料規模: 一般的特徵挑選方法所處理的特 徵數目最多只有 1000 個左右[24],這些方法 是否適合用於動輒數千個、甚至上萬個基因 的基因微陣列分析上?舉例而言,若欲對一個 大小為 N 的特徵空間做特徵選擇,根據以上 的程序,期望能在 2N 個子集合中找出最佳一 組具區別力的特徵,若以耗竭式搜尋的產生 程序則需要相當高的時間成本。舉例而言, 若已知有 K 個特徵對某一分類的問題具有區 別力,那又該如何找出這 K 個特徵?以本文所 用的 2000 個基因為例[15],假設 K=5,則組 合約有 2.7×1014 種,因此窮舉法(Exhaustive enumeration)並不可行。 資料型態:方法所能處理的資料型態也是必 須要考量的因素[5],若方法只能處理不連續 的資料,在基因微陣列的分析上也許就不適 用。 可能解的多樣性:就癌症的分子診療而言, 被收集分析的癌症病患檢體數目通常非常珍 貴且稀少,然而基因微陣列上的基因卻是非 常的多,也就是說,樣本小而特徵多,因此 容易找到許多組具區別力的特徵子集合 [11],這些基因子集合在輔助分類上具有統計 的意義,但在生物意義上,不見得與某一癌 症相關[17];話雖如此,但真正在生物上具區 別力的基因也仍有可能出現在這些具區別力 的子集合中。. 二、遺傳演算法與最近鄰居分類法回顧 (一) 最近鄰居分類法(K-Nearest Neighbors) 最近鄰居分類法是一種以比較相似程度為基 礎的方法,每個樣本可視為 n 維空間的一個點。當 一個新樣本被讀入時,我們找尋與其最相近的 K 個點(本文中取 K=3);而距離的定義在本文中是取 兩點間的歐基里德距離(Euclidian Distance)[9]。舉 例而言, X=(x1,x2,… ,xn)與 Y=(y1,y2,……..,yn)是兩 個樣本點,X、Y 兩點間的歐基里德距離為: n. dis(X,Y) =. ∑ (x. i. − y i ) 2 (1). i =1. 倘若與一個待分類樣本最接近的三個點皆屬 於同一類別 A,則分類辨識成功,此樣本被視為 A 類別;否則,若這四點分屬於兩個類別以上,我們 視為未分類成功。 (二)遺傳演算法(Genetic Algorithm). 產生程序與評估函數是特徵選擇程序的兩個 重要步驟,前者扮演子集合產生的角色,後者則扮 演評估此子集合是否具分類區別力的角色;本文針 對兩個步驟,分別依需求與時間成本選擇了遺傳演 算法與最近鄰居分類法兩個方式[13,18,19]。遺傳演 算法是由 John Holland 在 1970 年代中期所提出 [10],基本上是以達爾文(Charles Robert Darwin)的 演化論為基礎所發展而成,目前已被證實且廣泛運 用的最佳解搜尋方法;有別於其他許多演算法只能 找出單一組的特徵[5,16]。遺傳演算法在基因篩選 的問題中能找出多組符合停止條件,使這些具區別 力的基因被統計後,其出現頻率有大小之別,亦是. 遺傳演算法利用電腦模擬地球上生物發展的 演化過程,以適者生存的自然選擇方式找出一個問 題的可能最佳解。生物產生後代,並利用染色體紀 錄其遺傳特徵,使該物種的特性得以保持到下一世 代。 1. 染色體表示方式 (Chromosome representation) 一般遺傳演算法用以表示染色體的方式是採 二進位表示法[6],但在我們的應用中,染色體內儲 存的是十進位制的基因編號,如圖二,親代的染色 體含有 1、12、6、8、9、2 等 6 個基因,一個染色 體代表一組基因(特徵),我們的目的即在針對某一 2.

(3) 等。. 遺傳疾病,搜尋具區別力的基因(特徵)組。 2. 初始族群 (Initial population) 遺傳演算法包含了一個存有許多可能解的染 色體族群,這樣的一個族群需要在遺傳演算法的程 序開始時進行初始化。族群在面對不同的問題時有 不同的變化,在本文中我們用隨機的方式挑選可能 的染色體族群。 3. 適應值函數 (Fitness function) 適應值函數在遺傳演算法中主要扮演評估染 色體優劣的角色。通常我們會設定一個終止條件 T,在本文中設 T=(M-α)/M,M 為訓練樣本的組 數,T 為染色體上這組基因的遺傳疾病辨識正確 率,α/M 則為辨識錯誤率。本文採用 40 個訓練樣 本,我們以辨識正確率 95%為終止條件,即α設定 為 2。 4. 遺傳機制 (Genetic operator) 遺傳演算法的三個重要機制,再製、交配、突 變分述如下: 4.1. 再製 (Reproduction) 親代將自己的染色體複製給子代,使子代仍然 保有該物種的生物特性。. 1 3 5 7 9 11 染色體 1 2 4 5 6 8 10 染色體 2 1 2 3 4 10 11 染色體 3 圖三、染色體配置圖 1 3 5 7 9 11 親代染色體 1 3 5 7 9 12 子代染色體 圖四、隨機單點突變示意圖 1 3 5 7 9 11 親代染色體. 1 12 6 8 9 2. 1 3 5 7 10 12. 親代染色體. 子代染色體. 1 12 6 8 9 2. 圖五、隨機多點突變示意圖. 子代染色體. 以上的機制是被用來建立新的與改善一組候 選解所用,並盡可能與生物在群體中的生活類似, 不同的程序是用來產生子世代(Offspring)並提昇其 對自然的適應程度。遺傳演算法在初始族群中選擇 親代進行再製、交配與突變三個機制,當所有親代 均產生子代後,即更新原始族群。. 圖二、再製示意圖 4.2. 交配 (Crossover) 交配出現在兩個親代各交換他們相同位置的 部分基因給子代,當然有許多文獻探討交配的方式 與結果分析[20,22 ,23];但基本的方式不外乎單點 (one point)與雙點(two-point)兩種。 在本文中,我 們像 Li 一樣未採此遺傳機制。 4.3. 突變 (Mutation) 儘管再製與交配兩種方式已經可以有效的搜 尋或再組現有的遺傳特徵,但在十進位的染色體編 碼方式中,倘若親代的染色體沒有涵蓋所有的存在 的基因時,子世代就非常有可能無法涵蓋所有的基 因,以至於無法尋得最佳解的狀況。舉例而言,在 十進位的染色體編碼方式中,假設目前共有 12 個 基因可供挑選,但現有的 3 條染色體只包含 11 個 基因(圖三),無論進行再製或交配都無法使第 12 個基因被選入,因此突變機制有存在的必要[8]。有 別於交配的演化方式,子代雖是由單一個親代產 生,但又與再製略有不同;親代可針對本身作隨機 單點突變或隨機多點突變。例如,圖四的親代單點 突變自己的第 6 個基因成為子代,圖五則是多點突 變本身的第 5、6 個基因成為子代。在本文中採用 的方法為單點基因突變,每個基因突變的機率相. 三、改良式遺傳演算法與最近鄰居分類法 (一)演算法 就圖一而言,GA 被用來當作產生子集的”產生 程序”,KNN 則被當成評估函數,故實驗結合 GA 與 KNN 兩個演算法作為基因挑選的方法,方法是 找出 10000 組誤差在 5%以內的解,然後再以統計 的方式分析個別基因在這 10000 組中的出現頻 率,出現頻率愈高,表示該基因與問題中的遺傳疾 病愈相關。以本文所用資料為例,當取 40 個訓練 樣本時,必須有 38 個樣本都分類正確,這樣的基 因組才符合區別力的需求。假設在 200 條染色體的 族群中,以一般遺傳演算法的流程而言,要從 2000 個基因中挑出 5 個符合停止條件的解的機率為: P(optimal_five)=200×1/C(2000,5)≒7.54×10-13 (2) 根據式(2)的結果,以遺傳演算法找尋最佳解仍 3.

(4) 視為族群中經驗較不足者,適應值最高的染色體則 視為族群中的智者,在族群發展的過程中,智者對 於後進的指導扮演著重要的角色;此外,遺傳工程 也普遍使用此一機制,例如研究者嘗試把抗病蟲害 基因從一稻米品種植入另一稻米品種。在本文中依 適應值的落差,對剩餘的 199 條染色體做 3 代一次 的基因捐贈,並以 5 分為一個等級來捐 1 個基因。 舉例而言,1 號染色體的適應值 36/40 是當代最佳 的染色體,2 號染色體的適應值為 26/40,則 1 號 染色體捐贈 2 個基因給 2 號染色體。此方法的重要 目的在於幫助適應值最高者的組合有所變異,進而 找尋出比目前更佳的組合。. 要耗費相當長的一段時間;若以目前的速度觀察, 欲取得 10000 組解,時間成本仍然太高。因此,筆 者嘗試提出可能改善的方式,演算法如下(流程圖 附錄一): 1.. 2.. 3.. 4. 5.. 6. 7.. 每 1 條染色體 (Chromosome)包含 N 個基因的 方式,建立一個包含 150 條染色體的初始族 群。 利用 KNN 分類法計算出每條染色體的適應 值 (Fitness value)。適應值的計算方法: 針對 每個訓練樣本找出與其歐基里德距離最近的 3 個樣本,如果 3 個樣本與該訓練樣本皆屬於 同一類別,則視為分類正確,並給予該訓練 樣本 1 分,總共有 40 個訓練樣本,所以最高 總分為 40 分。重複上述做法,計算每一條染 色體的適應值。 檢查是否有染色體的分數已達設定標準 (Mα)/M (本文中 M=40,α=2 分),若有,則跳 至步驟 7;若無,則繼續下面步驟。 當代適應值最高的染色體對適應值較低者進 行基因捐贈 (下文介紹)。 適應值最佳的染色體進行記憶式調整(下文 介紹),其餘每一條染色體進行隨機選擇的突 變。 返回步驟 2。 將該染色體中所包含的基因紀錄下來,並加 以統計之後返回步驟一,直至取得 10000 組 為止。取得 10000 組解之後,統計前 N 個最 常出現的基因並加以紀錄(本文取 N=50)。. d=5. d=10. (二)基因捐贈( Gene donation ) 每代除適應值最高的染色體之外,剩下的 199 條仍然處於隨機突變的狀況。在這 199 條染色體 中,若有任何一條的適應值高於原最佳者,則將舊 者取而代之。這樣的機制在 KNN 的分類方法之 下,要將愈多的樣本全部分類正確,所需要的時間 就愈久;因為染色體上的基因有 750 個,待測的基 因共有 2000 個,在每一代的每條染色體只突變一 個基因的情況下,至少要 9 個世代後,所有基因才 有一次機會出現在染色體族群上,若要找出具有區 別力的基因組合勢必要更多的世代。因此在此實驗 中,我們發現當適應值<36/40 時,並不會佔去太多 的運算時間;然而,當適應值超過 36/40 以後,適 應值每攀高 1 分,所需等待的時間往往成倍數以上 的增加。圖六是針對染色體長度 d(本文取 5 與 10) 在搜尋 1 組具區別力的基因組合的代數比較,以這 樣的情況看來,取得 10000 組解的時間成本恐怕是 無法讓人接受的。 基因捐贈的想法來自於人類社會發展中,知識 教育或經驗傳遞的概念,知識或經驗高者可將其知 識或經驗在短時間內傳授給知識或經驗較低者,以 避免長時間的自我摸索。可將適應值較低的染色體. 圖六、取得一組具區別力的基因所需時間比較圖 (三) 記憶式調整(Memorial adaptation) 在遺傳演算法中,突變這個機制是早已存在 的,但本機制與突變的不同在於幫助適應值最高的 染色體在捐贈本身基因之餘,還可進行自身的突 變。在原文作者所使用的方法中,突變的方法有可 能使染色體的適應值在突變之後變低,故此法僅用 於適應值最高的染色體。最高分染色體先從第一個 基因開始進行隨機突變,倘若適應值變高,則以新 的基因置換舊者;若分數變低,則保留原基因,並 針對第二個基因進行突變,直至該染色體最後一個 4.

(5) 基因為止,倘若適應值並無變化,則再製自己進入 下一代。. 四、結果. ( 四 ) 群 體 記 憶 式 調 整 (Multiple memorial adaptation). 上述方法的目的,希望能夠縮短遺傳演算法搜 尋最佳解的時間成本,以利盡快取得實驗結果。基 因捐贈搭配記憶式調整的兩種染色體長度比較列 於下圖(圖八)。 另外,我們分析「10000 組解的數目」是否有 降低的空間?本實驗將終止條件設為 38 分,以 10000 組解的前 50 個基因作為標準來觀察各時間 點基因的出現頻率變化(表一)。根據表一的結果可 以發現,當我們取得 1000 組解時,出現頻率最高 的前 50 個基因與取得 10000 組時的相似度至少已 達 86%。各時間點的前 40 個基因幾乎沒有太大的 變動,真正有在改變的僅是 40-50 名的基因,這些 基因的名次往往在 50 名的邊緣升降。以上這種情 況也可以說明為何在 d=5 時,2000 組時的相似度 是 96%,而 3000 組解的相似度卻僅有 94%的現象 了。另一個觀察重點是,當可能解的組數到達 9000 組以上時,前 50 個出現頻率最高的基因已沒有變 動,因此,可以嘗試將可能解的數目調整為 9000 組。. 當然,在發展的過程中,適應值相等且最高的 染色體可能不只一條(圖七)。這衍生出兩個可能的 延伸方式: 1. 這些染色體中,何者應被設為目前的最佳 解,進而執行基因捐贈的程序? 2. 這些與目前最佳解的適應值相同或只差 R(在 本文中,R=1,這類似於一般遺傳演算法選擇 Top n 存活下來的方式)分的染色體是否有必 要接受基因的捐贈? 染色體 1 1 3 5 7 9 11 染色體 2 2 4 6 8 10 12 染色體 3 17 27 38 49 56 6 圖七、適應值相等但內容不同的染色體. d=5. 關於問題 1 或許有不同的解決方法,但本文所 採行的方法是取染色體編號在前者,意味著假設目 前適應值最高的染色體有編號為 1、2、3 的三條, 則取編號 1 的染色體為目前的最佳解。儘管取編號 在前的染色體為目前的最佳解,但我們還是無法確 知究竟在三者中,誰可能在最短時間內再把適應值 調升? 在問題 2 中,我們引入智力差距(即 R 值)的 概念而產生群體記憶式調整,也就是與目前最佳適 應值差距在 R 值以內的染色體,皆可不接受基因的 捐贈,並自我進行調整的動作。 (五)合理的實驗次數( Reasonable solutions). d=10. 在評比的過程中,每條染色體的最高可能分數 為 40 分,但在 95%的準確度下,本實驗的停止條 件應設為 38 分,根據 Li 的實驗,求出 10000 組解 之後,以統計方式找出前 50 個出現頻率最高的基 因。但值得思考的是,是否一定要取得 10000 組 解?9000、8000 組可以嗎?它們的前 50 個基因,是 否變化不大?基於這樣的疑問,我們將實驗以每取 得 1000 組解答為一分隔點,觀察前 50 個基因的名 次是否有所變動,盼能找出可以節省時間成本且不 失精確度的解答數目。. 圖八、不同染色體長度的時間成本比較 5.

(6) 數量 10000 9000 8000 7000 6000 5000 4000 3000 2000 1000. 相似度 100%(50/50) 100%(50/50) 98%(49/50) 98%(49/50) 98%(49/50) 96%(48/50) 96%(48/50) 94%(47/50) 96%(48/50) 92%(46/50). d=5 相似度 100%(40/40) 98%(39/40) 95%(38/40) 95%(38/40) 95%(38/40) 95%(38/40) 95%(38/40) 98%(39/40) 95%(38/40) 95%(38/40). 相似度 100%(30/30) 100%(30/30) 100%(30/30) 97%(29/30) 97%(29/30) 93%(28/30) 93%(28/30) 93%(28/30) 93%(28/30) 93%(28/30). 相似度 100%(20/20) 100%(20/20) 100%(20/20) 100%(20/20) 100%(20/20) 95%(19/20) 95%(19/20) 95%(19/20) 95%(19/20) 90%(18/20). 相似度 100%(10/10) 100%(10/10) 100%(10/10) 100%(10/10) 100%(10/10) 100%(10/10) 100%(10/10) 90%(9/10) 90%(9/10) 90%(9/10). 數量 10000 9000 8000 7000 6000 5000 4000 3000 2000 1000. 相似度 100%(50/50) 100%(50/50) 96%(48/50) 94%(47/50) 94%(47/50) 94%(47/50) 94%(47/50) 90%(45/50) 86%(43/50) 86%(43/50). d=10 相似度 100%(40/40) 100%(40/40) 100%(40/40) 100%(40/40) 95%(38/40) 98%(39/40) 88%(36/40) 93%(37/40) 88%(36/40) 83%(33/40). 相似度 100%(30/30) 97%(29/30) 97%(29/30) 97%(29/30) 97%(29/30) 97%(29/30) 93%(28/30) 97%(29/30) 93%(28/30) 93%(28/30). 相似度 100%(20/20) 100%(20/20) 95%(19/20) 100%(20/20) 95%(19/20) 90%(18/20) 85%(17/20) 85%(17/20) 90%(18/20) 90%(18/20). 相似度 100%(10/10) 100%(10/10) 100%(10/10) 100%(10/10) 100%(10/10) 100%(10/10) 100%(10/10) 100%(10/10) 100%(10/10) 90%(9/10). 表一、終止條件 38 的前 50 個基因變化情況 若只在 62 個樣本中取出 40 個樣本當作訓練樣 本,所得到的結果是否會只對這 40 個樣本具有區 別力,而對其他的樣本則不具區別力?N-fold 的方 式可隨機抽樣多個樣本,並驗證各組結果的交集程 度,以達到找出最有相關性的基因並供生物醫學研 究。 在生物資訊的領域中經常遇見兩難的問題,因 為大量資料運算所需要的成本,無論是運算時間或 是記憶體空間的佔用都相當巨大。解決本領域的問 題,可以從平行運算及演算法修改來著手。本文嘗 試以數種方法來增進遺傳演算法的速度,進而求取 在兼顧精確度的情況下,能使時間成本降至最低, 以在短時間取得所需的資訊。. 五、討論 Li 同樣以 GA/KNN 進行遺傳疾病的基因篩 選,在 Li 的文章中較著重於基因挑選及預測的準 確性,且對於染色體長度已經做了探討;但 GA/KNN 的方法在時間需求上是較高的,如何改善 時間的需求是本文的研究重點。本文以嘗試在演算 法、滿足條件的組數 等相關問題上討論,以求對整個 GA/KNN 的方法 能夠更加詳盡。另外,本方法尚可點出以下幾個研 究方向: 1. 不同的終止條件 本文針對 95%的準確度做了一系列的實驗,但 在 85%或 75%是否也能取得相同的結果?若降低終 止條件也能取得相同的結果,則更可減少運算時 間。 2. 基因彼此的關聯性 對基因彼此的關聯性作分析,也許可以找出遺 傳疾病與基因之間可能的關係。 3. K 值的改變 KNN 演算法中的 K 值若不同於本文中所設定 的 3,而是 K>3,對結果會有何影響。 4. N-fold 分類方式. 六、誌謝 十分感謝長庚醫學研究計劃 CMRPD32002 與 CMRPD1008 的支持,提供我們此機會來研究此基 因篩選方法。. 七、參考文獻 [1] P. Baldi, G.W. Hatfied, DNA microarrays and gene expression, Cambridge University Press, 6.

(7) Bioinformatics, Vol.17, no.12, pp.1131-1142, 2001. [16] C.B. Lucasius, G. Kateman, Understanding and using genetic algorithms, Chemon Intell Lab, Syst. 19, pp.1-33, 1993. [17] Y. Lu and J. Han, Cancer classification using gene expression data, Information System 28, University of Illinois, pp.243-268, 2003. [18] W. Punch, E. Goodman, M. Pei, C. Lai, P. Hovland and R. Enbody, Further research on feature selection and classification using genetic algorithm, Proceedings of fifth International Conference on Genetic Algorithms, pp.379-383, 1993. [19] M. Raymer, W. Punch, E. Goodman, L. Kuhn, A. Jain, Dimensionality Reduction Using Genetic Algorithms, IEEE Transactions on Evolutionary Computation, vol. 4, no. 2, pp. 164-171, 2000. [20] P. Robbins, The use of a variable length chromosome for permutation manipulation in genetic algorithm, Artificial Neural Net and Genetic Algorithms, Springer-Verlag, Wien, pp.144-147, 1995. [21] C. Romualdi, S. Campanaro, D. Campagna, B. Celegato, N. Cannata, S. Toppo, G. Valle, G. Lanfranchi, Pattern recognition in gene expression profiling using DNA array: a comparative study of different statistical methods applied to cancer classification, Human Molecular Genetics, vol. 12, no. 8, pp.823-836, 2003. [22] J.D. Schaffer, R.A. Caruana, L.J. Eshelman, A study of control parameters affecting online performance of genetic algorithm for function optimization. Proceedings of the Third International Conference on Genetic Algorithms, Morgan Kaufmann Publishers, San Mateo, California, pp.51-60, 1989. [23] J.D. Scaffer and L.J. Eshelman, On crossover as an evolutionarily viable strategy, Proceedings of the Fourth International Conference on Genetic Algorithms, Morgan Kaufmann Publishers, San Mateo, California, pp.61-68, 1991. [24] J. Yang, V. Honavar, Feature subset selection using a genetic algorithm, IEEE Intelligent Systems, Iowa State University, 1998.. Cambridge, pp. 1-17, 2002. [2] M. Ben-Bassat, Pattern recognition and reduction of dimensionality, Handbook of Statistics, North Holland, pp.773-791, 1982. [3] T. Cover, P. Hart, Nearest neighbor pattern classification, IEEE Transactions on Information Theory, 13, pp.21-27, 1967. [4] B. Dasarathy, Nearest neighbor (NN) norms: NN pattern classification techniques, Los Alamitos, CA: IEEE Computer Society Press, 1991. [5] M. Dash, H. Liu, Feature selection for classification, Intelligent Data Analysis 1, pp.131-156, 1997. [6] J. Devillers, Genetic algorithms in molecular modeling, Lyon, France, pp.38-42, 1996. [7] J. Doak, An evaluation of feature selection methods and their application to computer security, Technical report, Davis, CA: University of California, Department of Computer Science, 1992. [8] D.E. Goldberg, Genetic algorithm in search, optimization and machine learning, Addison-Wesley, p14, 1989. [9] J. Han, M. Kamber, Data mining: concepts and techniques, Simon Fraser University, USA, pp.314-315, 2001. [10] J. Holland, Adaptation in natural and artificial system , University of Michigan Press, Ann Arbor, MI, 1975. [11] A. Jain, D. Zongker, Feature selection: evaluation, application, and small sample performance, IEEE Transaction on Pattern Analysis and Machine Intelligence, vol.19, no2, pp.153-158, 1997. [12] G. John, R. Kohavi and K. Pfleger, Irrelevant features and subset selection problem, Proceeding of the Eleventh International Conference on Machine Learning, pp.121-129, 1994. [13] J. Kelly, L. Davis, A hybrid genetic algorithm for classification, Proceeding of the Twelfth International Joint Conference on Artificial Intelligence, pp.645-650, 1991. [14] P. Langley, W. Iba, Average-case analysis of a nearest neighbor algorithm, Proceedings of the Thirteenth International Joint Conference on Artificial Intelligence, Chambery, France: Morgan Kaufmann, 1993. [15] L. Li, Gene selection for sample classification based on gene expression data: study of sensitivity to choice of parameters of the GA/KNN method,. 八、附錄. 7.

(8) 資料檔案. 資料前處理 否. 分析是否正確 ? 是 建立表現量資料陣列. 建立一個包含200條染色體的初始族群,每條染色體內涵5個 基因. 對每條染色體的每個樣本,找尋與其最接近的3個樣本. 計算每條染色體的適應值. 最佳染色體進行自我調整,並對其餘染 色體進行基因捐贈. 調整族群內容. 每條染色體進行自我變異. 否. 是否有一條染色體達到終止條件?. 是 紀錄染色體內容,以提供統計分析. 附錄一. GA/KNN 流程圖. 8.

(9)

參考文獻

相關文件

Proceedings of the Fifth International Conference on Genetic Algorithms, Morgan kaufmann Publishers, San Mateo, California, pp.110~117, 1996. Horn, J., “Finite Markov Chain Analysis

C., “Robust and Efficient Algorithm for Optical Flow Computation,” Proceeding of IEEE International Conference on Computer Vision, pp. “Determining Optical Flow.” Artificial

Godsill, “Detection of abrupt spectral changes using support vector machines: an application to audio signal segmentation,” Proceedings of the IEEE International Conference

Shih and W.-C.Wang “A 3D Model Retrieval Approach based on The Principal Plane Descriptor” , Proceedings of The 10 Second International Conference on Innovative

[16] Goto, M., “A Robust Predominant-F0 Estimation Method for Real-time Detection of Melody and Bass Lines in CD Recordings,” Proceedings of the 2000 IEEE International Conference

▲ 如果母血唐氏症篩檢結果屬於高危險群(唐氏症機率大於 1/270 時),或是有前述任何一項遺傳疾病之高危險因子

Wells, “Using a Maze Case Study to Teach Object-Oriented Programming and Design Patterns,” Proceedings of the sixth conference on Australasian computing education, pp. Line, “Age

Harma, “Automatic identification of bird species based on sinusoidal modeling of syllables,” in Proceedings of IEEE International Conference on Acoustics, Speech,