以遺傳演算法與最近鄰居分類法篩選遺傳疾病基因之研究
全文
(2) 本論文採用遺傳演算法的原因。至於評估函數方 面,雖然有多種定量的分類方法[2,7],但所需的時 間複雜度大小不同,為縮短運算時間,最近鄰居分 類法是最簡單而可行的選擇[3, 4 , 14]。在遺傳演算 法與最近鄰居分類法的合併使用中,我們試圖將兩 個類別完整區隔開來,依基因出現在區別的基因組 的高低加以排序,出現頻率愈高,表示一個基因與 目標癌症愈相關,反之則愈低。 Leping Li 等人在 2001 年將 GA/KNN 的方法用 在基因微陣列分析上[15],文中針對不同染色體長 度的靈敏性(Sensitivity)、再現性(Reproducibility)、 穩定性(Stability)等部分作探討,並論述 GA/KNN 用在類別預測的準確度與不錯的結果。但在 Li 文 中對於演算法的速率、取可能解的組數與適當的終 止條件等相關議題上都還留有討論的空間,故本文 將針對 GA/KNN 演算法的改進與可能解的組數加 以探討。. 圖一、特徵選擇的主要程序 當我們在選擇特徵挑選方法來處理生物醫學 的問題時,存在著幾個使我們必須要考慮該演算法 限制的問題: 1.. 2.. 3.. 資料規模: 一般的特徵挑選方法所處理的特 徵數目最多只有 1000 個左右[24],這些方法 是否適合用於動輒數千個、甚至上萬個基因 的基因微陣列分析上?舉例而言,若欲對一個 大小為 N 的特徵空間做特徵選擇,根據以上 的程序,期望能在 2N 個子集合中找出最佳一 組具區別力的特徵,若以耗竭式搜尋的產生 程序則需要相當高的時間成本。舉例而言, 若已知有 K 個特徵對某一分類的問題具有區 別力,那又該如何找出這 K 個特徵?以本文所 用的 2000 個基因為例[15],假設 K=5,則組 合約有 2.7×1014 種,因此窮舉法(Exhaustive enumeration)並不可行。 資料型態:方法所能處理的資料型態也是必 須要考量的因素[5],若方法只能處理不連續 的資料,在基因微陣列的分析上也許就不適 用。 可能解的多樣性:就癌症的分子診療而言, 被收集分析的癌症病患檢體數目通常非常珍 貴且稀少,然而基因微陣列上的基因卻是非 常的多,也就是說,樣本小而特徵多,因此 容易找到許多組具區別力的特徵子集合 [11],這些基因子集合在輔助分類上具有統計 的意義,但在生物意義上,不見得與某一癌 症相關[17];話雖如此,但真正在生物上具區 別力的基因也仍有可能出現在這些具區別力 的子集合中。. 二、遺傳演算法與最近鄰居分類法回顧 (一) 最近鄰居分類法(K-Nearest Neighbors) 最近鄰居分類法是一種以比較相似程度為基 礎的方法,每個樣本可視為 n 維空間的一個點。當 一個新樣本被讀入時,我們找尋與其最相近的 K 個點(本文中取 K=3);而距離的定義在本文中是取 兩點間的歐基里德距離(Euclidian Distance)[9]。舉 例而言, X=(x1,x2,… ,xn)與 Y=(y1,y2,……..,yn)是兩 個樣本點,X、Y 兩點間的歐基里德距離為: n. dis(X,Y) =. ∑ (x. i. − y i ) 2 (1). i =1. 倘若與一個待分類樣本最接近的三個點皆屬 於同一類別 A,則分類辨識成功,此樣本被視為 A 類別;否則,若這四點分屬於兩個類別以上,我們 視為未分類成功。 (二)遺傳演算法(Genetic Algorithm). 產生程序與評估函數是特徵選擇程序的兩個 重要步驟,前者扮演子集合產生的角色,後者則扮 演評估此子集合是否具分類區別力的角色;本文針 對兩個步驟,分別依需求與時間成本選擇了遺傳演 算法與最近鄰居分類法兩個方式[13,18,19]。遺傳演 算法是由 John Holland 在 1970 年代中期所提出 [10],基本上是以達爾文(Charles Robert Darwin)的 演化論為基礎所發展而成,目前已被證實且廣泛運 用的最佳解搜尋方法;有別於其他許多演算法只能 找出單一組的特徵[5,16]。遺傳演算法在基因篩選 的問題中能找出多組符合停止條件,使這些具區別 力的基因被統計後,其出現頻率有大小之別,亦是. 遺傳演算法利用電腦模擬地球上生物發展的 演化過程,以適者生存的自然選擇方式找出一個問 題的可能最佳解。生物產生後代,並利用染色體紀 錄其遺傳特徵,使該物種的特性得以保持到下一世 代。 1. 染色體表示方式 (Chromosome representation) 一般遺傳演算法用以表示染色體的方式是採 二進位表示法[6],但在我們的應用中,染色體內儲 存的是十進位制的基因編號,如圖二,親代的染色 體含有 1、12、6、8、9、2 等 6 個基因,一個染色 體代表一組基因(特徵),我們的目的即在針對某一 2.
(3) 等。. 遺傳疾病,搜尋具區別力的基因(特徵)組。 2. 初始族群 (Initial population) 遺傳演算法包含了一個存有許多可能解的染 色體族群,這樣的一個族群需要在遺傳演算法的程 序開始時進行初始化。族群在面對不同的問題時有 不同的變化,在本文中我們用隨機的方式挑選可能 的染色體族群。 3. 適應值函數 (Fitness function) 適應值函數在遺傳演算法中主要扮演評估染 色體優劣的角色。通常我們會設定一個終止條件 T,在本文中設 T=(M-α)/M,M 為訓練樣本的組 數,T 為染色體上這組基因的遺傳疾病辨識正確 率,α/M 則為辨識錯誤率。本文採用 40 個訓練樣 本,我們以辨識正確率 95%為終止條件,即α設定 為 2。 4. 遺傳機制 (Genetic operator) 遺傳演算法的三個重要機制,再製、交配、突 變分述如下: 4.1. 再製 (Reproduction) 親代將自己的染色體複製給子代,使子代仍然 保有該物種的生物特性。. 1 3 5 7 9 11 染色體 1 2 4 5 6 8 10 染色體 2 1 2 3 4 10 11 染色體 3 圖三、染色體配置圖 1 3 5 7 9 11 親代染色體 1 3 5 7 9 12 子代染色體 圖四、隨機單點突變示意圖 1 3 5 7 9 11 親代染色體. 1 12 6 8 9 2. 1 3 5 7 10 12. 親代染色體. 子代染色體. 1 12 6 8 9 2. 圖五、隨機多點突變示意圖. 子代染色體. 以上的機制是被用來建立新的與改善一組候 選解所用,並盡可能與生物在群體中的生活類似, 不同的程序是用來產生子世代(Offspring)並提昇其 對自然的適應程度。遺傳演算法在初始族群中選擇 親代進行再製、交配與突變三個機制,當所有親代 均產生子代後,即更新原始族群。. 圖二、再製示意圖 4.2. 交配 (Crossover) 交配出現在兩個親代各交換他們相同位置的 部分基因給子代,當然有許多文獻探討交配的方式 與結果分析[20,22 ,23];但基本的方式不外乎單點 (one point)與雙點(two-point)兩種。 在本文中,我 們像 Li 一樣未採此遺傳機制。 4.3. 突變 (Mutation) 儘管再製與交配兩種方式已經可以有效的搜 尋或再組現有的遺傳特徵,但在十進位的染色體編 碼方式中,倘若親代的染色體沒有涵蓋所有的存在 的基因時,子世代就非常有可能無法涵蓋所有的基 因,以至於無法尋得最佳解的狀況。舉例而言,在 十進位的染色體編碼方式中,假設目前共有 12 個 基因可供挑選,但現有的 3 條染色體只包含 11 個 基因(圖三),無論進行再製或交配都無法使第 12 個基因被選入,因此突變機制有存在的必要[8]。有 別於交配的演化方式,子代雖是由單一個親代產 生,但又與再製略有不同;親代可針對本身作隨機 單點突變或隨機多點突變。例如,圖四的親代單點 突變自己的第 6 個基因成為子代,圖五則是多點突 變本身的第 5、6 個基因成為子代。在本文中採用 的方法為單點基因突變,每個基因突變的機率相. 三、改良式遺傳演算法與最近鄰居分類法 (一)演算法 就圖一而言,GA 被用來當作產生子集的”產生 程序”,KNN 則被當成評估函數,故實驗結合 GA 與 KNN 兩個演算法作為基因挑選的方法,方法是 找出 10000 組誤差在 5%以內的解,然後再以統計 的方式分析個別基因在這 10000 組中的出現頻 率,出現頻率愈高,表示該基因與問題中的遺傳疾 病愈相關。以本文所用資料為例,當取 40 個訓練 樣本時,必須有 38 個樣本都分類正確,這樣的基 因組才符合區別力的需求。假設在 200 條染色體的 族群中,以一般遺傳演算法的流程而言,要從 2000 個基因中挑出 5 個符合停止條件的解的機率為: P(optimal_five)=200×1/C(2000,5)≒7.54×10-13 (2) 根據式(2)的結果,以遺傳演算法找尋最佳解仍 3.
(4) 視為族群中經驗較不足者,適應值最高的染色體則 視為族群中的智者,在族群發展的過程中,智者對 於後進的指導扮演著重要的角色;此外,遺傳工程 也普遍使用此一機制,例如研究者嘗試把抗病蟲害 基因從一稻米品種植入另一稻米品種。在本文中依 適應值的落差,對剩餘的 199 條染色體做 3 代一次 的基因捐贈,並以 5 分為一個等級來捐 1 個基因。 舉例而言,1 號染色體的適應值 36/40 是當代最佳 的染色體,2 號染色體的適應值為 26/40,則 1 號 染色體捐贈 2 個基因給 2 號染色體。此方法的重要 目的在於幫助適應值最高者的組合有所變異,進而 找尋出比目前更佳的組合。. 要耗費相當長的一段時間;若以目前的速度觀察, 欲取得 10000 組解,時間成本仍然太高。因此,筆 者嘗試提出可能改善的方式,演算法如下(流程圖 附錄一): 1.. 2.. 3.. 4. 5.. 6. 7.. 每 1 條染色體 (Chromosome)包含 N 個基因的 方式,建立一個包含 150 條染色體的初始族 群。 利用 KNN 分類法計算出每條染色體的適應 值 (Fitness value)。適應值的計算方法: 針對 每個訓練樣本找出與其歐基里德距離最近的 3 個樣本,如果 3 個樣本與該訓練樣本皆屬於 同一類別,則視為分類正確,並給予該訓練 樣本 1 分,總共有 40 個訓練樣本,所以最高 總分為 40 分。重複上述做法,計算每一條染 色體的適應值。 檢查是否有染色體的分數已達設定標準 (Mα)/M (本文中 M=40,α=2 分),若有,則跳 至步驟 7;若無,則繼續下面步驟。 當代適應值最高的染色體對適應值較低者進 行基因捐贈 (下文介紹)。 適應值最佳的染色體進行記憶式調整(下文 介紹),其餘每一條染色體進行隨機選擇的突 變。 返回步驟 2。 將該染色體中所包含的基因紀錄下來,並加 以統計之後返回步驟一,直至取得 10000 組 為止。取得 10000 組解之後,統計前 N 個最 常出現的基因並加以紀錄(本文取 N=50)。. d=5. d=10. (二)基因捐贈( Gene donation ) 每代除適應值最高的染色體之外,剩下的 199 條仍然處於隨機突變的狀況。在這 199 條染色體 中,若有任何一條的適應值高於原最佳者,則將舊 者取而代之。這樣的機制在 KNN 的分類方法之 下,要將愈多的樣本全部分類正確,所需要的時間 就愈久;因為染色體上的基因有 750 個,待測的基 因共有 2000 個,在每一代的每條染色體只突變一 個基因的情況下,至少要 9 個世代後,所有基因才 有一次機會出現在染色體族群上,若要找出具有區 別力的基因組合勢必要更多的世代。因此在此實驗 中,我們發現當適應值<36/40 時,並不會佔去太多 的運算時間;然而,當適應值超過 36/40 以後,適 應值每攀高 1 分,所需等待的時間往往成倍數以上 的增加。圖六是針對染色體長度 d(本文取 5 與 10) 在搜尋 1 組具區別力的基因組合的代數比較,以這 樣的情況看來,取得 10000 組解的時間成本恐怕是 無法讓人接受的。 基因捐贈的想法來自於人類社會發展中,知識 教育或經驗傳遞的概念,知識或經驗高者可將其知 識或經驗在短時間內傳授給知識或經驗較低者,以 避免長時間的自我摸索。可將適應值較低的染色體. 圖六、取得一組具區別力的基因所需時間比較圖 (三) 記憶式調整(Memorial adaptation) 在遺傳演算法中,突變這個機制是早已存在 的,但本機制與突變的不同在於幫助適應值最高的 染色體在捐贈本身基因之餘,還可進行自身的突 變。在原文作者所使用的方法中,突變的方法有可 能使染色體的適應值在突變之後變低,故此法僅用 於適應值最高的染色體。最高分染色體先從第一個 基因開始進行隨機突變,倘若適應值變高,則以新 的基因置換舊者;若分數變低,則保留原基因,並 針對第二個基因進行突變,直至該染色體最後一個 4.
(5) 基因為止,倘若適應值並無變化,則再製自己進入 下一代。. 四、結果. ( 四 ) 群 體 記 憶 式 調 整 (Multiple memorial adaptation). 上述方法的目的,希望能夠縮短遺傳演算法搜 尋最佳解的時間成本,以利盡快取得實驗結果。基 因捐贈搭配記憶式調整的兩種染色體長度比較列 於下圖(圖八)。 另外,我們分析「10000 組解的數目」是否有 降低的空間?本實驗將終止條件設為 38 分,以 10000 組解的前 50 個基因作為標準來觀察各時間 點基因的出現頻率變化(表一)。根據表一的結果可 以發現,當我們取得 1000 組解時,出現頻率最高 的前 50 個基因與取得 10000 組時的相似度至少已 達 86%。各時間點的前 40 個基因幾乎沒有太大的 變動,真正有在改變的僅是 40-50 名的基因,這些 基因的名次往往在 50 名的邊緣升降。以上這種情 況也可以說明為何在 d=5 時,2000 組時的相似度 是 96%,而 3000 組解的相似度卻僅有 94%的現象 了。另一個觀察重點是,當可能解的組數到達 9000 組以上時,前 50 個出現頻率最高的基因已沒有變 動,因此,可以嘗試將可能解的數目調整為 9000 組。. 當然,在發展的過程中,適應值相等且最高的 染色體可能不只一條(圖七)。這衍生出兩個可能的 延伸方式: 1. 這些染色體中,何者應被設為目前的最佳 解,進而執行基因捐贈的程序? 2. 這些與目前最佳解的適應值相同或只差 R(在 本文中,R=1,這類似於一般遺傳演算法選擇 Top n 存活下來的方式)分的染色體是否有必 要接受基因的捐贈? 染色體 1 1 3 5 7 9 11 染色體 2 2 4 6 8 10 12 染色體 3 17 27 38 49 56 6 圖七、適應值相等但內容不同的染色體. d=5. 關於問題 1 或許有不同的解決方法,但本文所 採行的方法是取染色體編號在前者,意味著假設目 前適應值最高的染色體有編號為 1、2、3 的三條, 則取編號 1 的染色體為目前的最佳解。儘管取編號 在前的染色體為目前的最佳解,但我們還是無法確 知究竟在三者中,誰可能在最短時間內再把適應值 調升? 在問題 2 中,我們引入智力差距(即 R 值)的 概念而產生群體記憶式調整,也就是與目前最佳適 應值差距在 R 值以內的染色體,皆可不接受基因的 捐贈,並自我進行調整的動作。 (五)合理的實驗次數( Reasonable solutions). d=10. 在評比的過程中,每條染色體的最高可能分數 為 40 分,但在 95%的準確度下,本實驗的停止條 件應設為 38 分,根據 Li 的實驗,求出 10000 組解 之後,以統計方式找出前 50 個出現頻率最高的基 因。但值得思考的是,是否一定要取得 10000 組 解?9000、8000 組可以嗎?它們的前 50 個基因,是 否變化不大?基於這樣的疑問,我們將實驗以每取 得 1000 組解答為一分隔點,觀察前 50 個基因的名 次是否有所變動,盼能找出可以節省時間成本且不 失精確度的解答數目。. 圖八、不同染色體長度的時間成本比較 5.
(6) 數量 10000 9000 8000 7000 6000 5000 4000 3000 2000 1000. 相似度 100%(50/50) 100%(50/50) 98%(49/50) 98%(49/50) 98%(49/50) 96%(48/50) 96%(48/50) 94%(47/50) 96%(48/50) 92%(46/50). d=5 相似度 100%(40/40) 98%(39/40) 95%(38/40) 95%(38/40) 95%(38/40) 95%(38/40) 95%(38/40) 98%(39/40) 95%(38/40) 95%(38/40). 相似度 100%(30/30) 100%(30/30) 100%(30/30) 97%(29/30) 97%(29/30) 93%(28/30) 93%(28/30) 93%(28/30) 93%(28/30) 93%(28/30). 相似度 100%(20/20) 100%(20/20) 100%(20/20) 100%(20/20) 100%(20/20) 95%(19/20) 95%(19/20) 95%(19/20) 95%(19/20) 90%(18/20). 相似度 100%(10/10) 100%(10/10) 100%(10/10) 100%(10/10) 100%(10/10) 100%(10/10) 100%(10/10) 90%(9/10) 90%(9/10) 90%(9/10). 數量 10000 9000 8000 7000 6000 5000 4000 3000 2000 1000. 相似度 100%(50/50) 100%(50/50) 96%(48/50) 94%(47/50) 94%(47/50) 94%(47/50) 94%(47/50) 90%(45/50) 86%(43/50) 86%(43/50). d=10 相似度 100%(40/40) 100%(40/40) 100%(40/40) 100%(40/40) 95%(38/40) 98%(39/40) 88%(36/40) 93%(37/40) 88%(36/40) 83%(33/40). 相似度 100%(30/30) 97%(29/30) 97%(29/30) 97%(29/30) 97%(29/30) 97%(29/30) 93%(28/30) 97%(29/30) 93%(28/30) 93%(28/30). 相似度 100%(20/20) 100%(20/20) 95%(19/20) 100%(20/20) 95%(19/20) 90%(18/20) 85%(17/20) 85%(17/20) 90%(18/20) 90%(18/20). 相似度 100%(10/10) 100%(10/10) 100%(10/10) 100%(10/10) 100%(10/10) 100%(10/10) 100%(10/10) 100%(10/10) 100%(10/10) 90%(9/10). 表一、終止條件 38 的前 50 個基因變化情況 若只在 62 個樣本中取出 40 個樣本當作訓練樣 本,所得到的結果是否會只對這 40 個樣本具有區 別力,而對其他的樣本則不具區別力?N-fold 的方 式可隨機抽樣多個樣本,並驗證各組結果的交集程 度,以達到找出最有相關性的基因並供生物醫學研 究。 在生物資訊的領域中經常遇見兩難的問題,因 為大量資料運算所需要的成本,無論是運算時間或 是記憶體空間的佔用都相當巨大。解決本領域的問 題,可以從平行運算及演算法修改來著手。本文嘗 試以數種方法來增進遺傳演算法的速度,進而求取 在兼顧精確度的情況下,能使時間成本降至最低, 以在短時間取得所需的資訊。. 五、討論 Li 同樣以 GA/KNN 進行遺傳疾病的基因篩 選,在 Li 的文章中較著重於基因挑選及預測的準 確性,且對於染色體長度已經做了探討;但 GA/KNN 的方法在時間需求上是較高的,如何改善 時間的需求是本文的研究重點。本文以嘗試在演算 法、滿足條件的組數 等相關問題上討論,以求對整個 GA/KNN 的方法 能夠更加詳盡。另外,本方法尚可點出以下幾個研 究方向: 1. 不同的終止條件 本文針對 95%的準確度做了一系列的實驗,但 在 85%或 75%是否也能取得相同的結果?若降低終 止條件也能取得相同的結果,則更可減少運算時 間。 2. 基因彼此的關聯性 對基因彼此的關聯性作分析,也許可以找出遺 傳疾病與基因之間可能的關係。 3. K 值的改變 KNN 演算法中的 K 值若不同於本文中所設定 的 3,而是 K>3,對結果會有何影響。 4. N-fold 分類方式. 六、誌謝 十分感謝長庚醫學研究計劃 CMRPD32002 與 CMRPD1008 的支持,提供我們此機會來研究此基 因篩選方法。. 七、參考文獻 [1] P. Baldi, G.W. Hatfied, DNA microarrays and gene expression, Cambridge University Press, 6.
(7) Bioinformatics, Vol.17, no.12, pp.1131-1142, 2001. [16] C.B. Lucasius, G. Kateman, Understanding and using genetic algorithms, Chemon Intell Lab, Syst. 19, pp.1-33, 1993. [17] Y. Lu and J. Han, Cancer classification using gene expression data, Information System 28, University of Illinois, pp.243-268, 2003. [18] W. Punch, E. Goodman, M. Pei, C. Lai, P. Hovland and R. Enbody, Further research on feature selection and classification using genetic algorithm, Proceedings of fifth International Conference on Genetic Algorithms, pp.379-383, 1993. [19] M. Raymer, W. Punch, E. Goodman, L. Kuhn, A. Jain, Dimensionality Reduction Using Genetic Algorithms, IEEE Transactions on Evolutionary Computation, vol. 4, no. 2, pp. 164-171, 2000. [20] P. Robbins, The use of a variable length chromosome for permutation manipulation in genetic algorithm, Artificial Neural Net and Genetic Algorithms, Springer-Verlag, Wien, pp.144-147, 1995. [21] C. Romualdi, S. Campanaro, D. Campagna, B. Celegato, N. Cannata, S. Toppo, G. Valle, G. Lanfranchi, Pattern recognition in gene expression profiling using DNA array: a comparative study of different statistical methods applied to cancer classification, Human Molecular Genetics, vol. 12, no. 8, pp.823-836, 2003. [22] J.D. Schaffer, R.A. Caruana, L.J. Eshelman, A study of control parameters affecting online performance of genetic algorithm for function optimization. Proceedings of the Third International Conference on Genetic Algorithms, Morgan Kaufmann Publishers, San Mateo, California, pp.51-60, 1989. [23] J.D. Scaffer and L.J. Eshelman, On crossover as an evolutionarily viable strategy, Proceedings of the Fourth International Conference on Genetic Algorithms, Morgan Kaufmann Publishers, San Mateo, California, pp.61-68, 1991. [24] J. Yang, V. Honavar, Feature subset selection using a genetic algorithm, IEEE Intelligent Systems, Iowa State University, 1998.. Cambridge, pp. 1-17, 2002. [2] M. Ben-Bassat, Pattern recognition and reduction of dimensionality, Handbook of Statistics, North Holland, pp.773-791, 1982. [3] T. Cover, P. Hart, Nearest neighbor pattern classification, IEEE Transactions on Information Theory, 13, pp.21-27, 1967. [4] B. Dasarathy, Nearest neighbor (NN) norms: NN pattern classification techniques, Los Alamitos, CA: IEEE Computer Society Press, 1991. [5] M. Dash, H. Liu, Feature selection for classification, Intelligent Data Analysis 1, pp.131-156, 1997. [6] J. Devillers, Genetic algorithms in molecular modeling, Lyon, France, pp.38-42, 1996. [7] J. Doak, An evaluation of feature selection methods and their application to computer security, Technical report, Davis, CA: University of California, Department of Computer Science, 1992. [8] D.E. Goldberg, Genetic algorithm in search, optimization and machine learning, Addison-Wesley, p14, 1989. [9] J. Han, M. Kamber, Data mining: concepts and techniques, Simon Fraser University, USA, pp.314-315, 2001. [10] J. Holland, Adaptation in natural and artificial system , University of Michigan Press, Ann Arbor, MI, 1975. [11] A. Jain, D. Zongker, Feature selection: evaluation, application, and small sample performance, IEEE Transaction on Pattern Analysis and Machine Intelligence, vol.19, no2, pp.153-158, 1997. [12] G. John, R. Kohavi and K. Pfleger, Irrelevant features and subset selection problem, Proceeding of the Eleventh International Conference on Machine Learning, pp.121-129, 1994. [13] J. Kelly, L. Davis, A hybrid genetic algorithm for classification, Proceeding of the Twelfth International Joint Conference on Artificial Intelligence, pp.645-650, 1991. [14] P. Langley, W. Iba, Average-case analysis of a nearest neighbor algorithm, Proceedings of the Thirteenth International Joint Conference on Artificial Intelligence, Chambery, France: Morgan Kaufmann, 1993. [15] L. Li, Gene selection for sample classification based on gene expression data: study of sensitivity to choice of parameters of the GA/KNN method,. 八、附錄. 7.
(8) 資料檔案. 資料前處理 否. 分析是否正確 ? 是 建立表現量資料陣列. 建立一個包含200條染色體的初始族群,每條染色體內涵5個 基因. 對每條染色體的每個樣本,找尋與其最接近的3個樣本. 計算每條染色體的適應值. 最佳染色體進行自我調整,並對其餘染 色體進行基因捐贈. 調整族群內容. 每條染色體進行自我變異. 否. 是否有一條染色體達到終止條件?. 是 紀錄染色體內容,以提供統計分析. 附錄一. GA/KNN 流程圖. 8.
(9)
相關文件
Proceedings of the Fifth International Conference on Genetic Algorithms, Morgan kaufmann Publishers, San Mateo, California, pp.110~117, 1996. Horn, J., “Finite Markov Chain Analysis
C., “Robust and Efficient Algorithm for Optical Flow Computation,” Proceeding of IEEE International Conference on Computer Vision, pp. “Determining Optical Flow.” Artificial
Godsill, “Detection of abrupt spectral changes using support vector machines: an application to audio signal segmentation,” Proceedings of the IEEE International Conference
Shih and W.-C.Wang “A 3D Model Retrieval Approach based on The Principal Plane Descriptor” , Proceedings of The 10 Second International Conference on Innovative
[16] Goto, M., “A Robust Predominant-F0 Estimation Method for Real-time Detection of Melody and Bass Lines in CD Recordings,” Proceedings of the 2000 IEEE International Conference
▲ 如果母血唐氏症篩檢結果屬於高危險群(唐氏症機率大於 1/270 時),或是有前述任何一項遺傳疾病之高危險因子
Wells, “Using a Maze Case Study to Teach Object-Oriented Programming and Design Patterns,” Proceedings of the sixth conference on Australasian computing education, pp. Line, “Age
Harma, “Automatic identification of bird species based on sinusoidal modeling of syllables,” in Proceedings of IEEE International Conference on Acoustics, Speech,