• 沒有找到結果。

第四章 實驗與結果比較

4.1 實驗方法說明

限制型利基柏拉圖基因演算法乃希望透過設定分類準確率閥值,調整利基型柏拉圖 基因演算法的挑選機制,刺激基因演算法往提高分類準確率的方向努力,避免因屬性刪 減過快,導致準確率偏低的問題。此處使用三筆資料測試本研究所提方法的有效性。

4.1.1 實驗資料

本研究所使用之三筆資料,威斯康辛乳癌及聲納金屬探測來自UCI 資料庫,肝病診 斷為台灣國泰醫院之實際病歷資料。以下為此三筆資料進行詳細的介紹。

肝病診斷

此資料為肝病診斷資料,總共包含了168 筆樣本,其中有 89 筆為良性,79 筆為惡 性。每筆樣本包含15 項肝病相關診斷屬性,1 項診斷結果。在進行實驗時,本研究將全 部168 筆資料,隨機挑選出 54 筆類別為良性及 47 筆類別為惡性之樣本作為訓練組資料。

再從剩下的資料中,隨機挑選出35 筆良性及 32 筆惡性樣本作為測試組資料。經此處理 後之資料使用1-NN 分類器進行分類時,訓練組之分類準確率為 86.1%,測試組之分類 準確率為80.1%。

威斯康辛乳癌

此資料為美國威斯康辛州的乳癌診斷資料,總共包含了569 筆樣本,其中有 357 筆 為良性腫塊樣本,212 筆為惡性腫塊樣本。每筆樣本包含 30 項乳癌相關診斷屬性,1 項 診斷結果。本研究在進行實驗時,將全部569 筆資料,隨機挑選出 140 筆類別為良性及 140 筆類別為惡性之樣本作為訓練組資料。再從剩下的資料中,隨機挑選出 70 筆良性及 70 筆惡性樣本作為測試組資料。經過處理後之資料使用 1-NN 分類器進行分類時,訓練

組之分類準確率為0.946,測試組之分類準確率為 0.957。 徵使用率標準差STD(f)及分類準確率標準差STD(c)之計算方法如下:

)

整合,以加強實驗結果的說服力。實驗二之相關參數設定如表4.2。

表4.2 實驗二參數設定

突變率 交配率 染色體數 競爭集合染色體數 族群半徑 共同

參數 0.1 0.8 50 3 0.05

組別 代號 描述

對照 組

0% 不設定準確率限制。

實驗 組一

5% 以族群中,分類準確率較低之5%染色體的分類準確率平均值為閥 值。

實驗 組二

10% 以族群中,分類準確率較低之10%染色體的分類準確率平均值為閥 值。

實驗三

此實驗的目的在比較相同的實驗設定下,不設定準確率閥值,但使用多一倍的染色 體進行搜尋工作,能否使基因演算法找到分類準確率更高的特徵組合。又其效果與限制 型利基柏拉圖演算法相比,兩種方法之間的差異。實驗三之相關參數設定如表4.3。

表4.3 實驗三參數設定

突變率 交配率 競爭集合染色體數 族群半徑

共同

參數 0.1 0.8 3 0.05

組別 代號 描述

對照 組

0% 不設定準確率限制,使用染色體數為100。

實驗 組一

5% 以族群中,分類準確率較低之5%染色體的分類準確率平均值為閥 值。使用染色體數為50。

實驗 組二

10% 以族群中,分類準確率較低之10%染色體的分類準確率平均值為閥 值。使用染色體數為50。

相關文件