• 沒有找到結果。

結論與建議

在文檔中 碩 士 論 文 中 華 大 學 (頁 57-102)

5-1 結論

為了改善倒傳遞網路(Back-Propagation Network,BPN)不能產生次分類的 缺點,在此模仿生物學的生態演替(Ecological Succession)的概念,提出生態演替 神經網路(Ecological Succession Neural Network, ESNN)。在此網路中:「輸出單元」

類比為「生存空間」;「樣本」類比為「生物個體」;「分類」類比為「物種」;因 此它的網路輸出層單元不再代表特定的分類,其分類是在「演替」的過程中,由

「屬於」該單元的所有樣本之最多數分類決定,而「屬於」該單元是指樣本的該 輸出層單元「推論輸出值」是所有輸出單元中最大者。

為證明此一架構優於傳統的倒傳遞類神經網路,本文以三個人為的分類例題 及十個真實的分類例題進行比較。由實驗結果歸納出下列結論:

1. 實驗結果顯示 ESNN 的誤判率可以在五個分類例題低於 BPN,而在八個分類 例題高於 BPN。但是如以誤判率總平均來看,ESNN 比 BPN 還要低。因此,

ESNN 具有與傳統 BPN 一樣的分類能力。

2. 實驗結果顯示 ESNN 可發掘其中九個分類例題的「次分類」,但是另外三個 分類例題卻沒有發現明顯的次分類。這三個分類例題也有可能原來就不具有 次分類,所以 ESNN 在這三個分類例題上沒有發現明顯的次分類。由以上觀 察可得知 ESNN 擁有將部份分類的「次分類」發掘出來的能力。

3. 將十個實際分類例題 BPN 與 ESNN 測試範例誤判率的統計表依 BPN 誤判率遞 增排序,將發現 BPN 的誤判率大於 0.20 的分類例題 ESNN 的誤判率都低於傳 統 BPN。由上述可得知在傳統 BPN 誤判率較高的分類例題上,ESNN 的準確 率會有較高的表現。

5-2 建議

對於本研究有以下建議:

1. 由於 ESNN 仍有八個分類例題的誤判率略高於傳統 BPN,雖然兩者的誤判率 差異十分相近但是仍然希望往後的研究可以將 ESNN 的誤判率再降低,使得 ESNN 的誤判率皆優於傳統 BPN。

2. 目前 ESNN 只能發掘部分分類例題的次分類,可以再提高 ESNN 發掘次分類 的能力,使得 ESNN 可廣泛的運用於各類型的分類例題。如果該分類例題確 實沒有次分類,ESNN 應可自行判斷及顯示該例題是否具有次分類或是沒有 次分類。

3. ESNN 是屬於單層的神經網路,可再嘗試實作兩層的 ESNN 並且統計實驗數 據,藉著兩層的 ESNN 得到更佳的誤判率及分類能力。

4. ESNN 執行網路學習的時間仍然比傳統 BPN 要長,並不符合實例運作所期望 的時間,希望可以再改進演算法,使得 ESNN 的執行更有效率。

5. 目前 ESNN 的測試範例優勝數目及其 ESNN 的分類結果皆是以文字的方式呈 現,並不符合使用者直觀的使用習慣,往後的研究可以再改進 ESNN 分類結 果的呈現方式。ESNN 例題執行成功之後,可以將誤判率、分類數目及次分 類的結果繪製成圖表。

參考文獻

1. Adeli, H. (2001) Neural networks in civil engineering: 1989-2000. Computer-

Aided Civil and Infrastructure Engineering, 16 (2), 126–142.

2. Wong, B.K., Lai, V.S., and Lam, J. (2000) A bibliography of neural network

business applications research: 1994-1998. Computers & Operations Research, 27, 1045-1076.

3. Yeh, I-Cheng (1999a) Design of high performance concrete mixture using neural networks, J. of Computing in Civil Engineering, 13(1), 36-42.

4. Yeh, I-Cheng (1999b) Modeling chaotic two-dimensional mapping with fuzzy-neuron networks, Fuzzy Sets and Systems, 105(3), 421-427.

5. Yeh, I-Cheng (2005) Classification and function mapping with fuzzy-neuron networks. Journal of Science and Technology, 14(2) 153-159.

6. Yeh, I-Cheng (2006) Analysis of strength of concrete using design of experiments and neural networks. Journal of Materials in Civil Engineering, 18(4) 597-604.

7. 葉怡成,類神經網路- 方法應用與實作,儒林書局,台北,2006。

8.

http://library.taiwanschoolnet.org/cyberfair2002/C0227800304/i03/03-5.htm

9. 楊再福、施煒剛、陳立僑、陳勇、周忠良,東太湖生態環境的演變與對策,

中國環境科學,第 23 卷,第 1 期,第 64-68 頁,2003。

10. 游淑媚,學學生對生態概念的理解:生態消長,臺中師院學報,第 18 卷,第 2 期,第 207-239 頁,2004。

11. Blackard, J. A. (1998) “Comparison of neural networks and discriminant analysis in predicting forest cover types,” Ph.D. dissertation, Department of Forest

Sciences, Colorado State University, Fort Collins, Colorado.

12. 文少宣,「類神經網路與決策樹在顧客關係管理應用之比較」,碩士論文,中 華大學土木工程學系(2004)。

13. Megaputer Intelligence, Inc. PolyAnalyst Case Studies, 2007, (http://www.megaputer.com/)

14. The Insurance Company Benchmark (COIL 2000), 2007, http://kdd.ics.uci.edu/databases/tic/tic.html

15. 鄒明誠、孫志鴻,「預測型模式在空間資料探勘之比較與整合研究」,地理學 報,第三十八期,第 93-109 頁,2004。

2007, (http://www.ics.uci.edu/~mlearn/MLSummary.html)

17. UCI Machine Learning Repository Content Summary, Spambase Database, 2006, (http://www.ics.uci.edu/~mlearn/MLSummary.html)

18. SAS Institute, Data mining using SAS Enterprise Miner: A case study approach (2nd), SAS Institute, 2006.

19. Han, M., Xi, J., “Radial basis perception network and its applications for pattern recognition,” International Joint Conference on Neural Networks, Honolulu, HI, Vol. 1,2002, pp. 669-674

20. 李御璽、顏秀珍、鄭郁翰、張韋豪、楊乃樺、賴郁菁、廖晨涵,「運用分類技 術發掘潛在中小企業借貸戶之研究」,2006 年資訊管理暨電子商務經營管理 研討會,新竹,2006。

附錄 A 生態演進神經網路

A-1 使用手冊

ESNN 使用 TURBO C 工具所撰寫,因此,該程式有兩檔:(1)原始檔 ESNN.C;

(2)執行檔 ESNN.EXE。針對某資料做探勘時,只要將該程式的執行檔 ESNN.EXE 放入該資料檔裡,並備妥參數檔(pcn.net)、訓練範例檔(pcn.tra)、測試範例檔 (pcn.tes),即可執行。

執行前所需的相關檔案介紹:

首先必需設定好參數檔(pcn.net),格式如表 A1-1。

表 A1-1 參數檔格式

名稱 參數

輸入變數個數 依題目而定

第一層隱藏層神經元數 依題目而定

第二層隱藏層神經元數 依題目而定(尚未使用)

分類數目 依題目而定

輸出變數個數 依題目而定

訓練範例筆數 依題目而定

測試範例筆數 依題目而定

學習循環數 依題目而定

測試週期數 100 (可視狀況微調)

批次學習 是否批次學習,是:1,否:0

使用已學權值 0

權值與閥值初始上下限 3.000e-01

權值與閥值初始化亂數種子 4.560e-01 (可視狀況微調) 學習速率初始值 1

學習速率衰減值 0.95 學習速率下限值 1.000e-01 慣性因子初始值 5.000e-01 慣性因子衰減值 9.500e-01 慣性因子下限值 1.000e-01

執行模式 1

確認訓練範例檔(pcn.tra)與測試範例檔(pcn.tes),格式如表 A1-2。

表 A1-2 訓練與測試檔格式

X

1

X

2

X

Ninp

Y

1

Y

2

Y

Nout

1 2 3

n n=原始資料總筆數;

X

Ninp=輸入變數;

Y

Nout=輸出變數。

註明是訓練範例或

確認無誤後,即可執行 ESNN.EXE 檔,學習完畢後隨即產生:

1. 收斂檔(pcn.cvr)

2. 測試範例結果檔(pcn.out) 3. 測試範例優勝單元檔(pcn.res) 4. 訓練範例分類矩陣檔(pcn.cla) 等相關檔案,如下介紹:

收斂檔(pcn.cvr)

此檔存放兩種數值:(1) 誤判率:誤判的資料數佔整體資料的比例,數值愈 小表示該分類模型愈準確;(2)誤差均方根:可了解該預測模型所衡量的實際變數 Y 與預測變數 Y 的接近程度。其檔案內容格式如表 A1-4。

表 A1-4 收斂檔格式 週期 訓練範例

誤判率

測試範例 誤判率

訓練範例 RMS

測試範例 RMS

測試範例結果檔(pcn.out)

此檔所存放的值為「測試範例」的實際(目標)輸出向量與推論輸出向量值,

可利用此值計算出計算差距量(δ)及測試範例各個輸出單元的優勝次數,判斷該 分類是否屬於最多數分類的輸出單元。其檔案內容格式如表 A1-3。

表 A1-3 結果檔格式

T

1

T

2

T

Nclass

Y

1

Y

2

Y

Nout

1

2 3

Ntest

Ntest=測試範例數;

T

Nclass實際(目標)輸出向量數;

Y

Nout 推論輸出向量數。

測試範例優勝單元檔(pcn.res)

此檔所存放的值為「測試範例」的實際(目標)輸出向量與推論輸出向量值優 勝標記,在每個測試範例上,利用測試範例的實際(目標)輸出向量與推論輸出向 量值判斷哪ㄧ個輸出單元的推論輸出向量值最大,最大的推論輸出向量值標記為 1,反之其餘推論輸出向量值則標記為 0。此檔的數據結構如表 A1-5。

表 A1-5 優勝單元檔格式

T

1

T

2

T

Nclass

Y

1

Y

2

Y

Nout

1 1 0 0 1 0 0

2 0 1 0 0 0 1 3

Ntest

Ntest=測試範例數;

T

Nclass實際(目標)輸出向量數;

Y

Nout 推論輸出向量數。

訓練範例分類矩陣檔(pcn.cla)

「分類矩陣」是統計歸屬各輸出單元的訓練範例中,屬於各分類的總數。可 用來判斷該一個分類是否有次分類:當一個分類在多個輸出單元都是比例最大的 分類時,該分類有次分類。反之,當一個分類只在一個輸出單元是比例最大的分 類時,該分類無次分類。其檔案內容格式如表 A1-6。

表 A1-6 分類矩陣檔格式 輸出單元

分類

Y

1

Y

2

Y

Nout

C 1

C 2

….

class

CN

class

CN =分類;

Y

Nout 輸出單元。

A-2 使用範例

此處將以人為的二維四塊分類例題(4block)做為使用範例,以便使用者熟悉 操作此分類探勘程式。將一一介紹所有操作步驟及所產生的相關輸出檔之檔案內 容解說,使用者可方便看出變數的特性,及變數之間的關係,進而了解本程式。

範例說明:

「二維四塊分類例題」,其分類公式如下:

x 0 . 5 且 y 0 . 5

x 0 . 5 且 y 0 . 5

則屬第一類,否則為第二類。

本範例的變數是採用上述公式所設計的,在值域0

x

1與0

y

1的範圍 內,以隨機取點方式取得 1000 筆範例資料。此問題的範例分佈狀況如圖 3-7 所 示,其中屬第一類的範例形成兩個分離方塊。屬於第二類的範例形成另外兩個分 離方塊。

二維四塊分類例題網路參數相關資料如下:

訓練範例筆數:800 筆 測試範例筆數:200 筆 分類數目:2 分類 輸入變數個數:2 個

第一層隱藏層神經元數:8 個 輸出變數個數:4 個

學習循環數:27610 次

在執行該程式前,首先,需備妥訓練範例檔(pcn.tra)、測試範例檔(pcn.tes)與 參數檔(pcn.net),隨後將執行檔(ESNN.EXE)與這三個數據檔放在同一資料匣,即 可執行。步驟如下:

步驟一、資料檔準備

將數據分成訓練範例檔(800 筆樣本)與測試範例檔(200 筆樣本),兩範例檔的 資料都必需有 2 個輸入變數與 2 個輸出變數。兩檔格式相同,只有數據不同,如 圖 A2-1 與 A2-2 所示。

圖 A2-1 訓練範例檔

圖 A2-2 測試範例檔

步驟二、參數設定

表 A1-1 已有參數的格式介紹。此範例的參數設定方式,依順序分別為輸入 變數個數、第一層隱藏層神經元數、第二層隱藏層神經元數(尚未使用)、分類數 目、輸出變數個數、訓練範例筆數、測試範例筆數、學習循環數、測試週期數、

批次學習、使用已學權值、權值與閥值初始上下限、權值與閥值初始化亂數種子、

學習速率初始值、學習速率衰減值、學習速率下限值、慣性因子初始值、慣性因 第一筆樣本(每筆樣本

皆有 X1 與 X2 變數) Y1 與 Y2

第一筆樣本(每筆樣本

皆有 X1 與 X2 變數) Y1 與 Y2

圖 A2-3 參數設定檔

步驟三、程式執行

將 ESNN.EXE 與訓練範例檔、測試範例檔及參數檔等放在同一資料匣,執行 ESNN.EXE。執行過程如圖 A2-4,可以看到參數檔內的參數設定會在程式執行前 顯示,之後才顯示執行過程,執行過程中會顯示每次學習循環的訓練、測試範例 的誤判率及訓練、測試範例的誤差均方根。訓練完畢後,即產生結果檔(pcn.out)、

收斂檔(pcn.cvr)、優勝單元檔(pcn.res)、分類矩陣檔(pcn.cla),可從這些資料檔中得 到有用的探勘資訊。

步驟四、結果檢視

訓練完畢後,即產生收斂檔(pcn.cvr)、結果檔(pcn.out)、優勝單元檔(pcn.res)、

分類矩陣檔(pcn.cla),可從這些資料檔中得到有用的探勘資訊。各別說明如下:

收斂檔(pcn.cvr)

由收斂檔可得知在每一訓練循環過程中的收斂程度,愈小即表示收斂效果愈 好;若是值愈變愈大,則表示有發散情形發生。將收斂檔的實驗數據排序,需要 確認 ESNN 網路參數之中的學習循環數 27610 是否為該分類例題的最佳學習循環 數,在學習循環數 27610 時測試範例誤判率為最低。設定排序條件如下:測試範 例誤判率為主要鍵、排序方式為遞增、我的資料範圍為有標題列。收斂檔結果如 圖 A2-5。

圖 A2-5 收斂檔結果(用 Excel 排序的目的是找出最小誤判率,以避免過度學習)

測試範例結果檔(pcn.out)

結果檔裡存放的數據為「目標輸出向量」與「推論輸出向量」,若 C1 為測試 範例目標輸出向量為最大值,將 C1 列為優勝單元。若 Y1 為測試範例推論輸出 向量為最大值,將 Y1 列為優勝單元,統計這些優勝單元就可以得到「測試範例 目標輸出向量」的優勝次數及「測試範例推論輸出向量」的優勝次數。結果如圖 A2-6 所示。

圖 A2-6 結果檔數據(右方的表格是用 Excel 算出)

測試範例優勝單元檔(pcn.res)

優勝單元檔的數據,存放著各測試循環所產生的「目標輸出向量」與「推 論輸出向量」是否為優勝單元,如果 Y3 被標記為 1 則代表 Y3 推論輸出向量值 比 Y1、Y2、Y3 的推論輸出向量值大。

二維四塊例題之各輸出單元所屬範例其分類統計(測試範例),可由 PCN.RES 檔案中優勝次數的統計數據得知,即是圖 A2-7 分類矩陣表。

二維四塊例題之混亂矩陣(測試範例),需由使用者依分類矩陣表的結果計 算。實際與預測分類皆為 C1 的優勝次數為 83 次,實際與預測分類皆為 C2 於輸 出單元 Y1 的優勝次數為 115 次,輸出單元 Y1 應屬於實際分類 C1,但是輸出單 元 Y1 卻出現預測分類 C2 優勝次數為 2 次,因此可以判定預測分類 C2 誤判次數

在文檔中 碩 士 論 文 中 華 大 學 (頁 57-102)

相關文件