類神經模糊系統在營建知識發掘中 資料缺漏問題之研究

111  Download (0)

Full text

(1)

中 華 大 學 碩 士 論 文

類神經模糊系統在營建知識發掘中 資料缺漏問題之研究

A Neuro Fuzzy System for Knowledge Discovery of Incomplete Construction Data

系 所 別:營 建 管 理 研 究 所 學號姓名:M09116014 林 涵 文 指導教授: 余 文 德 博士

中華民國 九十三 年 六 月

(2)

誌 謝

能完成這本論文並順利畢業,我最感謝的是我的指導教授 余文 德老師。若沒有余老師支持,我不可能在研二上學期時出國學習語言。

沒有余老師的指導,我亦不可能獨自解決研究上所遇到的問題。而在 研究的期間,我常常容易灰心。這段時間,幸好有我家人支持我,相 信我。因此,當我完成最後一串程式碼,我第一份喜悅便是想與我家 人做分享。

研究所求學期間,我常常給自己過重的事務及壓力,所幸有昱儒 與嘉偉在無時無刻的幫助我。而我在就讀營建管理研究所的諸位恩 師,亦讓我明白許多做人做事的道理,也增進了許多智慧。楊智斌老 師在大學曾帶過我ㄧ年專題研究,是我在研究上的啟蒙恩師之ㄧ;鄭 紹材老師更是我在人生中一位重要的導師。

另外,我還要感謝羅紹松、鄭景鴻、劉彥慶、辛銀松、何純平、

苗敬美等學長姐;俊銘、志豪、雨澤、大姐、建華、佳伶、坤鴻等死 黨與同學;汎儀、佩倫等學弟妹,有他們的支持,我的論文才能順利 完成。鄭道明老師、鄭明淵老師、曾仁傑老師及曾惠斌老師,對於本 論文更詳加指教,亦在此敬表謝意。

也許研究工作對於很多人來說,只是邁向研究所畢業的一種過 程;論文對於他們來說,亦可能只是獲取碩士文憑的一種必需品。而 我卻會十分珍惜這段我在做研究的時光,並期望我的研究成果能嘉惠 更多的人。

林涵文 謹誌 中華大學 2004/6

(3)

摘 要

關鍵字:類神經模糊系統、知識發掘、資料探勘、資料缺漏。

營建管理領域具有需要多年經驗及技術的特性,因此適合應用人 工智慧技術來做資料探勘,以保留過去所累積的知識並應用於未來專 案中所產生的效用或價值。台灣營建業目前在資料探勘技術中卻面臨 到營建知識發掘資料缺漏之問題,而現有之類神經模糊系統技術無法 處理此種問題。本研究先行定義在營建知識發掘中,資料缺漏分為兩 種方面:一為資料案例缺漏;二為資料屬性值缺漏。本研究欲針對資 料屬性值缺漏之問題,以「補足缺漏資料法」與「學習缺漏資料法」

兩種方式解決。對於「補足缺漏資料法」,本研究提出資料前處理模式。

其模式驗証後,仍無法達到要求的精度。因此,本研究提出根本解決 資料屬性值缺漏之問題應從學習機制著手,方為根本清源之道。對於

「學習缺漏資料法」,本研究以模糊適應性學習控制網路(FALCON)

為學習架構。並提出「多維空間式 Kohonen 學習」與「多屬性模糊法 則庫」兩種新的方法,成功修改 FALCON 內部學習模式,並解決上述

「補足缺漏資料法」中的缺點。改善後的 FALCON 系統經案例驗證之 後,缺漏資料量由 5%增加到 20%,精準度依缺漏比例可增加 9%至 26%。由此可證明此系統能成功處理資料探勘中資料缺漏之問題,及學 習缺漏資料的資料探勘結果會比直接捨棄後的資料探勘結果好。

(4)

ABSTRACT

Keywords:neuro-fuzzy system, knowledge discovery, data mining, missing data.

Construction management (CM) is a discipline that replies heavily on the skills and experiences of personnel, and is very suitable for application of data mining (DM) techniques to acquire the domain knowledge for future use. Unfortunately, the DM application in CM is facing a severe problem of data incompleteness. There has been no exiting method for mining of incomplete data thus far. This research proposes a Variable-attribute Fuzzy Adaptive Learning Control Network (VaFALCON) approach to tackle data incompleteness in historical construct databases. At first, the problem of data incompleteness is defined. Secondly, computational algorithm of VaFALCON is developed step by step. Then, experiments are designed to verified the proposed VaFALCON method. It is found from the demonstrated examples that the proposed VaFALCON can improve the system accuracy from 9% up to 26% while the overall incompleteness ranges from 5% to 20%. Finally, findings of research are concluded and future works are recommended.

(5)

目 錄

第一章 緒論... 1

1.1 研究動機 ... 1

1.2 研究目的 ... 2

1.3 研究範圍與限制 ... 2

1.3.1 研究範圍 ... 2

1.3.2 研究限制 ... 3

1.4 研究方法 ... 4

1.5 研究流程 ... 4

1.6 小結 ... 5

第二章 文獻回顧... 6

2.1 知識發掘之定義及方法... 6

2.2 資料探勘 ... 7

2.2.1 資料探勘之定義 ... 7

2.2.2 資料探勘之功能 ... 8

2.2.3 資料探勘之研究架構 ... 10

2.2.4 資料探勘之技術 ... 10

2.3 混合型人工智慧系統... 11

2.3.1 適應性類神經模糊推論系統(ANFIS) ... 13

2.3.2 模糊適應性學習控制網路(FALCON) ... 13

2.3.3 約略多層次模糊系統(Rough Fuzzy MLP) ... 14

2.4 資料缺漏 ... 14

2.4.1 資料案例缺漏 ... 14

2.4.2 資料屬性值缺漏 ... 17

(6)

2.5 現有解決資料缺漏方法之回顧... 18

2.5.1 捨棄缺漏資料法 ... 18

2.5.2 補足缺漏資料法 ... 18

2.5.3 學習缺漏資料法 ... 20

2.6 小結 ... 20

第三章 模糊適應性學習控制網路(FALCON)... 22

3.1 模糊適應性學習控制網路(FALCON)之架構 ... 22

3.2 模糊適應性學習控制網路(FALCON)之運算方法... 24

3.2.1 神經元的數值定義 ... 24

3.2.2 神經元的的連結方程式 ... 25

3.3 模糊適應性學習控制網路(FALCON)之訓練法則... 27

3.3.1 非監督式學習系統 ... 27

3.3.2 倒傳遞(back propagation)式學習 ... 31

3.3.3 FALCON 的訓練流程 ... 36

3.4 小結 ... 37

第四章 類神經模糊缺漏資料探勘模式之建構... 38

4.1 資料前處理模式-補足缺漏資料法... 38

4.1.1 模擬專家思考路徑 ... 38

4.1.2 缺漏資料之迴歸處理 ... 40

4.1.3 資料前處理的優缺點 ... 41

4.2 修改 FALCON 內部學習模式-學習缺漏資料法 ... 42

4.2.1 FALCON 在資料屬性缺漏下的學習法則 ... 43

4.2.2 多維空間式 Kohonen 學習 ... 46

4.2.3 多重屬性模糊法則庫之建立 ... 50

4.2.4 FALCON 系統之缺漏資料學習方法 ... 51

(7)

4.2.5 FALCON 系統之缺漏資料倒傳遞學習網圖架構 ... 53

4.2.6 FALCON 系統之缺漏資料訓練流程 ... 54

4.2.7 FALCON 系統缺漏資料訓練模式之優缺點 ... 55

4.3 小結 ... 56

第五章 案例驗證... 57

5.1 系統之案例驗證流程... 57

5.2 建築工程總成本估算缺漏資料之探勘... 59

5.2.1 完整資料之學習結果 ... 61

5.2.2 缺漏資料之學習結果 ... 61

5.2.3 捨棄缺漏資料之學習結果 ... 62

5.2.4 結果比較分析 ... 63

5.3 建築結構體工程成本預測缺漏資料之探勘... 65

5.3.1 完整資料之學習結果 ... 66

5.3.2 缺漏資料之學習結果 ... 67

5.3.3 捨棄缺漏資料之學習結果 ... 67

5.3.4 結果比較分析 ... 68

5.4 地下連續壁施工工期估算缺漏資料之探勘... 71

5.4.1 完整資料之學習結果 ... 72

5.4.3 捨棄缺漏資料之學習結果 ... 74

5.4.4 結果比較分析 ... 74

5.5 案例綜合比較 ... 77

5.6 小結 ... 77

第六章 結論與建議... 79

6.1 結論 ... 79

6.2 未來建議 ... 80

(8)

參考文獻... 82

附錄ㄧ ... 85

附錄二 ... 86

附錄三 ... 87

附錄四 ... 88

附錄五 ... 89

附錄六 ... 90

附錄七 ... 91

附錄八 ... 92

附錄九 ... 93

附錄十 ... 94

附錄十ㄧ... 95

附錄十二... 96

附錄十三... 97

附錄十四... 98

附錄十五... 99

(9)

表 目 錄

表 2.1 資料探勘中技術分類之比較... 11

表 2.2 混合型人工智慧系統類別簡介表... 12

表 2.3 資料屬性值缺漏型表單... 17

表 5.1 資料屬性值格數範例表... 58

表 5.2 資料屬性值格數缺漏範例表... 58

表 5.3 捨棄缺漏資料範例表... 59

表 5.4 建築工程總成本估算之案例資料... 60

表 5.5 完整建築工程總成本估算資料庫學習精度... 61

表 5.6 缺漏之建築工程總成本估算資料庫學習精度 ... 62

表 5.7 捨棄缺漏資料後之資料庫數量表... 62

表 5.8 捨棄缺漏資料之建築工程總成本估算資料庫學習精度 ... 63

表 5.9 建築工程總成本估算資料庫保留與捨棄之資料量比較 ... 63

表 5.10 建築工程總成本估算資料庫之精度比較... 64

表 5.11 建築工程總成本估算精度之差異性分析... 65

表 5.12 建築結構體工程成本預測之案例資料... 66

表 5.13 完整建築結構體工程成本預測資料庫學習精度 ... 67

表 5.14 缺漏之建築結構體工程成本預測資料庫學習精度 ... 67

表 5.15 捨棄缺漏資料後之資料庫數量表... 68

表 5.16 捨棄缺漏資料之建築結構體工程成本預測資料庫學習精度 68 表 5.17 建築結構體工程成本預測資料庫保留與捨棄之資料量比較 69 表 5.18 建築結構體工程成本預測資料庫之精度比較 ... 69

表 5.19 完整建築結構體工程成本預測精度差異性分析 ... 70

表 5.20 地下連續壁施工工期估算之案例資料... 71

(10)

表 5.21 地下連續壁施工工期估算之案例索引參數... 72

表 5.22 完整地下連續壁施工工期估算資料庫學習精度 ... 73

表 5.23 缺漏之地下連續壁施工工期估算資料庫學習精度 ... 73

表 5.24 捨棄缺漏資料後之資料庫數量表... 74

表 5.25 捨棄缺漏資料之地下連續壁施工工期估算資料庫學習精度 74 表 5.26 地下連續壁施工工期估算資料庫保留與捨棄之資料量比較 75 表 5.27 地下連續壁施工工期估算資料庫之精度比較 ... 76

表 5.28 完整地下連續壁施工工期估算精度差異性分析 ... 77

表 5.29 案例綜合估算精度差異性比較表... 77

(11)

圖 目 錄

圖 1.1 研究流程圖... 4

圖 2.1 知識發掘流程(The KDD Process) ... 6

圖 2.2 資料探勘之研究架構... 10

圖 2.3 外插型資料案例缺漏分佈圖... 15

圖 2.4 內插型資料案例缺漏分佈圖... 16

圖 3.1 FALCON 網路架構圖 ... 24

圖 3.2 Kohonen 學習應用於隸屬度函數的參數計算... 29

圖 3.3 增強競爭式學習應用於 IF-THEN 法則之建立... 31

圖 3.4 FALCON 的訓練流程圖 ... 37

圖 4.1 老師決定期末成績流程圖... 39

圖 4.2 資料缺漏時之思考路徑圖... 40

圖 4.3 人工智慧技術前處理法之流程圖... 41

圖 4.4 FALCON 系統的學習架構圖 ... 44

圖 4.5 FALCON 系統發生資料缺漏之圖... 45

圖 4.6 只具有兩種屬性之 FALCON 學習網路圖... 46

圖 4.7 傳統二維空間 Kohonen 學習平面圖... 47

圖 4.8 資料 nan 值在二維空間平面圖... 48

圖 4.9 屬性 X 之ㄧ維空間平面圖... 49

圖 4.10 第二層神經元之輸出信號值... 50

圖 4.11 第三層神經元之輸入信號值... 50

圖 4.12 多重屬性模糊交集運算法則圖... 51

圖 4.13 FALCON 系統之資料缺漏學習網路架構圖... 52

圖 4.14 缺漏資料之正傳遞圖... 53

(12)

圖 4.15 缺漏資料之倒傳遞誤差信號修正圖... 54

圖 4.16 FALCON 系統之資料缺漏訓練流程圖... 55

圖 5.1 建築工程總成本估算資料庫保留與捨棄之精度比較 ... 64

圖 5.2 建築結構體工程成本預測資料庫保留與捨棄之精度比較 ... 70

圖 5.3 地下連續壁施工工期估算資料庫保留與捨棄之精度比較 ... 76

(13)

第一章 緒論

1.1 研究動機

營建管理領域具有需要多年經驗及技術的特性,因此適合應用人 工智慧技術來做知識發掘與資料探勘,以保留過去所累積的知識並應 用於未來專案中所產生的效用或價值,因此如何累積營建知識與經驗 即成為我們在營建管理工作中極為重要的一環。

在資料探勘技術中,混合式人工智慧系統(Hybrid AI Systems)之研 究開發在近十幾年來已有重大之進展,軟體的整合已經成為引人注意 的主流,而且是發展出有效的應用技術[4]。目前營建業使用資料探勘 技術的情形,如下所示:

吳獻堂君[1]在其論文中利用模糊邏輯與電腦來分析營建生產力,

得到成果極佳,並認為在營建管理領域中,極為適合使用模糊邏輯的 思考方式。鄭景鴻君[2]更進一步利用類神經模糊系統於土石方成本估 價中,精度高達 95%。前述之許多先學[1] [2]已做了相當努力,使得台 灣營建業界已能像其他科技產業一樣充分應用這類功能強大之技術來 累積創造專業知識資產以提升產業之競爭力。

不過此系統在實際運用上卻有不足之處。在同樣是以類神經網路 運用,在金融方面,劉宛鑫[3]論文以歷史資訊建構股價預測,其中因 資料缺漏,使資料庫之資料量減少到 1913 筆。不過因仍具有足夠之案 例數量,還是建構出精度極高的類神經網路。但是因營建工程的特性 問題,其資料庫無法像金融界案例資料庫擁有如此龐大之資料量。營 建工程的特性在於工程過於費時,一件工程少則數個月,多則經年累 月,即使是資深的工程師一生也不可能參予多個工程案。這種現象在

(14)

劉彥慶君[4]的論文中認為是資料數不足的問題,也提到說資料缺漏亦 是造成資料不足的原因之一。

資料缺漏之發生,一在於營建工程累積資料不易;二在於早期營 建工程的資料大多手寫,並無電腦存檔紀錄,因此讓許多珍貴的資料 散失造成缺漏。

過去對於資料缺漏,只能將缺漏資料捨棄不用,如果資料量龐大 如金融界,影響甚微;但若如營建業件件珍貴,棄之不用十分可惜。

目前的營建知識探勘就有面臨到資料捨棄件數過多而造成資料不足、

精度下降。劉彥慶君[4]以混合型案例式推理模式成功在資料不足情況 下維持精度,但亦提到若能直接處理資料缺漏,同時結合最新資料探 勘技術,必更能提升目前營建知識探勘之精度。

1.2 研究目的

本研究之目的依上述之研究動機分為以下四點:

一、提出資料缺漏之定義,且在文獻回顧中提出過去在資料探勘中所 面臨到的資料缺漏問題。

二、提出資料前處理法解決人工智慧技術在營建知識發掘中資料屬性 值缺漏問題之方法。

三、改善模糊適應性學習控制網路(FALCON)[29]無法在資料屬性值 缺漏下訓練的缺點,提出可處理缺漏資料之 FALCON 運算法則。

四 、 建 構 能 夠 容 許 資 料 屬 性 值 缺 漏 之 模 糊 適 應 性 學 習 控 制 網 路

(FALCON)的電腦程式,並以實際案例驗證其正確性。

1.3 研究範圍與限制

本研究依上述欲達成之目的分為以下的範圍與限制。

1.3.1 研究範圍

依動機與目的,本研究針對營建工程資料缺漏做出以下之兩點定

(15)

義。並針對第二項資料屬性值的缺漏,作為本研究欲解決之資料缺漏 的方向,而說明及實際案例將會在文獻回顧中做詳細的敘述。

一、資料案例缺漏

本研究所稱之資料案例缺漏為一訓練系統外插及內插之現 象。當這兩種情形發生,會造成資料預估精度大幅降低。而目前 一般的處理方式極為粗糙,甚至將問題忽略。

(一)外插型資料案例缺漏

外插情形發生在從未有過的工程實例經驗,使得在建構 資料庫時沒有類似的數據。

(二)內插型資料案例缺漏

內插情形發生在曾經做過的實例太過級化,資料分配不 均,形成資料分佈多峰狀。

二、資料屬性值缺漏(Missing Values)

為ㄧ般最常見之缺漏方式,這種情形發生在已有過的經驗,

但因為某些理由,讓資料無法完整被保存下來,形成ㄧ種殘缺、

缺漏的資料庫。若資料庫中有殘缺的數據或資料,本研究稱之為 資料屬性值缺漏。

1.3.2 研究限制

本研究對於目前資料探勘技術中,針對營建業與類神經模糊系統 結合所發生之資料缺漏問題做研究,使用及驗證之工具為類神經模糊 系統 FALCON。

針對上述資料屬性值缺漏,本研究限定屬性值缺漏不會發生在決 定部(consequence part)。模糊適應性學習控制網路(FALCON)與資 料探勘的基本假設,決定部為專家經驗累積之精華與結果,因此決定 部不會發生缺漏問題。

(16)

另外,假設本研究所參考之案例資料為正確,以供系統日後測試 及驗證之用。

1.4 研究方法

本研究所採行之研究方法如下:

ㄧ、文獻歸納法

根據已回顧之文獻,了解目前知識發掘之現況與問題,並歸 納出可能解決目前資料缺漏問題之方法。

二、模式推導與建立

根據上述文獻歸納而出之方法,推導可能解決之模式。

三、案例驗證

根據上述推導之模式以案例做驗證。

1.5 研究流程

本研究流程依研究目的及研究方法繪製成下圖。

圖 1.1 研究流程圖 ㄧ、相關文獻回顧

(17)

本研究文獻回顧分為三個方向,一為回顧知識發掘、資料探 勘及目前資料缺漏之處理方法;二為回顧模糊適應性學習控制網 路(FALCON)之主體結構;三為回顧其他類神經模糊技術分析。

期望能應用文獻中對於資料缺漏之處理方式,來解決目前所遭遇 到資料屬性值缺漏之問題。

三、建立改善 FALCON 系統訓練模式

應用演化式模糊類神經推論模式(EFNIM)對於資料缺漏之 處理方式於 FALCON 系統,提出 FALCON 在資料缺漏問題發生之 假設模式的主體結構,建立解決之方法並架構解決之模式。

四、撰寫程式

根據上述已改善 FALCON 系統訓練模式撰寫程式。

五、案例驗證

根據手邊已有之工程資料案例對改善後之 FALCON 系統訓練 程式進行驗證。

六、結論與建議

根據系統之驗證結果做出結論與未來研究之建議。

1.6 小結

台灣目前營建管理大部分是以人工智慧技術保留專家的智慧與經 驗,但普遍面臨到的問題就是資料缺漏之部分。本研究回顧目前國內 外之文獻,了解營建知識探勘及其技術,並欲解決資料庫面臨之資料 屬性值缺漏之問題。期望未來能應用在營建知識探勘中時,更能有效 的保存專家智慧與經驗。

(18)

第二章 文獻回顧

本研究在此章節將會提出目前對於知識發掘與資料探勘之定義及 關係,並對於資料探勘之步驟與目前常用之方法、工具及技術做一詳 細介紹。其後針對應用資料探勘之工具中的類神經模糊系統所實際發 生資料缺漏之問題做一分類及說明,且提出目前已可解決其問題之方 法。

2.1 知識發掘之定義及方法

Fayyad[25]其對知識發掘的定義為:是一個指出資料中有效、嶄 新、潛在效益的一個非細瑣(nontrivial)流程,其最終的目標是瞭解 資料的樣式(patterns)。上述定義中明顯提到,知識發掘是為了了解資 料的樣式,把知識從資料中發掘出來。而其知識發掘的流程可以下圖 來做表示:

圖 2.1 知識發掘流程(The KDD Process)[25]

呂奇傑[8]對於知識發掘的程序認為需要先理解所要應用的領域並 熟悉相關知識,之後建立目標集並專注於所選擇的資料子集,而完成 資料子集之後,才開始圖2.1之步驟。第一步是從目標資料中做前置處 理(preprocessing),在此需去除錯誤或不一致的資料。第二步則是將 資料簡化與轉換(transformation),完成之後,資料便可經由資料探勘

(data mining)的技術成為型樣( patterns );最後經由解釋/ 評估

(19)

(interpretation / evaluation)而成為有用的知識。[8]

在知識發掘流程圖中,我們可以發現,資料前置處理佔極高比例,

而資料探勘為技術處理層面,兩者緊密結合可得到我們最後所想要的 知識。

Fayyad[25]對於資料探勘亦提到,為依據使用者需求,自資料庫中 選擇合適資料,並加以處理、轉換、探勘至評估的一連串步驟,其目 的在於尋找真實世界運行時隱含於其內的運作現象,並用以輔助解決 現實之問題。[8]

目前營建管理領域正具有需要多年經驗及技術的特性,因此適合 應用多年所紀錄之資料及資料探勘之技術來提供營建知識發掘,以保 留過去所累積的知識並應用於未來專案中所產生的效用或價值。

2.2 資料探勘

由於資料探勘的技術是完成知識發掘中一個重要的關鍵因素,因 此對於資料探勘必須再作深入的了解。本節將彙整許多目前已發表過 的資料探勘之定義、功能、研究架構及技術。

2.2.1 資料探勘之定義

關於資料探勘之定義,許多學者提出相關之解釋,本研究將其彙 整成如下:

一、Berry and Linoff [19]:資料探勘就是為了要發現有意義的樣型或法 則,而以自動或半自動的方式對資料進行分析。

二、Cabena[20]:資料探勘是將先前所未知得隱藏資訊,從大型資料庫 中有效地抽出以提供給高階主管做為決策的參考。

三、Frawley[21]:由資料庫中挖掘出隱含且前所未有而可能有用的資 訊之過程。

四、Grupe and Owrang[22]:資料探勘乃是現存資料中剖析出事實及發

(20)

現專家們尚未知曉的新關係。

五、Hall[23]:所謂資料探勘是一種結合資料視覺化(data visualization)、

機器學習、統計方法(statistics)、以及資料庫(database) 等多種技 術,以便從龐大資料量中,萃取法則形式或其他模式所表達的知 識。

六、Han and Kamber[24]:從龐大的資料中,挖掘(extracting) 或探勘 (mining)出知識。

七、Chung and Gray[26]:資料探勘主要是從資料或資料庫中,運用相 關的分析技術發掘出新的、未知的樣式或規則,並且透過資料探 勘的應用,發掘出超越歸納範圍外的資料間關係型態。

八、Shaw[27]:資料探勘是尋找和分析資料的一個過程,主要的目的 是找出隱含在裡面有用的資訊。

九、Fayyad[28]:資料探勘是知識發掘(Knowledge Discovery in

Database;KDD)其中的一個步驟。資料探勘透過演算法,將資料 作一分析與應用,以找出其特徵(pattern)與模式(model)的過 程。

2.2.2 資料探勘之功能

資料探勘除為知識發掘中的一環,本身亦有相當之功能性。Berry and Linoff[19]提出資料探勘的主要功能,共分為六大項,以下將這些 功能的意義及可使用的技巧概述如下:

一、分類(Classification)

分類就是分析資料的所有特質,再將其指派至一個現有的群 集中[9]。例如在地區的分析上,建築技術規則會劃分不一樣的耐 震係數,藉由分類可以對不同地區建築物給予不同的結構設計。

常使用的技巧有決策樹(Decision Tree)或類神經網路(Neural

(21)

Network)等。

二、推估(Estimation)

推估善於處理連續性的數值,憑著一些輸入資料,可以用來 推估一些未知的連續性變數[9]。例如按照營造廠承接之案子大小 或多寡來推估營造廠規模之大小。相關的使用技術包括統計方法 上之相關分析、迴歸分析,及類神經網路方法等。

三、預測(Prediction)

預測是去推估未來的數值以及趨勢,歷史資料可以用來建立 模型以檢視近來觀察值的資料[9]。例如由過去建築物之工程成本 來預測未來類似建築物之工程成本。使用的相關技術包括迴歸分 析、時間序列分析(Time Series Analysis)、類神經網路及案例庫 推理(Case-Based Reasoning)等。

四、關聯法則(Association rule)

關聯法則主要描述在龐大資料庫中某些資料項目間彼此之關 聯性,其形式為X→Y,其中X及Y分別表示資料庫中不同之項目組 [9]。例如,可以從資料中找出結構行為與建物高度之關聯。如果 為磚構造,建築物高度約為15~16公尺;若建築物為鋼筋混凝土,

建築物高度可達為30公尺以上,證明磚構造無法蓋高層建物。

五、群集化(Clustering)

群集化就是將一群異質的群體區隔為同質性較高的群體或是 子群。它與分類不同的是,群集化沒有依靠事先明確定義的類別 來進行分類,資料是根據自身的相近性來群聚在一起的[9]。

六、序列型樣(Sequential Pattern)

序列型樣技術的重點是考慮時間的因素,利用此方法分析不 同時間點上各事件的關聯性。序列型樣主要分為順序性型樣與週

(22)

期性型樣兩種,順序性型樣乃考慮事件發生之時間先後關係,而 週期性型樣乃考慮時間區段的變化,分析時間區段內所發生的事 情,是否其他相同時間區段內也會發生。這兩種方法雖不同,但 對使用者而言,隨著時間的多樣變化,找出有用的規則已日形重 要[9]。

2.2.3 資料探勘之研究架構

針對上述資料探勘之步驟,Chung and Gray[26]提出建立資料探勘 之研究架構。另外,呂奇傑君[8]在其論文中提出,如何適切的建立一 個資料探勘模式以及選擇適當的準則來評估資料探勘方法是一個相當 重要的議題。在進行資料探勘時,研究者亦須針對所要探勘領域的各 項相關的問題,如:任務領域的特性、資料的品質、資料庫的組成是 否能表現這個議題、決策環境、人員因素以及這些因素間的潛在互動 等[8] [26]。而整體資料探勘的研究架構如下圖所示:

圖 2.2 資料探勘之研究架構[8] [26]

由上圖中得知,演算法為資料探勘模式中最重要之一環,因此,

如何由下表 2.1 中選出最適合之方法為資料探勘成敗之關鍵行為。

2.2.4 資料探勘之技術

針對於上述的資料探勘之演算法技術,藍中賢[7]整理目前資料探 勘已有之技術包括有:決策樹(decision tree)、區別分析(discriminate analysis)、貝氏分類法(Bayesian classifiers)、類神經網路(neural

(23)

networks)、記憶基礎推理(memory-based reasoning)與模糊理論(fuzzy theory)等。

表 2.1 資料探勘中技術分類之比較[7]

技術 優點 缺點

決策樹 清楚表達規則,且不需要複雜的運 算。

無法考量所有相關的屬性,而且推 論的過程會受缺失值影響。

類神經網路

能處理定性與定量屬性的資料,而 且在複雜的領域中也能獲得不錯的 結果,應用範圍廣泛。

必須提供大量訓練與測試的資料,

才能建立較正確的模式“黑箱

(black box)”的特性,也就是無 法了解其分析所根據的因素。

區別分析 執行效率較佳。 分析的資料必須符合常態分配的假

設。

記憶基礎推

容許各種型態的資料,且具學習能 力。

需要大量的歷史資料,且分析時較 費時。

模糊理論

能處理模糊的訊息或是不完全的資 料,也可將屬性值轉成模糊集合來 處理,而不需經過複雜的計算。

歸屬函數的給定較為主觀。

貝氏分類法 不因缺失值而影響推論,並能考量 所有相關的屬性,且分析的速度快。

屬性間必須是獨立的,而且較不易 處理連續的屬性值。

本研究針對資料探勘之技術,另加入一項混合智慧型系統(Hybrid AI Systems)。而混合式人工智慧系統(Hybrid AI Systems)之研究開發在 近十幾年來已有重大之進展,軟體的整合已經成為引人注意的主流,

而且是發展出有效的應用技術。[4]

2.3 混合型人工智慧系統

鄭玉宙君[16]整理出目前所有有關資料探勘技術之結合方式,歸納 於下表。本研究針對模糊理論為主的混合系統,在目前國內外收集到 之文獻另做一分析。

(24)

表 2.2 混合型人工智慧系統類別簡介表[4] [16]

混合型人工智慧系統類別 結合特徵/應用領域/未來發展之簡介

ES+NN

(專家系統+類神經網路)

˙當 NN 使用數值及關聯處理來模擬生物系統模式 時,ES 則提供邏輯及符號的方法。

˙ 在 以 擴 展 的 人 工 智 慧 系 統 中 作 智 慧 代 理 人

(Intelligent Agents)的運用。

˙應用發展主要在大型平行處理系統。

ES+FL

(專家系統+模糊邏輯)

˙兩者最初的結合運用為模糊專家系統。

˙本系統包括 ES 既有的優點加上更引人注意的使 用者及系統發展者的介面。

˙發展新套裝軟體必須和模糊系統的介面相容。

NN+FL

(類神經網路+模糊邏輯)

˙兩者的結合擷取了 NN 可從歷史數據中學習及在 雜訊環境中運作之優點,另 FL 技術增加不明確 資料的處理能力並以簡明形式呈現結果。

˙本系統應用種類很多,其中一個訴求重點在於訓 練 NN,使期能處理模糊的輸入資料而輸出模糊 或明確的數值資料。

GA+NN

(基因演算法+類神經網 路)

˙兩者的整合大部分是利用 GA 的能力,搜尋更大 更複雜之 NN 所需的參數空間,指引及發現訓練 網路的最佳參數集合。

˙此系統研發重點在於利用 GA 來尋找 NN 之模組 結構設計及調整其參數的方法。

FL+GA

(模糊邏輯+基因演算法)

˙兩者結合的重點在於模糊原則可以將知識以規 則或數學式展現,更能提升模糊系統的性能。例 如設計模糊系統時,可利用 GA 推導模糊規則、

調整隸屬函數值(Membership Value)及刪減隸 屬函數(Membership Function)。

˙本系統研發方向在於對實物處理的控制系統,亦 即該控制器的改良。

ES+GA

(專家系統+基因演算法)

˙兩者結合的重點在於利用 GA 技術發掘更佳的信 賴因子(Confidence Factors)及參數值,已調整 ES 的規則而 ES 可以提供啟發教育以改善基因遺 傳系統的性能。

˙本系統研發方向在於利用兩者結合的模組尋找 問題最佳解的應用。

(25)

表 2.2 混合型人工智慧系統類別簡介表[4] [16](續)

混合型人工智慧系統類別 結合特徵/應用領域/未來發展之簡介

ES+CBR+RI

(專家系統+案例式推理+

法則歸納)

˙三者結合在於應用所建立的法則庫與案例庫,擷 取並儲存專家知識與案例,使模式能搜尋過去類 似案例,具有學習能力與不完整資訊的容錯能 力。

˙此系統研發重點在於透過過去案例經驗與專家 知識,解決營建工程經驗導向之問題。

GA+FL+NN

(基因演算法+模糊邏輯

+類神經網路)

˙三者結合在於應用基因演算法搜尋所有模糊類 神經網路所需的最佳參數;透過模糊邏輯處理不 確定性與近似推論;類神經網路則用於對應輸入 變數與輸出變數間複雜的關係。

˙此系統研發重點在於透過過去案例經驗,學習累 積專家決策過程與分析邏輯,輔助營建工程決策 者進行決策。

2.3.1 適應性類神經模糊推論系統(ANFIS)

適應性類神經模糊推論系統(ANFIS)為張智星[39]教授發展完成 的一套理論基礎,其目的為解決必須靠人類的思維調整的模糊隸屬度 函數,以達到減小誤差、增進效能的缺點。所以張智星利用混合式的 學習過程(hybrid learning procedure)為基礎,建構一套 IF-THEN 的規 則,並逐漸地調適出適當的模糊隸屬度函數來滿足所要的模糊推論輸 入與輸出關係[2] [4]。

此系統屬於上表 NN+FL(類神經網路+模糊邏輯)型,為類神經 模糊系統中的一種。

2.3.2 模糊適應性學習控制網路(FALCON)

模糊適應性學習控制網路(FALCON)為 Lin 和 Lee[29]提出,並 為本研究系統主架構,本研究將在第三章對其作深入介紹。

Lin 和 Lee 在 1991 年提出模糊適應性學習控制網路(FALCON),

Yu 和 Skibniewski[30]在 1999 年針對其網路模式,提出增加基因演算法 來改善局部最佳化之缺點。而其結果顯示,加入基因演算法能夠有效 降低誤差值,誤差度獲得有效減少 50%。但本研究仍是以 Lin 和 Lee

(26)

在 1991 年提出的網路模式做改善。

此系統屬於上表 NN+FL(類神經網路+模糊邏輯)型,為類神經 模糊系統中的一種。但經 Yu 和 Skibniewski[30]改善之後,已屬 GA+ FL

+NN(基因演算法+模糊邏輯+類神經網路)型。

2.3.3 約略多層次模糊系統(Rough Fuzzy MLP)

Mitra 和 Pal[35]在 1995 年時提出多層次模糊系統(Fuzzy MLP),有 別於 ANFIS 與 FALCON 的類神經模糊架構。Banerjee 和 Mitra[34]又在 1998 年針對多層次模糊系統(Fuzzy MLP)加入約略集合演算法(Rough set)的思考,融合而成現今的約略多層次模糊系統(Rough Fuzzy MLP)。

此系統屬於上表 NN+FL(類神經網路+模糊邏輯)型,為類神經 模糊系統中的一種。但經 Banerjee 和 Mitra[34]改善之後,目前屬於 RS+

FL+NN(約略集合+模糊邏輯+類神經網路)型 2.4 資料缺漏

2.4.1 資料案例缺漏

本研究所稱之資料案例缺漏為一訓練系統外插及內插之現象。當 這兩種情形發生,會造成資料預估精度大幅降低。而目前一般的處理 方式極為粗糙,甚至將問題忽略。

一、外插型資料案例缺漏

外插情形發生在從未有過的工程實例經驗,使得在建構資料 庫時沒有類似的數據。

舉例來說,有一間建設公司平時承接建築物是以民宅為主,

建物地點大部分在鄉下,共有 25 筆案例資料。其中有 4 件為一層 樓;4 件為兩層樓;8 件為三層樓;9 件為四層樓。其工程資料分 布圖如下所示:

(27)

工程資料分佈

0 1 2 3 4 5 6 7 8 9 10

1 2 3 4 5 6 7 8 9 10 11 12 樓層數

資料數量

數列1

圖 2.3 外插型資料案例缺漏分佈圖

對於這間建設公司而言,5 樓以上的住宅沒有在其歷史案例之 中。若今天利用資料探勘技術建構系統,欲將估價一棟 3 層樓住 宅之工程費用,結果精度很高;但若預估一棟 12 層帶電梯的大廈,

因系統資料庫中沒有此筆案例的訓練,外插的發生會使工程費用 過高或過低,精度下滑。對於此種資料案例缺漏,本研究稱之為 外插型資料案例缺漏。

而遇到外插型資料案例缺漏,在有多年經驗的工程師或可估 其工程費用,但在目前的訓練系統是無法準確預測出我們的工程 費用,也沒有一套完善的解決方式,常常是置之不理,或歸咎於 資料庫的本身缺漏。

曹銳勤[5]在「模糊迴歸模式之構建與分析」中提到模糊邏輯 的外插問題還一直未能被有效解決,而曹銳勤利用放大模糊空間 的方式,希望能減少外插情形發生。

二、內插型資料案例缺漏

內插情形發生在曾經做過的實例太過級化,資料分配不均,

形成資料分佈多峰狀。

(28)

舉例來說,今天有一建設公司,只有做過四樓以下透天或是 八樓以上的大樓共 53 筆案例。4 件為一層樓;4 件為兩層樓;8 件 為三層樓;9 件為四層樓;2 件為八層樓;4 件為九層樓;8 件為 十層樓;7 件為十一層樓;8 件為十二層樓。其工程資料分布圖如 下所示:

工程案例分佈

0 1 2 3 4 5 6 7 8 9 10

1 2 3 4 5 6 7 8 9 10 11 12 樓層數

資料數量

數列1

圖 2.4 內插型資料案例缺漏分佈圖

對於這間建設公司而言,5、6、7 樓的住宅沒有在其歷史案例 之中。若今天利用資料探勘技術建構系統,欲將估價一棟 10 層樓 住宅之工程費用,結果精度很高;但若預估一棟 6 層的公寓,因 系統資料庫中沒有此筆案例的訓練,內插的發生會使工程費用過 高或過低,精度下滑。對於此種資料案例缺漏,本研究稱之為內 插型資料案例缺漏。

鄭景鴻君[2]曾經希望求出在內插型資料案例缺漏的工程估 價,但是效果並未達到預期理想。

遇到資料案例缺漏,其實對於工程專家,還是能夠做分析、

估價、或管理。但針對目前的資料探勘技術,就會陷入外插或內 插的困境。而發生這種情形並不是系統本身的問題,而是資料庫

(29)

本身就從沒有過這種經驗,缺漏這種數值,是無法做出任何精確 的預估。針對這種資料缺漏問題,本研究定義為資料案例缺漏。

2.4.2 資料屬性值缺漏

這種情形發生在已有過的經驗,但因為各種理由,讓資料的屬性 值發生缺漏問題。

舉例來說,一份完整的資料擁有以下五種屬性值:結構類型、地 上樓層數、地下樓層數、總面積、工程造價。而總共有 5 筆資料,卻 只有 4 筆是五個屬性都完整,其中一筆沒有地上樓層數。以下表所示:

表 2.3 資料屬性值缺漏型表單

排序 擋土結構 地上樓 地下樓 樓地板 總工程費用

1 3 nan 2 2959 43459663

2 3 7 2 3318 46696021

3 3 12 2 7449 164000000

4 3 13 2 15178 255260938

5 2 6 1 918 15769572

由上表第一筆中,地上樓層數為未知。若以前在資料探勘技術遇 到這種情形,只能將這一筆捨棄不用,只將其餘資料做學習。針對這 種缺漏問題,本研究定義為資料屬性值缺漏。

李欣鵬[15]在其論文「南高屏空氣污染排放資料庫整合分析-以合 板製造業為例」中,發生資料屬性值缺漏之嚴重問題。其中寫到,由 於資料屬性值缺漏嚴重,導致系統估出之總排放量不可取信。

資料案例缺漏與資料屬性值缺漏最大不同點在於案例缺漏是沒有 這種歷史案件,而屬性值缺漏是有這種案件,但卻因系統本身無法接 受而無法做出訓練。以往這兩種情形是會造成相同結果,因為沒有跟 不要都是缺漏;就好像考試不會寫是零分,會寫卻交白卷也是零分,

在老師眼中通通都是零分,並沒有任何差別。

本研究將資料缺漏的情形定義為以上兩個方面,並針對第二項資 料屬性值的缺漏作為本研究欲解決之資料缺漏的方向。

(30)

2.5 現有解決資料缺漏方法之回顧

目前國內針對案例型資料缺漏所產生的內外插,並沒有有效的處 理方法。模糊邏輯的外插問題還一直未能被有效解決[5],反之,內插 問題也沒有有效解決法。而對於資料屬性缺漏的問題,本研究收集國 內外之處理方式分以下三種模式:

2.5.1 捨棄缺漏資料法

Jiawei 和 Micheline[38]在資料探勘的觀念與技術ㄧ書中寫到,當 資料發生缺漏之情形,可以將其缺漏資料捨棄。而且此方法對於資料 探勘時的影響不大,除非缺漏資料過多。

在劉彥慶[4]論文中提到,類神經模糊系統在案例量過少的情況 下,會面臨到資料不足的問題。因此若資料庫充足,捨棄缺漏資料影 響資料探勘之結果不大。可是案例量不多是營建工程的特性之ㄧ[4],。

在此情形下,捨棄資料也許會大幅影響營建知識探勘之結果。

2.5.2 補足缺漏資料法

Jiawei 和 Micheline[38]在資料探勘的觀念與技術ㄧ書中寫到,填 補缺漏資料法可以有五種處理法,將其條列於下:

ㄧ、手動填入缺漏值

若缺漏之資料量過多,此方法不一定合適。

二、對缺漏部分固定填入一個定值

此定值為一種概念值,其觀念為分析大型資料庫中,類似未 有缺漏之案例的值。針對缺漏之屬性部分做歸納,而給予一固定 值填入其餘缺漏部份。

三、填入該資料庫屬性之平均值

在此資料庫中,將其有缺漏屬性之同屬性完整值做平均值計 算,將其平均值填入該屬性缺漏部份。

(31)

四、填入該屬性之歷史資料平均值

將所有此屬性之歷史資料做平均值計算,在將其平均值填入 該屬性缺漏部份

五、填入最可能之值

利用回歸等方式求出可能值。

本研究欲解決類神經模糊系統面臨資料缺漏之問題,以此分別針 對上述五項方法做以下分析:

第一項 手動填入缺漏值

利用專家本身之經驗,提供值填入缺漏項。可是專家利用本 身的經驗來補足缺漏資料的方式是屬於一種主觀判斷,而判斷時 亦容易發生錯誤或與先前之判斷有衝突發生。而且專家常會因地 域或時間等因素之變化,使經驗無法被完整保存。但若缺漏項目 過多時,Jiawei 和 Micheline 亦認為此種方式不一定適用。

第二項 對缺漏部分固定填入一個定值

對於缺漏項目,給予一定值來補足缺漏資料的方式是屬於一 種主觀判斷,且並不合理。對於固定之值,亦是十分難以決定。

而且此法在系統學習過程中會產生許多不確定性或錯誤訊息的學 習,亦會影響營建知識探勘之結果。

第三項 填入該資料庫屬性之平均值

對於某些特殊資料案例或離群值的發生,此法無法判斷。且 此平均值只屬於此資料庫屬性之平均,正確性有待驗證。此法亦 容易產生在系統學習過程中之許多不確定性或錯誤訊息的學習,

亦會影響營建知識探勘之結果。

第四項 填入該屬性之歷史資料平均值

對於某些特殊資料案例或離群值的發生,此法亦無法判斷。

(32)

雖此平均值屬於所有歷史資料庫屬性之平均,但亦增加了許多可 能偏差之離群值,其正確性有待驗證。而此法亦容易產生在系統 學習過程中之許多不確定性或錯誤訊息的學習,亦會影響營建知 識探勘之結果。

第五項 填入最可能之值

以回歸方式分析,找出缺漏項目最有可能之值。此量化模式 較上述第二、第三及第四項合理,亦較第一項客觀。因此,本研 究針對上述第一項與本項結合,利用回歸方法找出專家思考之模 式, 欲解決資料缺漏之問題。此方式為本研究在「補足缺漏資料 法」之中心假設,將於第四章做一說明。

2.5.3 學習缺漏資料法

學習缺漏資料法對於資料缺漏之處理方式與上述之處理方式不 同,其方法為改進資料探勘之演算法,直接學習缺漏資料。

柯千禾與鄭明淵[12]的演化式模糊類神經推論模式(EFNIM)為目 前最新的資料探勘系統之一。其系統能夠容許資料屬性項目值為空 白,並且對於每筆資料都有缺漏項目,系統亦可學習。其系統屬於上 表 2.2 的 GA+ FL+NN(基因演算法+模糊邏輯+類神經網路)型,為 模糊類神經系統的一種。

此種系統學習時不學習缺漏部分,為本研究在「學習缺漏資料法」

之中心假設,將於第四章做一說明。

2.6 小結

本章由知識發掘到資料探勘,再將資料探勘做一詳細介紹,並針 對目前資料探勘技術做一回顧,再針對資料探勘技術中混合式人工智 慧系統做完整介紹。舉出曹銳勤[5] 與鄭景鴻[2]所面臨到之的資料案例 缺漏問題,以及李欣鵬[15]在資料庫整合遇到的資料屬性值缺漏問題,

(33)

此皆為目前類神經模糊系統在建構是會遇到且無法解決的問題。本研 究欲利用上述之方法:「補足缺漏資料法」及「學習缺漏資料法」,期 望解決目前營建知識發掘所遭遇到之資料缺漏問題。

(34)

第三章 模糊適應性學習控制網路(FALCON)

本研究類神經模糊系統以模糊適應性學習控制網路(FALCON)

為修改及驗證架構。因此,針對 FALCON 的理論及架構,將會在本章 節詳述,作為本研究修改的依據。

3.1 模糊適應性學習控制網路(FALCON)之架構

模糊適應性學習控制網路(fuzzy adaptive learning control network 簡稱為 FALCON)是一種前向式多層網路架構。基本上,FALCON 將 傳統的模糊控制器、以及具備分散式學習能力的類神經網路,兩者整 合至同一網路架構中。在 FALCON 的網路架構中,輸入層代表外界 輸入至網路之狀態,輸入層代表網路的輸出控制信號,而隱藏層則包 括了隸屬函數以及模糊法則[11]。

FALCON 的網路架構如圖 3.1 所示,共有五層。第一層是輸入層,

每個類神經元處理一個語意式變數。第五層是輸出層,每個語意式變 數都由兩個類神經元負責處理。第五層其中一個是外界輸入至網路的 訓練資料(網路的期望輸出值,以 Y’代表之),另外一個是網路本身計 算得到的輸出值(網路輸出值,以 Y 代表之)。而第二層和第四層都是 模糊隸屬度函數值(membership function)的運算(即相容程度性的計算) [11]。

事實上,第二層的形式(對每一個語意式變數而言)可以是單一個類 神經元,執行較簡單的隸屬度函數(三角形歸屬函數、鐘型曲線方程式 之歸屬函數等等)之計算。第二層也可以是一組多層的網路結構(模組化 之子網路),來負責執行較複雜的隸屬度函數模糊化之工作。因此,網 路的總層數可能不只五層[11]。

(35)

第三層的類神經元負責模糊法則的運算,每個類神經元代表一條 模糊法則。因此,第三層的類神經元也就可以代表一組模糊法則庫 (fuzzy rule base)。第二層和第三層的連結以及第三層和第四層的連結,

也就定義了模糊法則的推論方式(即為模糊推論引擎)。而第二層和第三 層的連結定義了模糊法則的前鑑部;第三層和第四層的連結定義了模 糊法則的後鑑部。對於每個模糊法則而言,其前鑑部與後鑑部所使用 的語意式變數,可能包括了網路中所有的語意式變數,當然也可能只 使用了網路中部份的語意式變數。因此,第二層和第三層的連結(前鑑 部語意式變數)以及第三層和第四層的連結(後鑑部語意式變數),不是 完全連結(Partially connected);而第一層和第二層的連結以及第四層和 第五層的連結則是完全連結(fully connected)(此是針對個別的輸入或輸 出類神經元所定義的) [11]。

當網路已訓練好之後,訊號的傳遞方向是由左至右;當網路是處 於訓練過程時,會有部份訊號經由第五層由右至左傳遞[11]。

(36)

圖 3.1 FALCON 網路架構圖[29]

3.2 模糊適應性學習控制網路(FALCON)之運算方法 3.2.1 神經元的數值定義

FALCON 的數值運算首先要先定義每一個神經元。每一個神經元 都有輸入部分及輸出部分,信號由左射入神經元為輸入信號,由神經 圓右射出為輸出信號,成為下一層神經元的輸入信號。而神經元輸入 部分的方程式依上述可設為:

1 2 1 2

( k, k,..., kp; k, k,..., kp)

net= f u u u w w w (3.1)

k 為目前神經元為第幾層;方程式(3.1)為整合所有由左射入之 值為 net。則輸出之方程式則為下:

k ( )

output=oi =a f (3.2)

i 為前一層神經元輸入下一層第 i 個神經元,a(.)為激發函數。

(37)

3.2.2 神經元的的連結方程式 第一層

第一層神經元只負責傳送各屬性輸入的值,不轉換輸入的 數值。因此,第一層神經元的方程式可設為下:

1

f =uia= f (3.3)

連結之向量值w1i為 1。

第二層

第二層為模糊切割(fuzzy partition),每一個屬性將分為不 同的模糊語意,信號值輸入之後會經過鐘型函數曲線

(bell-shaped function)的隸屬度函數運算,再行輸出。而第二 層神經元的輸入為第一層神經元的輸出,因此,第二層神經元 的方程式為:

2 2

2

( )

( , ) i ij

j

xi ij ij

ij

u m

f M m σ

σ

= = − a=ef (3.4)

mij為鐘型函數曲線中的中心點(平均值);σij為鐘型函數 曲線中的分離度(變異數)。j 為這一層的神經元位置;i 為下一 層神經元位置。ij 表這一層第 j 個神經元連結到下一層的第 i 神 經元位置。連結之向量值wi2mij

第三層

第三層為 FALCON 網路的法則(rule)部分,也是建構隱 藏層的位置。目的是為了模擬人類思考的路徑,也可以用 IF-THEN 法則解釋。第三層主要是模糊交集(Fuzzy AND)部 分,將第二層神經元所激發而輸出之強度傳遞到第三層神經元 的輸入,而取其聯集的最小值再行輸出。由圖 3.1,第二層到第 三層,第三層的神經元數目是由第二層來決定,第三層每一個 神經元接受到第二層神經元的輸入箭頭的數目會等於屬性的個

(38)

數。第三層到第四層,每一個第三層的神經元只有一個輸出值。

因此,第三層神經元的方程式為:

3 3 3

1 2

min( , ,..., p)

f = u u ua= f (3.5)

連結之向量值wi3為 1。

第四層

連結在第三層與第四層之間為 FALCON 網路的法則的結果,

每一個第三層的神經元只會有一個結果輸出,連結到第幾個第四 層神經原則同時有兩種決定法,分別為左至右及右至左。由右至 左是決定第四層的模糊切割共有幾個神經元。圖 3.1 中由第五層之 Y’點至第四層,決定第四層神經元有幾個,其計算方式與第二層 相同。由左至右主要是模糊聯集(Fuzzy OR)。將第三層傳遞過來 的信號,各射入不同的第四層神經元,各激發不同的位置與強度,

將各激發之強度取聯集,即是相加起來。因此,第四層神經元的 方程式為:

4

1 p

i i

f u

=

=

a=min(1, )f (3.6)

連結之向量值wi4為 1(由第三層連結到第四層)。在由右至左 中,第五層連結至第四層之向量值與第一層連結至第二層相同。

第五層

第五層亦有兩各部分,一為左至右;一為右至左。由上述之 第四層可知,右至左是為決定第四層的模糊切割,包括神經元數 目與鐘型隸屬度函數。由圖 3.1 中由第五層之 Y’點至第四層,為 右至左之圖型。因此,由 Y’點至第四層之方程式與第一層相同,

方程式如下:

f =yia= f (3.7)

左至右的第五層神經元主要是將射入的信號做解模糊運算。

(39)

第五層的神經元主要接收來自第四層的信號,將信號利用方法解 模糊。之後得到輸出的精確值,此時結果即為 FALCON 網路的最 後結果。因為第四層同第二層的方程式採鐘型隸屬度函數運算,

所以射入的方程式中,mij及σij分別代表第 i 個輸出語意變數的第 j 項的中心點及分離度(平均值與變異數);而目前系統輸出之解模 糊法是使用重心法求解。因此,第五層神經元的方程式為:

5 5 5 5 5

( )

ij i ij ij i

f =

w u =

mσ u 5

ij i

a f

σ u

=

(3.8)

連結之向量值wi5mijσij

3.3 模糊適應性學習控制網路(FALCON)之訓練法則

圖 3.1 及上述章節是建立在模糊適應性學習控制網路已建構完 成,而對於如何機械學習、如何保存智慧等方法,並沒有說明。因此,

本章節針對 Lin 和 Lee[29]提出模糊適應性學習控制網路的訓練做詳細 說明。模糊適應性學習控制網路的學習訓練可分為兩個階段,一為非 監督式學習系統;二為倒傳遞式學習。非監督式學習是將智慧利用各 種演算法,交由電腦去做學習,從中擷取出專家之智慧,目的是讓電 腦自動建構出如圖 3.1 的 FALCON 網路結構。倒傳遞式學習

(back-propagation)是為了修正第一階段已建構好的 FALCON 網路結 構,降低網路之誤差,讓整體系統的精準度能夠提升。

3.3.1 非監督式學習系統

在建構 FALCON 系統的主體中,第一步就是要決定輸入及輸出之 模糊切割部分,及隸屬度函數(membership function);之後要建立的 是 FALCON 網路的法則。在非監督式學習系統中,也是依照這兩部分 建構 FALCON 網路,分別是利用 Kohonen 學習(Kohonen learning rule)

[37]及增強競爭式學習(reinforcement competitive learning)[30]。

Yu 和 Skibniewski[30]認為在輸入及輸出之模糊切割,應由使用者

(40)

在學習訓練前決定好,意指不建議由系統自行決定分割的數目。因此,

本研究依上述觀點在本節之非監督式學習系統中,亦不做非監督式之 輸入及輸出之模糊切割。而第二層及第四層之隸屬度函數的參數則是 利用 Kohonen 學習方式來做學習訓練。

Kohonen 學習應用於隸屬度函數所需之參數運算共有兩個部分:

相信度比對部分(Similarity matching)、更新部分(Updating)。

相似度比對: l l

1

k k

i j

j n

x w Min x w

≤ ≤

=

(3.9)

在每一個相似度集中的族群(cluster)中,資料 x 進入。資料 x 將 會針對第 i 個族群的中心點wlki 做比較。兩者相減取其最小值,意即找 出資料 x 是屬於哪一個分類的族群。上標 k 表示運算第幾次的數目,lw 表示正規劃(normalization)後的中心點的值。

更新: wlki+1 =wlki +ηk

( )

xwlik

wlkj =wlkj, for j=1, 2,...,n j(3.10) i 在上述方程式中,ηk視為第 k 次所增加的學習係數。在更新的部 分中,若資料 x 在第 k 次中歸屬到第 i 個族群,則資料 x 只調整wlki 的 值。這種方法稱為贏者全拿(winner-takes-all)。

上述的方法可以應用在 FALCON 網路第二層及第四層,當隸屬度 函數計算時取得鐘型函數曲線中的中心點(平均值)。每一個相似度比 對的族群是來自於一開始的模糊切割,而上述方程式取得之中心點即 為各模糊切割的 m 值。再下一步就是隸屬度函數計算時要取得的鐘型 函數曲線中的分離度(變異數)。

Lin 和 Lee[29]針對上述已利用 Kohonen 學習所得出之各模糊切割 的 m 值,利用最近相鄰法(first-nearest-neighbor)粗略的去調整每一 個族群的隸屬度函數。最近相鄰法方程式如下:

(41)

i nearest i

m m

σ γ

= (3.11)

mimnearest為相鄰的兩個模糊切割的中心點(平均值),利用模糊 系統(fuzzy)給其一相互覆蓋(overlap)的模糊語意,而γ 即為相互 覆蓋的程度。如此便建構出鐘型隸屬度函數中的σ 值,及 FALCON 網 路中的模糊系統。

由下圖中可知,在屬性(attribute)1 及 2 中,共分類為三個族群 A、B 及 C。經過 Kohonen 學習的分配之後,可以得出族群 A、B 及 C 針對各屬性 1 及 2 的 m 值。再利用最近相鄰法,可針對族群 A、B 及 C 繪製出各屬性 1 及 2 的模糊系統。

圖 3.2 Kohonen 學習應用於隸屬度函數的參數計算[30]

在建構非監督式 FALCON 系統的主體中,第一步是決定輸入及輸 出之模糊切割部分,及隸屬度函數。而上述方程式(3.9)到(3.11)

已完整的架構好第一步,第二步要建立的是 FALCON 網路的法則部分。

FALCON 網路的法則在圖 3.1 中,是屬於第二層到第四層。

FALCON 網路的法則是架構 IF-THEN 的法則,在第二層到第三層中,

(42)

是架構 IF;而在第三層到第四層中,是架構 THEN。因此,第二層到 第三層的法則可以是固定,第三層到第四層的法則則利用增強競爭式 學習來架構。

建構第三層到第四層的法則在開始時,將每一個第三層的神經元 連結到每一個第四層的神經元,利用增強競爭式學習法來給予每一條 連結之權重值。最後依贏者全拿(winner-takes-all)的方法,將經過增 強競爭式學習法後,每一個第三層的神經元連結到每一個第四層的神 經元中,取一條連結強度最強的連結,權重值給予 1,而其餘連結皆為 0。換言之,就是只取一條連結為 IF-THEN 的結果。

依上述方式,可分為三方面在增強競爭式學習法中取得法則:

贏者競爭:

k k 2

j k j

o m

k

j e σ

µ

=

1max

k k

i j

j m

µ µ

= ≤ ≤ (3.12)

增強學習: wιki+1=wιki +cµ µik ιk,for i=1, 2,...,m;ι=1, 2,...L (3.13)

法則選擇: wιi =1 if

1

max( )

i i

i m

wι wι

= ≤ ≤

wιj =0 if ji, for ι=1, 2,...L (3.14)

在贏者競爭部份,在第三層的神經元連結到第四層的神經元中,

找出第四層中哪一個神經元回應第三層神經元的信號最強。在增強學 習部份,將之前找出的最強連結及強度保留下來,並加入一增強係數 c,繼續訓練。最後法則選擇部分,在增強競爭式學習訓練完成時檢視 哪一條連結為最強,給予其權重值為 1,其餘為 0。

(43)

圖 3.3 增強競爭式學習應用於 IF-THEN 法則之建立[30]

上圖為增強競爭式學習的訓練圖,灰色表示已確定的連結神經 元,咖啡色表示經增強競爭式學習後所得到的 IF-THEN 法則。由第三 層中 R2神經元,連結到第四層神經元 T1到 Tn。經增強競爭式學習後,

2

wj 值大於其餘wn2值,給予wj2值為 1,其餘為 0。如此,則確立法則第 三層神經元 R2連結到第四層神經元 Tj

3.3.2 倒傳遞(back propagation)式學習

第二階段的倒傳遞式學習是為了修正第一階段已建構好的

FALCON 網路結構,降低網路之誤差,讓整體系統的精準度能夠提升。

倒傳遞式學習有別於非監督式學習系統,是屬於在監督式學習系 統中的一部分。監督式學習系統針對 FALCON 網路的學習訓練共分為 三方面:一為資料正傳遞(forward data propagation);二為倒傳遞誤差 信號(backward error propagation);三為根據倒傳遞誤差信號做出參數 調整(parameter adjustment)。而資料庫中每一筆資料都須經過這三方 面,才算完成。

在資料正傳遞中,利用第一階段已建構好之非監督式 FALCON 網 路為架構,將資料庫中一筆資料由左至右匯入。資料經過第一層不做

Figure

Updating...

References

Related subjects :