類神經模糊系統在營建知識發掘中資料缺漏問題之研究

(1)

中華大學碩士論文

類神經模糊系統在營建知識發掘中資料缺漏問題之研究

A Neuro Fuzzy System for Knowledge Discovery of Incomplete Construction Data

系所別：營建管理研究所學號姓名：M09116014 林涵文指導教授：余文德博士

中華民國九十三年六月

(2)

誌謝

能完成這本論文並順利畢業，我最感謝的是我的指導教授余文德老師。若沒有余老師支持，我不可能在研二上學期時出國學習語言。

沒有余老師的指導，我亦不可能獨自解決研究上所遇到的問題。而在研究的期間，我常常容易灰心。這段時間，幸好有我家人支持我，相信我。因此，當我完成最後一串程式碼，我第一份喜悅便是想與我家人做分享。

研究所求學期間，我常常給自己過重的事務及壓力，所幸有昱儒與嘉偉在無時無刻的幫助我。而我在就讀營建管理研究所的諸位恩師，亦讓我明白許多做人做事的道理，也增進了許多智慧。楊智斌老師在大學曾帶過我ㄧ年專題研究，是我在研究上的啟蒙恩師之ㄧ；鄭紹材老師更是我在人生中一位重要的導師。

另外，我還要感謝羅紹松、鄭景鴻、劉彥慶、辛銀松、何純平、

苗敬美等學長姐；俊銘、志豪、雨澤、大姐、建華、佳伶、坤鴻等死黨與同學；汎儀、佩倫等學弟妹，有他們的支持，我的論文才能順利完成。鄭道明老師、鄭明淵老師、曾仁傑老師及曾惠斌老師，對於本論文更詳加指教，亦在此敬表謝意。

也許研究工作對於很多人來說，只是邁向研究所畢業的一種過程；論文對於他們來說，亦可能只是獲取碩士文憑的一種必需品。而我卻會十分珍惜這段我在做研究的時光，並期望我的研究成果能嘉惠更多的人。

林涵文謹誌中華大學 2004/6

(3)

摘要

關鍵字：類神經模糊系統、知識發掘、資料探勘、資料缺漏。

營建管理領域具有需要多年經驗及技術的特性，因此適合應用人工智慧技術來做資料探勘，以保留過去所累積的知識並應用於未來專案中所產生的效用或價值。台灣營建業目前在資料探勘技術中卻面臨到營建知識發掘資料缺漏之問題，而現有之類神經模糊系統技術無法處理此種問題。本研究先行定義在營建知識發掘中，資料缺漏分為兩種方面：一為資料案例缺漏；二為資料屬性值缺漏。本研究欲針對資料屬性值缺漏之問題，以「補足缺漏資料法」與「學習缺漏資料法」

兩種方式解決。對於「補足缺漏資料法」，本研究提出資料前處理模式。

其模式驗証後，仍無法達到要求的精度。因此，本研究提出根本解決資料屬性值缺漏之問題應從學習機制著手，方為根本清源之道。對於

「學習缺漏資料法」，本研究以模糊適應性學習控制網路（FALCON）

為學習架構。並提出「多維空間式 Kohonen 學習」與「多屬性模糊法則庫」兩種新的方法，成功修改 FALCON 內部學習模式，並解決上述

「補足缺漏資料法」中的缺點。改善後的 FALCON 系統經案例驗證之後，缺漏資料量由 5%增加到 20%，精準度依缺漏比例可增加 9%至 26%。由此可證明此系統能成功處理資料探勘中資料缺漏之問題，及學習缺漏資料的資料探勘結果會比直接捨棄後的資料探勘結果好。

(4)

ABSTRACT

Keywords：neuro-fuzzy system, knowledge discovery, data mining, missing data.

Construction management (CM) is a discipline that replies heavily on the skills and experiences of personnel, and is very suitable for application of data mining (DM) techniques to acquire the domain knowledge for future use. Unfortunately, the DM application in CM is facing a severe problem of data incompleteness. There has been no exiting method for mining of incomplete data thus far. This research proposes a Variable-attribute Fuzzy Adaptive Learning Control Network (VaFALCON) approach to tackle data incompleteness in historical construct databases. At first, the problem of data incompleteness is defined. Secondly, computational algorithm of VaFALCON is developed step by step. Then, experiments are designed to verified the proposed VaFALCON method. It is found from the demonstrated examples that the proposed VaFALCON can improve the system accuracy from 9% up to 26% while the overall incompleteness ranges from 5% to 20%. Finally, findings of research are concluded and future works are recommended.

(5)

表目錄

表 2.1 資料探勘中技術分類之比較... 11

表 2.2 混合型人工智慧系統類別簡介表... 12

表 2.3 資料屬性值缺漏型表單... 17

表 5.1 資料屬性值格數範例表... 58

表 5.2 資料屬性值格數缺漏範例表... 58

表 5.3 捨棄缺漏資料範例表... 59

表 5.4 建築工程總成本估算之案例資料... 60

表 5.5 完整建築工程總成本估算資料庫學習精度... 61

表 5.6 缺漏之建築工程總成本估算資料庫學習精度 ... 62

表 5.7 捨棄缺漏資料後之資料庫數量表... 62

表 5.8 捨棄缺漏資料之建築工程總成本估算資料庫學習精度 ... 63

表 5.9 建築工程總成本估算資料庫保留與捨棄之資料量比較 ... 63

表 5.10 建築工程總成本估算資料庫之精度比較... 64

表 5.11 建築工程總成本估算精度之差異性分析... 65

表 5.12 建築結構體工程成本預測之案例資料... 66

表 5.13 完整建築結構體工程成本預測資料庫學習精度 ... 67

表 5.14 缺漏之建築結構體工程成本預測資料庫學習精度 ... 67

表 5.16 捨棄缺漏資料之建築結構體工程成本預測資料庫學習精度 68 表 5.17 建築結構體工程成本預測資料庫保留與捨棄之資料量比較 69 表 5.18 建築結構體工程成本預測資料庫之精度比較 ... 69

表 5.19 完整建築結構體工程成本預測精度差異性分析 ... 70

表 5.20 地下連續壁施工工期估算之案例資料... 71

(10)

表 5.21 地下連續壁施工工期估算之案例索引參數... 72

表 5.22 完整地下連續壁施工工期估算資料庫學習精度 ... 73

表 5.23 缺漏之地下連續壁施工工期估算資料庫學習精度 ... 73

表 5.25 捨棄缺漏資料之地下連續壁施工工期估算資料庫學習精度 74 表 5.26 地下連續壁施工工期估算資料庫保留與捨棄之資料量比較 75 表 5.27 地下連續壁施工工期估算資料庫之精度比較 ... 76

表 5.28 完整地下連續壁施工工期估算精度差異性分析 ... 77

表 5.29 案例綜合估算精度差異性比較表... 77

(11)

圖目錄

圖 1.1 研究流程圖... 4

圖 2.1 知識發掘流程（The KDD Process） ... 6

圖 2.2 資料探勘之研究架構... 10

圖 2.3 外插型資料案例缺漏分佈圖... 15

圖 2.4 內插型資料案例缺漏分佈圖... 16

圖 3.1 FALCON 網路架構圖 ... 24

圖 3.2 Kohonen 學習應用於隸屬度函數的參數計算... 29

圖 3.3 增強競爭式學習應用於 IF-THEN 法則之建立... 31

圖 3.4 FALCON 的訓練流程圖 ... 37

圖 4.1 老師決定期末成績流程圖... 39

圖 4.2 資料缺漏時之思考路徑圖... 40

圖 4.3 人工智慧技術前處理法之流程圖... 41

圖 4.4 FALCON 系統的學習架構圖 ... 44

圖 4.5 FALCON 系統發生資料缺漏之圖... 45

圖 4.6 只具有兩種屬性之 FALCON 學習網路圖... 46

圖 4.7 傳統二維空間 Kohonen 學習平面圖... 47

圖 4.8 資料 nan 值在二維空間平面圖... 48

圖 4.9 屬性 X 之ㄧ維空間平面圖... 49

圖 4.10 第二層神經元之輸出信號值... 50

圖 4.11 第三層神經元之輸入信號值... 50

圖 4.12 多重屬性模糊交集運算法則圖... 51

圖 4.13 FALCON 系統之資料缺漏學習網路架構圖... 52

圖 4.14 缺漏資料之正傳遞圖... 53

(12)

圖 4.15 缺漏資料之倒傳遞誤差信號修正圖... 54

圖 4.16 FALCON 系統之資料缺漏訓練流程圖... 55

圖 5.1 建築工程總成本估算資料庫保留與捨棄之精度比較 ... 64

圖 5.2 建築結構體工程成本預測資料庫保留與捨棄之精度比較 ... 70

圖 5.3 地下連續壁施工工期估算資料庫保留與捨棄之精度比較 ... 76

(13)

第一章緒論

1.1 研究動機

營建管理領域具有需要多年經驗及技術的特性，因此適合應用人工智慧技術來做知識發掘與資料探勘，以保留過去所累積的知識並應用於未來專案中所產生的效用或價值，因此如何累積營建知識與經驗即成為我們在營建管理工作中極為重要的一環。

在資料探勘技術中，混合式人工智慧系統(Hybrid AI Systems)之研究開發在近十幾年來已有重大之進展，軟體的整合已經成為引人注意的主流，而且是發展出有效的應用技術[4]。目前營建業使用資料探勘技術的情形，如下所示：

吳獻堂君[1]在其論文中利用模糊邏輯與電腦來分析營建生產力，

得到成果極佳，並認為在營建管理領域中，極為適合使用模糊邏輯的思考方式。鄭景鴻君[2]更進一步利用類神經模糊系統於土石方成本估價中，精度高達 95%。前述之許多先學[1] [2]已做了相當努力，使得台灣營建業界已能像其他科技產業一樣充分應用這類功能強大之技術來累積創造專業知識資產以提升產業之競爭力。

不過此系統在實際運用上卻有不足之處。在同樣是以類神經網路運用，在金融方面，劉宛鑫[3]論文以歷史資訊建構股價預測，其中因資料缺漏，使資料庫之資料量減少到 1913 筆。不過因仍具有足夠之案例數量，還是建構出精度極高的類神經網路。但是因營建工程的特性問題，其資料庫無法像金融界案例資料庫擁有如此龐大之資料量。營建工程的特性在於工程過於費時，一件工程少則數個月，多則經年累月，即使是資深的工程師一生也不可能參予多個工程案。這種現象在

(14)

劉彥慶君[4]的論文中認為是資料數不足的問題，也提到說資料缺漏亦是造成資料不足的原因之一。

資料缺漏之發生，一在於營建工程累積資料不易；二在於早期營建工程的資料大多手寫，並無電腦存檔紀錄，因此讓許多珍貴的資料散失造成缺漏。

過去對於資料缺漏，只能將缺漏資料捨棄不用，如果資料量龐大如金融界，影響甚微；但若如營建業件件珍貴，棄之不用十分可惜。

目前的營建知識探勘就有面臨到資料捨棄件數過多而造成資料不足、

精度下降。劉彥慶君[4]以混合型案例式推理模式成功在資料不足情況下維持精度，但亦提到若能直接處理資料缺漏，同時結合最新資料探勘技術，必更能提升目前營建知識探勘之精度。

1.2 研究目的

本研究之目的依上述之研究動機分為以下四點：

一、提出資料缺漏之定義，且在文獻回顧中提出過去在資料探勘中所面臨到的資料缺漏問題。

二、提出資料前處理法解決人工智慧技術在營建知識發掘中資料屬性值缺漏問題之方法。

三、改善模糊適應性學習控制網路（FALCON）[29]無法在資料屬性值缺漏下訓練的缺點，提出可處理缺漏資料之 FALCON 運算法則。

四、建構能夠容許資料屬性值缺漏之模糊適應性學習控制網路

（FALCON）的電腦程式，並以實際案例驗證其正確性。

1.3 研究範圍與限制

本研究依上述欲達成之目的分為以下的範圍與限制。

1.3.1 研究範圍

依動機與目的，本研究針對營建工程資料缺漏做出以下之兩點定

(15)

義。並針對第二項資料屬性值的缺漏，作為本研究欲解決之資料缺漏的方向，而說明及實際案例將會在文獻回顧中做詳細的敘述。

一、資料案例缺漏

本研究所稱之資料案例缺漏為一訓練系統外插及內插之現象。當這兩種情形發生，會造成資料預估精度大幅降低。而目前一般的處理方式極為粗糙，甚至將問題忽略。

（一）外插型資料案例缺漏

外插情形發生在從未有過的工程實例經驗，使得在建構資料庫時沒有類似的數據。

（二）內插型資料案例缺漏

內插情形發生在曾經做過的實例太過級化，資料分配不均，形成資料分佈多峰狀。

二、資料屬性值缺漏（Missing Values）

為ㄧ般最常見之缺漏方式，這種情形發生在已有過的經驗，

但因為某些理由，讓資料無法完整被保存下來，形成ㄧ種殘缺、

缺漏的資料庫。若資料庫中有殘缺的數據或資料，本研究稱之為資料屬性值缺漏。

1.3.2 研究限制

本研究對於目前資料探勘技術中，針對營建業與類神經模糊系統結合所發生之資料缺漏問題做研究，使用及驗證之工具為類神經模糊系統 FALCON。

針對上述資料屬性值缺漏，本研究限定屬性值缺漏不會發生在決定部（consequence part）。模糊適應性學習控制網路（FALCON）與資料探勘的基本假設，決定部為專家經驗累積之精華與結果，因此決定部不會發生缺漏問題。

(16)

另外，假設本研究所參考之案例資料為正確，以供系統日後測試及驗證之用。

1.4 研究方法

本研究所採行之研究方法如下：

ㄧ、文獻歸納法

根據已回顧之文獻，了解目前知識發掘之現況與問題，並歸納出可能解決目前資料缺漏問題之方法。

二、模式推導與建立

根據上述文獻歸納而出之方法，推導可能解決之模式。

三、案例驗證

根據上述推導之模式以案例做驗證。

1.5 研究流程

本研究流程依研究目的及研究方法繪製成下圖。

圖 1.1 研究流程圖ㄧ、相關文獻回顧

(17)

本研究文獻回顧分為三個方向，一為回顧知識發掘、資料探勘及目前資料缺漏之處理方法；二為回顧模糊適應性學習控制網路（FALCON）之主體結構；三為回顧其他類神經模糊技術分析。

期望能應用文獻中對於資料缺漏之處理方式，來解決目前所遭遇到資料屬性值缺漏之問題。

三、建立改善 FALCON 系統訓練模式

應用演化式模糊類神經推論模式（EFNIM）對於資料缺漏之處理方式於 FALCON 系統，提出 FALCON 在資料缺漏問題發生之假設模式的主體結構，建立解決之方法並架構解決之模式。

四、撰寫程式

根據上述已改善 FALCON 系統訓練模式撰寫程式。

五、案例驗證

根據手邊已有之工程資料案例對改善後之 FALCON 系統訓練程式進行驗證。

六、結論與建議

根據系統之驗證結果做出結論與未來研究之建議。

1.6 小結

台灣目前營建管理大部分是以人工智慧技術保留專家的智慧與經驗，但普遍面臨到的問題就是資料缺漏之部分。本研究回顧目前國內外之文獻，了解營建知識探勘及其技術，並欲解決資料庫面臨之資料屬性值缺漏之問題。期望未來能應用在營建知識探勘中時，更能有效的保存專家智慧與經驗。

(18)

第二章文獻回顧

本研究在此章節將會提出目前對於知識發掘與資料探勘之定義及關係，並對於資料探勘之步驟與目前常用之方法、工具及技術做一詳細介紹。其後針對應用資料探勘之工具中的類神經模糊系統所實際發生資料缺漏之問題做一分類及說明，且提出目前已可解決其問題之方法。

2.1 知識發掘之定義及方法

Fayyad[25]其對知識發掘的定義為：是一個指出資料中有效、嶄新、潛在效益的一個非細瑣（nontrivial）流程，其最終的目標是瞭解資料的樣式（patterns）。上述定義中明顯提到，知識發掘是為了了解資料的樣式，把知識從資料中發掘出來。而其知識發掘的流程可以下圖來做表示：

圖 2.1 知識發掘流程（The KDD Process）[25]

呂奇傑[8]對於知識發掘的程序認為需要先理解所要應用的領域並熟悉相關知識，之後建立目標集並專注於所選擇的資料子集，而完成資料子集之後，才開始圖2.1之步驟。第一步是從目標資料中做前置處理（preprocessing），在此需去除錯誤或不一致的資料。第二步則是將資料簡化與轉換（transformation），完成之後，資料便可經由資料探勘

（data mining）的技術成為型樣（ patterns ）；最後經由解釋/ 評估

(19)

（interpretation / evaluation）而成為有用的知識。[8]

在知識發掘流程圖中，我們可以發現，資料前置處理佔極高比例，

而資料探勘為技術處理層面，兩者緊密結合可得到我們最後所想要的知識。

Fayyad[25]對於資料探勘亦提到，為依據使用者需求，自資料庫中選擇合適資料，並加以處理、轉換、探勘至評估的一連串步驟，其目的在於尋找真實世界運行時隱含於其內的運作現象，並用以輔助解決現實之問題。[8]

目前營建管理領域正具有需要多年經驗及技術的特性，因此適合應用多年所紀錄之資料及資料探勘之技術來提供營建知識發掘，以保留過去所累積的知識並應用於未來專案中所產生的效用或價值。

2.2 資料探勘

由於資料探勘的技術是完成知識發掘中一個重要的關鍵因素，因此對於資料探勘必須再作深入的了解。本節將彙整許多目前已發表過的資料探勘之定義、功能、研究架構及技術。

2.2.1 資料探勘之定義

關於資料探勘之定義，許多學者提出相關之解釋，本研究將其彙整成如下：

一、Berry and Linoff [19]：資料探勘就是為了要發現有意義的樣型或法則，而以自動或半自動的方式對資料進行分析。

二、Cabena[20]：資料探勘是將先前所未知得隱藏資訊，從大型資料庫中有效地抽出以提供給高階主管做為決策的參考。

三、Frawley[21]：由資料庫中挖掘出隱含且前所未有而可能有用的資訊之過程。

四、Grupe and Owrang[22]：資料探勘乃是現存資料中剖析出事實及發

(20)

現專家們尚未知曉的新關係。

五、Hall[23]：所謂資料探勘是一種結合資料視覺化(data visualization)、

機器學習、統計方法(statistics)、以及資料庫(database) 等多種技術，以便從龐大資料量中，萃取法則形式或其他模式所表達的知識。

六、Han and Kamber[24]：從龐大的資料中，挖掘(extracting) 或探勘 (mining)出知識。

七、Chung and Gray[26]：資料探勘主要是從資料或資料庫中，運用相關的分析技術發掘出新的、未知的樣式或規則，並且透過資料探勘的應用，發掘出超越歸納範圍外的資料間關係型態。

八、Shaw[27]：資料探勘是尋找和分析資料的一個過程，主要的目的是找出隱含在裡面有用的資訊。

九、Fayyad[28]：資料探勘是知識發掘（Knowledge Discovery in

Database；KDD）其中的一個步驟。資料探勘透過演算法，將資料作一分析與應用，以找出其特徵（pattern）與模式（model）的過程。

2.2.2 資料探勘之功能

資料探勘除為知識發掘中的一環，本身亦有相當之功能性。Berry and Linoff[19]提出資料探勘的主要功能，共分為六大項，以下將這些功能的意義及可使用的技巧概述如下：

一、分類（Classification）

分類就是分析資料的所有特質，再將其指派至一個現有的群集中[9]。例如在地區的分析上，建築技術規則會劃分不一樣的耐震係數，藉由分類可以對不同地區建築物給予不同的結構設計。

常使用的技巧有決策樹（Decision Tree）或類神經網路（Neural

(21)

Network）等。

二、推估（Estimation）

推估善於處理連續性的數值，憑著一些輸入資料，可以用來推估一些未知的連續性變數[9]。例如按照營造廠承接之案子大小或多寡來推估營造廠規模之大小。相關的使用技術包括統計方法上之相關分析、迴歸分析，及類神經網路方法等。

三、預測（Prediction）

預測是去推估未來的數值以及趨勢，歷史資料可以用來建立模型以檢視近來觀察值的資料[9]。例如由過去建築物之工程成本來預測未來類似建築物之工程成本。使用的相關技術包括迴歸分析、時間序列分析（Time Series Analysis）、類神經網路及案例庫推理（Case-Based Reasoning）等。

四、關聯法則（Association rule）

關聯法則主要描述在龐大資料庫中某些資料項目間彼此之關聯性，其形式為X→Y，其中X及Y分別表示資料庫中不同之項目組 [9]。例如，可以從資料中找出結構行為與建物高度之關聯。如果為磚構造，建築物高度約為15~16公尺；若建築物為鋼筋混凝土，

建築物高度可達為30公尺以上，證明磚構造無法蓋高層建物。

五、群集化（Clustering）

群集化就是將一群異質的群體區隔為同質性較高的群體或是子群。它與分類不同的是，群集化沒有依靠事先明確定義的類別來進行分類，資料是根據自身的相近性來群聚在一起的[9]。

六、序列型樣（Sequential Pattern）

序列型樣技術的重點是考慮時間的因素，利用此方法分析不同時間點上各事件的關聯性。序列型樣主要分為順序性型樣與週

(22)

期性型樣兩種，順序性型樣乃考慮事件發生之時間先後關係，而週期性型樣乃考慮時間區段的變化，分析時間區段內所發生的事情，是否其他相同時間區段內也會發生。這兩種方法雖不同，但對使用者而言，隨著時間的多樣變化，找出有用的規則已日形重要[9]。

2.2.3 資料探勘之研究架構

針對上述資料探勘之步驟，Chung and Gray[26]提出建立資料探勘之研究架構。另外，呂奇傑君[8]在其論文中提出，如何適切的建立一個資料探勘模式以及選擇適當的準則來評估資料探勘方法是一個相當重要的議題。在進行資料探勘時，研究者亦須針對所要探勘領域的各項相關的問題，如：任務領域的特性、資料的品質、資料庫的組成是否能表現這個議題、決策環境、人員因素以及這些因素間的潛在互動等[8] [26]。而整體資料探勘的研究架構如下圖所示：

圖 2.2 資料探勘之研究架構[8] [26]

由上圖中得知，演算法為資料探勘模式中最重要之一環，因此，

如何由下表 2.1 中選出最適合之方法為資料探勘成敗之關鍵行為。

2.2.4 資料探勘之技術

針對於上述的資料探勘之演算法技術，藍中賢[7]整理目前資料探勘已有之技術包括有：決策樹（decision tree）、區別分析（discriminate analysis）、貝氏分類法（Bayesian classifiers）、類神經網路（neural

(23)

networks）、記憶基礎推理（memory-based reasoning）與模糊理論（fuzzy theory）等。

表 2.1 資料探勘中技術分類之比較[7]

技術優點缺點

決策樹清楚表達規則，且不需要複雜的運算。

無法考量所有相關的屬性，而且推論的過程會受缺失值影響。

類神經網路

能處理定性與定量屬性的資料，而且在複雜的領域中也能獲得不錯的結果，應用範圍廣泛。

必須提供大量訓練與測試的資料，

才能建立較正確的模式“黑箱

（black box）”的特性，也就是無法了解其分析所根據的因素。

區別分析執行效率較佳。分析的資料必須符合常態分配的假

設。

記憶基礎推理

容許各種型態的資料，且具學習能力。

需要大量的歷史資料，且分析時較費時。

模糊理論

能處理模糊的訊息或是不完全的資料，也可將屬性值轉成模糊集合來處理，而不需經過複雜的計算。

歸屬函數的給定較為主觀。

貝氏分類法不因缺失值而影響推論，並能考量所有相關的屬性，且分析的速度快。

屬性間必須是獨立的，而且較不易處理連續的屬性值。

本研究針對資料探勘之技術，另加入一項混合智慧型系統(Hybrid AI Systems)。而混合式人工智慧系統(Hybrid AI Systems)之研究開發在近十幾年來已有重大之進展，軟體的整合已經成為引人注意的主流，

而且是發展出有效的應用技術。[4]

2.3 混合型人工智慧系統

鄭玉宙君[16]整理出目前所有有關資料探勘技術之結合方式，歸納於下表。本研究針對模糊理論為主的混合系統，在目前國內外收集到之文獻另做一分析。

(24)

表 2.2 混合型人工智慧系統類別簡介表[4] [16]

混合型人工智慧系統類別結合特徵/應用領域/未來發展之簡介

ES＋NN

（專家系統＋類神經網路）

˙當 NN 使用數值及關聯處理來模擬生物系統模式時，ES 則提供邏輯及符號的方法。

˙ 在以擴展的人工智慧系統中作智慧代理人

（Intelligent Agents）的運用。

˙應用發展主要在大型平行處理系統。

ES＋FL

（專家系統＋模糊邏輯）

˙兩者最初的結合運用為模糊專家系統。

˙本系統包括 ES 既有的優點加上更引人注意的使用者及系統發展者的介面。

˙發展新套裝軟體必須和模糊系統的介面相容。

NN＋FL

（類神經網路＋模糊邏輯）

˙兩者的結合擷取了 NN 可從歷史數據中學習及在雜訊環境中運作之優點，另 FL 技術增加不明確資料的處理能力並以簡明形式呈現結果。

˙本系統應用種類很多，其中一個訴求重點在於訓練 NN，使期能處理模糊的輸入資料而輸出模糊或明確的數值資料。

GA＋NN

（基因演算法＋類神經網路）

˙兩者的整合大部分是利用 GA 的能力，搜尋更大更複雜之 NN 所需的參數空間，指引及發現訓練網路的最佳參數集合。

˙此系統研發重點在於利用 GA 來尋找 NN 之模組結構設計及調整其參數的方法。

FL＋GA

（模糊邏輯＋基因演算法）

˙兩者結合的重點在於模糊原則可以將知識以規則或數學式展現，更能提升模糊系統的性能。例如設計模糊系統時，可利用 GA 推導模糊規則、

調整隸屬函數值（Membership Value）及刪減隸屬函數（Membership Function）。

˙本系統研發方向在於對實物處理的控制系統，亦即該控制器的改良。

ES＋GA

（專家系統＋基因演算法）

˙兩者結合的重點在於利用 GA 技術發掘更佳的信賴因子（Confidence Factors）及參數值，已調整 ES 的規則而 ES 可以提供啟發教育以改善基因遺傳系統的性能。

˙本系統研發方向在於利用兩者結合的模組尋找問題最佳解的應用。

(25)

表 2.2 混合型人工智慧系統類別簡介表[4] [16]（續）

混合型人工智慧系統類別結合特徵/應用領域/未來發展之簡介

ES＋CBR＋RI

（專家系統＋案例式推理+

法則歸納）

˙三者結合在於應用所建立的法則庫與案例庫，擷取並儲存專家知識與案例，使模式能搜尋過去類似案例，具有學習能力與不完整資訊的容錯能力。

˙此系統研發重點在於透過過去案例經驗與專家知識，解決營建工程經驗導向之問題。

GA＋FL＋NN

（基因演算法＋模糊邏輯

＋類神經網路）

˙三者結合在於應用基因演算法搜尋所有模糊類神經網路所需的最佳參數；透過模糊邏輯處理不確定性與近似推論；類神經網路則用於對應輸入變數與輸出變數間複雜的關係。

˙此系統研發重點在於透過過去案例經驗，學習累積專家決策過程與分析邏輯，輔助營建工程決策者進行決策。

2.3.1 適應性類神經模糊推論系統（ANFIS）

適應性類神經模糊推論系統（ANFIS）為張智星[39]教授發展完成的一套理論基礎，其目的為解決必須靠人類的思維調整的模糊隸屬度函數，以達到減小誤差、增進效能的缺點。所以張智星利用混合式的學習過程（hybrid learning procedure）為基礎，建構一套 IF-THEN 的規則，並逐漸地調適出適當的模糊隸屬度函數來滿足所要的模糊推論輸入與輸出關係[2] [4]。

此系統屬於上表 NN＋FL（類神經網路＋模糊邏輯）型，為類神經模糊系統中的一種。

2.3.2 模糊適應性學習控制網路（FALCON）

模糊適應性學習控制網路（FALCON）為 Lin 和 Lee[29]提出，並為本研究系統主架構，本研究將在第三章對其作深入介紹。

Lin 和 Lee 在 1991 年提出模糊適應性學習控制網路（FALCON），

Yu 和 Skibniewski[30]在 1999 年針對其網路模式，提出增加基因演算法來改善局部最佳化之缺點。而其結果顯示，加入基因演算法能夠有效降低誤差值，誤差度獲得有效減少 50%。但本研究仍是以 Lin 和 Lee

(26)

在 1991 年提出的網路模式做改善。

此系統屬於上表 NN＋FL（類神經網路＋模糊邏輯）型，為類神經模糊系統中的一種。但經 Yu 和 Skibniewski[30]改善之後，已屬 GA+ FL

＋NN（基因演算法+模糊邏輯＋類神經網路）型。

2.3.3 約略多層次模糊系統（Rough Fuzzy MLP）

Mitra 和 Pal[35]在 1995 年時提出多層次模糊系統(Fuzzy MLP)，有別於 ANFIS 與 FALCON 的類神經模糊架構。Banerjee 和 Mitra[34]又在 1998 年針對多層次模糊系統(Fuzzy MLP)加入約略集合演算法（Rough set）的思考，融合而成現今的約略多層次模糊系統（Rough Fuzzy MLP）。

此系統屬於上表 NN＋FL（類神經網路＋模糊邏輯）型，為類神經模糊系統中的一種。但經 Banerjee 和 Mitra[34]改善之後，目前屬於 RS+

FL＋NN（約略集合+模糊邏輯＋類神經網路）型 2.4 資料缺漏

2.4.1 資料案例缺漏

本研究所稱之資料案例缺漏為一訓練系統外插及內插之現象。當這兩種情形發生，會造成資料預估精度大幅降低。而目前一般的處理方式極為粗糙，甚至將問題忽略。

一、外插型資料案例缺漏

外插情形發生在從未有過的工程實例經驗，使得在建構資料庫時沒有類似的數據。

舉例來說，有一間建設公司平時承接建築物是以民宅為主，

建物地點大部分在鄉下，共有 25 筆案例資料。其中有 4 件為一層樓；4 件為兩層樓；8 件為三層樓；9 件為四層樓。其工程資料分布圖如下所示：

(27)

工程資料分佈

0 1 2 3 4 5 6 7 8 9 10

1 2 3 4 5 6 7 8 9 10 11 12 樓層數

資料數量

數列1

圖 2.3 外插型資料案例缺漏分佈圖

對於這間建設公司而言，5 樓以上的住宅沒有在其歷史案例之中。若今天利用資料探勘技術建構系統，欲將估價一棟 3 層樓住宅之工程費用，結果精度很高；但若預估一棟 12 層帶電梯的大廈，

因系統資料庫中沒有此筆案例的訓練，外插的發生會使工程費用過高或過低，精度下滑。對於此種資料案例缺漏，本研究稱之為外插型資料案例缺漏。

而遇到外插型資料案例缺漏，在有多年經驗的工程師或可估其工程費用，但在目前的訓練系統是無法準確預測出我們的工程費用，也沒有一套完善的解決方式，常常是置之不理，或歸咎於資料庫的本身缺漏。

曹銳勤[5]在「模糊迴歸模式之構建與分析」中提到模糊邏輯的外插問題還一直未能被有效解決，而曹銳勤利用放大模糊空間的方式，希望能減少外插情形發生。

二、內插型資料案例缺漏

內插情形發生在曾經做過的實例太過級化，資料分配不均，

形成資料分佈多峰狀。

(28)

舉例來說，今天有一建設公司，只有做過四樓以下透天或是八樓以上的大樓共 53 筆案例。4 件為一層樓；4 件為兩層樓；8 件為三層樓；9 件為四層樓；2 件為八層樓；4 件為九層樓；8 件為十層樓；7 件為十一層樓；8 件為十二層樓。其工程資料分布圖如下所示：

工程案例分佈

0 1 2 3 4 5 6 7 8 9 10

1 2 3 4 5 6 7 8 9 10 11 12 樓層數

資料數量

數列1

圖 2.4 內插型資料案例缺漏分佈圖

對於這間建設公司而言，5、6、7 樓的住宅沒有在其歷史案例之中。若今天利用資料探勘技術建構系統，欲將估價一棟 10 層樓住宅之工程費用，結果精度很高；但若預估一棟 6 層的公寓，因系統資料庫中沒有此筆案例的訓練，內插的發生會使工程費用過高或過低，精度下滑。對於此種資料案例缺漏，本研究稱之為內插型資料案例缺漏。

鄭景鴻君[2]曾經希望求出在內插型資料案例缺漏的工程估價，但是效果並未達到預期理想。

遇到資料案例缺漏，其實對於工程專家，還是能夠做分析、

估價、或管理。但針對目前的資料探勘技術，就會陷入外插或內插的困境。而發生這種情形並不是系統本身的問題，而是資料庫

(29)

本身就從沒有過這種經驗，缺漏這種數值，是無法做出任何精確的預估。針對這種資料缺漏問題，本研究定義為資料案例缺漏。

2.4.2 資料屬性值缺漏

這種情形發生在已有過的經驗，但因為各種理由，讓資料的屬性值發生缺漏問題。

舉例來說，一份完整的資料擁有以下五種屬性值：結構類型、地上樓層數、地下樓層數、總面積、工程造價。而總共有 5 筆資料，卻只有 4 筆是五個屬性都完整，其中一筆沒有地上樓層數。以下表所示：

表 2.3 資料屬性值缺漏型表單

排序擋土結構地上樓地下樓樓地板總工程費用

1 3 nan 2 2959 43459663

2 3 7 2 3318 46696021

3 3 12 2 7449 164000000

4 3 13 2 15178 255260938

5 2 6 1 918 15769572

由上表第一筆中，地上樓層數為未知。若以前在資料探勘技術遇到這種情形，只能將這一筆捨棄不用，只將其餘資料做學習。針對這種缺漏問題，本研究定義為資料屬性值缺漏。

李欣鵬[15]在其論文「南高屏空氣污染排放資料庫整合分析-以合板製造業為例」中，發生資料屬性值缺漏之嚴重問題。其中寫到，由於資料屬性值缺漏嚴重，導致系統估出之總排放量不可取信。

資料案例缺漏與資料屬性值缺漏最大不同點在於案例缺漏是沒有這種歷史案件，而屬性值缺漏是有這種案件，但卻因系統本身無法接受而無法做出訓練。以往這兩種情形是會造成相同結果，因為沒有跟不要都是缺漏；就好像考試不會寫是零分，會寫卻交白卷也是零分，

在老師眼中通通都是零分，並沒有任何差別。

本研究將資料缺漏的情形定義為以上兩個方面，並針對第二項資料屬性值的缺漏作為本研究欲解決之資料缺漏的方向。

(30)

2.5 現有解決資料缺漏方法之回顧

目前國內針對案例型資料缺漏所產生的內外插，並沒有有效的處理方法。模糊邏輯的外插問題還一直未能被有效解決[5]，反之，內插問題也沒有有效解決法。而對於資料屬性缺漏的問題，本研究收集國內外之處理方式分以下三種模式：

2.5.1 捨棄缺漏資料法

Jiawei 和 Micheline[38]在資料探勘的觀念與技術ㄧ書中寫到，當資料發生缺漏之情形，可以將其缺漏資料捨棄。而且此方法對於資料探勘時的影響不大，除非缺漏資料過多。

在劉彥慶[4]論文中提到，類神經模糊系統在案例量過少的情況下，會面臨到資料不足的問題。因此若資料庫充足，捨棄缺漏資料影響資料探勘之結果不大。可是案例量不多是營建工程的特性之ㄧ[4]，。

在此情形下，捨棄資料也許會大幅影響營建知識探勘之結果。

2.5.2 補足缺漏資料法

Jiawei 和 Micheline[38]在資料探勘的觀念與技術ㄧ書中寫到，填補缺漏資料法可以有五種處理法，將其條列於下：

ㄧ、手動填入缺漏值

若缺漏之資料量過多，此方法不一定合適。

二、對缺漏部分固定填入一個定值

此定值為一種概念值，其觀念為分析大型資料庫中，類似未有缺漏之案例的值。針對缺漏之屬性部分做歸納，而給予一固定值填入其餘缺漏部份。

三、填入該資料庫屬性之平均值

在此資料庫中，將其有缺漏屬性之同屬性完整值做平均值計算，將其平均值填入該屬性缺漏部份。

(31)

四、填入該屬性之歷史資料平均值

將所有此屬性之歷史資料做平均值計算，在將其平均值填入該屬性缺漏部份

五、填入最可能之值

利用回歸等方式求出可能值。

本研究欲解決類神經模糊系統面臨資料缺漏之問題，以此分別針對上述五項方法做以下分析：

第一項手動填入缺漏值

利用專家本身之經驗，提供值填入缺漏項。可是專家利用本身的經驗來補足缺漏資料的方式是屬於一種主觀判斷，而判斷時亦容易發生錯誤或與先前之判斷有衝突發生。而且專家常會因地域或時間等因素之變化，使經驗無法被完整保存。但若缺漏項目過多時，Jiawei 和 Micheline 亦認為此種方式不一定適用。

第二項對缺漏部分固定填入一個定值

對於缺漏項目，給予一定值來補足缺漏資料的方式是屬於一種主觀判斷，且並不合理。對於固定之值，亦是十分難以決定。

而且此法在系統學習過程中會產生許多不確定性或錯誤訊息的學習，亦會影響營建知識探勘之結果。

第三項填入該資料庫屬性之平均值

對於某些特殊資料案例或離群值的發生，此法無法判斷。且此平均值只屬於此資料庫屬性之平均，正確性有待驗證。此法亦容易產生在系統學習過程中之許多不確定性或錯誤訊息的學習，

亦會影響營建知識探勘之結果。

第四項填入該屬性之歷史資料平均值

對於某些特殊資料案例或離群值的發生，此法亦無法判斷。

(32)

雖此平均值屬於所有歷史資料庫屬性之平均，但亦增加了許多可能偏差之離群值，其正確性有待驗證。而此法亦容易產生在系統學習過程中之許多不確定性或錯誤訊息的學習，亦會影響營建知識探勘之結果。

第五項填入最可能之值

以回歸方式分析，找出缺漏項目最有可能之值。此量化模式較上述第二、第三及第四項合理，亦較第一項客觀。因此，本研究針對上述第一項與本項結合，利用回歸方法找出專家思考之模式，欲解決資料缺漏之問題。此方式為本研究在「補足缺漏資料法」之中心假設，將於第四章做一說明。

2.5.3 學習缺漏資料法

學習缺漏資料法對於資料缺漏之處理方式與上述之處理方式不同，其方法為改進資料探勘之演算法，直接學習缺漏資料。

柯千禾與鄭明淵[12]的演化式模糊類神經推論模式（EFNIM）為目前最新的資料探勘系統之一。其系統能夠容許資料屬性項目值為空白，並且對於每筆資料都有缺漏項目，系統亦可學習。其系統屬於上表 2.2 的 GA+ FL＋NN（基因演算法+模糊邏輯＋類神經網路）型，為模糊類神經系統的一種。

此種系統學習時不學習缺漏部分，為本研究在「學習缺漏資料法」

之中心假設，將於第四章做一說明。

2.6 小結

本章由知識發掘到資料探勘，再將資料探勘做一詳細介紹，並針對目前資料探勘技術做一回顧，再針對資料探勘技術中混合式人工智慧系統做完整介紹。舉出曹銳勤[5] 與鄭景鴻[2]所面臨到之的資料案例缺漏問題，以及李欣鵬[15]在資料庫整合遇到的資料屬性值缺漏問題，

(33)

此皆為目前類神經模糊系統在建構是會遇到且無法解決的問題。本研究欲利用上述之方法：「補足缺漏資料法」及「學習缺漏資料法」，期望解決目前營建知識發掘所遭遇到之資料缺漏問題。

(34)

第三章模糊適應性學習控制網路（FALCON）

本研究類神經模糊系統以模糊適應性學習控制網路（FALCON）

為修改及驗證架構。因此，針對 FALCON 的理論及架構，將會在本章節詳述，作為本研究修改的依據。

3.1 模糊適應性學習控制網路（FALCON）之架構

模糊適應性學習控制網路(fuzzy adaptive learning control network 簡稱為 FALCON)是一種前向式多層網路架構。基本上，FALCON 將傳統的模糊控制器、以及具備分散式學習能力的類神經網路，兩者整合至同一網路架構中。在 FALCON 的網路架構中，輸入層代表外界輸入至網路之狀態，輸入層代表網路的輸出控制信號，而隱藏層則包括了隸屬函數以及模糊法則[11]。

FALCON 的網路架構如圖 3.1 所示，共有五層。第一層是輸入層，

每個類神經元處理一個語意式變數。第五層是輸出層，每個語意式變數都由兩個類神經元負責處理。第五層其中一個是外界輸入至網路的訓練資料(網路的期望輸出值，以 Y’代表之)，另外一個是網路本身計算得到的輸出值(網路輸出值，以 Y 代表之)。而第二層和第四層都是模糊隸屬度函數值（membership function）的運算(即相容程度性的計算) [11]。

事實上，第二層的形式(對每一個語意式變數而言)可以是單一個類神經元，執行較簡單的隸屬度函數(三角形歸屬函數、鐘型曲線方程式之歸屬函數等等)之計算。第二層也可以是一組多層的網路結構(模組化之子網路)，來負責執行較複雜的隸屬度函數模糊化之工作。因此，網路的總層數可能不只五層[11]。

(35)

第三層的類神經元負責模糊法則的運算，每個類神經元代表一條模糊法則。因此，第三層的類神經元也就可以代表一組模糊法則庫 (fuzzy rule base)。第二層和第三層的連結以及第三層和第四層的連結，

也就定義了模糊法則的推論方式(即為模糊推論引擎)。而第二層和第三層的連結定義了模糊法則的前鑑部；第三層和第四層的連結定義了模糊法則的後鑑部。對於每個模糊法則而言，其前鑑部與後鑑部所使用的語意式變數，可能包括了網路中所有的語意式變數，當然也可能只使用了網路中部份的語意式變數。因此，第二層和第三層的連結(前鑑部語意式變數)以及第三層和第四層的連結(後鑑部語意式變數)，不是完全連結(Partially connected)；而第一層和第二層的連結以及第四層和第五層的連結則是完全連結(fully connected)(此是針對個別的輸入或輸出類神經元所定義的) [11]。

當網路已訓練好之後，訊號的傳遞方向是由左至右；當網路是處於訓練過程時，會有部份訊號經由第五層由右至左傳遞[11]。

(36)

圖 3.1 FALCON 網路架構圖[29]

3.2 模糊適應性學習控制網路（FALCON）之運算方法 3.2.1 神經元的數值定義

FALCON 的數值運算首先要先定義每一個神經元。每一個神經元都有輸入部分及輸出部分，信號由左射入神經元為輸入信號，由神經圓右射出為輸出信號，成為下一層神經元的輸入信號。而神經元輸入部分的方程式依上述可設為：

1 2 1 2

( ^k, ^k,..., ^k_p; ^k, ^k,..., ^k_p)

net= f u u u w w w （3.1）

k 為目前神經元為第幾層；方程式（3.1）為整合所有由左射入之值為 net。則輸出之方程式則為下：

k ( )

output=oi =a f （3.2）

i 為前一層神經元輸入下一層第 i 個神經元，a（.）為激發函數。

(37)

3.2.2 神經元的的連結方程式 第一層

第一層神經元只負責傳送各屬性輸入的值，不轉換輸入的數值。因此，第一層神經元的方程式可設為下：

1

f =ui 和 a= f （3.3）

連結之向量值w¹_i為 1。

第二層

第二層為模糊切割（fuzzy partition），每一個屬性將分為不同的模糊語意，信號值輸入之後會經過鐘型函數曲線

（bell-shaped function）的隸屬度函數運算，再行輸出。而第二層神經元的輸入為第一層神經元的輸出，因此，第二層神經元的方程式為：

2 2

2

( )

( , ) ⁱ ^ij

j

xi ij ij

ij

u m

f M m σ

σ

= = − − 和 a=e^f （3.4）

m_ij為鐘型函數曲線中的中心點（平均值）；σ_ij為鐘型函數曲線中的分離度（變異數）。j 為這一層的神經元位置；i 為下一層神經元位置。ij 表這一層第 j 個神經元連結到下一層的第 i 神經元位置。連結之向量值w_i²為m_ij。

第三層

第三層為 FALCON 網路的法則（rule）部分，也是建構隱藏層的位置。目的是為了模擬人類思考的路徑，也可以用 IF-THEN 法則解釋。第三層主要是模糊交集（Fuzzy AND）部分，將第二層神經元所激發而輸出之強度傳遞到第三層神經元的輸入，而取其聯集的最小值再行輸出。由圖 3.1，第二層到第三層，第三層的神經元數目是由第二層來決定，第三層每一個神經元接受到第二層神經元的輸入箭頭的數目會等於屬性的個

(38)

數。第三層到第四層，每一個第三層的神經元只有一個輸出值。

因此，第三層神經元的方程式為：

3 3 3

1 2

min( , ,..., _p)

f = u u u 和 a= f （3.5）

連結之向量值w_i³為 1。

第四層

連結在第三層與第四層之間為 FALCON 網路的法則的結果，

每一個第三層的神經元只會有一個結果輸出，連結到第幾個第四層神經原則同時有兩種決定法，分別為左至右及右至左。由右至左是決定第四層的模糊切割共有幾個神經元。圖 3.1 中由第五層之 Y’點至第四層，決定第四層神經元有幾個，其計算方式與第二層相同。由左至右主要是模糊聯集（Fuzzy OR）。將第三層傳遞過來的信號，各射入不同的第四層神經元，各激發不同的位置與強度，

將各激發之強度取聯集，即是相加起來。因此，第四層神經元的方程式為：

4

1 p

i i

f u

=

∑

^和^a⁼^{min(1, )}^f （3.6）

連結之向量值w_i⁴為 1（由第三層連結到第四層）。在由右至左中，第五層連結至第四層之向量值與第一層連結至第二層相同。

第五層

第五層亦有兩各部分，一為左至右；一為右至左。由上述之第四層可知，右至左是為決定第四層的模糊切割，包括神經元數目與鐘型隸屬度函數。由圖 3.1 中由第五層之 Y’點至第四層，為右至左之圖型。因此，由 Y’點至第四層之方程式與第一層相同，

方程式如下：

f =yi 和 a= f （3.7）

左至右的第五層神經元主要是將射入的信號做解模糊運算。

(39)

第五層的神經元主要接收來自第四層的信號，將信號利用方法解模糊。之後得到輸出的精確值，此時結果即為 FALCON 網路的最後結果。因為第四層同第二層的方程式採鐘型隸屬度函數運算，

所以射入的方程式中，m_ij及σ_ij分別代表第 i 個輸出語意變數的第 j 項的中心點及分離度（平均值與變異數）；而目前系統輸出之解模糊法是使用重心法求解。因此，第五層神經元的方程式為：

5 5 5 5 5

( )

ij i ij ij i

f =

∑

w u =

∑

mσ u ^和 ⁵

ij i

a f

σ u

=

∑

（3.8）

連結之向量值w_i⁵為m_ijσ_ij。

3.3 模糊適應性學習控制網路（FALCON）之訓練法則

圖 3.1 及上述章節是建立在模糊適應性學習控制網路已建構完成，而對於如何機械學習、如何保存智慧等方法，並沒有說明。因此，

本章節針對 Lin 和 Lee[29]提出模糊適應性學習控制網路的訓練做詳細說明。模糊適應性學習控制網路的學習訓練可分為兩個階段，一為非監督式學習系統；二為倒傳遞式學習。非監督式學習是將智慧利用各種演算法，交由電腦去做學習，從中擷取出專家之智慧，目的是讓電腦自動建構出如圖 3.1 的 FALCON 網路結構。倒傳遞式學習

（back-propagation）是為了修正第一階段已建構好的 FALCON 網路結構，降低網路之誤差，讓整體系統的精準度能夠提升。

3.3.1 非監督式學習系統

在建構 FALCON 系統的主體中，第一步就是要決定輸入及輸出之模糊切割部分，及隸屬度函數（membership function）；之後要建立的是 FALCON 網路的法則。在非監督式學習系統中，也是依照這兩部分建構 FALCON 網路，分別是利用 Kohonen 學習（Kohonen learning rule）

[37]及增強競爭式學習（reinforcement competitive learning）[30]。

Yu 和 Skibniewski[30]認為在輸入及輸出之模糊切割，應由使用者

(40)

在學習訓練前決定好，意指不建議由系統自行決定分割的數目。因此，

本研究依上述觀點在本節之非監督式學習系統中，亦不做非監督式之輸入及輸出之模糊切割。而第二層及第四層之隸屬度函數的參數則是利用 Kohonen 學習方式來做學習訓練。

Kohonen 學習應用於隸屬度函數所需之參數運算共有兩個部分：

相信度比對部分（Similarity matching）、更新部分（Updating）。

相似度比對： ^l ^l

1

k k

i j

j n

x w Min x w

≤ ≤

 

− =  − 

  （3.9）

在每一個相似度集中的族群（cluster）中，資料 x 進入。資料 x 將會針對第 i 個族群的中心點w^l^kⁱ 做比較。兩者相減取其最小值，意即找出資料 x 是屬於哪一個分類的族群。上標 k 表示運算第幾次的數目，^lw 表示正規劃（normalization）後的中心點的值。

更新： ^w^l^kⁱ⁺¹ ⁼^w^l^kⁱ ⁺^η^k

( )

^x⁻^w^lⁱ^k

w^l^kj =w^l^kj， for j=1, 2,...,n j≠（3.10） i 在上述方程式中，η^k視為第 k 次所增加的學習係數。在更新的部分中，若資料 x 在第 k 次中歸屬到第 i 個族群，則資料 x 只調整w^l^ki 的值。這種方法稱為贏者全拿（winner-takes-all）。

上述的方法可以應用在 FALCON 網路第二層及第四層，當隸屬度函數計算時取得鐘型函數曲線中的中心點（平均值）。每一個相似度比對的族群是來自於一開始的模糊切割，而上述方程式取得之中心點即為各模糊切割的 m 值。再下一步就是隸屬度函數計算時要取得的鐘型函數曲線中的分離度（變異數）。

Lin 和 Lee[29]針對上述已利用 Kohonen 學習所得出之各模糊切割的 m 值，利用最近相鄰法（first-nearest-neighbor）粗略的去調整每一個族群的隸屬度函數。最近相鄰法方程式如下：

(41)

i nearest i

m m

σ γ

= − （3.11）

當m_i與m_nearest為相鄰的兩個模糊切割的中心點（平均值），利用模糊系統（fuzzy）給其一相互覆蓋（overlap）的模糊語意，而γ 即為相互覆蓋的程度。如此便建構出鐘型隸屬度函數中的σ 值，及 FALCON 網路中的模糊系統。

由下圖中可知，在屬性（attribute）1 及 2 中，共分類為三個族群 A、B 及 C。經過 Kohonen 學習的分配之後，可以得出族群 A、B 及 C 針對各屬性 1 及 2 的 m 值。再利用最近相鄰法，可針對族群 A、B 及 C 繪製出各屬性 1 及 2 的模糊系統。

圖 3.2 Kohonen 學習應用於隸屬度函數的參數計算[30]

在建構非監督式 FALCON 系統的主體中，第一步是決定輸入及輸出之模糊切割部分，及隸屬度函數。而上述方程式（3.9）到（3.11）

已完整的架構好第一步，第二步要建立的是 FALCON 網路的法則部分。

FALCON 網路的法則在圖 3.1 中，是屬於第二層到第四層。

FALCON 網路的法則是架構 IF-THEN 的法則，在第二層到第三層中，

(42)

是架構 IF；而在第三層到第四層中，是架構 THEN。因此，第二層到第三層的法則可以是固定，第三層到第四層的法則則利用增強競爭式學習來架構。

建構第三層到第四層的法則在開始時，將每一個第三層的神經元連結到每一個第四層的神經元，利用增強競爭式學習法來給予每一條連結之權重值。最後依贏者全拿（winner-takes-all）的方法，將經過增強競爭式學習法後，每一個第三層的神經元連結到每一個第四層的神經元中，取一條連結強度最強的連結，權重值給予 1，而其餘連結皆為 0。換言之，就是只取一條連結為 IF-THEN 的結果。

依上述方式，可分為三方面在增強競爭式學習法中取得法則：

贏者競爭：

k k 2

j k j

o m

k

j e ^σ

µ

 − 

 

− 

= ，

1max

k k

i j

j m

µ µ

= ≤ ≤ （3.12）

增強學習： w_ι^k_i⁺¹=w_ι^k_i +cµ µ_i^k _ι^k，for i=1, 2,...,m；ι=1, 2,...L （3.13）

法則選擇： w_ι_i =1 if

1

max( )

i i

i m

w_ι w_ι

= ≤ ≤ ，

w_ι_j =0 if j≠i， for ι=1, 2,...L （3.14）

在贏者競爭部份，在第三層的神經元連結到第四層的神經元中，

找出第四層中哪一個神經元回應第三層神經元的信號最強。在增強學習部份，將之前找出的最強連結及強度保留下來，並加入一增強係數 c，繼續訓練。最後法則選擇部分，在增強競爭式學習訓練完成時檢視哪一條連結為最強，給予其權重值為 1，其餘為 0。

(43)

圖 3.3 增強競爭式學習應用於 IF-THEN 法則之建立[30]

上圖為增強競爭式學習的訓練圖，灰色表示已確定的連結神經元，咖啡色表示經增強競爭式學習後所得到的 IF-THEN 法則。由第三層中 R₂神經元，連結到第四層神經元 T₁到 T_n。經增強競爭式學習後，

2

wj 值大於其餘w_n₂值，給予w_j₂值為 1，其餘為 0。如此，則確立法則第三層神經元 R₂連結到第四層神經元 T_j。

3.3.2 倒傳遞（back propagation）式學習

第二階段的倒傳遞式學習是為了修正第一階段已建構好的

FALCON 網路結構，降低網路之誤差，讓整體系統的精準度能夠提升。

倒傳遞式學習有別於非監督式學習系統，是屬於在監督式學習系統中的一部分。監督式學習系統針對 FALCON 網路的學習訓練共分為三方面：一為資料正傳遞（forward data propagation）；二為倒傳遞誤差信號（backward error propagation）；三為根據倒傳遞誤差信號做出參數調整（parameter adjustment）。而資料庫中每一筆資料都須經過這三方面，才算完成。

在資料正傳遞中，利用第一階段已建構好之非監督式 FALCON 網路為架構，將資料庫中一筆資料由左至右匯入。資料經過第一層不做

類神經模糊系統在營建知識發掘中 資料缺漏問題之研究

中 華 大 學 碩 士 論 文