資料前處理模式－補足缺漏資料法

第四章類神經模糊缺漏資料探勘模式之建構

4.1 資料前處理模式－補足缺漏資料法

目前針對資料屬性值缺漏之處理方式，最直覺簡單之方法是透過專家訪談將其缺漏之屬性值，憑經驗去加以判斷，進而補足缺漏之屬性值使其完整。經由專家之補漏，資料已經完全，針對這種被補足缺漏值而未再發生資料屬性值缺漏之資料庫，本研究稱之為「完整資料」

（complete data）。現今的資料探勘技術可以依據「完整資料」加以訓練，進而擷取出專家智慧。

由於專家意見屬於一種主觀判斷，針對缺漏值，每位專家給予之意見非一致，難以判斷真偽。且上述處理手法往往流於主觀，並在相關的研究中，也難以定義何謂「專家」。

本節針對上述處理方式及缺點，提出資料前處理模式。資料前處理模式是在資料訓練之前，先將缺漏資料作處理，轉化為「完整資料」，再行資料探勘之訓練。

4.1.1 模擬專家思考路徑

本節針對資料前處理模式是依據假設人工智慧技術能完全模擬專家智慧。對於上述假設，以人工智慧技術模擬專家在處理資料缺漏之情形。

一般情況下，專家思考都是憑自己本身經驗去推估，不論是針對類似人工智慧系統的屬性部或是決定部。而所有人工智慧技術無不是以模擬人類思考為主，因此如果能模擬專家思考資料缺漏的情形，應可以得到所想要的屬性值。

以下以老師決定成績為例說明，假設今天ㄧ位老師要決定學生最後的期末總成績，使用上課出席數、繳交作業數及期末考試成績（屬性部）。如果三種屬性為輸入端，而決定端是期末總成績（決定部）。屬性權重皆為相同，即表示沒有一個比較重要，都一樣看重。老師本身是代表專家，當他要做出決定時會按照下圖所示：

圖 4.1 老師決定期末成績流程圖

由上圖得知，在權重值一樣時，將三種屬性值輸入之後平均，很容易得到期末成績。中間經過的是老師的思考，這思考的方程式就是取平均值，以下列方程式為說明：

( )

3 X Y Z

+ + A

= （4.1）

上述方程式中，X（出席率）、Y（繳交作業）、Z（期末考試）為輸入屬性部，而 A 即表示輸出決定部（期末成績）。所以，如果知道一學生的上課出席率（X）、繳交作業數（Y）及期末考試成績（Z），就可以推估在這老師的期末成績（A）是幾分。

如果現在不知道某位學生甲的出席率 X1，但知道他繳交作業數 Y1

及期末考試成績 Z1，以及他最後的期末總成績 A1，我們很容易能反推他的出席率是多少。

1 1 1 1

3A − −Y Z = X （4.2）

4.1.2 缺漏資料之迴歸處理

由上述方程式（4.1）及方程式（4.2）知道，只要知道專家的思考方式就可以反推出屬性端的值。以上述老師決定期末成績的例子，如果知道老師算分方式（取平均值），而想要推估輸入之屬性值並不困難。利用這個想法，可以嘗試模擬專家在做決定的思考方式，將其應用在做資料缺漏時的前處理模式之思考路徑。

其實人類在思考事情時十分複雜，常常不像剛剛簡單的取平均值之例，很多時候都是專家憑藉自身經驗下去做判斷。因此，當需要專家解釋如何做出決定的思考路徑時，常常專家也無法將其思考的本身以類似 IF-THEN 的法則方式呈現出來。

假設人類在學習做某件事的決定多次之後，腦中便建構出了這些事情的決定法則，這些事情則化為資料庫。如果下次遇到類似事件，

人類便可以已自身經驗去做決定，這種思考方式可以把它假設成為是一個方程式。猶如類神經網路的思考邏輯即是模擬人類在大腦神經元的傳遞，換言之，以這種類神經網路演算法或其餘的人工智慧技術，

就是在模擬人類決定的方程式。

依據上述假設，本研究模擬專家補足缺漏資料的決定方法，利用上述老師欲取得某學生甲之出席率之例，與人工智慧技術，我們推得出下圖：

圖 4.2 資料缺漏時之思考路徑圖

只要將資料庫的決定部 A 變成資料缺漏時的屬性值，將屬性 X 變成資料缺漏時的決定部去訓練，如此我們可以得到一個專門在決定屬性 X 值的 AI 人工智慧系統。

建立完成上述系統完後，只要輸入決定部 A、屬性 Y 及 Z，就可以推估屬性 X，這思考方式建立在 AI 人工智慧系統就是模擬專家思考的一種方程式。

根據上述方式，利用資料庫中沒有缺漏的資料組成ㄧ個不完美的資料庫進行反推訓練，可得到專門針對補足屬性 X 缺漏之系統。反覆針對屬性缺漏項目進行訓練，最後得到一個前處理後的完美資料庫。

再將此完美的訓練資料庫重新訓練決定部Ａ。整體訓練流程圖如下所示：

圖 4.3 人工智慧技術前處理法之流程圖

上圖表示，利用適合的 AI 技術，推估屬性部缺漏值，是資料前處理中的核心方法。對於資料前處理中的人工智慧技術與推估決定部精確值的人工智慧技術，卻不一定需要相同。需要什麼樣的技術，須依問題之情況而定。

4.1.3 資料前處理的優缺點

針對上述資料前處理法，本研究以 ANFIS 做過驗證，其結果歸納出來以下優缺點：

優點

（ㄧ）可以使用在任何以模擬專家思考的人工智慧技術上。

（二）以完整資料庫進行機械學習，系統在計算及產生法則上較為穩定。

缺點

（ㄧ）面臨訓練屬性部之缺漏值的精準度高低之問題。

（二）難以訓練同ㄧ筆資料同時又缺漏兩種以上不同屬性值。

（三）缺漏之屬性值過多時，此一方法無法應用。

（四）若資料庫所有資料都有缺漏則無法訓練。

（五）易使整體系統陷入資料錯誤，而無法提升精準度之情形。

針對上述優缺點比較，本研究認為資料前處理法的缺點大於優點，雖然解決資料屬性值缺漏之情形，但未必一定能夠提升系統精準度。若整個資料庫缺漏筆數過多，則難以維持訓練後的缺漏值之精準度，亦恐陷入整體資料錯誤，而且在資料每筆都缺漏的情形下是無法訓練的。

因此，本研究針對解決資料屬性值缺漏，提高系統精準度，再以修改 FALCON 內部訓練系統為方向。

在文檔中類神經模糊系統在營建知識發掘中資料缺漏問題之研究 (頁 50-54)

第四章 類神經模糊缺漏資料探勘模式之建構

4.1 資料前處理模式－補足缺漏資料法

第四章類神經模糊缺漏資料探勘模式之建構