• 沒有找到結果。

資料前處理模式-補足缺漏資料法

第四章 類神經模糊缺漏資料探勘模式之建構

4.1 資料前處理模式-補足缺漏資料法

目前針對資料屬性值缺漏之處理方式,最直覺簡單之方法是透過 專家訪談將其缺漏之屬性值,憑經驗去加以判斷,進而補足缺漏之屬 性值使其完整。經由專家之補漏,資料已經完全,針對這種被補足缺 漏值而未再發生資料屬性值缺漏之資料庫,本研究稱之為「完整資料」

(complete data)。現今的資料探勘技術可以依據「完整資料」加以訓 練,進而擷取出專家智慧。

由於專家意見屬於一種主觀判斷,針對缺漏值,每位專家給予之 意見非一致,難以判斷真偽。且上述處理手法往往流於主觀,並在相 關的研究中,也難以定義何謂「專家」。

本節針對上述處理方式及缺點,提出資料前處理模式。資料前處 理模式是在資料訓練之前,先將缺漏資料作處理,轉化為「完整資料」, 再行資料探勘之訓練。

4.1.1 模擬專家思考路徑

本節針對資料前處理模式是依據假設人工智慧技術能完全模擬專 家智慧。對於上述假設,以人工智慧技術模擬專家在處理資料缺漏之 情形。

一般情況下,專家思考都是憑自己本身經驗去推估,不論是針對 類似人工智慧系統的屬性部或是決定部。而所有人工智慧技術無不是 以模擬人類思考為主,因此如果能模擬專家思考資料缺漏的情形,應 可以得到所想要的屬性值。

以下以老師決定成績為例說明,假設今天ㄧ位老師要決定學生最 後的期末總成績,使用上課出席數、繳交作業數及期末考試成績(屬 性部)。如果三種屬性為輸入端,而決定端是期末總成績(決定部)。 屬性權重皆為相同,即表示沒有一個比較重要,都一樣看重。老師本 身是代表專家,當他要做出決定時會按照下圖所示:

圖 4.1 老師決定期末成績流程圖

由上圖得知,在權重值一樣時,將三種屬性值輸入之後平均,很 容易得到期末成績。中間經過的是老師的思考,這思考的方程式就是 取平均值,以下列方程式為說明:

( )

3 X Y Z

+ + A

= (4.1)

上述方程式中,X(出席率)、Y(繳交作業)、Z(期末考試)為 輸入屬性部,而 A 即表示輸出決定部(期末成績)。所以,如果知道一 學生的上課出席率(X)、繳交作業數(Y)及期末考試成績(Z),就 可以推估在這老師的期末成績(A)是幾分。

如果現在不知道某位學生甲的出席率 X1,但知道他繳交作業數 Y1

及期末考試成績 Z1,以及他最後的期末總成績 A1,我們很容易能反推 他的出席率是多少。

1 1 1 1

3A − −Y Z = X (4.2)

4.1.2 缺漏資料之迴歸處理

由上述方程式(4.1)及方程式(4.2)知道,只要知道專家的思考 方式就可以反推出屬性端的值。以上述老師決定期末成績的例子,如 果知道老師算分方式(取平均值),而想要推估輸入之屬性值並不困 難。利用這個想法,可以嘗試模擬專家在做決定的思考方式,將其應 用在做資料缺漏時的前處理模式之思考路徑。

其實人類在思考事情時十分複雜,常常不像剛剛簡單的取平均值 之例,很多時候都是專家憑藉自身經驗下去做判斷。因此,當需要專 家解釋如何做出決定的思考路徑時,常常專家也無法將其思考的本身 以類似 IF-THEN 的法則方式呈現出來。

假設人類在學習做某件事的決定多次之後,腦中便建構出了這些 事情的決定法則,這些事情則化為資料庫。如果下次遇到類似事件,

人類便可以已自身經驗去做決定,這種思考方式可以把它假設成為是 一個方程式。猶如類神經網路的思考邏輯即是模擬人類在大腦神經元 的傳遞,換言之,以這種類神經網路演算法或其餘的人工智慧技術,

就是在模擬人類決定的方程式。

依據上述假設,本研究模擬專家補足缺漏資料的決定方法,利用 上述老師欲取得某學生甲之出席率之例,與人工智慧技術,我們推得 出下圖:

圖 4.2 資料缺漏時之思考路徑圖

只要將資料庫的決定部 A 變成資料缺漏時的屬性值,將屬性 X 變 成資料缺漏時的決定部去訓練,如此我們可以得到一個專門在決定屬 性 X 值的 AI 人工智慧系統。

建立完成上述系統完後,只要輸入決定部 A、屬性 Y 及 Z,就可 以推估屬性 X,這思考方式建立在 AI 人工智慧系統就是模擬專家思考 的一種方程式。

根據上述方式,利用資料庫中沒有缺漏的資料組成ㄧ個不完美的 資料庫進行反推訓練,可得到專門針對補足屬性 X 缺漏之系統。反覆 針對屬性缺漏項目進行訓練,最後得到一個前處理後的完美資料庫。

再將此完美的訓練資料庫重新訓練決定部A。整體訓練流程圖如下所 示:

圖 4.3 人工智慧技術前處理法之流程圖

上圖表示,利用適合的 AI 技術,推估屬性部缺漏值,是資料前處 理中的核心方法。對於資料前處理中的人工智慧技術與推估決定部精 確值的人工智慧技術,卻不一定需要相同。需要什麼樣的技術,須依 問題之情況而定。

4.1.3 資料前處理的優缺點

針對上述資料前處理法,本研究以 ANFIS 做過驗證,其結果歸納 出來以下優缺點:

優點

(ㄧ)可以使用在任何以模擬專家思考的人工智慧技術上。

(二)以完整資料庫進行機械學習,系統在計算及產生法則上較 為穩定。

缺點

(ㄧ)面臨訓練屬性部之缺漏值的精準度高低之問題。

(二)難以訓練同ㄧ筆資料同時又缺漏兩種以上不同屬性值。

(三)缺漏之屬性值過多時,此一方法無法應用。

(四)若資料庫所有資料都有缺漏則無法訓練。

(五)易使整體系統陷入資料錯誤,而無法提升精準度之情形。

針對上述優缺點比較,本研究認為資料前處理法的缺點大於優 點,雖然解決資料屬性值缺漏之情形,但未必一定能夠提升系統精準 度。若整個資料庫缺漏筆數過多,則難以維持訓練後的缺漏值之精準 度,亦恐陷入整體資料錯誤,而且在資料每筆都缺漏的情形下是無法 訓練的。

因此,本研究針對解決資料屬性值缺漏,提高系統精準度,再以 修改 FALCON 內部訓練系統為方向。