• 沒有找到結果。

資料淨化處理

在文檔中 中華大學 (頁 48-53)

第四章 系統實作

4.3 資料淨化處理

表 4.1 退貨問題資料檔格式

將原先由使用者輸入的資料來進行資料潔淨的工作,使用者在輸入資料時有可能輸 入空白或無效的日期或描述欄位過長的問題。經由潔淨的工作來增加,資料探勘的正確 率或執行速度。

(1) 空白資料部份:

在空白的資料中,有可能是工程師在輸入退貨資料時遺漏而造成。如果不在探 勘資料前先行處理,會造成探勘效能過差或結果差異過大等問題發生也會造成誤判 的情況發生。所以,經與領域專家討論及研究後,可再資料前處理中加入一段程式 邏輯判斷如表 4.2,將退貨特徵空白的部份,按問題描述的情況來加以判斷,並給 予適當的值,如此就可以解決空白資料部份的問題。以下兩種是避免空白資料發生 時的解決方法:

z 可由使用者自行定義後,再轉入資料探勘的資料庫 z 由程式中預設值來代入空白欄位

表 4.2 資料淨化程式邏輯

程式邏輯 領域專家建議值

IF 問題描述 = Can't open

THEN 退貨特徵 = LED always on 當光碟機面板無法開啓時,判斷為 LED 燈為恆亮 ELSIF 問題描述 = Can't close

THEN 退貨特徵 = Tray Jam 當光碟機面板關閉時,判斷為碟片托盤無法退回 ELSIF 問題描述 = Can't work

THEN 退貨特徵 = Not Ready 當光碟機無法正常運形時,判斷尚未準備完成 ELSIF 問題描述 = Not Read Disk

THEN 退貨特徵 = Access time error 當無法讀取碟片資料時,判斷為讀取異常 ELSIF 問題描述 = File Transfer Fail

THEN 退貨特徵 = Data transfer rate error 當無法正常檔案傳輸時,判斷為資料傳輸異常 ELSIF 問題描述 = Null(空白)

THEN 退貨特徵 = CND(Can not define) 當問題描述無以上問題時,判斷為無法定義問題

(2) 無效日期:

日期輸入時有可能因為工程師一時操作有誤造成異常,所以在維護退貨資料加 入了防呆機制,也就是讓工程師在輸入資料時,能立即檢查出資料是否輸入異常,

如此可避免資料探勘時造成異常問題發生。以下兩種為避免無效日期問題發生的解 決方法:

z 在資料輸入時,由輸入畫面先行執行防呆機制 z 在資料潔淨程式中,判斷日期是否為有效

圖 4.4 判斷輸入日期格式

圖中紅色框架為當輸入錯誤的日期時,有輸入資料當時,來進行判斷並提示工程師 資料有誤。

程式邏輯部份:呼叫系統日期函數,當所輸入的日期不符合邏輯時,程式會提供工 程師錯誤訊息。

圖 4.5 程式中判斷日期格式的錯誤訊息 目前每日平均判斷出日期不符合或人為輸入有誤約 5 筆。

(3) 資料長度問題:

在退貨管理系統中的資料庫定義的欄位長度有可能不會與資料探勘資料庫的 欄位長度所定的不同,因為兩者分別代表著不同目的的用途。所以,再資料前處理,

先與領域專家討論出解決資料長度的問題。以下為避免資料長度過長的解決方法:

z 在資料潔淨程式中,截取資料探勘上之有效長度。

程式邏輯部份:呼叫字串函數中計算字串長度的函數,來判斷是否在使用者輸入時 超出資料探勘資料庫所設定的長度。

IF length (‘XXXXXXXXXXX’) > 40 then

Fnd_message.debug (‘the description too long’);

End IF

在此對於以上三種資料處理方法,以退貨問題資料為例說明。

表 4.3 資料前處理之資料範例

Header_ID Model_Name Fail_date error_desc veri_date failure_symptom .. last_update_date 6582 LTR-48246S 16-Mar-04 CD POWER ERROR 15-Apr-04 Others - Unable to tell responsibility .. 9-Jun-04 6693 SDW-421S 3-Mar-04 can't detect by BIOS 5-Mar-04 CND/NPF .. 17-Apr-04 6693 SDW-421S 3-Mar-04 can't define 5-Mar-04 CND/NPF .. 17-Apr-04 6693 SDW-421S 3-Mar-04 can't detect by BIOS 5-Mar-04 CND/NPF .. 17-Apr-04 6693 SDW-421S 3-Mar-04 Can't test 5-Mar-04 CND/NPF .. 17-Apr-04 6693 SDW-421S 3-Mar-04 srew loose 5-Mar-04 Cosmetic - User fault .. 17-Apr-04

6693 SDW-421S 3-Mar-04 5-Mar-04 No ready .. 17-Apr-04

6693 SDW-421S 3-Mar-04 Tray can't out by arm_emergency 5-Mar-04 Tray in/out error .. 17-Apr-04 6693 SDW-421S 3-Mar-04 Tray can't out by arm_emergency 5-Mar-04 Tray in/out error .. 17-Apr-04 6693 LTD-XXXX 3-Mar-04 Tray can't out by arm_emergency 5-Mar-04 Tray in/out error .. 17-Apr-04

... … … … …

(1) 不正確資料:在 ID=6693 之第九筆 Model_Name 的欄位值,所填入的資料為不正 確產品名稱。

(2) 空白資料未填:在 ID=6693 的第六筆資料中,在 ERROR_DESC 的欄位值,未完 填入值或遺漏。

(3) 無法鑑別的資料:在 ID=6693 的第二筆資料中,問題特徵的欄位值,出現 CND(Can not Define),這類的值對我們的資料探勘中,在搜尋關聯式規則時不 會有幫助。

表 4.4 為完成資料前處理的最後結果,以下結果可以得知如果沒有先對資料 前處理的動作,有可能會判斷異常或無法找出問題的相關連性,如此反而增加了工程師 處理問題的困擾。

表 4.4 資料清理統計一覽表

處理問題 處理前筆數 處理後筆數

退貨特徵欄位值空 2534 254

日期異常 10 0

字串長度問題 38 0

資料重覆問題 231 0

在表 4.4 中第一項處理問題”退貨特徵欄位值空”,處理後筆數尚有 254 筆資料無法 轉換,原因是有些字型在維護人員輸入時輸入不正確,而造成程式無法判斷出來。不過 在尚未經過資料前處理時有效資料只有 8 千多筆,但在經過資料處理後只剩下 254 筆無 法使用,其中處理後的資料可用率逹 90%。

在文檔中 中華大學 (頁 48-53)

相關文件