• 沒有找到結果。

資料轉換處理

在文檔中 中華大學 (頁 53-71)

第四章 系統實作

4.4 資料轉換處理

表 4.4 資料清理統計一覽表

處理問題 處理前筆數 處理後筆數

退貨特徵欄位值空 2534 254

日期異常 10 0

字串長度問題 38 0

資料重覆問題 231 0

在表 4.4 中第一項處理問題”退貨特徵欄位值空”,處理後筆數尚有 254 筆資料無法 轉換,原因是有些字型在維護人員輸入時輸入不正確,而造成程式無法判斷出來。不過 在尚未經過資料前處理時有效資料只有 8 千多筆,但在經過資料處理後只剩下 254 筆無 法使用,其中處理後的資料可用率逹 90%。

表 4.5 故障問題一覽表

問題代碼 故障原因 中文說明

1 ATAPI error ATAPI 介面錯誤 2 Access time error 讀取時間錯誤

3 Access time error: CD-ROM 讀取時間錯誤 CD-ROM 的機種 4 Access time error: DVD-ROM 讀取時間錯誤 DVD-ROM 的機種 5 Audio noise 音源有雜訊

6 Broken disc 碟片斷裂

7 CND 無法定義異常原因

8 CND/NPF 無法定義韌體異常原因

9 Cosmetic - Unable to tell responsibility 使用者無法完整說明異常原因 10 Cosmetic - User fault 使用者操作異常

11 Data transfer rate error 資料傳輸錯誤

12 Data transfer rate error: CD-ROMto tell responsibility 資料傳輸錯誤 CD-ROM 的機種 13 Data transfer rate error: DVD-ROM 資料傳輸錯誤 DVD-ROM 的機種 14 LED Flash abnormal LED 燈號異常

15 LED always ON LED 燈號恆亮 16 LED always on LED 燈號恆亮 17 LED flash abnormal LED 燈號異常

18 No ATAPI 無法偵測 ATAPI 介面 19 No action 碟機無任何運轉 20 No audio signal 沒音源訊號 21 No ready 尚未啓動

22 Others - Unable to tell responsibility 其他不明異常但無法判斷

23 Others - User fault 其他不明異常可能為使用者操作問題 24 Single audio channel output 音源輸出異常

25 Tray in/out error 碟片托盤進出異常 26 Tray in/out noise 碟片托盤進出有異聲 27 Tray jam 碟片托盤卡死 28 Write CD-R media error CD-R 碟片寫入異常 29 Write CD-RW media error CD-RW 碟片寫入異常 30 Write DVD+RW media error DVD+RW 碟片寫入異常 31 Write error - CD-R media 寫入錯誤 CD-R 碟機 32 Write error - CD-RW media 寫入錯誤 CD-RW 碟機

表 4.6 退貨交易資料 I

交易代碼 故障問題集 交易代碼 故障問題集 T1 19 T25 7,10,18,19,21,25,29 T2 21 T26 7,10,18,19,21,25,29 T3 7,21 T27 7,10,18,19,21,25,29 T4 7,21 T28 7,10,18,19,21,25,29 T5 7 T29 7,10,18,19,21,25,29 T6 10 T30 7,10,18,19,21,25,29

T7 18 T31 16

T8 16,27 T32 25 T9 16,27 T33 7,21 T10 16 T34 7,21 T11 7 T35 18,21 T12 21 T36 18,21 T13 19 T37 21 T14 21,26 T38 16 T15 21,26 T39 25 T16 19,21,25 T40 21,22 T17 19,21,25 T41 21,22 T18 19,21,25 T42 10,18,19,25 T19 21 T43 10,18,19,25 T20 7,19,21 T44 10,18,19,25 T21 7,19,21 T45 10,18,19,25 T22 7,19,21 T46 18,21 T23 21 T47 18,21 T24 7,10,18,19,21,25,29 T48 1,18,21 T25 7,10,18,19,21,25,29 T49 1,18,21 T26 7,10,18,19,21,25,29 T50 1,18,21,27

對於以上的問題,改善的方法是在表格中只維持三個欄位,如表 4.6 分別為交易代 碼、故障問題及序號,也就是每一筆退貨交易中可能會出現多種故障問題,而每一故障 問題則為一筆資料,表 4.7 為探勘資料檔格式。

表 4.7 退貨交易資料示意圖 II

交易代碼 故障問題集 序號

T1 ID T1

T1 No action 1

T2 ID T2

T2 No ready 1

T3 ID T3 T3 CND 1

T3 No ready 2

T4 ID T4 T4 CND 1

T4 No ready 2

T5 ID T5 T5 CND 1 T6 Cosmetic - User fault T6

T7 ID T7

T7 No ATAPI 1

T8 ID T8 T8 LED always on 1

T8 Tray jam 2

T9 ID T9 T9 LED always on 1

T9 Tray jam 2

T10 ID T10 T10 LED always on 1

T11 ID T11

T11 CND 1

T12 ID T12

T12 No ready 1

T13 ID T13

T13 No action 1

T14 ID T14

T14 No ready 1

T14 Tray in/out noise 2

T15 ID T15

T15 No ready 1

交易代碼 故障問題集 序號

T15 Tray in/out noise 2

T16 ID T16

T16 No action 1

T16 No ready 2

T16 Tray in/out error 3

T17 ID T17

T17 No action 1

T17 No ready 2

T17 Tray in/out error 3

T18 ID T18

T18 No action 1

T18 No ready 2

T18 Tray in/out error 3

T19 ID T19

T19 No ready 1

T20 ID T20

T20 CND 1

T20 No action 2

T20 No ready 3

T21 ID T21

T21 CND 1

T21 No action 2

T21 No ready 3

T22 ID T22

T22 CND 1

T22 No action 2

T22 No ready 3

T23 ID T23

T23 No ready 1

T24 ID T24

T24 CND 1

T24 Cosmetic - User fault 2

表 4.8 探勘資料檔格式

欄位名稱 資料型態 長度 欄位說明 ID NUMBER 10 交易代碼 ATTRIBUTE VARCHAR2 40 問題特徵 VALUE NUMBER 10 問題序號

如此在關聯規則探勘中之演算法變化不大,只是在處理資料計算做適度的修改。

此表格還是可以計算出支持度及信賴度的關聯。

本研究方法中,又遇到了一個問題是在時間序列上問題,在本次的研究中是在前處 理時先對退貨交易中的發生交易時間進行排序。交易時間為排序主鍵,產品名稱為次鍵 並且按時間以遞增方式排序。在每次資料探勘中選取的資料範圍為執行探勘當時的系統 日期(T)減 60 天(T-60)來取選資料,如此可以避免發生選取資料日期過久,而造成探勘 後的結果與實際狀況差異太大。在本研究中先行排除序列樣式的問題考量。

4.5 資料探勘處理

前述之問題定義及資料準備工完成後,即進入了資料探勘的步驟。產生退貨問題診 斷結果的工作主要分成如下幾個步驟:

(1) 設定最小支持度(Minimum Support)及信賴度((Minimum Confident)的門檻值:關連法 規中要設定最小支持度及信賴度的參數值是非常的困難,為什麼呢?當設定的參數過 大時,所出現的關連規則可能是任一人皆可以想像或明白的規則,這樣的結果對使 用者的幫助是不大的。如果設定的參數過小時,所產生的規則就會有很多種,這固 然是可喜的地方,但是會有太多規則對使用者未必是有好處的。因為找出來的規則 可能是只是出現在退貨交易幾次而以。如果這樣這決定此一規則成立的話,這樣違

反了 Apriori 演算法的特性。所以,如何決定規則的多少及參數值的大小就要經由領 域專家反覆不斷的挖掘,幾過數十次的回覆動作才能決定,最小支持度及信賴度的 參數值。

表 4.9 各種支持度、信賴度及關聯規則數量 最小支持度 最小信賴度 關聯式規數量

0.1 0.5 8 0.05 0.4 41 0.01 0.4 1222 0.01 0.1 2712

由以上表可得,在最小支持度越小的情況下,所出現的規則數量越多,所可以挖掘 出的問題關聯式的條件也是越多。

接下來說明如何定義最小支持度及信賴度的參數值,首先在圖 4.6 中設定欲連接的 資料探勘平台,接著在圖 4.7 中來設定本次資料探勘名稱,再圖中選擇欲做資料探勘的 資料表格(Table),本研究為 XXRMA_MINING_DATA,資料格式內容請參閱表 4.8,在 圖 4.9 中設定的門檻值為經過領域專家不斷的重覆探勘中對結果的滿度及對結果是否提 供有效的資訊來決定此一參數值,而表 3.5 中就經由以上二種考慮而產生的統計數值。

(2) 執行資料探勘:將以上的參數設定完成後,投入資料探勘平台在圖中 4.10 中為探勘 平台執行情況。

(3) 檢視探勘結果:在圖 4.11 中,進行檢視退貨診斷問題是否有無關連式的問題存在。

由於探勘的過程是一循環的方式來進行如圖 2.3,如果對探勘後的結不滿意再回到第 一階段問題定義如此回覆的運行,來探勘出最佳問題診斷的關連性。

圖 4.6 設定連接資料探勘平台

圖 4.7 設定資料探勘名稱

圖 4.9 設定最小支持度及信賴度

圖 4.10 資料探勘平台執行過程

圖 4.11 檢視探勘結果

4.6 資料探勘系統執行步驟與結果

以下幾點步驟是利用第 3 章的研究方法及前一節所描述的方法來導入實際產業的 應用中,實際應用以光碟機退貨問題診斷系統,過程中並有領域專家從旁協助及對探勘 後的結果進行評估,來驗証最後的探勘結果。

步驟 1 連接 ERP 資料平台:

先連接到資料探勘平台的資料庫再利用資料庫連接(DataBase Link)方式連接 到 ERP 的退貨問題交易資料資料庫,圖 4.13 就是先連接到資料探勘的資料庫。

圖 4.12 連接資料探勘資料庫登入畫面

步驟 2 萃取退貨問題資料:

執行程式,此一程式儲存於資料庫平台中如圖 4.14 為執行此一程式之執行方 式,將退貨問題的交易資料由企業內部之企業資源規劃系統(Enterprise Resource Planning 簡稱 ERP) 利跨平台的資料庫連接方式搬運至 Mining DB 資料平台。

圖 4.13 執行收集退貨問題交易資料

圖 4.14 跨平台的資料庫連接設定

步驟 3 進行資料先處理:

圖 4.16 為執行資料前處理的清理程式。

圖 4.15 執行資料前處理程式

步驟 4 將退貨交易資料轉入,資料探勘的檔案格式(Table)中:

圖 4.17 中為執行資料轉入的動作,圖 4.18 為轉入後部份資料的表示圖。

圖 4.16 執行資料轉入探勘的檔案

圖 4.17 轉入後部份資料內容

步驟 5 進行資料挖掘,執行探勘程式:

本步驟的詳細過程與內容,請參閱第 4.5 節資料探勘。本步驟為決定最小支持 度為 0.01 及信賴度為 0.4 的門檻值,但由於時間及退貨資料成長,所以此一門 檻為每一個月將都會進行一次修正,並給予退貨問題診斷系統新的門檻值。其 結果如圖 4.18

圖 4.18 探勘後規則

步驟 6 探勘結果查詢:

提供網頁化(Web Base)的資料查詢介面,讓退貨問題的處理工程師可以自行搜 尋相關問題,來縮短解決問題時間及提供另一知識庫平台來增加工程對問題的 應變能力。在圖 4.19 中為此退貨診斷系統登入畫面,圖 4.20 為查詢畫面,另 過此介面可以讓工程師對問題的範圍縮小及減少一些除錯的時間,並可做為退 貨診斷問題知識庫。

圖 4.19 查詢畫面

圖 4.20 查詢結果

以上步驟都將自動化(Auto Schedule)來執行,也可以人為方式自行啟動。

第五章 系統效能評估

本章將評估退貨問題診斷系統的執行結果,統計工程師對探勘結果的滿意度。第一 節介紹評估模式,第二節說明評結果。

在文檔中 中華大學 (頁 53-71)

相關文件