• 沒有找到結果。

資料準備

在文檔中 中華大學 (頁 36-39)

第三章 研究方法

3.2 資料準備

了解問題及定義出資料的蒐集範圍,接下來便是資料準備的工作。專家曾經說過:

「一個好的資料探勘結果,資料的前處理及準備是很重要也是關鍵之一」。

表 3.1 故障問題一覽表

問題代碼 故障原因 中文說明

1 ATAPI error ATAPI 介面錯誤 2 Access time error 讀取時間錯誤

3 Access time error: CD-ROM 讀取時間錯誤 CD-ROM 的機種 4 Access time error: DVD-ROM 讀取時間錯誤 DVD-ROM 的機種 5 Audio noise 音源有雜訊

6 Broken disc 碟片斷裂

7 CND 無法定義異常原因

8 CND/NPF 無法定義韌體異常原因

9 Cosmetic - Unable to tell responsibility 使用者無法完整說明異常原因 10 Cosmetic - User fault 使用者操作異常

11 Data transfer rate error 資料傳輸錯誤

12 Data transfer rate error: CD-ROMto tell responsibility 資料傳輸錯誤 CD-ROM 的機種 13 Data transfer rate error: DVD-ROM 資料傳輸錯誤 DVD-ROM 的機種 14 LED Flash abnormal LED 燈號異常

15 LED always ON LED 燈號恆亮 16 LED always on LED 燈號恆亮 17 LED flash abnormal LED 燈號異常

18 No ATAPI 無法偵測 ATAPI 介面 19 No action 碟機無任何運轉 20 No audio signal 沒音源訊號 21 No ready 尚未啓動

22 Others - Unable to tell responsibility 其他不明異常但無法判斷

23 Others - User fault 其他不明異常可能為使用者操作問題 24 Single audio channel output 音源輸出異常

25 Tray in/out error 碟片托盤進出異常 26 Tray in/out noise 碟片托盤進出有異聲 27 Tray jam 碟片托盤卡死 28 Write CD-R media error CD-R 碟片寫入異常 29 Write CD-RW media error CD-RW 碟片寫入異常 30 Write DVD+RW media error DVD+RW 碟片寫入異常 31 Write error - CD-R media 寫入錯誤 CD-R 碟機 32 Write error - CD-RW media 寫入錯誤 CD-RW 碟機

為了能夠增加處理資料的效能與結果的正確性,通常會在取得資料之後進行下列的 資料準備動作:

(1) 資料彙整與篩選:由於所要分析之資料原先可能是雜亂而散置的,因此必須先將它 們彙整成一致的格式,並從中挑選出所要分析範圍中的資料項目。本研究中原先的 退貨問題資料是儲存在企業資源管理系統中(ERP),而於資料探勘資料庫存放不同主 機。故採用資料庫跨平台連接異質主機的方式,進行資料搬移。此目為將線上交易 資料(OLTP)與線上分析資料(OLAP)分開,而不會相互影響。

(2) 資料清理:

z 遺漏資料處理:如空數值、不存在的數值和不完整的資料調整與處理。

z 模糊的定義釐清:如不同欄位值卻代表相同的意義,故需透過資料之一致性 處理,以釐清前後一致的定義。

z 錯誤的數值處理:如欄位值不符合該欄位的有效數值,可能是輸入錯誤或程 式問題等,依其有效性而決定處理方式。

(3) 新資料產生與轉換:依據資料特性,將遺漏或錯誤資料更正,再將資料轉換為探勘 使用的格式,並定義出每一問題的代碼。此動作中有關資料維度的轉換對於建立探 勘架構有一定的影響,一般而言,維度越高的資料不僅計算複雜,所需花費的時間 也較多,且結果的解釋也較為困難,因此維度的降低乃是一門重要的課題。其目的 是將資料轉換成適合資料分析或探勘的形式,在此處理的方式有:

z 平滑(smoothing):消除雜亂的資料,如:廻歸法、分箱法。

z 彙集(Aggregation):對資料進行彙總運算,例如:總和(sum)、平均(avg)、最小值(Min value)。

z 廣義化(Generalization):以一個較高階層概念屬性項取代多個較低層概念的屬性項 集。

z 屬性建構(Attribute construction):因應需求,增加新的屬性項。

在此我們將應用上述資料轉換處理技術針對退貨問題資料進行轉換。

在文檔中 中華大學 (頁 36-39)

相關文件