• 沒有找到結果。

第二章 文獻探討

第三節 資料清理

Famili et al.(1997)將資料清理定義為:「至少消除原始資料中的一個問題,

且清理過後的資料相較於原始資料是有價值且有用的,能幫助達成資料分析以 挖掘出重要資訊。」。資料清理能解決導致分析錯誤的資料問題,同時了解資 料的屬性,藉此以更有意義的分析,從資料之中找出有意義的資訊(Famili et al., 1997)。因此可以了解資料清理對於資料探勘而言有著舉足輕重的意義,若是 資料清理不完全,或是資料清理不確實,則容易導致分析結果不良甚至錯誤的 情況。

曾憲雄、蔡秀滿、蘇東興、曾秋蓉、王慶堯(2005)提到在整個資料探勘 歷程中,資料清理通常是花費最多時間的,同時也對探勘品質影響最大。另外,

Han & Kamber(2000)指出資料清理過程涉及資料整合、資料轉換、資料刪減的 步驟:

一、 資料整合

在資料探勘前多半需要進行資料整合,資料整合將多個資料來源的資料,

合併起來放到同一個資料儲存地(資料倉儲),這些資料可能會來自不同資料表、

不同資料庫甚至是一般的檔案來源。

13

資料整合需要考慮到哪些在資料庫中的資料是屬於相同的實體,而在一般 的檔案來源中,則需考慮如何與資料庫中的資料連結,這時候可以透過詮釋資 料(Metadata)作為輔助;一般資料來源則可以利用如問卷的編碼簿或外部資料的 資料描述文件等做為資料轉換的依據。

另外,資料資料轉換中會因為從不同資料庫資料導出資料,導致資料屬性 不一與資料維度命名不同的情況,此時更需要透過詮釋資料與一般資料來源的 資料描述文件作為資料轉換的依據。而資料整合中常見的問題為資料值衝突的 處理方式。資料來源來自不相同的資料庫或資料表時,可能會因為描述資料所 使用的資料單位或屬性值不相同而導致資料整合時衝突,如:公制單位與英制 單位彙整時,須考慮紀錄資料單位不同的情形。

二、 資料轉換

資料轉換乃是將資料轉換成適合探勘的型式。資料轉換內容涉及資料平滑 化(Smoothing)、資料聚合(Aggregation)、資料一般化(Generalization)、資料正規 化(Nomalization)、屬性建構(Attribute Construct)等方式:

1. 資料平滑化:

資料平滑化的方式可以透過分箱(Bining)與迴歸(Reggration)的方式處理。

分箱方式先將資料排序後決定要分為多少箱,決定之後將每箱中的資料求其平 均值並取代原本的每個值;利用求其資料的迴歸關係式的方法,接著將每個值 帶回其迴歸式,使資料平滑化。

14 2. 資料聚合:

對資料進行匯總與聚集。例如:可以將每日的銷售記錄匯總為每週或每月 的銷售記錄;而圖書館資料也可從每日借閱記錄彙整為每週借月記錄等方式。

通常此一步驟可用於資料倉儲中將低粒度資料建構成高粒度的資料方塊。

3. 資料一般化

資料一般化又稱為資料廣義化,目的在將概念層級較低的資料轉換成概念 層級較高的資料。例如:當原始資料收集時,國文系、英文系隸屬於文學院中,

但在資料探勘中依需要可以將其一般化為文學院、此時資料內容則一般化為文 學院,不再紀錄國文系、英文系等低層的概念。

4. 資料正規化

資料正規化乃是將屬性資料按比例縮放,使資料內容落入一特定區間中,

如-1 至 1,此方法可以利用最大—最小值正規化、Z-score 正規化兩種。此方法 對於計算距離的分類演算法而言較不會受到極端值影響。

5. 屬性建構

屬性建構乃是透過兩個或兩個以上的屬性加以結合建立新的屬性,例如:

將往年單月每人次平均借閱數量與單月到館人次結合而產生出單月借閱總量,

透過此方式建構新屬性以符合探勘的資料形式。

三、 資料刪減

Jermyn, Dixon, and Read(1999)指出資料清理過程大約會佔整個探勘計畫 的 60~80%的時間。資料探勘中資料清理佔據大多數的時間,而 Jian 與 Jin(2003)

與 Jermyn, Dixon, and Read(1999)說明資料清理對於資料本身需要處理的問 題有:空缺資料(Missing Data)、錯誤資料(Erroneous Data)、孤立點(Outliers)、

15

雜訊(Noise)、重複資料(Duplicated Data)、異質性(Heterogeneities)。而其中又以 資料異質性(Heterogeneities)最難解決。除了資料本身可能有以上問題需要解決 以外,Jermyn, Dixon, and Read(1999)表示資料清理過程中也可能出現以下問 題:

1.清理部分資料使資料內容變得無法辨識(One shot cleaning);

2.對於清理的資料沒有做記錄(No record of cleaning decision);

3.資料清理程度過低(Cleaning choices made at a low level);

4.大量使用人工的方式清理資料(Expensive manual methods);

5.缺乏清楚的清理方法(Lack of clear methodology)。

資料清理過程中不但資料本身容易出現問題,同時清理的方式也必須要審 慎評估並記錄詳細步驟,才能避免資料清理時出現錯誤。各項錯誤的資料內容,

Jian 與 Jin(2003)指出能透過以下方式處理:忽略、補填資料、分箱(Binning)、

群聚(Clustering)、迴歸(Regression)、加入門檻值(Threshold);Han 與 Kamber(2006)

說明缺漏資料也能透過忽略資料、回填原始資料、回填一常數、使用平均數回

孤立點 分箱(Binning)、迴歸(Regression)、群聚(Clustering)、刪

16

資料錯誤類型 可行之處理方式

雜訊 分箱(Binning)、迴歸(Regression)、群聚(Clustering)、刪

重複資料 刪除、忽略

資料來源:研究者整理(菅志剛、金旭(2003)。數據挖掘中數據預處理的研究與實現。計 算機應用研究,7,117-119。 Han J.& Kamber, M. (2000). Data Mining: Concepts and Techniques.

San Francisco, CA: Morgan Kaufmann.

四、 建立具概念階層的資料集

建 立 具 概 念 階 層 的 資 料 集 有 分 箱 式 (Binning) 、 直 方 圖 式 (Histogram Analysis) 、 分 類 分 析 法 (Cluster Analysis) 、 直 觀 式 離 散 法 (Discretization by Intuitive Partitioning)。分箱式是利用箱中平均值取代箱中的每個值或是利用中 位數取代箱中所有的值;直方圖分析法利用設定等深區間的方式將資料分散在 各個區間,並使各個區間有相同的樣本數,此時便可以產生多個概念階層的資 料集;直觀式離散法乃是基於分箱分式與直方圖式方法所得到的分類區間為 51263.34~60234.13 之間,如此對於 直觀法則 可以以自然之方式將界限定為 50000~60000 的區間如此一來往後解釋資料結果時可以方便統整為各項的資 料。

相關文件