• 沒有找到結果。

建立探勘模式

在文檔中 中華大學 (頁 39-43)

第三章 研究方法

3.3 建立探勘模式

z 廣義化(Generalization):以一個較高階層概念屬性項取代多個較低層概念的屬性項 集。

z 屬性建構(Attribute construction):因應需求,增加新的屬性項。

在此我們將應用上述資料轉換處理技術針對退貨問題資料進行轉換。

以下我們將用一個範例來解釋資料探勘的過程。假設,在退貨交易中有三筆退貨 交易分別為 T1、T2、T3 等。表 3.1 為故障問題的代碼,表 3.2 為退貨交易資料。

表 3.2 故障問題代碼表

代碼 故障說明

1 ATAPI 介面無法偵測 2 無聲源訊號

3 無法運轉 4 LED 一直恆亮 5 托盤進出異常

先行定義支持度與 信賴度的門檻值

利用 Apriori 演算 進行資料探勘

利用 Apriori 演算 進行資料探勘

結合領域專家進行 規則修改

完成退貨問題 診斷的模型

圖 3.1 退貨問題診斷模型

表 3.3 退貨資料範例

交易代碼 故障問題集

T1 1,2,4 T2 1,4 T3 1,3,5

在表 3.2 裡的交易資料庫中在每一個重覆出現的項目,Apriori 演算法都會建立一個 頻繁的項目集的候選集,計算出每個候選項目集的出現次數。而後依據一個預先決定的 最小支持度(Minimum Support)來決定頻繁項目集。找出第一個重覆,Apriori 演算法搜 尋(Scan)所有的交易資料(Transaction)來計算出每個項目(Item)的出現次數。

圖 3.2 中,C1 為 候選項目集(Candidate 1-itemsets)的集合。假設最小支持度 (Minimum support)的限制是 0.4。L1 是由達到最小支持度(Minimum Support)限制的候選 項目組成的頻繁項目集(Frequent1-Itemset) 集合,依照這個方法就可產生。接下來我們 要找出第二個頻繁項目集(Frequent2-Itemsets)的集合,有鑑於任何頻繁項目集(Frequent Itemset)一定都有最小支持度(Minimum support),Apriori 演算法使用 L1*C1 來產生項目 集 C2 的候選項目集(candidate set)。這裡的*運算符號指的是連鎖運算(concatenation)。

接下來,搜尋資料庫中裡的交易資料,同時算出 C2 裡的候選項目集(Candidate Itemset) 的最小支持度值。圖 裡第二列裡中間的表格中就呈現出計算後的結果。因此依據 C2 裡每個候選項目集(Candidate 2-itemset)可決定出頻繁項目集(Frequent 2-itemsets 的集合 L2。因為 L2 中沒有候選項目集(Candidate 3-itemset)被構成,Apriori 演算法因此結束找 尋頻繁項目集 Frequent Itemset)。

產生侯選項目集(candidate itemsets),接著對每個候選目集合計算其支持度,將滿

足最小支持度的候選項目為大項目集,直到無法再產生新的候選項目集合為止。

{1,4}

Item set {1,4}

Item set

Scan D

0.33 {5}

0.66 {4}

0.33 {3}

0.33 {2}

1 {1}

Support Item set

0.33 {5}

0.66 {4}

0.33 {3}

0.33 {2}

1 {1}

Support Item set

C1

0.66 {4}

1 {1}

support Item set

0.66 {4}

1 {1}

support Item set

L1

0.66 {1,4}

support Item set

0.66 {1,4}

support Item set

C2

Scan D

0.66 {1,4}

support Item set

0.66 {1,4}

support Item set

L2

圖 3.2 產生候選項目集和準大項目集

表 3.4 各項目支持度

項目集 最小支持度

ATAPI 介面無法偵測 1

LED 一直恆亮 0.66

ATAPI 介面無法偵測, LED 一直恆亮 0.66

即 X U Y 的支持度達到最小支持度的集合,以 X U Y 的支持度除以支持度,以計 算出 X->Y 的信賴度。若信賴度達到使用者定義之最小信賴度(Minimum confidence),

則關聯法則 X->Y 成立。假設最小信賴度(Minimum confidence)為 0.1,由表三中經由關 聯規則探勘後,可以得到最後的關聯關係。在此 X 代表著: LED 一直恆亮、Y 代表著:

ATAPI 介面無法偵測。

表 3.5 探勘結果

先前問題 最後結果 最小支持度 最小信賴度

LED 一直恆亮 ATAPI 介面無法偵測 0.66 1

ATAPI 介面無法偵測 LED 一直恆亮 0.66 0.66

以上是按 Apriori 的原則:任何頻繁項目集中的項目都是要頻繁的出現在集合中。

根據表三可以得知當機台的 LED 一直恆亮時,代表可能 ATAPI 介面有問題,反 之,當 ATAPI 介面有問題時,代表的是有 66%會造成 LED 一直恆亮。

當然,在關聯式法則探勘中要找出關連式的規則,而規則的多少是決定於最小支

持值的門檻,而最小支持度的決定就需要領域專家不斷的反覆進行資料探勘挖掘的程 序,來找出一個適當的值。

在文檔中 中華大學 (頁 39-43)

相關文件