大型資料庫中概括性的知識擷取技術之研究

(1)

行政院國家科學委員會專題研究計畫成果報告

大型資料庫中概括性的知識擷取技術之研究 Mining Generalized Knowledge in Large Databases

計畫編號：NSC90-2213-E-011-046 執行期限：90 年 8 月 1 日至 91 年 7 月 31 日

主持人：呂永和 {[email protected]} 國立台灣科技大學資訊管理系計畫參與人員：洪振洲、廖珠惠、陳怡靜、邱士軍

一、中文摘要

資料探勘的目的是從大量資料中找出潛在的、有用的知識。目前已有很多有效的資料探勘方法；然而，這些方法普遍存在一個問題，那就是它們所產出的知識過多，使用者無法輕易地找出所需的知識。本研究使用分類階層的概念，找出較具一般性的知識，以方便使用者找的他所需的知識。本研究的主要成果有二。一為開發一個在關聯式資料庫中，探勘具有概念階層的關聯規則演算法；二為開發一個在交易資料庫中探勘具概念階層的序列型樣演算法。這兩個方法均有實作，並已在第七屆人工智慧與應用研討會發表。

關鍵詞：概念階層、多階層關聯規則、多 階層序列型樣

A b s t r a c t

The purpose of data mining is to dredge implicit and useful patterns from large databases. Many efficient data mining algorithms have been developed. However, they all face with the same dilemma. That is, too many patterns discovered such that users are drowned in the sea of the discovered patterns. To help users to discover related patterns, we include concept hierarchies in data mining algorithms. The multilevel association rule mining algorithm can discover generalized association rules from relational databases. The multilevel sequential pattern mining algorithm can discover generalized multilevel sequential

patterns from a transactional database. Both algorithms have been published in the seventh conference on artificial intelligence and applications.

Keywords: Concept Hierarchy 、Multilevel Association Rules、Multilevel Sequential Patterns

二、緣由與目的

一般的資料探勘演算法所找出來的型樣都太多，使用者不易發現他真正想要的型樣。本研究將概念階層的概念，融入資料探勘演算法之中，使的所找出的型樣較具一般性，使用者更可以找到他所想要的型樣。

三、結果與討論

(一) 多階層關聯規則演算法

在多階層關聯規則演算法方面，主要的議題是關聯式資料庫表格中數值欄位內容值的切割問題。由於所切割的區段(interval) 需具代表性，且其支持度要夠大；因此，我們採用由使用者提出一個初步切割，當作一個參考 (hints)，再由動態切割找出具有足夠支持度的區間，再用這些區間來調整參考區間的大小。所找出的區間則具有代表性及足夠的支持度。另外，我們將數值欄位所對應的概念階層樹轉化為一個概念階層表，及一個欄位記錄表，用來記錄資料內容的父子關係以及哪些

(2)

資料內容是屬於同一棵階層樹；父子關係資料是用來累加子節點的支持度到父節點之中，而欄位記錄表是用來避免同一欄位的不同值所對應的資料項出現在同一個關聯規則中，因為這樣產出的規則是沒有意義的。最後，我們記錄支持的方式是如果有一筆資料的值是落在某一數值資料的區段中，這筆資料對該區段所對應的項目的支持度的貢獻度為 1 ；對於類別性欄位，若一筆資料的值為該欄位的某一特定值，則這筆資料對該值所對應的資料項的支持度的貢獻度為 1。本演算法的其它部份則是沿用我們之前所開發的布林演算法 [1] ，將項目組及交易資料編碼；利用兩個項目組編碼後的項目作邏輯的 OR 運算，求得新的項目組；而新項目組的支持度是由原兩項目組所對應的交易資料作邏輯 A N D 運算而得。詳細方法請參考 [2] 。資料表、概念階層樹、概念階層表及欄位記錄表如所示：

表 1:資料表

表 2:概念階層表

表 3:欄位記錄表

(二) 多階層序列型樣

所謂多階層序列型樣是指在項目概念階層中所存在的序列型樣。例如可以從顧客的購買行為上，找出大部份顧客在其不同交易中採購物品的先後順序行為。而這些商品是建立在一個既定的項目概念階層架構中。

在銷售資料庫的每一筆交易中每一個商品項目及其所屬類別都有個唯一編號。如下圖 3，此概念階層架構共有三層，第三層(最底層)為 Product，第二層為 C lass ，第一層 ( 最頂層 ) 為 Category，例如產品 A 的上層 Class 為 D，再上一層為 F。編號的順序則是由

Name Area Age John Taipei 18 Mary Kaohsiung 26 Amy Taoyuan 48 Jane I-lan 46 Alex Taichung 25 Chery Chiayi 35

圖 1: Age 的概念階層

S e q _ n o N o d e P a r e n t L e v e l

1 Taipei 北部 0

2 Taoyuan 北部 0

3 I_lan 北部 0

4 Taichung 中部 0

5 Chiayi 中部 0

6 Kaohsiung 南部 0

7 北部 Area 1

8 中部 Area 1

9 南部 Area 1

10 0,18 Age 0

11 18,30* Age 0

12 22,35* Age 0

13 44,60* Age 0

14 61,100 Age 0

F i e l d _ n a m e

S e q _ n o ( s t a r t )

S e q _ n o ( e n d )

T r e e _ n o A t t r i b u t e t y p e

Area 1 9 1 2

Age 10 14 2 1

圖 2 : Area 欄位的概念階層樹

(3)

最底層的 Product 開始，給予每一商品項目唯一編號，接著再對 Class 以及 Category 層級項目依序編號，完成後並將其轉換成位元字串。

項目編號位元字串

A (1) 1000000 B (2) 0100000 C (3) 0010000 D (4) 0001000 E (5) 0000100 F (6) 0000010 G (7) 0000001

我們將商品分類的資訊轉換成位元資料型態，形成表格 TP(Table of Parent)。TP 分成 TP1 與 TP2 兩個部份，

TP1 代表為儲存項目的資料表格（包括概念階層的上層項目），並用 TP2 來記錄某一項目的上層資訊，也就是以 TP 表格中的的一列 (TP1∪TP2) 代表了一個項目與其階層資訊。 TP1 及 TP2 的欄數都為所有項目總數 ( 包含上層分類項目) ，在 TP1 中若第 i 個位元為 1 代表此項目為項目 i；而 TP2 中若第 j 個位元為 1，代表項目 i 的 Parent 為第 j 個項目。我們將圖 3 的項目的各分類階層編號轉成表 4 的 TP 表格。

表 4.TP 表格 TP1 TP2

項目

編號 1 2 3 4 5 6 7 1 2 3 4 5 6 7 (1) 1 0 0 0 0 0 0 0 0 0 1 0 1 0 (2) 0 1 0 0 0 0 0 0 0 0 1 0 1 0 (3) 0 0 1 0 0 0 0 0 0 0 0 1 0 1 (4) 0 0 0 1 0 0 0 0 0 0 0 0 1 0 (5) 0 0 0 0 1 0 0 0 0 0 0 0 0 1 (6) 0 0 0 0 0 1 0 0 0 0 0 0 0 0 (7) 0 0 0 0 0 0 1 0 0 0 0 0 0 0

由於在商品的概念性階層架構下，若消費者購買了商品項目 A，同時也代表了購買 D Class 以及 F Category 的商品。為能表現出這些資訊，我們只要將第 i 項的 TP2 與第 j 項的 TP1 進行 A N D 運算，即可判定第 j 項是否為第 i 項的上層，用以表現出上層商品類別被購買的交易資訊。

本研究計劃中，對於多階層序列型樣的探勘發展了一套以布林演算法為基礎的探勘技術。此探勘技術可以在大

型資料中有效率找出具有階層概念的序列型樣。演算法進行的步驟主要為:(1) 資料轉換與表格的建立； (2) 高頻項目組的產生；(3)高頻序列的產生。

由於序列型樣是以顧客為主，因此由使用者輸入的最小支持度必須乘於總顧客數，得到最小支持顧客數，且一顧客的交易對於每一項商品的支持度最多僅貢獻一次。此部份支持度的計算，我們可以透過布林運算方法來達成。之後尋找高頻 k- 項目組時，因為我們的項目組有階層關係，為避免找到太多重覆的規則，合併的項目組必須排除具有階層關係的組合，我們修改布林演算法，尋找高頻項目組[3]。以 TP1 及 TP2 檢查兩個項目組是否有階層關係，以避免產生一個項目組中包含多個具有階層關係的項目。當高頻項目組產生之後，將之重新編碼，並以之當作高頻- 1 序列；最後，使用位元串列運算的概念 [4] ，結合我們所設計的資料結構，找尋多階層的序列型樣。

四、計劃結果自評

1、研究內容與原計畫相符程度

本研究內容與原提案計畫內容相符。

2、預計達成目標狀況

本計畫所列的項目均順利完成。

3、研究成果的學術或應用價值

演算法有實作，且都能順利執行；因此，具有實用價值。其在學術上亦多所突破。

4、是否適合在學期刊上發表

適合在期刊上發表，其中多階層關聯規則演算法機會較大。

五、參考文獻

1. S.Y. Wur and Y. Leu, "An Effective Boolean Algorithm for Mining Association Rules in Large Databases," 6^th International Conference on Database Systems for Advanced Applications (DASFAA), Hsinchu, Taiwan, F G

D E

A B C

圖 3. 概念階層及資料轉換

(4)

2. 呂永和, 張淑貞“ 關聯式資料庫中多階層數值關聯規則之探勘,” Seventh Conference on Artificial Intelligence and Applications, 2002

3. 呂永和, 賴瓊惠,劉佳灝, 吳素英 ,”以布林演算法為基礎的多階層序列型樣探勘技術 ,”

Seventh Conference on Artificial Intelligence and Applications, 2002.

4. 顏秀珍, 何仁傑, 邱鼎穎, ”從大型資料庫中挖掘感興趣的型樣 ,” Fifth Conference on Artificial Intelligence and Applications, pages 84-91, 2000.

(5)

行政院國家科學委員會補助專題研究計畫成果報告

※※※※※※※※※※※※※※※※※※※※※※※※※※

※ ※

※ 大型資料庫中概括性的知識擷取技術之研究 ※

※ ※

※※※※※※※※※※※※※※※※※※※※※※※※※※

計畫類別：□個別型計畫 □整合型計畫計畫編號：NSC 90－2213－E－011－046

執行期間：90 年 8 月 1 日至 91 年 7 月 31 日

計畫主持人：呂永和共同主持人：

計畫參與人員：洪振洲、廖珠惠、陳怡靜、邱士軍

本成果報告包括以下應繳交之附件：

□赴國外出差或研習心得報告一份

□赴大陸地區出差或研習心得報告一份

□出席國際學術會議心得報告及發表之論文各一份

□國際合作研究計畫國外研究報告書一份

執行單位：國立台灣科技大學資訊管理系

中華民國 91 年 10 月 31 日 ˇ