隨著組織資訊化程度的不同,過去一般都認為,用電腦替代手 工,用電腦報表替代手寫資料就稱為資訊化,以現在的眼光而言,這 些只能稱為「自動化」。自動化過程會在資料庫中產生無數龐大的資 料,而這些資料一般都只是平時的交易記錄,有效的利用資料庫進行 資訊的獲取,進一步產生知識或規則才是歷史資料的最大貢獻。隨著 競爭環境的加劇,如何能夠快速有效的從資料庫中取得有用的資訊,
並從交易記錄中進行推論,即時反應市場或消費者的需求,成為各企 業組織急欲尋找的答案。資料挖掘所要處理的問題,就是在龐大的資 料庫中尋找出有價值的資訊,並且加以分析,以形成知識。
一、資料挖掘的意義
所謂資料挖掘也有人譯為資料採礦,就是「從大量的資料庫中,
找出相關的模式(Relevant Patterns),並自動地萃取出可預測的資訊。」
【15】,而這當中最重要的是「自動化」的過程,否則組織很難有利 可圖,Witten【9】等人認為「發現資料模式為自動化或半自動化過 程,且必須有意義並帶來利益」,之所以譯為「採礦」,就是要從如山 的龐大資料中,像開採寶物一樣的開採有用的資訊。這樣的概念並非 首創,統計學裡的迴歸分析和盛行的資料庫管理系統也具備類似的功
能,但前者通常先有假設後再去驗證這個假設是否正確;後者對資料 庫進一步的分析能力有限。只有資料挖掘是兼具統計與機器學習的技 術,建立能自動預測的模型,同時可以與商業資料倉儲(Commercial Data Warehouse)結合,發展出有價值的商業用途。
資料挖掘必須搜集大量資料,理論上資料量愈多準確性越高,但 各資料間卻不須要有明顯的關係。挖掘的特性是利用各種統計方法,
找出一些沒有預期的交易傾向,再按照分析所得來的知識調整商業運 作的模式。
根 據 Fayyad 等 人 的 定 義 , 資料挖掘是資料庫的知識探勘 (Knowledge Discovery in Database:KDD)過程中的一個步驟【7】,但事 實上,KDD 也可視為是整個資料挖掘的過程,KDD 在 1989 年第一 次被提出,它強調知識是資料導向的最終產品。由於傳統關聯式資料 庫管理系統 (Relational Database Management System:RDBMS)的 設 計,是以組織功能的角度來定位,因此各種資料會以功能導向的方式 被分別儲存在不同的資料庫中,彼此間並被定義成某程度的關聯。要 分析的資料常是各欄位值彼此的關係,此分析方式不是關聯式資料庫 的主要運作方式,使用者無法輕易的從中獲取有用的資訊。
在 Fayyad 等人的研究中,KDD 建構了完整的知識發現流程,如 圖 2.1【7】所示,步驟說明如下:
1.理解資料與定義資料:準備並了解 KDD 相關領域的有關情況,熟 悉有關的背景知識,並弄清楚用戶的需求。
2.創造目標資料:資料的選擇是根據用戶的要求從資料庫中擷取與 KDD 相關的資料,主要從這些資料中進行知識擷取,在此過程中,
會利用一些資料庫操作對資料進行處理。
3.去除錯誤資料與清理資料:資料需預先經過處理主要是對階段 2 ? 生的資料進行再加工, 檢查資料的完整性及一致性,對其中的錯 誤資料進行處理,對遺漏的資料可以利用統計方法進行填補,對繁 蕪的資料進行清理。
4.資料的濃縮與轉變:資料濃縮是對經過預先處理的資料,根據知識 發現的任務對資料進行再處理,主要透過鏡射的方式或資料庫中的 其他操作減少資料量。
5.發展模式與假設:確定 KDD 的目標,根據用戶的需求確認 KDD 是 發現何種類型的知識,因? 不同需求會在具體的知識發現過程中採 用不同的知識發現演算法,選擇合適的演算法包括選取合適的模型 和參數,並使得知識發現演算法與整個 KDD 的評判標準相一致。
6.資料挖掘:運用選定的知識發現演算法,從資料中擷取出用戶所需 要的知識,這些知識可以用一種特定的或一些常用的方式表示。
7.測試與檢核所挖掘的資料:將發現的知識以用戶能了解的方式呈現 出來。這期間也包含對知識一致性的檢查,以確信本次發現的知識 不與以前發現的知識相抵觸。
8.解釋與運用挖掘的知識:對發現的模式進行解釋,在此過程中,?
了取得更? 有效的知識,可能會重複前面的處理步驟反覆擷取,從 而提取出更有效的知識。
Data
Target Data
Preprocessed Data
Transformed Data
Patterns
Knowledge
Selection
Preprocessin g
Transformation
Data Ming
Interpretation Evaluation
圖 2-1 資料庫的知識探勘(KDD)流程 資料來源:fayyad 等(1996)
二、資料挖掘的模型與方法
現有資料挖掘技術中,已有不少較為成熟且廣泛被應用的理論 模型。不同的資料模式下,選擇不同的資料挖掘技術,將影響執行的 效率與產出結果的適切性。現針對一些常見的資料挖掘模型與方法說 明如下:
1.模 型
在資料挖掘的一般理論中,藉由以下的模型來發揮其應用的功能:
A.分類(Classification)
根據不同的物件特性建立其屬性變數,當新物件加入時,可以 利用屬性變數加以判斷分類。例如昂貴跑車及豪華房車的消費群可 能多半是年輕的都會新貴及年紀稍長有錢人的不同分類。
B.推估(estimation)
推估所得到的結果通常是連續性的數值。藉由某些己知資料的輸 入,我們可以利用推估來得知某未知連續變數的值,例如收入、高度 或信用卡結餘。實際應用上,要進行分類常會用到推估,例如銀行要 判定那些顧客需要房屋貸款,通常會利用模型將每個顧客評分,這些 評分就是每位顧客對房屋貸款有興趣的機率推估【13】。
C.預測(Predictive Modeling)
以一個或多個獨立變數來找出某個標準(Criterion)或因變數的值
就叫做預測。任何預測都可視為分類或推估,但其中仍有不同點,因 為在預測中,會根據某些未來行為的預測來分類,或推估某變數未來 的可能值。在預測工作中,要檢視分類結果的正確性,只能等待其發 生後再加以觀察。例如:預測那些電話用戶會申請加值服務,如三方 通話或語音信箱。
D.群聚 分群(Clustering Segmentation)
群集化是將許多不同的群組,分成一些更相似的子群組或群集。
群集化和分類的不同點在於群集化並沒有預先定義好類別【13】。它 利用最近距離法做分群基礎,目的在於找出群與群之間的不同,以及 同一群內各個個體的相似點【15】。
E.同質分組或關聯規則(Affinity grouping or association rule)
同質分組的目的是判定那些事物會一起出現,又稱聯合性分析 (Association Analysis)。典型的例子就是購物籃分析,即判定超市中,
那些物品會一起被購買。零售連鎖商店可以利用同質分組來規劃店內 商品的擺設,也可以讓公司掌握交叉銷售的機會。
F.描述及視覺化(Description and visualization)
有時資料挖掘的目的,只是單純想用更容易瞭解的方式,來描述 一個複雜的資料庫中發生了什麼事。資料視覺化是一種強而有力的描 述式資料挖掘。像一張適當的圖表,會比一千條關聯規則更有價值,
因為從圖像來粹取有意義的資訊對人類所言總是容易多了【13】。
G.順序(Sequential Modeling)
以金融業為例,到銀行開戶的顧客中有 70%的人同時也會申請提 款卡,且平均在兩個月內會有申請信用卡的行為發生,這樣的分析就 是「順序」的研究結果【15】。
2.常 見 方 法
A.關聯式法則(Association Rule)
在資料挖掘技中,關聯式法則是最常被採用的方法之一,又 稱購物籃分析(Marketing Basket Analysis),屬於資料導向的行銷
(Data-Driven Marketing),主要目的是在企業交易紀錄資料庫中,
找出銷售項目間的關聯性,以期獲取較高的利潤。初期是運用在超 級市場上,藉由顧客以往的購買紀錄,分析那些產品通常是一起被 購買。例如購買手電筒的顧客,有 86%的顧客會買電池。根據分析 出的購物模式,將這些可能被一起選購的產品組合,放置在賣場位 置相近的地方,以增加購買機會,並減少顧客尋找的時間。同時亦 可以做為超商進貨或存貨的參考。
關聯式法則的表示形式為:T 代表顧客單次所採購的項目,假 設交易資料庫 D 為所有交易記錄(transactions)T 的集合。令 I 是 所有商品項目集合,I={i1,i2,i3,… .,im},其中 m 是資料庫之相異商
品。因此 T 為 I 中子集合,表示為 T
⊆
I。關聯法則的表示形式可以 定義為:在已知一個集合 X⊆
T 的情況下,若 X⊆
I,Y⊆
I,且 X∩
Y=φ
, 則 X⇒
Y。其中,X、Y 為項目集合【1】。關 聯 式 法 則 的 產 生 可 以 籍 由 下 個 參 數 來 決 定: 支 持 度
(Support)及可靠度(Confidence);支持度定義物項在資料庫中 所出現的比例,而可靠度定義此關聯式法則可信的程度。
現在假設一超市有六筆交易紀錄,所購買物品如下:
交易一:打火機、香菸、報紙 交易二:報紙、速食麵
交易三:香菸、打火機 交易四:報紙、可樂
交易五:打火機、香菸、速食麵 交易六:香菸、可樂
現在假設發現一關連法則為「如果購買香菸的顧客,那麼也 會購買打火機」其中,「購買香菸」稱為條件(condition),「購買 打火機」稱為結果(result),相關參數的說明如下:
1.支持度:又稱涵蓋率(coverage),為資料庫中符合 X∪Y 的 交易記錄佔全部交易之百分比,記為 support(X∪Y)。以 上述六筆交易紀錄為例,有三筆交易包含了香菸和打火機,
因 此 支 持 度 為 3/6=50% 。 支 持 度 表 示 法 是 非 方 向 性 的
(undirected),若關連法則從反方向思考,改為「如果購買 打火機的顧客,那麼也會購買香菸」,支持度仍然是 50%。
2.可靠度:又稱準確率(accuracy),顯示出此關連法則的可信 度。表示法為:在已知 X 出現的條件下,Y 也會出現的條 件機率。數學式為 support(X∪Y)/support X。延續上述「如 果購買香菸的顧客,那麼也會購買打火機」的例子,其支持 度為 50%,顧客購買香菸為其條件,支持度為 66.67%,因 此可靠度為 0.75(
≅
50%÷
66.67%)。相較於支持度,可靠度2.可靠度:又稱準確率(accuracy),顯示出此關連法則的可信 度。表示法為:在已知 X 出現的條件下,Y 也會出現的條 件機率。數學式為 support(X∪Y)/support X。延續上述「如 果購買香菸的顧客,那麼也會購買打火機」的例子,其支持 度為 50%,顧客購買香菸為其條件,支持度為 66.67%,因 此可靠度為 0.75(