• 沒有找到結果。

第三章 研究設計

第三節 資料採礦

資料採礦在過去經常被應用於解決各種商業及非商業問題,從資料中採礦出 有用的資訊與知識,進而做出判斷,以輔肋未來進行預測及決策,因此廣被企業 所接受。

資料採礦(Data mining)技術,即是從即從大量的、有雜訊的與模糊的資料 庫中萃取出隱含的、有規律的、事先未知的且有用的資訊(Frawley et al., 1992;

張云濤、龔玲,2007; 黃一家,2011),是由強大的統計、人工智慧、機器學習和 資料庫研究基礎而成(Mikut and Reischl, 2001)。

Fayyad et al.(1996)「資料探勘」是從資料庫中挖掘出不明確、前所未知以及 潛在有用的資訊過程。Fayyad 同時區分出資料庫中之知識發掘流程(KDD process)

與資料探勘之不同:知識發掘流程指自資料庫中選擇合適資料、資料處理、資料 轉換、資料探勘至結果評估之一連串過程,而就狹義定義而言,資料探勘(Data Mining)只是知識發掘流程中的一個核心步驟。

(一) 資料採礦功能

Elmasri and Navathe(2000)將較常在資料採礦的實際應用功能方面,分成下 列幾項:

1.分類模式(Classification):是指將資料依據事先定義的特徵或屬性,將未歸 類的資料進行分類的工作,或根據已知的分類資料的屬性變異來進行運算,得到 一定規則後,再將未知資料帶入規則以得到最後的分類結果。

2.集群模式(Cluster):集群模式是根據資料本身的特性來將資料進行分組的 一個程序。在經過不斷的修正過程後,集群的特性將會在群組本身的特徵上顯現 出來;換而言之,集群的目的就是要將群組間的差異識別出來,並進一步的指出 個別群組間的相似性。所以事實上集群模式 與分類模式是不同的,其差異在於分 析之前不需要先定義好要如何分類,所以分析者並不會知道要以何種方式或規則 來進行分類集群。

3.迴歸模式(Regression):回歸模式乃是在了解及建立預測變數(X)與準則 變數(Y)之間的關係。主要是針對現有資料進行運算,並且利用預測變數的數值 來預測準則變數的結果來建立預測模型。

4.時間數列分析(Time-Series Forecasting):時間數列分析與回歸模式的功能 很像,回歸模式它是用現有的數值來預測未來的數值;時間數列分析在於它所分 析的數值都與時間有關。時間數列分析可以處理有關時間的一些特性,譬如時間 的階層性(例如每個月 9 個或 10 個休息日)、季節性、節日、及其他的一些特別 因素。

5.關聯式分析(Association):關聯式分析是在找出在某一事件或是資料中同 時出現的東西。關聯式分析主要是要找出下面這樣的資訊:如果 dataA 是某一事件 的一部份,則 data B 同時出現在該事件中的機率有 X %。主要著重點在於關聯性 可信度(Support-Confidence)的架構。

6.順序分析(Sequence Discovery):順序分析模式是針對資料的順序關係進行 採礦,例如:時間上的順序、行為上的順序等,主要是希望能找出趨勢或順序上 的分析資訊。

(二) 資料採礦流程

李建億、蔡芳遠(2004)把資料採礦流程整理了四個階段,流程如下:

第一階段:資料整合與修正 ─ 想要從龐大的資料庫發掘知識,首先必須先將 許多錯誤、遺失、重複、不一致性及不完整的資料刪除,並依目的做適當的資料 選擇。經過處理的資料將會被放入資料倉儲(data warehouse)中,若無資料倉儲 的設計,可以直接和第二階段合併處理。

第二階段:資料選擇與轉換 ─ 從資料庫中選取對於資料探勘有關的欄位或資 料,並進行資料格式的轉換或衍生變數的設計。

第三階段:樣式粹取 ─ 根據第二階段處理之後所產生的資料,選擇適當的探 勘方法進行樣式粹取,至此才能進入真正的核心工作 ─ 資料探勘。所得到的樣式 若是不感興趣則可以再從前兩個階段進行資料處理;若已產生有興趣的樣式,則 可進一步評估或展示。

第四階段:評估和展示 ─ 接下來以領域知識為基礎,將探勘所得到的資訊或 樣式加以測試與檢驗,並嘗試解釋與評估所發掘的樣式,是否能符合原先的期望,

若所得結果並不理想,則可以從第一階段到第三階段再次處理。若結果令人滿意,

則將探勘出來的資訊或樣式以最簡單的圖表方式呈現出來,以利提供決策支授之 用。

(三) Apriori 關聯法則

廖述賢、溫志皓(2009)資料採礦與商業智慧一書中提到在資料採礦的領域 中,關聯性法則(association rule)是最常被使用的一種方法。關聯性法則在於找出資 料庫中資料彼此間的相關聯性,這種方法現已經普遍運用於各領域中。此外,在

關聯性法則之使用中,Apriori 是最為著名且廣泛運用的演算法。

Apriori 關聯性法則的產生由兩個參數來決定:支持度(support)及信賴度

(confidence)。支持度的定義為決策變數在資料庫中所出現的比例,表現形式為 Sup,

支持度越高,越值得重視,支持度介於 0%和 100%之間。信賴度的定義為此關聯 性法則可信的程度,表現形式為 Conf,信賴度度介於 0%和 100%之間。

一般而言,關聯性法則的支持度及信賴度度皆必須分別大於使用者訂定的最 低限制,才能依此判定其為有意義的關聯性法則。為減少僅憑藉此兩項指標可能 造成之偏誤,因此,應該要再考量相關性(correlation),進行相關分析(correlation analysis),此處所提到相關分析,即為提昇值,提昇值表現形式為 Lift。

信賴度(Confidence):

信賴水準顧名思義就是到底這條規則的準確度有多少,從條件機率的公式看 來,等於在 A 的條件下發生 B 的可能性,因此公式可以利用下式表示:

Conf(X → Y) =項目集合X 與 Y 同時在資料庫中出現的總次數 2𝑎項目集合 X 在資料庫中出現的總次數 支援度(Support):

信心水準高固然表示規則具有高準確度,但是否值得轉化為行銷組合呢?所 以還要參考支持度。支持度指的就是符合這條規則的交易次數。支持度的公式如下:

Sup(X) =項目集合X 在資料庫中出現的總次數 資料庫中的總交易筆數

提昇值(Lift):

為減少支持度與可靠度兩指標造成的偏誤,要考慮相關性(correlation),進行 相關分析(correlation analysis),即所為的增益值(Wang et al., 2004)。

當 Lift 值>1, 則 A 與 B 間有正向關係 當 Lift 值=1, 則 A 與 B 間沒有關係 當 Lift 值<1, 則 A 與 B 間為負向關係

Apriori 關聯性法則步驟流程:

1.定義最小支持度(Min-Sup)和最小信賴度(Min-Conf)

2.Apriori 演算法使用候選項目集合的觀念,若候選項目集合之支持度大於最小支 持度,則該候選集合項目為高頻集合項目。

3.由資料庫讀取所有數據,求出候選 C1 的支持度,再找出高頻項目集合 L1,並利 用這些高頻向目集合找出候選 C2。

4.再 SCAN 資料庫,得出 C2 的支持度後,找出高頻 L2,再利用這些高頻 L2 結合 找出候選 C3。

5.重複步驟 3-4,直到不能產生新的候選項目集合為止。

根據上面相關研究本研究整理 Apriori 關聯法則步驟如圖 5:

資料庫整合

定義Min-sup及Min-conf

SCAN資料庫

是否產生候選項目集合

產生候選項目集合的支 持度

找出高頻項目集合

結束

NO

YES

圖 5 Apriori 關聯性法則步驟流程(資料來源:本研究整理)

相關文件