資料採礦流程

第三章研究方法

第四節資料採礦流程

一資料採礦定義

資料採礦常係於資料中採集出有用的資訊，利用其找出的資訊加以分析建模並做判斷，資料採礦常運用於商業或非商業之問題，可用以預測未來走向及輔助決策者下決定之依據，因此廣泛運用於企業界中。

資料採礦（Data mining）技術，是由強大的統計、人工智慧、機器學習和資料庫研究基礎而成（Mikut and Reischl， 2001），即是從即從大量的、有雜訊的與模糊的資料庫中萃取出隱含的、有規律的、事先未知的且有用的資訊（Frawley et al.， 1992；

張云濤、龔玲，2007; 黃一家，2011），將資料中有用的、從未看見過的、可能有用的及易於理解的模式，萃取出來的過程（Fayyad et al. 1996）。

表 9

資料採礦之定義

作者年代摘要

Berry and Linoff 1997

資料採礦是為了找出規則及模型，須由大量的資料中透過自動或半自動的方式來探勘和分析。

Anand， Patrick，

Hunges and Bell

1998 不同的資料採礦目標會使用不同的資料採礦工具。

尹相志 2003

資料採礦是利用統計及機械學習的演算法，啟發性的從大量資料中找尋隱藏具有商業價值的知識與規律，以作為自動化商業策略之應用。

Kima and Street 2004

說資料探勘是現在眾多行銷方法，尤其是以資料庫的內容為基礎者，所必備而不可或缺的方法之一。

Lee， Chiu，

Chou and Lu

2006

資料庫知識發現過程，有系統的著手去發現在資料中隱含的模式、趨勢和關係。

資料來源：本研究自行整理

二集群分析法

集群分析（Cluster Analysis）是利用已知的分類方法，將欲分析觀察之對象加以歸類，同類別之觀察對象其同質性（homogeneity）越高越佳，而不同類別則其異質性（heterogeneity）越高越佳，一般常見的集群分析法有三大類，6 種方法。

多變量分析

K-means 是集群分析(Cluster Analysis)中一種非階層式(Nonhierarchical)的演算方法，其指定全部個體要分成 k 群，先給定各群一個質量中心點(mean)，然後依各個體到各中心點距離遠近，重新移動個體到最近的群體，並算出各群體新的中心點，這樣繼續移動各個體到最接近的群，如此重複進行直到個體不能再移動為止。其中距離總偏移值以 E 表示，x 表一資料點，表集群的質量中心，表集群中所涵蓋之資料點數量 (曾憲雄等人，2005)。若樣本的分群數已知，則 K-means Cluster 分群法可以將所有樣本分為指定的群數，而且比較不容易受到不適當的屬性(構面)、異常點與不同的相似度所影響。

步驟一：假設有 N 筆資料集{X1， X2，…， Xn}中隨機選擇 K 個初始群集(Initial cluster)。

步驟二：使用歐基里德距離 (Euclidean distance)，計算資料分配至距離平均值最近之群集，分配不同資料 Xi (i=1， 2，…， n)到 Cj 集群，計算方式如下：

∥Xi－Zi∥≦∥Xi－Zp∥

Xi：代表每一筆不同資料

Zi：初始群集之各平均值，j={1， 2，…， K }

Zp：初始群集之各平均值，p={1， 2，…， K }，且 j≠p

步驟三：計算新的分群平均值 Z1*， Z2*，…， Zk*，計算方式如下：

Zi*=



 i j

i x c

n x 1

Zi*：新分群之各平均值，i=1， 2，…， K

ni、ci：各分群中之資料筆數，ni 是屬於集群 Cj 的資料向量數之一。

步驟四：當 Zi*=Zi，^i=1， 2，…， K 即停止，否則繼續回到步驟二重新計算。

除非在步驟四結束，否則資料會持續處理到預先設定的疊代數量才結束。

兩階段集群法(Two-Step method)第一階段以華德法(Ward’s method)做分群，決定群組個數 k，第二階段再以 K-means 進行集群，移動各群組內的個體，但要保持全部群組仍有 k 個(陳順宇，2005)。

三關聯法則

關聯法則(Association Rules)是由 Agrawal 等幾位學者於 1990 年代所提出的一種資料探勘的方法，目的是希望從一群龐大的交易資料項及屬性間，找出彼此間有關聯之規則，這些規則能有效地揭示未知的關係，並提供預測和決策的結果(林湘霖，2012)。

關聯法則(Association Rule)演算法是資料探勘上常應用的手法之一，主要是用於分析大量交易資料(Transaction Data)，目的是減少潛在且雜亂無章的數據，從中找出各項目之間的關聯性，使之成為易於觀察理解的關鍵靜態數據(侯翔齡，2012)。

Agrawal 提出其定義如下，令 I =

{

¹， i² ， i³ ，...i^m

}

為一群項目的集合(Items)，D 是所有交易紀錄(Transaction)T 的集合，T 在 I 中任意項目的子集合，每筆交易為 I 之非空子集合，且有一對應之唯一 ID。項目的集合稱為項目集合(Itemset)，此項目集合所包含的項目之個數為此項目集合的長度，若長度為 K，則稱此項目集合為 k-項目集合 (k-itemset)。Support(X)為每個項目集合 X ⊂ I ，是衡量於 D 中之統計重要性之度量單 位，即 D 中包含 X 的交易所占的比例。

關聯法則的形式定義為 X Y，其中 X、Y ⊂ I，且 X ∩ Y = 0 。X 稱為前因項目集合(Antecedent Itemset)，而 Y 則稱為後果項目集合(Consequent Itemset)。每一條關聯法則都有支援度(Support)與信心度(Confidence)這兩個參數，用來判斷所找出的關聯法則是否有意義，而一個強關聯的規則，其支援度與信心度通常都很高，但是支援度和信心度高的關聯不一定代表其有很高的關聯性，因此我們必須檢視提昇值(Lift) 是否大於 1。

A. 信心度(Confidence)：

信心水準顧名思義就是到底這條規則的準確度有多少，從條件機率的公式看來，等於在 A 的條件下發生 B 的可能性，因此公式可以利用下式表示：

Conf(X → Y) =項目集合 X 與 Y 同時在資料庫中出現的總次數 2𝑎項目集合 X 在資料庫中出現的總次數 B. 支援度(Support)：

信心水準高固然表示規則具有高準確度，但是否值得轉化為行銷組合呢？所以還要參考支持度。支持度指的就是符合這條規則的交易次數。支持度的公式如下：

Sup(X) = 項目集合 X 在資料庫中出現的總次數資料庫中的總交易筆數

C. 提昇值(Lift)：

為減少支持度與可靠度兩指標造成的偏誤，要考慮相關性（correlation），進行相關分析（correlation analysis），即所為的增益值（Wang et al., 2004）。

當 Lift 值＞1，則 A 與 B 間有正向關係當 Lift 值＝1，則 A 與 B 間沒有關係當 Lift 值＜1，則 A 與 B 間為負向關係

Apriori 演算法為關聯法則中最具代表性的演算法之一，以由 Agrawal et al. (1994) 提出的，之後所提出的關聯規則演算法大都有其延伸，步驟如下：

1. k=2，找出在(k-1)-項目集合時，有通過支持度的所有(k-1)-項目集合。

2. 從所有(k-1)-項目集合裡找出有 k-2 個項目相同的兩個集合，並由相同的 k-2 個集合與其他相異的 2 個項目組成 k-項目集合。

3. 檢視在所有(k-1)-項目集合裡，是否有 k-項目集合所能包含的所有(k-1)-項目集合的子集合，若有全部包含，進行步驟 4；若無，則刪除 k-項目集合重新進行步驟 2 找出新的 k-項目集合。

4. 驗證 k-項目集合在所有資料筆數中的支持度是否大於最低支持度，若有超過，則進行第 5 步驟；若沒有超過，則刪除 k-項目集合重新進行步驟 2 找出新的 k-項目集合。

5. 計算 k-集合項目內所包含的關聯法則的信心度，若信心度有超越門檻值，

則關聯法則成立。

6. 重複步驟 2 到步驟 5，直到沒有新的 k-項目集合為止。

7. 當 k-項目集合還有大項目集合時，回到步驟 2 進行(k+1)-項目集合的下一輪運算。

第三章研究方法

第一節問卷設計概念

本研究係以問卷調查做為研究工具，其內容的設計參考相關文獻擬定，並依照職業軍人之工作內容及背景修改而定之，本問卷分為三部分，第一部分為「個人基本資料」，內容依據軍人工作背景製定年齡、性別、教育程度、階級、工作地點及工作型態等 6 個題項，教育程度部份分別以部隊最常見的高中職、專科、

大學及研究所等 4 項來定之，階級部分以中華民國國軍現有軍階編制依序由二兵至上校階級等 13 階定之，惟國軍現有將官人數於部隊中為少數，固本研究並未將將官階級納入研究範圍，工作地點也將其分為北、中、南、東及外離島，工作型態部分依照軍隊特性本研究將工作性質區分為領導(主官管)職務、文書(幕僚)職務、

技勤職務、後勤補給職務及一般勤務，第二部分為「使用行為」，此部分探討軍人對智慧型手機的使用行為特性，內容包含使用時間、地點、動機等 5 個題項，

第三部分為「智慧型手機的需求」，內容共計 9 個題項，對其個人使用需求做調查。依此架構擬編問卷題目，與指導教授討論後，修改表達不明、語意不順、作答困難之處後完成預試問卷之編定。本研究之研究對象為中華民國國防部陸軍司令部下轄各級單位志願役官士兵。

第二節問卷修訂

問卷產出後，本研究於 104 年 11 月 2 日至 104 年 11 月 20 日實施預試，對象以陸軍航空特戰指揮部某單位官士兵做為預試對象，軍官、士官、兵做為分層並採隨機方式發放問卷測試，共計發放 30 份預試問卷，回收 28 份，有效問卷 26 份，

經回收整理後發現 2 份無效問卷，檢視其內容一份為受試者每題項階勾選第一選項，本研究定義為無效，另一份受試者則漏填一題項，本研究也將其定義為無效問卷，而其餘預試問卷經整理和訪談後隨即做修改，以下為修改部分：

1. 第一部分「個人基本資料」第 6 題「工作形態」，因有受試者反映其工作內容為「技勤修護」，而選項中並無相關可填選，故將此題選項增訂一項「技勤職務」。

2. 第二部分「使用行為」第 9 題「請問您，使用智慧型手機的動機？（複選，

項次題

□社交(line 或 facebook 等)

□財金(yahoo 股市等)

□生活娛樂(Youtube 或 KKbox 等) 生活娛樂(Youtube 或 KKbox 等)

項次題

第三節問卷發送

發送對象為中華民國陸軍司令部所屬各層級單位官士兵，利用網路並透過相關社群為平台發送如 Facebook 社團之陸軍專科學校校友會及 LINE 社群轉傳等，

以便利抽樣方式隨機發送，樣本涵蓋北、中、南、東、外離島，如圖 5。

電子問卷

網路相關社群

北部士官兵中部士官兵南部士官兵東部士官兵離島士官兵

圖 5 問卷發送示意圖

第四節資料採礦流程

資訊時代來臨，人們能更輕易地取的資訊，相對得到的資訊數目也日益龐大，

為了更有效率的使用資料，人們開始利用電腦處理龐大的資料，運用電腦快速的運算能力處理海量的資料，將大數據有條理的排列分析，並能重複地整理運用，

從中找出更多有價值、可利用的資訊，作為決策或預測未來發展，Apriori 演算法為研究關連法則中最具代表性的一個，本研究利用此演算法從資料庫中找出有意義的項目，經過此演算法的演算，找出資料的規則，如下圖 6。

圖 6 資料採礦流程圖

在文檔中資料採礦應用於職業軍人之智慧型手機使用行為分析 (頁 35-49)

第三章 研究方法

第四節 資料採礦流程



{

}

第三章 研究方法

第一節 問卷設計概念

第二節 問卷修訂

第三節 問卷發送

第四節 資料採礦流程

第三章研究方法

第四節資料採礦流程

第三章研究方法

第一節問卷設計概念

第二節問卷修訂

第三節問卷發送

第四節資料採礦流程