資料採礦相關研究

第二章文獻探討

第四節資料採礦相關研究

依據外國學者Frawley, Paitetsky and Matheus (1991)做資料採礦解釋，是從資料庫中掘取具有潛在有用處的及不明確的資訊一項歷程。Berry and Linoff(1997)認為資料採礦是使用自動或半自動的方法對大量的資料進行分析，找出有意義的關聯或法則。綜觀所有學者對資料採礦的定義，大致上就是指從大型資料庫儲存的資料發掘一些有趣的規則。

在資料庫知識發掘的過程中，資料採礦是相當重要的一個環節，隨著資訊科技發展的迅速，資料採礦因結合許多領域的知識與技術，並提供各種企業有效增加其競爭優勢的資訊，因此，資料採礦技術已經被廣泛的應用到各種行業，諸如：

在金融保險業：直效行銷、交叉銷售、信用風險管理、流失分析；零售製造業：

分店設點區位分析、銷售產品組合、庫存管理、即時輔助購買決策；醫療生技業：

預防醫學分析、臨床病徵分析、基因圖譜比對、基因定序、演化分析、院內感染分析；教育業：學生來源分析、課程規劃、學習評量、適性化教學；網路行銷業：

顧客上網行為分析、網路入侵行為分析、網路學習；電信通訊業：通訊品質偵測、

定位應用服務、信用評分、客戶區隔、交叉行銷、客戶流失分析、銷售預測；航空業：顧客消費行為分析 (王智立、陳克琛、謝孟仁，2020) 。有關資料探勘在體育運動之相關文獻，如表4。

表 4 資料探勘在體育運動之相關文獻

資料來源：本研究整理

資料採礦功能可包含下列五項，這些功能大多為已成熟的計量及統計方法(謝邦昌，2005)：

(一)分類(classification)：

按照分析對象的屬性分門別類加以定義，建立類組(class)，且分類的結果是不連續的。例如將信用卡申請者的風險屬性，區分為高度風險申請者、中度風險申請者及低度風險申請者。

(二)推估(estimation)：

根據既有連續性數值之相關屬性資料，來計算某一屬性將來之值。例如依國人信

作者 使用技術 研究目的

羅旭壯(2006) 決策支援系統

應用資訊管理之技術來降低學校的營運成本，並能提供使用者好的服務品質。

Carson K. Leung, Kyle W. Joseph(2014)

類神經網路、決策樹、SVM

有助於發現有趣的知識並預測體育比賽的結果。

Liqiu Qian1 and Jiatong Liu(2020)

決策樹、類神經網

用卡申請之個人收入及教育程度來推估其信用卡使用消費量。推估所使用的方式包括統計方法上之類神經網路、迴歸分析與相關分析方法。

(三)預測(prediction)：

根據研究對象屬性之過去觀察值來推估該屬性將來之值。舉凡以學生過去之學習成績預測其未來之學習成績。其所使用的方式有類神經網路及迴歸分析。

(四)關聯分組(affinity grouping)：

將所有物件決定哪些具關聯的物件應放在一起，即相關屬性分門別類。例如文具店將相關之文具用品放置同一貨架上。在顧客的行銷系統上，用來確立交叉銷售 (cross-selling)的基礎來設計吸引顧客的促銷方案。

(五)同質分組(clustering)：

將一組研究對象分為相對同質的群組(clusters)，換言之其目的是辨識出組與組之間的差異，並對個別組內之相似樣本進行挑選。行銷術語中，同質分組相當於區隔化(segmentation)，但是假定之前並不會對區隔來做定義，而是讓資料在過程中自然產生出區隔。其所使用的技巧包括agglomeration法及k-means法。

曾淑峰、林志弘、翁玉麟(2012)對SEMMA建模程序做簡單敘明：SAS公司為了因應資料採礦軟體 (Enterprise Miner)所提出一種資料採礦作業流程。而此 SEMMA建模程序所代表的英文字首分別是： Sample(樣本 )、 Explore( 探索 )、

Model(模型)、Modify(修改)及Assess(評估)。

(一)樣本(Sample)：企業擁有錯綜複雜的資料庫，進行資料採礦，就是要將這些資料庫中取得一個與所設定探索的問題相關之樣本資料集，而非使用企業所有的資料，這樣不僅能減少資料的處理量，還能節省系統上的資源，藉由數據的篩選，更能反映且凸顯出資料規律性。

(二)探索(Explore)：透過樣本抽樣所得出的樣本資料集，並且藉由探索能獲得變數是否明顯呈現規律性，或者是趨勢資料品質能否達到我們預設的要求，可否區分成一項類別，變數之間是不是具相關性等等。

(三)修改(Modify)：經過樣本(Sample)、探索(Explore)兩個步驟的處理，將資料的趨勢和狀態做深度瞭解，促使對所要探索的問題更進展地了解變數的規律性與重要性，並修改操作特定的變數。問題越是明確，更能對變數進行調整及修改。

(四)模型(Model)：此步驟係最核心的流程，它是針對所提的問題來挑選最佳的模型套入資料採礦，透過模型發現資料內所蘊藏的規則或知識，藉此解決問題。

(五)評估(Assess)：程序來到最後一階段，將會產出一系列的分析模型、模式或結果，同一資料來源能運用多種模型和分析方法做資料採礦，其目的主要是從眾多模型中篩選出一個最好的模型，使用者即能運用此模型進行應用、分析及預測。

圖 2 SEMMA 流程圖

資料來源：SAS Enterprise Miner 7.1 Reference Help

第三章研究方法

在文檔中探勘路跑者關心社會議題與參與主題間的關聯 (頁 25-29)

第二章 文獻探討

第四節 資料採礦相關研究

第三章 研究方法

第二章文獻探討

第四節資料採礦相關研究

第三章研究方法