• 沒有找到結果。

第二章 文獻探討

第四節 資料採礦相關研究

依據外國學者Frawley, Paitetsky and Matheus (1991)做資料採礦解釋,是從資料 庫中掘取具有潛在有用處的及不明確的資訊一項歷程。Berry and Linoff(1997)認為 資料採礦是使用自動或半自動的方法對大量的資料進行分析,找出有意義的關聯 或法則。綜觀所有學者對資料採礦的定義,大致上就是指從大型資料庫儲存的資 料發掘一些有趣的規則。

在資料庫知識發掘的過程中,資料採礦是相當重要的一個環節,隨著資訊科 技發展的迅速,資料採礦因結合許多領域的知識與技術,並提供各種企業有效增 加其競爭優勢的資訊,因此,資料採礦技術已經被廣泛的應用到各種行業,諸如:

在金融保險業:直效行銷、交叉銷售、信用風險管理、流失分析;零售製造業:

分店設點區位分析、銷售產品組合、庫存管理、即時輔助購買決策;醫療生技業:

預防醫學分析、臨床病徵分析、基因圖譜比對、基因定序、演化分析、院內感染 分析;教育業:學生來源分析、課程規劃、學習評量、適性化教學;網路行銷業:

顧客上網行為分析、網路入侵行為分析、網路學習;電信通訊業:通訊品質偵測、

定位應用服務、信用評分、客戶區隔、交叉行銷、客戶流失分析、銷售預測;航 空業:顧客消費行為分析 (王智立、陳克琛、謝孟仁,2020) 。有關資料探勘在體 育運動之相關文獻,如表4。

表 4 資料探勘在體育運動之相關文獻

資料來源:本研究整理

資料採礦功能可包含下列五項,這些功能大多為已成熟的計量及統計方法(謝 邦昌,2005):

(一)分類(classification):

按照分析對象的屬性分門別類加以定義,建立類組(class),且分類的結果是不連續 的。例如將信用卡申請者的風險屬性,區分為高度風險申請者、中度風險申請者 及低度風險申請者。

(二)推估(estimation):

根據既有連續性數值之相關屬性資料,來計算某一屬性將來之值。例如依國人信

作者 使用技術 研究目的

羅旭壯(2006) 決策支援系統

應用資訊管理之技術來降低學校的營運成本,並 能提供使用者好的服務品質。

Carson K. Leung, Kyle W. Joseph(2014)

類神經網路、決策 樹、SVM

有助於發現有趣的知識並預測體育比賽的結果。

Liqiu Qian1 and Jiatong Liu(2020)

決策樹、類神經網

用卡申請之個人收入及教育程度來推估其信用卡使用消費量。推估所使用的方式 包括統計方法上之類神經網路、迴歸分析與相關分析方法。

(三)預測(prediction):

根據研究對象屬性之過去觀察值來推估該屬性將來之值。舉凡以學生過去之學習 成績預測其未來之學習成績。其所使用的方式有類神經網路及迴歸分析。

(四)關聯分組(affinity grouping):

將所有物件決定哪些具關聯的物件應放在一起,即相關屬性分門別類。例如文具 店將相關之文具用品放置同一貨架上。在顧客的行銷系統上,用來確立交叉銷售 (cross-selling)的基礎來設計吸引顧客的促銷方案。

(五)同質分組(clustering):

將一組研究對象分為相對同質的群組(clusters),換言之其目的是辨識出組與組之間 的差異,並對個別組內之相似樣本進行挑選。行銷術語中,同質分組相當於區隔 化(segmentation),但是假定之前並不會對區隔來做定義,而是讓資料在過程中自 然產生出區隔。其所使用的技巧包括agglomeration法及k-means法。

曾淑峰、林志弘、翁玉麟(2012)對SEMMA建模程序做簡單敘明:SAS公司為 了 因應 資料 採礦 軟體 (Enterprise Miner)所 提 出一種 資料 採礦 作業 流程。 而此 SEMMA建模程序所代表的英文字首 分別是: Sample(樣本 )、 Explore( 探索 )、

Model(模型)、Modify(修改)及Assess(評估)。

(一)樣本(Sample):企業擁有錯綜複雜的資料庫,進行資料採礦,就是要將這些資 料庫中取得一個與所設定探索的問題相關之樣本資料集,而非使用企業所有的 資料,這樣不僅能減少資料的處理量,還能節省系統上的資源,藉由數據的篩 選,更能反映且凸顯出資料規律性。

(二)探索(Explore):透過樣本抽樣所得出的樣本資料集,並且藉由探索能獲得變數 是否明顯呈現規律性,或者是趨勢資料品質能否達到我們預設的要求,可否區 分成一項類別,變數之間是不是具相關性等等。

(三)修改(Modify):經過樣本(Sample)、探索(Explore)兩個步驟的處理,將資料的趨 勢和狀態做深度瞭解,促使對所要探索的問題更進展地了解變數的規律性與重 要性,並修改操作特定的變數。問題越是明確,更能對變數進行調整及修改。

(四)模型(Model):此步驟係最核心的流程,它是針對所提的問題來挑選最佳的模 型套入資料採礦,透過模型發現資料內所蘊藏的規則或知識,藉此解決問題。

(五)評估(Assess):程序來到最後一階段,將會產出一系列的分析模型、模式或結 果,同一資料來源能運用多種模型和分析方法做資料採礦,其目的主要是從眾 多模型中篩選出一個最好的模型,使用者即能運用此模型進行應用、分析及預 測。

圖 2 SEMMA 流程圖

資料來源:SAS Enterprise Miner 7.1 Reference Help

第三章 研究方法

相關文件