網路資料探勘

第二章文獻探討

第七節網路資料探勘

資料探勘（Data Mining）是用來將資料中隱藏的資訊挖掘出來，所以 Data Mining 其實是所謂 Knowledge Discovery（知識發現）的一部份。Fayyad, Piatetsky, 與 Smyth (1996)提出從資料探歸納探索知識之流程必須進行下列步驟：理解相關領域之知識，建立目標資料集，選擇(selection)資料子集；去除錯誤或不一致資料

的前置處理 (pre-processing) ；接著進行資料簡化與格的轉化 (transformation)；

經由資料探勘找出模型，最後成為有用的知識。一般而言，資料探勘分為下列五項功能(Berry & Linoff, 2004)，茲將意義及可能使用的技巧整理如下：

（一）分類

按照分析對象的屬性分門別類加以定義，建立類組(class)。例如，將信用申請者的風險屬性，區分為高度風險申請者，中度風險申請者及低度風險申請者。

使用的技巧有決策樹(decision tree)，記憶基礎推理(memory - based reasoning)等。

（二）推理

根據既有連續性數值之相關屬性資料，以獲致某一屬性未知之值。例如按照信用申請者之教育程度、行為別來推估其信用卡消費量。使用的技巧包括統計方法上之相關分析、迴歸分析及類神經網路方法。

（三）預測

根據對象屬性之過去觀察值來推估該屬性未來之值。例如由顧客過去之刷卡消費量預測其未來之刷卡消費量。使用的技巧包括迴歸分析、時間數列分析及類神經網路方法。

（四）關聯分組

從所有物件決定那些相關物件應該放在一起。例如超市中相關之盥洗用品 (牙刷、牙膏、牙線)，放在同一間貨架上。在客戶行銷系統上，此種功能係用來確認交叉銷售(cross selling)的機會以設計出吸引人的產品群組。

（五）同質分組

將異質母體中區隔為較具同質性之群組(clusters)。同質分組相當於行銷術語中的區隔化(segmentation)，但是，假定事先未對於區隔加以定義，而資料中自然產生區隔。使用的技巧包括 k-means 法及 agglomeration 法。

若將資料探勘技術用於網際網路的文件及服務上，就成為網路探勘 (web mining)的概念。網路探勘一詞最早由 Etzioni (1996)提出，他定義網路探勘是將資料探勘技術透過不同的應用程式尋找網路可能的模型。網際網路充滿數量極為龐大的資料，光是以單一網站來看、全球最大社交網路服務(Social Network Service, SNS)網站 facebook 的會員總人數已在 2009 年 9 月就突破三億人，而每位使用者在不同網站上所產生的日常活動紀錄及資訊行為數量極為可觀，值得詳加分析（江義平、許蕙婷，2014）。Cooley, Mobasher, 與 Srivastave (1997)以網路探勘為基礎，進一步描述以基於網路(web-based)的資料探勘應用可細分為二種

類型：網路內容探勘(web content mining)與網路行為探勘(web usage mining)，而後 Kosala 與 Blockeel(2000)根據網頁間的連結組織架構，加入了網路架構探勘 (web structure mining)。

本研究為故宮網路口碑評價研究，旨在透過網路資料探勘技術之網頁內容探勘為研究方法，將旅遊評論網站中針對故宮的評價，萃取出正負面口碑並轉化為情緒指標形成滿意度各構面，進一步探討滿意度各構面間、故宮整體滿意度與重遊意願之間的關聯性。

在文檔中台北故宮博物院網路口碑評價之研究 (頁 46-49)

第二章 文獻探討

第七節 網路資料探勘

第二章文獻探討

第七節網路資料探勘