中華大學碩士論文

(1)

中華大學碩士論文

題目：網路探勘在網路書局之應用 The Applications of Web Mining in Online

Bookstore Marketing

系所別：資訊管理學系碩士班學號姓名：M09410010 劉謹豪指導教授：葉怡成教授

中華民國九十六年十一月

(2)

誌謝

首先要感謝我家人的支持與鼓勵，在完成論文的期間不論是精神上或是實質上的幫助，因為有你們我才能無後顧之憂的繼續學業，不管是爸爸或媽媽，還有大姐及二姐，真的很感謝你們。

接著要感謝葉怡成老師，不論是學業方面或是做人處事都讓我學到不少，而不僅僅只是得到一張文憑。文盟學長，有你的幫忙讓我少去很多摸索時間，靜婉學姐恩威並施的教導，讓我又愛又怕。以及實驗室中最可靠的同學：冠呈、韋綸、

兆瑜、逸芸，因為你們讓我的碩士生活增添許多色彩也歡樂了不少，讓稍嫌苦悶的研究生活不在那麼令人苦惱。另外在我低潮時陪著我最重要的人：秀文，因為有妳的陪伴，才能讓我在最後的階段渡過難關。還有許許多多陪著我的好朋友，

少了你們我想或許沒辦法這麼輕易的完成這篇論文。

最後謝謝替我填寫問卷的各位老師、教授，因為有你們願意花時間替我完成問卷，才讓我的研究能順利進行下去。也感謝若水堂書局中原店提供研究所需的書單，因為你們的幫助我才能完成實驗。

完成一份論文或許最重要的是自我努力，但少了背後這許許多多默默付出與支持的人，光靠我一個人絕對沒有辦法做到，所以將這份榮耀和喜悅與你們一起分享。

劉謹豪謹誌於中華大學資管所民國九十六年十一月

(3)

摘要

本研究旨在利用資料探勘改進網路書局行銷的效率。其原理是對顧客資料進行關聯分析、聚類分析，來替客戶量身訂做個人化推薦書單，達到一對一行銷的客製化服務，以提高回應率或是購買率。在資料來源上，則分資料庫資料探勘」

與「網路探勘」兩種。在網路探勘中，為了判定顧客的特性，使用搜尋引擎從際網路統計網頁出現潛在的顧客的名字與銷售書籍關鍵字的數目。此外，我們使用關聯分析、聚類分析形成關聯模型、聚類模型來建立顧客、書籍社群。因此不需要藉助顧客資料庫即可完成。實證結果發現，「網路探勘」預測顧客的特性的正確率約四成到五成，這相對於網路郵件行銷的回應率只有 0.1~1%來說，已足以幫助網路書局達到增加新客源的效益。

關鍵字：關聯分析、網路探勘、資料探勘、網路書店。

(4)

Abstract

The purpose of this research is to improve marketing efficiency of online bookstore by using data mining. Its principle is to apply association analysis and cluster analysis to produce personalized recommending book list for each customer to achieve one-to-one customizing service, and to increase the response rate or purchase rate. There were two kinds of data sources in this study: database data mining and web mining. In web mining, to determine the characteristics of customers, the number of web pages appeared the name of potential customers and the keywords of selling books are calculated by search engine from the Internet. Moreover, we used

association analysis and cluster analysis to form association model and cluster model to build the community of customers and books. The e-marketing can be completed without customer database. Compared to conventional marketing response rate, which is only about 0.1~1%, the accuracy rate of web mining is up to 40-50%, and this is sufficient enough to increase new customers for online bookstores.

Key words: association analysis, web mining, data mining, online bookstore.

(5)

目錄

第一章前言 ...9

1-1 研究動機...9

1-1-1 網路書店的興起...9

1-1-2 網路書店的分類...11

1-1-3 網路書店的服務...13

1-2 研究目的...14

1-3 研究方法...16

1-4 研究內容...16

第二章文獻回顧...18

2-1 資料探勘在行銷之應用 ...18

2-2 關聯分析簡介 ...21

2-3 關聯分析在行銷之應用 ...27

2-4 網路探勘簡介 ...30

2-5 網路探勘在行銷之應用 ...36

第三章資料庫資料探勘在網路書局行銷之應用 ...40

3-1 簡介 ...40

3-2 資料來源與處理...41

3-3 關聯探勘參數 ...42

3-4 專長的關聯規則分析結果...43

3-5 討論 ...52

3-6 結論 ...54

第四章網路探勘在網路書局行銷之應用 ...56

4-1 簡介 ...56

4-2 資料來源與處理...57

4-2-1 資料來源 ...57

4-2-2 資料處理 ...57

4-3 模式一：以關聯分析產生興趣社群...62

4-4 模式二：以關聯分析產生讀者社群...70

4-5 模式一：以 HCA 聚類分析產生興趣社群 ...80

4-6 模式二：以 HCA 聚類分析產生讀者社群 ...86

4-7 模式之比較 ...94

4-8 模式之實證 ...97

4-9 討論與結論 ...101

第五章結論與建議 ...103

5-1 結論 ...103

5-2 建議 ...110

(6)

附錄 1 中文網路書店服務特色調查...119 附錄 2 奇摩引擎搜尋程式...122

(7)

圖目錄

圖1-1：兩大網路書店進入 SSL 程序比例 ...10

圖1-2：研究架構圖 ...16

圖2-1：Apriori 演算法過程(陳智揚，2006)...26

圖3-1：支持度及信賴度與關聯規則數之關係 ...43

圖3-2：支持度 = 3、信賴度 = 50% 相依性網路圖執行結果 ...45

圖4-1：搜尋引擎鍵入關鍵字 ...58

圖4-2：關鍵字搜尋結束 ...58

圖4-3：刪除異常資料(以刪除學者資料為例) ...59

圖4-4：正規化數據 ...61

圖4-5：二元化數據 ...62

圖4-17：興趣社群聚類數=12...82

圖4-18：興趣社群聚類數=30...85

圖4-19：學者社群聚類數=4...87

圖4-20：學者社群聚類數=12...89

圖4-21：學者社群聚類數=30...93

圖4-22：問卷問題一以電腦模擬 60 次的正確率之直方圖 ...98

圖4-23：問卷問題二以電腦模擬 60 次的正確率之直方圖 ...98

附圖1：ID+ITEM-1.txt 檔實例...124

附圖2：ID+ITEM.txt 檔實例 ...125

附圖3：使用者介面...126

附圖4：輸入參數...126

(8)

附圖5：顯示目前執行進度...127 附圖6：執行完畢訊息...127 附圖7：ID+ITEM-2.txt 檔實例...128

(9)

表目錄

表1：台灣圖書產業通路營業額比率...11

表2：各方法的優缺點比較...96

表3：問卷第一題回應結果...97

表4：問卷第二題回應結果...97

表5：問卷問題一統計...99

表6：問卷問題二統計...100

表7：網路探勘的關聯分析與聚類分析的興趣社群之比較...105

表8：網路探勘的關聯分析與聚類分析的學者社群之比較...107

表9：資料庫資料探勘與網路探勘的興趣社群之比較...109

附表1：輸出輸入檔說明...123

(10)

第一章前言

1-1 研究動機

1-1-1 網路書店的興起

因為網際網路的發展相當興盛，而且各式各樣的多媒體技術也不斷在進步，

成就了電子商務更大的發展空間，也為一些利用實體通路經營的行業，提供了新的經營方式。由於網路沒有時間及空間的限制，因此使用者可以一邊瀏覽商品，

一面下單進行交易。加上現在是資訊爆炸的時代，許多慣於讀書的人對知識需求量大增，在這樣的情形之下，網路書局藉由網路的幫忙，不但提供讀者更便利的閱讀環境，也能為不同讀者做個人化的服務，並滿足了讀者的知識需求。

網路書局可算是率先發展的電子商務代表之一，最有名的例子就是美國的亞馬遜書店(陳盈秀，2006)；而國內的純網路書店則有博客來網路書店。博客來 2005 年營收新台幣11 億元，營收成長率 57%，獲利三千四百萬元，淨利成長率 71%，

是目前國內第三大書籍銷售通路，僅次於擁有實體書店的誠品與金石堂(劉哲綸，2006)。國內同時擁有實體書店及網路書店的金石堂及誠品書局，根據天下雜誌2005 年的整理報導中指出：2004 年誠品書局營收 77 億元，營收成長率 13%，

獲利九億四千萬；而金石堂圖書營收23 億，營收成長率-2%。由於博客來只有網路書局這部份的營收，誠品及金石堂除了網路書局外都還有實體書店，誠品更是集團式的經營包括畫廊、商場、餐旅，等等許多其它收入，所以單就營收來看是誠品第一金石堂第二而博客來第三。

根據2004 年創市際市場研究顧問公司公佈台灣文學類型網站造訪趨勢觀察的報告指出：純電子商務型的博客來網路書店在2003 年 12 月中，有 21.8%的到達率，也就是大約有221.8 萬的不重複使用人數曾於 2003 年 12 月造訪過博客來網路書店，表現可以說是相當出色。而實體書店跨網路型的金石堂網路書店在

(11)

2003 年 12 月中，該網站大約有 5.5%到達率。出版公司跨網路型的天下文化書坊，

在2003 年 12 月中也有大約 9.7%的到達率表現。

對於透過電子商務從中獲取利益，為主要經營目的之網路書店而言，吸引大量的瀏覽人潮固然重要，但實際的購買行為才具有實質意義。以二家網路書店為例，真正進入SSL(Secure Socket Layer)程序之比例，博客來網路書店佔總體訪客的四成，金石堂網路書店訪客的三成曾執行SSL，這其中尚包含檢視購物車等非購買行為，因此並不完全代表實際購買行為，如圖1-1 所示(創市際市場研究顧問公司，2004)。因此如果以到達率也就是使用人數來看，或是進入SSL 程序且有可能進行交易的比例來看，博客來網路書店是在網路書店的領域之中擁有最高的市佔率。

圖1-1：兩大網路書店進入 SSL 程序比例

李光祥(2002)將圖書產業營業額的通路比率分析後，整理成如表1的資料。經由表1可以發現實體書店通路佔整體圖書出版產業營業額的六成左右，其餘四成的營業額經由其它的通路完成。網路書店通路1997年的推估營業額從表1中算出，約只有3.04億(585.3*0.52)。

(12)

表 1：台灣圖書產業通路營業額比率

年度經銷商書店學校直銷郵購 ^圖書館網路其他合計 1997(%) 28.5 24.1 19.8 11.9 8.8 6.7 0.52 N/A 585.3 1999(%) 37.4 19.8 8.8 11.4 7.5 1.7 0.9 12.5 N/A

金額(億) 191.86 101.67 45.19 58.48 38.37 8.87 4.62 63.86 513 資料來源：1999 台灣圖書出版市場研究報告，2000；

網路書店的經營，由於顧客購買單價偏低、商品理貨及配送的成本偏高(相對於營業額的百分比)，不論是純網路書店(如博客來網路書店)或是實體書店開設的網路書店(如金石堂網路書店)都不易獲利。而網路書店初期投入的建置成本卻相當龐大，需要幾千萬甚至上億的資金；當來客的流量或交易量加大的同時，需要更多各類型的工作人力(例如軟硬體工程師、客服人員及書籍作業人員)，這是目前網路書店不易經營的重要原因之一(李光祥，2002)。

由表1中可以看出，整個圖書出版業經由網路書店賣出的書是相當的少，大約只有不到1%左右，再加上網路書店的初期投入成本是如此龐大，成本回收也不容易，在競爭激烈且市場狹小的情況之下，利用資料探勘或是關聯分析技術來做最適性消費者分析或最適性行銷組合，都是相當有幫助的一種方法。網路行銷的E-mail比實體廣告傳單更不容易被大家仔細觀看，所以找到對的人並且推銷對的東西就顯得更重要了，而關聯分析正好可以做到這一點，因此對於網路書局的行銷來說更是不可或缺的一環。

1-1-2 網路書店的分類

網路書店依其不同的經營模式，分成許多不同的類型。依不同的經營型態，

可將台灣網路書店分為三大類(施淳瑄，2001)：

1. 傳統及連鎖書店架設網站(實體書店經營的網路書店)：金石堂、新學友、誠品。

(13)

連鎖書店規模大且書籍種類較齊全，並提供暢銷書排行榜給消費者做為購買參考。金石堂使用網路社群經營的概念，推出會員享有個人化書店的服務，

並且可與網友們分享自己的讀書心得。

2. 出版社自設網站：天下網路書店、遠流博識網YLib。出版社在成立之時各有其成立宗旨，故網路書店為原來業務之延伸銷售。旗下讀者群資料數量為其它類型網路書店之冠，且此類型網路書店與讀者的互動性較高。

3. 軟體公司轉型經營的專業網站書店(純網路書店)：博客來網路書店、新絲路網路書店等。無實體店面，重視同業整合開發、物流速度、人力資源、資金來源，並與多家網路服務業者進行策略聯盟。新絲路網路書店甚至創新推出「線上隨選列印」(print on demand，POD)服務，方便讀者選擇想要的部份文章內容列印出來。

另外按類型也可以將網路書店區分為六種(彭淑珍，2005)：

1. 專業的網路書店：無經營實體店面書店，且不從事出版品的印刷。例如：

美國Amazon、英國Internet Bookshop、香港博學堂、台灣博客來。

2. 出版社架站的網路書店：賣自己出版社的書之外，另外也提供最新的出版訊息給讀者。例如：美國Bookwire、日本東京美術、中國商務、台灣天下文化。

3. 專業書店上網的網路書店。例如：英國Blackwell’s Bookshop、美國IEEE Online Store、台灣誠品。

4. 經銷商型的網路書店：使銷售通路更多樣化，有直銷、郵購、店銷、線上訂購。例如：美國Barnes&Noble、台灣農學社。

5. 進口圖書的網路書店：以代訂國外書籍為主要業務型態，並有參考書、教科書的代理與經銷。例如：台灣高等教育、台灣山麥圖書。

6. 特殊另類的網路書店：提供議題相關的資訊和主題書推薦、訂購服務，以擁有特定的讀者為取向。例如：美國MayaArt&Books、美國Papyrus Books(提供地中海區域考古學書籍)、台灣雅途旅遊。

(14)

在後面我們提到的網路書局，泛指有提供網路購書的服務都算在內，而不論是否擁有實體店面。網路書局透過網路的傳播，和傳統書店比起來，所接觸的顧客群不但較廣泛，而且也擁有較深的了解程度，因此可以提供更多的服務給顧客，來加強競爭優勢。

1-1-3 網路書店的服務

顏嘉惠等人(2005)分析曾經瀏覽過網路書店的使用者後，發現消費者在進行網路購書時重視的各項因素，並了解網路書店未來的改進項目。研究方法是建立五個構面，並設計問卷以使用過網路書店服務的人為對象進行調查。在利用迴歸分析驗證提出的假設後發現：消費者滿意度與消費者忠誠度有正向相關，也就是說當消費者滿意度越高，消費者忠誠度也會越高。因此，若是改善網站設計、提升服務品質、加強個人化服務，滿意度也會呈現較高水準。

黃智強(2000)將影響消費者是否要網路購物的因素歸納成「產品特徵」與「消費者特徵」兩個觀點。研究以「學生」為樣本，「網路書店」為目標系統，採用

「問卷調查法」進行。研究結果證實，當消費者具有愈正向的「態度」或是受到愈高的「主觀規範」，採用網路購物的「行為意圖」愈高。同時當消費者感覺到愈高的「相對優勢」、「相容性」或是「知覺易用性」時，採用網路購物的「態度」也愈正向。

本研究也實際去測試各個網路書店，使用各項服務並實際加入會員，以體驗其提供的各種不同會員服務，並依其服務特色加以整理比較，見附錄一。目前網路書局行銷手法的其中一種，是將新到書的全部書單寄發給資料庫裡所有已存在顧客，並沒有經過分類與篩選。新書名單是每一本都列出，寄發對象則是所有顧客，期待以大量撒網的方式來增加回應率與購買率。而好一點的方式，則是將書單按類型或科目分門別類，再依顧客填寫的資料找出興趣或專長，並參考過去的交易記錄，來決定寄發那一類型書單。雖然還不是一對一行銷，但較第一個方法已經有所改進。而最理想的方式則是採取一對一的個人行銷，依據每個人不同的

(15)

消費習慣或是專長興趣，來推薦適合他個人的新書書單，不但是最準確的方法，

而且也容易被顧客所接受。

要達到個人化行銷，便需要使用到資料探勘(Data mining)這個技術。資料探勘是一種不斷循環的尋找與分析過程，它能夠從大量且雜亂無章的資料當中，找出隱藏起來但可能具有價值的知識，以提供決策者參考依據。資料探勘是一種近期才開始流行的技術，從90 年代出現之後，其發展與研究的速度就飛快的成長。

它能夠從蒐集的資料中找出尚未被發現的有用資訊，目標是希望建立預測模型，

並根據過去的行動來預測未來的行為。資料探勘的優點是能夠從大量且人力無法處理的資料群當中，整理出能夠做為判斷與決策支援的規律或規則。這門技術應用的範圍非常廣泛，例如零售業分析顧客的消費模式來決定商品擺放位置、金融業根據客戶的各種交易記錄與信用評等來從事風險預防、書商可以依顧客的購買記錄來預測其興趣，進行一對一的行銷模式。

1-2 研究目的

資料探勘會幫助使用者從資料庫裡擷取出有用的知識，再利用知識預測資料庫中的實體資料。這些動作都是建立在一系列的記錄之中，透過歸納得到規則，

再透過推演得到結果，因此是一個「歸納過程」。資料探勘的歷史雖然較短，但從90 年代開始出現以來，它的發展速度就非常之快，加上它是多學科綜合的產物，因此目前還沒有一個完整的定義，人們提出了多種Data Mining 的定義，例如(葉怡成，2005)：

z 在大量資料中，有價值的資訊或知識的搜尋。

z 從大型資料庫中，預測知識的自動擷取。

z 從大型資料庫的資料中，有興趣的模式或樣式的擷取。

z 從資料中，識別有效的、新奇的、有用的、和能理解的樣式的過程。

z Data Mining 是一種知識發現過程。

(16)

z Data Mining 是快速的統計學。

綜合上述定義，Data Mining 它是一個以資料為輸入，以知識為輸出，以資料探勘(或知識發現)為過程的系統。

資料探勘的方法中，關聯探勘與網路探勘是兩種較晚興起的方法。其中關聯探勘的定義如下：「給予一組記錄，每筆記錄登記了一些項目。找出一個能夠以某些項目出現與否來預測其它項目出現與否的關聯規則」(葉怡成，2005)。關聯探勘有許多可以應用的地方，例如想要促銷商品時，可以將顧客要買的商品A 搭配有關聯的商品B 一起販賣，並提供一定程度的優惠，亞馬遜書店就是採用這種銷售模式的佼佼者。

至於網路探勘(web mining)廣義而言就是透過資料探勘(data mining)技術來分析與網站相關的資料，它剖析網際網路上的資訊，從中萃取出有用的知識，例如針對使用者對網頁瀏覽的行為做分析，並歸納出有用的規則(羅元禧，2002)。

利用關聯式規則分析網站的登錄資料，分析的結果配合網站架構可以使網站更符合使用者需求。和一般資料探勘不同的是，網路探勘沒有固定的資料來源，而是藉由網路上已存在的語言資料或各種名詞等等資訊，加以收集與進行探勘(李明德，2000)。網路上有很多資訊是具有價值的，但卻不容易發現。例如最常使用的搜尋引擎，我們可以從上面找到人名，接著再鍵入可能從事研究的方向或專長，這樣就能了解此學者可能從事那些方面的研究，或是在那些領域佔有相當的份量。

和實體書店比較起來，網路書店擁有一項很大的優勢，就是人力成本低與幾乎不需要倉儲空間，但缺點是它不像實體書店可以提供實物給顧客翻閱選購，所以對一些傳統消費者不具有吸引力，如果能夠主動的依照顧客需求來提供新書資訊，會比被動的等待顧客找到喜歡的書來得更有效率。目前網路書店的新書行銷信件大多數都無法做到個人化推薦，造成收件者在看到大量的新書名單之後，便因不想仔細觀看而以垃圾郵件處理。如果能針對收件者推薦個人化書單，做到新書名單量少，但都是讀者感興趣的書，則在回應率與購買率上應該能有所提升。

(17)

本文主旨在應用關聯分析與網路探勘兩種方法，來改進網路書局目前普遍存在的盲目行銷模式，達到一對一行銷模式，包括：

1. 為書找人模式：當書商進了一批新書，按照書的分類或是關鍵字等，與現有資料庫中顧客群進行關聯分析，將合適的書單寄送給可能需要的人。

2. 為人找書模式：當書商擁有一群客戶的名單，將其興趣專長等項目與想要銷售的商品進行關聯分析，找出可能購買的潛在消費群。

1-3 研究方法

研究藉由資料庫資料探勘以及網路探勘兩種方法，分別進行學者的興趣社群分析以及學者的讀者社群分析，希望能夠做到替書找購買者或是替顧客找到想要購買的書，藉此增加行銷成功率。下面圖1-2 的研究架構圖用以表示整個研究的流程方法。

圖1-2：研究架構圖

1-4 研究內容

本研究其餘內容共分為五章，各章的內容概述如下：

資料庫資料探勘網路探勘

興趣社群

讀者社群興趣社群

聚類分析關聯分析

關聯分析

聚類分析關聯分析

(18)

第二章為文獻回顧，主要在介紹關聯分析一詞及其定義，還有關聯分析在行銷方面如何運用。接著介紹網路探勘，以及網路探勘在行銷活動方面的應用方法。

第三章為資料庫資料探勘在網路書局之應用，首先就整個想法做個簡單介紹，並介紹資料的來源與前處理，然後針對結果的方面進行分析，最後進行討論與結論。

第四章為網路探勘在網路書局社群式行銷之應用，先將想法及資料來源處理進行介紹，接著是兩種不同的挑選模式及其比較與實證，最後進行討論與結論。

第五章為網路探勘在網路書局社群式行銷之應用，除了簡介及資料來源處理外，本章共有四種模式來做比較與實證，然後進行討論與結論。

第六章將各種不同的模式做一整體性的比較，再將結果做一個綜合性的討論與結論。

(19)

第二章文獻回顧

近年來藉由網路進行交易的方式已開始受到網路使用者的注意，不僅有許多廠商相繼加入網路行銷的模式，就連一般網路使用者也能在網路行銷中找到商機。各式商業網站不斷推陳出新，但線上交易的情形仍是相當有限，真正能從網路拍賣中獲利的網路業者仍不及三分之一(劉羿杏，2006)。因此在網際網路上從事商業行為，還是需要經過審慎的規劃與評估才有獲利可能。隨著網際網路使用的普及，網路行銷已經成為一種廠商和消費者相互結合且息息相關的商業模式。

本章第一節將介紹資料探勘應用在行銷方面的文獻與實例。第二節則是關聯分析的簡介，包括關聯分析的定義並舉例說明。第三節介紹關聯分析在行銷領域的應用，包括應用的文獻及實例等。第四節則是網路探勘的簡單介紹，例如定義、

特性、說明。第五節則是網路探勘在行銷方面的應用，以實際應用的文獻做為說明。

2-1 資料探勘在行銷之應用

在高速網路時代的激烈競爭下，企業除了要想辦法增加營業額外，也要管理好日益擴增的行銷費用，使其達到最大效益。此時，若能針對有價值的潛在客戶進行深入了解，並預測客戶行為及對商品的喜好，進而主動提供客戶需求的商品無異是事半功倍。而資料探勘能夠做到大量資料分析及預測消費行為的功能，便成為企業在行銷時應用的技術之一(劉羿杏，2006)。

一般的企業資源有限，無法有效進行一對一個人行銷，為了將有限的資源發揮到極限，目標行銷(Target marketing)對企業而言是非常重要的。它包含了兩個涵意(王信惠，2003)：一、通常整個市場非常的遼闊廣大，企業很難獨占，必須先找到目標物，然後針對其需要，再採取適當的行銷活動；二、市場上每一個消費者的特性皆有所不同，包括不同的偏好、購買行為、商品需求等，企業若每次

(20)

都只採取固定的行銷模式，勢必無法滿足所有的消費者。必須先歸納出各種消費特性的目標市場，經過特性分析後，再來迎合市場的需要，如此才能使行銷活動發揮其應有的效能(Liu, et al.，2003)。

利用資料探勘在商業上的行銷手段已經相當普遍，許多行業都已使用多年。

例如，王信惠(2003)針對中華電信的資料庫使用資料探勘技術，先從撥接上網轉成ADSL寬頻網路的客戶中，找出為何轉成ADSL之消費特徵，再利用此消費特徵區隔出數個不同類型的市場，使企業能更有效的運用資源進行目標行銷，並提高電信業者在寬頻市場的佔有率。

翁龍珠(2002)以製藥廠的顧客資料及交易資料作為分析消費特徵的基礎，利用資料探勘技術配合軟體工具進行探勘與分析，採用類經網路中的自我映射圖分群法，將顧客依RFM消費行為分析模式，區隔不同類型的顧客群，最後運用關聯法則探勘目標顧客群的消費特徵，得到顧客可能購買的商品組合。在研究中證實資料探勘在行銷決策方面的應用成效良好，市場區隔與關聯分析皆能有助企業減低行銷成本提高獲利。

花伴柱(2002)運用資料探勘群集演算法，將藥品顧客群區分為7個主要群組，並針對每個群組的顧客其購藥品項，使用關聯演算法找出顧客購藥的關聯性，作為組合銷售的參考。搭配企劃人員的解釋與分析，針對型態相似的群集擬定適當的銷售策略，如此可以增加顧客購藥金額及購藥數量，並減少推銷成本進而提高企業的獲利。

在金融業的風險管理應用上，黃琮盛(2001)利用個人化消費行為來預測信用卡詐欺。探勘流程先將「持卡人資料」與「個人消費紀錄」，例：個人消費金額、

使用頻率等，利用叢集分析建立「持卡人叢集」與「消費紀錄叢集」並分析其相互關係。最後建立消費者與消費記錄決策樹，用以鑑別叢集內的資料應隸屬於何者，並確認是否有詐欺行為。改採以個人消費行為作為詐欺檢測準則後，可將傳統詐欺檢測方法會發生的兩種檢測錯誤率由50%降至5%以下，大大提昇了檢測的準確度。

(21)

蔡永恆(2000)依據以往使用的金融服務將顧客分群，協助銀行在顧客尚未提出服務需求之前，就能提供適切的金融服務給顧客，進而達到顧客保留的目的。

研究運用資料探勘技術，從既有的交易資料、顧客資料等，萃取出有意義的資訊。

此研究以IBM的軟體為工具，銀行自動櫃員機交易記錄為分析對象，在其所設計的實驗中完成以下之分析：1.實際根據顧客所使用過的金融服務進行顧客分析，

2.分析各群顧客的特性。研究結果顯示，利用資料探勘方法來區別顧客群，再依分群保留住有利益的顧客群，可節省大量的人力、企業資源，進而提昇企業的競爭優勢。

彭慧雯(2001)利用資料探勘技術，挖掘潛藏在信用卡用戶資料中的重要資訊，例如根據信用卡申請人的個人屬性判斷其客群類型，再依客戶為發卡銀行帶來的風險與利潤，將客戶分為三種類型，接著利用複變數區別分析模式及類神經網路模式的分析結果，給予不同的信用評等或是信用額度。研究結果顯示，對信用卡客戶分類分群，不但可以降低呆帳率及減少損失金額，也可以增加優良客戶的信用額度以提高利潤。

江世傑(2001)利用模糊理論與類神經網路，應用在消費性貸款上。當在風險不確定的環境中，藉由類神網路特性來探討銀行授信風險，將可更真實處理這樣的問題。由於信用評等的工作以及資料本身就具備了模糊性與不確定性的特質，

若能將模糊理論加入到信用評等模式上，將可改善傳統評等方法在模糊環境中產生的不精確結果。研究結果顯示，如果有足夠的訓練案例，其預測準確度可高達 88%，對於評等工作相當的有幫助。

陳來成(2002)以台灣本地銀行之信用卡中心的信用卡詐欺偵測為例，由信用卡中心之資料倉儲中取得原始資料，使用資料探勘技術建立信用卡詐欺偵測之預測模式，並以人工智慧演算法之案例庫推理、決策樹、類神經網路演算法來學習持卡人之詐欺特徵。根據研究結果發現：在研究中信用卡詐欺偵測的問題，決策樹與類神經網路訓練結果的準確率分別為88.64%與85.23%較案例庫推理的 81.25%為佳。由此可以看出決策樹及類神經網路在預防信用卡詐欺偵測方面都是

(22)

可以採用的方法。

吳長洲(2004)指出在產險行銷上，業務成長必伴隨理賠總金額之增加，若將降低理賠金額之手段用於已成事實之理賠案件上，終將遭致保戶之抱怨而投保其他公司，甚或對保險失去信心而不願投保。因此利用既有之實證資料，配合資料探勘及決策樹分類，將客戶依屬性予以區隔，如此可提供行銷部門擬定合宜的客戶核心策略。依據研究結果了解目標行銷問題，然後利用研究工具結合業界實務及行銷方面的知識來作分析，使企業發現不同群集的特性，予以不同的行銷策略及資源，更容易達到最大投資報酬率。

2-2 關聯分析簡介

關聯探勘的定義如下：「當給予一組記錄時，每一筆的記錄都記載了一些項目。找出一個能夠在某些項目出現時，其他的項目是否也會跟著出現與否的關聯規則」。以最常使用關聯規則的零售業來舉例，當顧客購買了鐵鎚之後也會購買鐵釘的機率是80%，則關聯規則便是：

｛鐵鎚｝→｛鐵釘｝信賴度＝0.80

探勘關聯規則(association rules)的目的是要由資料中找出項目(item)之間所存在的關聯性，而此一關聯性可反應出，當出現某些項目時，則意味著某些其他項目也將出現(Han and Kamber，2001)。例如在電腦量販店的交易記錄中，「若顧客購買一台桌上型電腦，則有可能也會同時購買一台雷射印表機」的關聯規則或許會被發掘出來。關聯規則也因此可以輔助管理者了解那些項目是有可能經常被同時購買的，這亦有助於行銷策略的規劃(Berry and Linoff，1997；Han and Kamber，2001)。

上面的例子便是關聯法則常使用的購物籃分析，所謂的購物籃分析是找出消費者容易同時或先後購買的商品組合，例：當消費者同時購買某幾樣商品，或在短時間內接連著購買某些商品，我們利用購物籃分析就可以找出其中的關聯。購物籃分析通常使用於已有大量的交易資料時，卻不知道資料中有什麼規律現象

(23)

時，最有效用的方法之一。

關聯分析中有三個重要的參數，也就是支持度(support)、信賴度(confidence) 跟增益值(lift)三種數值做為評選的規範，這三個值的介紹如下(陳智揚，2006)：

1. support 值

對於某一項目A，我們定義序列的支持度為：

總交易數項目的交易數

Support(A)=包含A (2-1)

support 值即是項目 A 在所有交易中發生的頻率，是由 A 項目的交易數除以交易總數而得。

2. Confidence 值

對於某一項目A 與項目 B，我們定義序列的信賴度為：

Support(A) B) Support(A B)

(A

Confidence → = → (2-2) confidence 值即是 A 項目和 B 項目同時出現下，出現 A 項目的頻率。而 confidence 值指的是A→B 該關聯規則成立的可信度，當 confidence 值愈高時，則代表該關聯規則愈具代表性。

3. Lift 值

對於項目A 與項目 B，我們定義序列的增益值為：

Support(B) B) (A Confidence B)

Lift(A →

=

→ (2-3) 我們在有了support值和confidence值的情形下，還必須利用Lift值來決定其實用性。而當Lift值大於1時，此規則才有實用性，如此也代表兩項產品是有相關的。

Support及Confidence這兩個參數是用來評估所找出的關聯法則是否能滿足使用者的需求。當支持度高的時候表示這個關聯規則時常出現，而信賴度高的時候表示這個關聯規則具有可信力。支持度與信賴度越高時，表示關聯規則越常出現也越可信，但搜索出來的規則數也會越少，在資料量少的時候會是個問題，因此如何在參數值高與規則數多之間取得平衡，就要依照使用者的需求加以決定。

關聯規則有許多種分類方式(Han and Kamber，2001)：

(24)

1. 以屬性值的型態為基礎(布林變數vs計量變數)：

如果所關注的焦點是在物項(item)有沒有出現，我們稱之為布林值的關聯規則( Boolean association rule)，例如

「牛奶 -> 麵包 (support = 20% , confidence = 60%)」

即屬於這類關聯規則。如果一併關注item的購買單位數，這種便稱為有重複項目的關聯規則(association rule with repeated items)(陳彥良等，2001；沈清正等，

2002)，例如

「(２單位，牛奶) -> (３單位，麵包) (support = 20% , confidence = 60%)」

即屬於這類關聯規則。如果所要描述的規則其項目或屬性是一個數值，這種就稱為數量關聯規則(quantitative association rule)。但因為數量關聯規則的可能性太多，所以必須把數量值切割成不同的區間，才有辦法產生關聯規則。如下面的例子，X是代表消費者的一個變數：

「(２~4單位，牛奶) -> (３~6單位，麵包) (support = 20% , confidence = 60%)」

2. 以規則中所涵蓋的資料維度為基礎：

如果在關聯規則中的項目或屬性僅參照單一的維度時，便稱之為單一維度關聯規則(single dimensional association rule)，例如

購買(X,"海外旅行保險")^購買(X,"外匯存款") -> 購買(X, "海外基金")

則其著眼的是「購買」這個維度。反之，如果關聯規則中的項目或屬性參照兩個以上的維度時，稱為複合維度關聯規則(multidimensional association rule)，例如 年齡(X,"40~45")^收入(X,"6萬~8萬") -> 購買(X, "海外基金")

上述的關聯規則中的例子，便包含了「年齡」、「收入」以及「購買」等三個維度。

3. 以規則集合中所涵蓋的抽象層級為基礎：

如果在關聯規則中的項目或屬性可以屬於不同的概念層級，例如

「年齡(X,"25~35") -> 購買(X,"電腦")」

以及

(25)

「年齡(X,"25~35") -> 購買(X,"筆記型電腦")」

這些不同層級的關聯規則(電腦較之筆記型電腦屬於較高層級，也就是較為一般化的層級)，則稱這類規則為複合層級關聯規則(multilevel association rule)。反之，

如果沒有參照到項目或屬性不同層級的規則，則稱為單一層級關聯規則 (single-level association rule)。

最簡單的關聯分析為：

z 屬性值的型態為布林變數

z 規則中所涵蓋的資料維度為一維 z 規則集合中所涵蓋的抽象層級為單層

關聯分析最早由Agrawal等人於1993年所提出，主要是被用來尋找資料庫中項目與項目之間的關聯性，Brin等人(1997)指出關聯規則最初被用於分析市場購物籃資料(Market Basket Data)的研究，藉由分析顧客之購買行為，找出相關商品間的關聯性，提供給決策者做為商品擺設、進貨、儲貨的參考，有助於提昇商品的競爭力，並增進商品銷售週轉率以提昇利潤。

在Agrawal等人(1996)提出其Apriori演算法之後，又有許多依據Apriori為基礎的演算法陸續被提出。例如Park等人於1997年提出利用雜湊法的DHP演算法、

Brin等人(1997)提出DIC演算法、J. Han等人(2000)提出DLG演算法、J. Hipp等人 (2000)提出Pincer-Search演算法，這些演算法都是希望能夠快速挖掘出高頻項目集(陳智揚，2006)。

Apriori演算法是購物籃分析中最具代表性的演算法。它是一種典型由下而上 (Bottom-Up)的演算法，換言之，乃是自長度短的項目集開始，逐漸朝長度較長的項目集進行分析。Apriori演算法是由一種物品項目推演出兩種物品項目的組合，再由兩種物品項目推演到三種物品項目，以此類推。而當到第k種物品項目組合產生的候選項目集，我們稱為k候選項目集。相同的第k種物品項目組合產生的高頻項目集則稱為k高頻項目集。傳統的關聯式演算法必須透過去除不滿足最小支持度的(k-1)高頻項目集再來產生k候選項目集，進而找出k高頻項目集。也就

(26)

是說，對於ABC三項物品項目而言，AB、AC與BC的支持度必須都高於最小支持度，ABC候選項目集才能夠生成。這才符合向上包含性質(如果子集合不滿足最小支持度，超集合也必定不滿足最小支持度)(陳智揚，2006)。

在Apriori演算法中，每一個項目被視為一布林變數，而支持度與信賴度則分別評量了關聯規則的有用程度與可信賴程度(Han and Kamber，2001)。它使用兩階段方式自資料庫中找出關聯規則：第一階段找出所有的高頻項目集(frequent itemsets)，而在第二階段中，則使用高頻項目集產生有效的(effective)關聯規則。

第一階段係找出所有的高頻項目集，其詳細步驟如下：首先訂定最小支持度和最小信賴度，然後搜尋整個資料庫一次，並對每個項目出現的次數進行計數，

即候選1-項目集(Candidate 1-itemsets)。若是某個項目出現的次數大於或等於所訂定的最小支持度，則會成為大1-項目集(Large 1-itemsets)。在此步驟中，可分成兩個階段來說明(陳智揚，2006)：

(1) 在第k-1層找出大項目集Lk-1(Large k-1-itemsets)，並使用apriori-gen function產生候選項目集Ck(Candidate k-itemsets)。例如，大3-項目集={{ABC}，{ABD}，

{ACD}，{ACE}，{BCD}}，在經過join step之後，產生候選4-項目集

={{ABCD}，{ACDE}}。但是在prune step，項目集{ACDE}就會被刪除，因為項目集{ADE}沒有出現在大3-項目集裡，所以實際上候選4-項目集只剩下 {ABCD}。

(2) 再搜尋一次資料庫，計算Ck的出現次數。不斷地重複步驟(2)，直到大項目集無法再產生任何的候選項目集為止。

根據以上所述，我們以一簡單的例子再加以詳細說明。若資料庫中含有交易資料，並假定使用者定義之最小支持度門檻值為50%，則Apriori演算法之過程如圖2-1所示。由於資料庫中含有{A}、{B}、{C}、{D}和{E}等五個候選「1-項目集」經過第一次掃描資料庫後，可以獲得五個項目各自的支持度，和支持度門檻值比較後可獲得{A}、{B}、{C}、{E}等四個高頻「1-項目集」。接著利用結合和削減來產生候選「2-項目集」，也就是C2，再經過掃描資料庫便獲得C2中所有

(27)

項目集的支持度，再和支持度門檻值比較，便產生{A，C}、{B，C}、{B，E}、

{C，E}等四個高頻「2-項目集」，反覆進行上述步驟便可產生所有的高頻項目集 (陳智揚，2006)。

DataBase D C1 L1 Scan D

C2 C2 L2

Scan D

C3 C3 L3 Scan D

圖2-1：Apriori 演算法過程(陳智揚，2006)

傳統的關聯規則探勘大部分著重在商品的交易數量，使得高利潤、低銷售數量的商品被忽略。因此何維翰(2003)提出一種新的演算法，探討商品與利潤間的關係，稱為WMMS(Weight Algorithm with Multiple Supports for Mining Association Rules)演算法，可以針對不同利潤的商品定出不同的支持度門檻值。此方法所產生的關聯規則，可以解決高單價但交易次數稀少的商品不易被發掘的問題，且仍可以發掘暢銷商品。經由實驗結果可以證明所提出的方法具備相當的效益，能產 TID Items

100 ACD 200 BCE 300 ABCE 400 BE

Itemset Sup A 2 B 3 C 3 D 1 E 3

Itemset Sup A 2 B 3 C 3 E 3

Itemset AB AC AE BC BE CE

Itemset Sup AB 1 AC 2 AE 1 BC 2 BE 3 CE 2

Itemset Sup AC 2 BC 2 BE 3 CE 2

Itemset BCE

Itemset Sup BCE 2

(28)

生更多更有價值的規則，而不被少量的交易次數所限制。

2-3 關聯分析在行銷之應用

關聯探勘經常被用在零售業，以提升行銷的效率。例如購買尿布的人當中有 80%的人也會一起購買啤酒，那他們就將尿布和啤酒放在靠近的地方，藉此刺激銷售。可能的原因是星期五父親買小孩尿布回去時，想順便買些啤酒好觀看球賽。或是同類型的商品，一個銷售情況良好一個不理想，便會採取搭配的方式一起出售，並利用價格上的優惠吸引消費者考慮同時購買。

簡利曲(2000)應用關聯探勘在販售網路上的有機蔬菜，例如家庭主婦可能會同時購買二種或三種不同組合的有機蔬菜，經過探勘有機蔬菜的購買順序與關聯規則之後，發現菠菜及甘藷葉常與其它項目的蔬菜一起被購買，所以菠菜與甘藷葉均可用於搭配其它蔬菜進行促銷。

鄭婉儀(2001)以資料庫之顧客交易資料，探勘可交叉銷售的商品與目標顧客，希望能發掘潛在的關聯規則。使用資料探勘技術的關聯法則進行購物籃分析，在二種不同組合的食物產品中發現湯品和蔬菜最適合用於交叉銷售，而已婚且職業為辦事員的人適合在購買新鮮蔬菜之後再推薦購買新鮮水果。

于還莒(2001)應用關聯分析技術挖掘商品交易的關聯規則，再將關聯規則轉換為消費群定義，用以區分消費群。也可結合一對一好康報報及一對一電子報等行銷通道對客戶進行一對一行銷。例如：在關聯規則探勘結果中發現住在台北市的女性有購買Win98的傾向，商家便可以將住在台北市的女性存成屬性群的條件，待商家要促銷與Win98相關的商品時便可以針對這一客戶群去做一對一行銷。

賴春松(2003)假設每一顧客交易資料中的項目集包含有時間間隔，接著使用關聯規則、簡單關聯規則演算法的觀念以及演算法TSSP(time-space sequential pattern)，來分析顧客時間間隔的消費行為，除了可以順利找出產品間的關聯性，

更可以藉由時間間隔找出產品與產品之間具有的時序性。例如客戶買了巧克力，

(29)

則經過特定時間可能會買牙膏的關聯性；此時間序列演算法著重於購買某一產品後會在幾天內購買另一項相關的產品，除了能探勘產品相關的資訊外，還能了解購買產品之後所隱含的週期性，讓企業經營者能因應這樣的特性作出更有益於公司的決策。

張愷芬(2003)針對保險業裡的人身壽險做交叉銷售的分析，根據以往顧客選購保險的資料，運用關聯規則找出最佳保險組合給顧客，以提昇企業獲利及客戶忠誠。例如在得到這樣一條規則：

IF [S0016] Then [P0908] (Support：1.34%；Confidence：68.02；Lift：3.09)

意思是，如果顧客購買了[S0016]這項主險時，則他有68.02%的機率會購買[P0908]

這項附險；所以當顧客選擇了[S0016]商品時，保險公司便可以接著推銷[P0908]

給顧客，而顧客接受這樣的商品組合機率會很高。研究最終目的是希望能透過資料探勘技術的分析來建立企業與顧客長期關係，將單純的交易行為轉化成長期忠誠度關係。

呂家賢(2005)利用資料探勘技術來提高圖書館圖書利用率，主要是使用決策樹分析及關聯分析兩種方法。研究結合某大學之圖書館借閱紀錄與學生資料庫，

使用決策樹分析將讀者作分類，首先分成高借閱率及低借閱率兩大類，兩大類下再細分各五個學院總共十個類別，接著利用關聯規則建立不同讀者群的圖書借閱關聯性。根據實驗執行結果可以了解，資訊學院的資訊管理學系對於財務管理及生產管理類的書籍有借閱關聯性，該學院其餘科系為理工科系的相關系所，因此對於基礎科學類的書籍如統計學總論及線性代數類別的書籍借閱具有關聯性。研究結果顯示，依此關聯規則來推薦相關書籍不僅可以提高圖書資源的利用率，也可以做為圖書排架方式的參考，藉由將關聯性最高的相關書籍擺放一起來提高借閱率。

由前面的文獻可以看出，利用資料探勘在一般行業的行銷已經是很普遍的事情。而近年來由於電子商務的蓬勃發展，連帶的網路書店業績也不停成長。以連鎖實體書店為主的「誠品」，也在1999年開始投入電子商務的行列，透過網路書

(30)

店開啟除了實體通路外，進一步與顧客一對一交談的管道。目前誠品實體書店加上網路書店，總計有十萬筆以上的客戶資料庫，不但可以為每個不同的讀者提供貼心的服務訊息，也藉由每年舉辦不下500場的演講、展覽或文化活動，邀請對該活動有興趣的顧客與潛在顧客參加，來加強與客戶的互動，也可藉事件行銷的

「聚眾」效果，建構消費者資料庫。這樣循環的效益，說明誠品是以消費者資料庫為基礎，確定目標消費族群，並且透過消費者溝通管道的建立來修正與健全資料庫內容(曾琬珺，2006)。

從上述的例子可以了解到，目前台灣的圖書出版業其實是很活躍的，因此新書發行量也很龐大，每年出版的新書高達四萬多本，平均起來一天就有上百本的新書上市。當讀者面對如此大量的書目時，該如何選擇自己喜歡的類型就是一個很大的問題。而當網路書商想要推薦新書給讀者時，更是一件不容易的事情，因為不知道讀者可能感興趣的類型，大多數都是將所有新書名單列出，這樣子反而會造成收信者的困擾。收信者如果看到曾經購買過書籍的網路書店寄來廣告信，

可能會打開瀏覽一下，但如果由於新書名單太多反而容易被當作垃圾信處理掉，

使得回應率與購買率下降。如果能藉由關聯分析做出量少而符合收信者興趣的書單，勢必可以提高回應率及購買率。

近年來，資料探勘在電子商務領域產生了莫大的影響，而網路書店更是應用這項技術的佼佼者，因此可以看出資料探勘在網路書店上有很廣泛的應用價值。

其主要的應用分為四個方面(譚汝聰，2006)：

1. 從商品銷售角度分析資料探勘的應用：網路書店在商品的銷售中累積了大量的數據，而這些資料項目集之間可能存在某種關聯或聯繫，網路書店就要利用資料探勘技術發現這些有價值的知識。如：購買電腦類書的客戶同時又購買文學類書籍的比例有多大、購買暢銷書的客戶又同時購買同一主題VCD 的比例有多大、購買歷史類書籍的客戶年齡層次如何等等。

2. 從客戶角度分析資料探勘的應用：對網路書店來說，客戶從一開始登錄網站並進行簡單的瀏覽，就會在伺服器上留下記錄。如果註冊並且購買了商品，

(31)

那會留下更多的資料。對這些資料進行分析、探勘，將會有利於網路書店瞭解客戶的需求，從而進行有效的客戶關係管理。

3. 資料探勘有利於優化網站結構：一些有關路徑的資訊也可以透過路徑分析模式得出，例如(1)75%的客戶訪問起點是從/books/new開始的。(2)40%的客戶在瀏覽5個頁面或者更少就離開了。第一條規則說明客戶訪問起點一般是從 /books/new開始的，那麼就應該在這個頁面上增加一些書本的目錄類型資訊，方便客戶瀏覽。第二條規則說明了客戶在起點的駐留時間不長，那麼就要將重要的書目資訊放在這5個頁面中，提高客戶的駐留時間。透過路徑分析，可以改進頁面設計，優化網上書店結構。

4. 資料探勘有利於改善書店的書目資訊：網路書店應該對檢索的資料進行分析，按類別進行統計，有目標性地補充和豐富書目資訊。同時，收集線上資訊、留言版和推薦書目等數據，整理分析成為標準結構化資料。

由於網路書店已經進入一個穩定發展期，為了吸引越來越多的消費者，在商品銷售、提高顧客價值、發現客戶等方面都需要用到資料探勘技術，因此以上四點都是不可忽略的。

2-4 網路探勘簡介

所謂的網路探勘是將傳統資料探勘的技術應用在網路上，因為全球資訊網已成為世界最大的資料庫，如何開發蘊藏在網路上的豐富資源以提昇網路資訊系統效能，已逐漸成為網路探勘(Web Mining)研究的新議題。網路探勘主要是利用已存在於網路上的知識或資訊，找出研究目標隱藏其中的資訊。

網路探勘的特性有以下幾點(吳凱雯，2001)：

1. 網路探勘的資料來源是所有可得到的網路相關資料，包括全球資訊網中各網頁的文字、圖形、聲音等等內容，網頁與網頁之間的連結、網頁內部的連結、

與整個網站的主要架構，另外就是系統本身記錄使用者在網站內部各項存取

(32)

動作的日誌檔(log file)以及使用者的使用資訊(user Profile)。

2. 上述所提到的網路相關資料在最初得到時並不像資料探勘過程中，從資料庫選取出的資料是經過篩選、處理，具有規則性的資料，因此這些網路相關資料必須先經過一些前置處理及必要的轉換，使得這些資料可以供資料探勘的分析之用。

3. 由於網路探勘在獲得資料的步驟上並不像一般資料探勘，是從資料庫中直接選出即可，而是必須透過各種不同的管道自網路上取得，這些管道包括利用各種代理人(agent)到全球資訊網中的各網頁將資料帶回，或是自各個不同的系統主機取得相關的日誌檔資料，取回這些資料後還必須依據各種資料特性加以處理，並利用適合的方式做挖掘動作，因此較一般資料探勘過程有些許差別。

Cooley等人(1997)提出web mining的架構，在這個架構中，將web mining分成 web content mining和web usage mining兩部分，所謂的web content mining是在探索web內容中隱藏的知識；web usage mining則是從web server使用者的存取 (Access)紀錄中，去探索使用者上網行為的知識。接著是web content mining和web usage mining的介紹(羅元禧，2002)：

1. 網頁內容探勘(web content mining)

網頁內容探勘(Web content mining)主要是根據網頁本身內容做資料探勘的步驟。網頁內容包含：網頁中的文字、超連結、網頁所在的目錄結構、瀏覽者輸入的資料、網頁本身的大小等。在實務上應用的例子有：分析網站內容、加強搜尋引擎能力等(楊煜愷，2001)。

Web Content Mining又區分成二個部分，第一部份是以第三者代理機制的方式進行網路內容探勘，這方面的處理方式有：智慧型搜尋代理人機制、資訊自動過濾、分類機制及個人化網路代理機制。第二個部分是以資料庫機制進行網路內容探勘，有多階層的資料庫、網路查詢系統。

從Web Content Mining這方面的研究可以知道，Web Content Mining提供了

(33)

新的方法，來加強搜尋引擎的功能。由Yi and Sundaresan(1999)在「Mining the Web for Acronyms Using the Duality of Patterns and Relations」這篇論文中，就提出一個甚至具有學習機制的演算法，來辨識Web上文件的關係與存在的模型(羅元禧，2002)。

2. 網頁習性探勘(web usage mining)

藉由網路伺服端的資料，包含瀏覽器中的logs、使用者偏好設定、使用者註冊資料、滑鼠點選或其他互動動作等(楊昇宏，2000)，這些資料記錄著使用者瀏覽網站的行為與操作過程，方便從中發掘使用者瀏覽的習性、找出有用的訊息，

以瞭解使用者。另外在實務上的應用主要有下列三種方向(楊煜愷，2001)：

(1) 電子商務：分析進站的參觀者及購物者之瀏覽行為，可以提供網站經營者很好的決策依據。當找出一條發生頻率很高的瀏覽路徑之後，進一步地從中分析出走此路徑的目的是為了觀看產品A的相關訊息；那麼可以考慮在相關的網頁中加強產品A的廣告宣傳以刺激買氣、增加購買人數。

(2) 網站架構：管理一個頗具規模的網站是件不容易的事，一個架構完善的網站可以提高使用者瀏覽的興趣、吸引更多的使用者上線瀏覽；另外網頁內容的編排也是一件很重要的事，能讓使用者輕易又快速地瀏覽到他們所需的資料，便可增加他們對此網站的忠誠度。業者可以透過網頁探勘的技術來瞭解使用者瀏覽動態，進一步地改良網站架構及網頁內容呈現的方式。

(3) 網路教學：網路教學與傳統教學最大的差別在於老師無法直接和學生面對面接觸，因而在網路教學成效的評估上，也要以不同方式來評量。網頁探勘除了在商業上的應用之外，也可用來探勘網路教學使用者的瀏覽資訊。在找出學生學習過程當中最常參訪的網頁之後，可以進一步地分析學生的學習狀況、提升整個網路教學品質。

在網路習慣探勘的文獻中，有許多是利用Log Files 裡的一些資訊當成探勘來源(如網頁名稱、網頁停留時間)，以下列舉幾個例子(蘇育民，2002)：

1. 順向瀏覽路徑：陳榮靜與沈慧宇(2000)提出一個名為順向瀏覽路徑的方法，

(34)

主要是探勘網站上使用者瀏覽網頁的路徑，可以了解哪些網頁最常被使用，

哪些路徑是經常被造訪，從而預測使用者下一步行走的方向，進而了解廣告應放位置來得到最佳效益。

2. 以停留網頁時間做門檻值：Hsieh and Chang(2001)提出一個ITIM(Integrated Transaction Identification Module)演算法，主要是將使用者停留網頁的時間當作門檻值，來過濾出使用者有興趣的網頁，進而求得最常瀏覽路徑。

3. 將Log Data轉成最大向前參考序列：Chen等人(1998)提出一個名為

MF(Maximal Forward)的演算法，將Log Data轉成最大向前參考序列，並將通過門檻值之序列做合併產生候選項，再找出最大項。主要目的也是找出使用者最常瀏覽的網頁路徑。

4. 將時間與瀏覽網頁次數加入探勘法則中：Zhang等人(2000)所提出的一篇文獻，將使用者瀏覽網頁的次數與時間加入瀏覽序列探勘中，來預測使用者下一步可能點選的網頁，這樣可以將網頁預先下載至使用者電腦中，以增加網頁瀏覽的速度。

5. 搜尋網站：Kitsuregawa等人(2001)則是將一個MIS網站(主要搜尋日本東京一些地圖導覽或商店情報)的紀錄檔內容擷取下來，探勘出使用者的一些行為，

譬如使用者通常在查詢完餐廳資訊以後會繼續查詢氣象資訊。

6. 將購買物品與瀏覽路徑結合：Yun and Chen(2000)提出一個WTM(Web Transaction Mining)演算法，主要是將使用者在購物網站中所購買的物品與瀏覽路徑相結合，以求得使用者可能在哪些網頁購買特定商品。

7. 加入模糊規則：Hong等人(2001)則是將Log Files中網頁的瀏覽次數與時間加入模糊規則，提出一個模糊網路探勘演算法(Fuzzy Web Mining Algorithm, FWMA)，來探勘瀏覽者的瀏覽模式。

網路探勘的技術與資料探勘原理相仿，其技術有路徑分析(Path Analysis)、

關聯規則(Association Rule)、連續、順序模型探索(Discovering Sequential

Patterns)、分類規則探索(Discovering Classification Rules)、群組探索(Discovering

(35)

Clustering)與時間序列分析(Time Series Analysis)，並以觀光局網站為例做說明(王佳鳳，2004)：

1. 路徑分析(Path Analysis)

在路徑分析的部份，將使用者存取檔案之URL紀錄刪除其副檔名，剩下的欄位資料做路徑分析，可以用來決定網站最常被瀏覽的路徑，替使用者安排最佳的內容與規劃瀏覽動線，如以觀光局為例假設分析出下列結果：

z 50%的使用者連到(台中美食二日遊)的路徑，是遵循(建議行程)到(美食之旅) 路徑連結過來的。

z 70%的使用者是從(美食之旅)開始瀏覽此網站。

z 65%的使用者在瀏覽不到2頁後便離開此網站。

由此分析可看出，(台中美食二日遊)包含使用者感興趣的內容，但超連結需要繞一下才可找到，此外大部分人是直接瀏覽(美食之旅)跳過建議行程，這表示使用者對欲瞭解之主題很明確。對預測的網站而言，重要的資料最好放在兩個網頁頁面內容的限制下，激發使用者購買的動機。同時，產品間相互推薦，讓網路瀏覽者有機會接觸其他產品。路徑分析(Path Analysis)讓網站規劃人員及網頁設計人員了解如何安排網站內容，並抓住網站瀏覽者(Browser)的心理。

2. 關聯規則(Association Rule)

在網路伺服器中，所蒐集到的資料都是使用者對伺服器的存取行為，分析者可利用這些使用者所瀏覽過的檔案來分析是否存在關聯，例如：

z 60%瀏覽(溫泉之旅)的使用者，也點選(美食之旅)的途徑。

z 80%使用者瀏覽過(ecotourism)路徑，便會對該路徑下的產品下訂單。

3. 連續、順序模型探索(Discovering Sequential Patterns)

此方式和關聯方法類似，但連續、順序模型探索(Discovering Sequential Patterns)是以時間(Time)軸將相關的項目(item)以時間區分開來，它的順序是和時間有相關聯的，例如：

z 上週有70%的網路瀏覽者是在觀光局網站中查詢關鍵字”節慶”，之後才連結

(36)

到(建議行程)的路徑。

z 有60%的人在(住宿)路徑線上訂購產品，於15天內也會在(餐飲)訂購另一項產品。

循序瀏覽方式讓網站研究人員看到了前因後果關係，幫助研究者預測網路瀏覽者下一步可能的動作，尤其是習慣將「下一步」按鈕按到底的使用者。若能掌握住這種連續、順序模型，使用者就如同習慣般的按照設定路線瀏覽完整個網站 (陳建銘，2001)。

4. 分類規則探索(Discovering Classification Rules)

分類在資料探勘的演算法中，扮演一個非常重要的角色，它會依據資料的屬性、特性做計算，再依照結果作分類。可以將使用者依共同的特性，如人口特徵或存取模式分類，建立一個剖面圖(Profile)，描述它們的特徵，例如：

z 自日本入口網站超連結而來的人士對(溫泉泡湯)較有興趣，而由英文入口網站連結而來的人士對(文化歷史)較有興趣，而由中文入口網站超連結而來的人士對(最新消息)較有興趣。

z 點選(生態之旅)的使用者有50%是來自政府單位IP。

也可以做更直接的資料探勘；例如，哪一類型超連結而來的使用者會參與正在促銷推動的產品？是.com、.edu，還是.org？還是從日本入口網站、英文入口網站或中文入口網站而來的？如果分類規則在Web Mining的應用研究結果是.com或日本國，等到下一次從.com或日本超連結而來的使用者，就是潛在的客源，可提出對應的行銷策略。

5. 群組探索(Discovering Clustering)

群組(Clustering)是將資料分成數個組別，相當於行銷術語中的區隔化 (Segmentation)，但事先未對於區隔加以定義，而是在資料中自然產生區隔，達成讓群組內的資料相似度最高，群組跟群組間的資料相似度最低的目標。同時將組內特性找出來，將有相似特徵的網路使用者歸納成數群。面對著全球資訊網的潛在使用者，要如何知道各使用者的特性？對於個別需求，要如何知道使用者需

(37)

要怎樣的服務？此時便可以使用群組探索的方式，針對群組作行銷策略的制訂以及線上或離線的促銷活動(陳建銘，2001)。要了解每一位全球網路瀏覽者是複雜且不易的，但可以將瀏覽者依某些特性、因素而歸類成一個群組後再進行分析，

提出行銷策略，例如：

z 25%的使用者習慣於晚上上網、對(溫泉泡湯)有強烈興趣。

6. 時間序列分析(Time Series Analysis)

時間序列與迴歸相當類似，它是用現有的數值來預測未來的數值。時間序列與迴歸的不同點在於時間序列所分析的數值都與時間有關，可處理有關時間上一些特性的分析。瞭解不同時期，不同使用者所感興趣的項目，可以適時的在網站中安排促銷活動或其他相關實體行銷策略，例如：

z 分析在一週內，瀏覽者登錄某一個網站的趨勢是否比週末少？

z 分析一年中，觀光淡、旺季之瀏覽者瀏覽趨勢為何？

2-5 網路探勘在行銷之應用

網路探勘應用的範圍相當廣泛，舉凡金融業、零售業、網路書店、醫學界等，

都可以應用到。例如我們想推銷小提琴時，可以利用網路的搜尋功能鍵入關鍵字

「小提琴」，便會出現許多和小提琴有關的消息，試著從其中過濾出人名，接著再分析是不是有人可能對小提琴有需求，如曾經參加過小提琴比賽、參加過小提琴的檢定，或從事教學準備進修等等，都是潛在客戶。再舉一個例子，以網路書局來說，當我們有一本書想要賣出去，要如何開發潛在顧客呢？分兩個方面來說，如果我們已經擁有顧客資料，那只需要將這些人名鍵入搜尋引擎後，找出他們和這本書的關鍵字有多少關聯，就能猜測出他是否需要這本書。如果手上沒有任何名單可以參考，那我們就可以在搜尋引擎上鍵入書的關鍵字，從出現的結果裡面尋找人名及關聯性。

陳啟仁(2004)藉由記錄使用者瀏覽的點選歷史，然後透過資料探勘技術，找

(38)

出使用者的瀏覽模式，做為網站個人化推薦及一對一行銷的依據。運用關聯分析找出使用者點選項目間的關聯性；另結合使用者存取時間、目標網頁、偏好度及停留時間等資料作為推薦系統參考因素，使網站能針對個別用戶提供不同的喜好網頁。研究結果證明，此網站推薦系統具有良好的推薦效果。

李維平等人(2000)指出對於潛在客戶提供適切的廣告訊息，誘使他們做出購買行為一直都是行銷廣告所努力的方向。然而在使用者匿名環境或難以掌握使用者特性的情況下，要對潛在客戶提供適切廣告訊息，卻是一件很困難的事。但藉由兩種資料探勘技術：分類(Classification)與順序(Sequence)方法的整合應用，可在網際網路這個新興的媒體上，提出一套完整的預測模式。在此一模式中，企業可以依據客戶的特性將資料加以分類，建立出一個能夠預測新進使用者瀏覽行為的瀏覽樹，達到在適當時機對於目標顧客提供適當廣告的功能，如此一來便能夠針對潛在客戶提供他們所需要的廣告訊息。

李其芳(2006)指出 WWW 提供了重要的商業資源，因此在 Web 上進行市場行銷數據探勘是非常具有價值的。本研究結合市場行銷發展趨勢，探討Web 探勘技術及其制定行銷策略的幫助，透過實驗說明Web 探勘對市場行銷提供有效的參考知識。本研究利用Aprior 演算法找出關聯規則，這些獲得的訊息有利於決策者提高決策能力，從而提高市場行銷的效率。例如

age (X,”20,…,29”) ^ income (X,”5k,…,10k”) = > buys (X,”Computer”)[Support = 2%,Confidence = 80%]

表示所有用戶中有2%(Support，支持度)年齡為 20~29 歲，月收入為 5000~10000 元的人會購買電腦。這個年齡和收入的用戶購買電腦可能性為80%(Confidence，

信賴度)。透過這類的關聯規則，企業可以使用 Web 探勘技術從大量數據中探勘出不同的、潛在的訊息與知識，做為今後決策的重要準則。

王佳鳳(2004)研究如何利用資料倉儲與網路探勘技術，從網站日誌檔中取得有意義的資訊，並分析使用者的偏好與習性，針對不同的管理階層或部門，提供各類型分析報告以滿足其工作上的需求。以我國交通部觀光局資訊入口網站為

(39)

例，如星期一、二時，在網路上可與旅行社合作，提出相較便宜的交通票價或住宿折扣訊息等，做特殊的目標行銷廣告。星期四、星期五時則可以加強「都會型」

景點的配套方案，如台北都會行配上當季的美食展覽等。

丁一賢(2002)提出一個以網頁探勘為基礎的個人化網路廣告模式，採用實際使用者日誌檔為資料來源，並利用網頁探勘的技術輔以興趣程度衡量方法，找出使用者的瀏覽興趣，而後透過叢聚工具進行使用者叢聚。除此之外，丁一賢亦提出一套媒合機制，讓網路廣告業者可以開發代理程式，以利用這些資料進行個人化網路廣告的播放。研究結果顯示，瀏覽時間以及點選次數都有不錯的成長，表示使用者願意花更多時間在瀏覽上，也增加了更多點選廣告的機會。

李明德(2000)利用網路探勘的技術進行網路廣告輪播機制的開發，除了應用 Data Mining的分析幫助網路廣告業者針對客戶族群進行目標推播，也實際規劃出一套網路廣告輪播系統，並完成使用者介面等具體功能。面對目前國外知名的應用軟體NetGravity網路廣告管理系統與國內外網路廣告聯播聯盟如HiAD亞太網路廣告聯播網…等等，此系統以免費服務與公正第三者角色的定位切入，不但可以評量廣告的效益，還可利用廣告輪播機制提高網路廣告的成效。

黃雅慧(2003)選擇醫療產業中的健康檢查業為研究對象，利用資料探勘技術於網站日誌，以挖掘出使用者存取網頁的類型。研究亦將網站日誌與會員基本資料結合，利用年齡、性別、地區、網頁代碼等屬性來建構決策樹，以進行分類。

實驗部分以國內某專業健診中心之使用者實際上網資料來進行探勘，並找出使用者存取網頁的關聯及潛藏的需求來協助健檢中心網站瀏覽之個人化。藉由建立網站瀏覽之個人化服務，不僅提供使用者快捷且符合需求的資訊，並且可以幫助健檢業者改善網站設計架構及推出有效的廣告行銷。

陳同孝等人(2000)的研究目的在於利用網路探勘(Web Mining)技術設計「智慧型網路投資代理人系統」，以協助投資人管理其網路上的各類投資交易，同時亦提供即時市場行情及投資訊息作為投資人參考之用。此系統能藉由網路探勘技術到各投資網站擷取有用的投資訊息，首先決定要搜尋的網頁位置，再研究分析各

(40)

網站之網頁內容是否有一定的語法及規則可循，然後利用資料擷取程式下載Html 原始碼，再利用Html標籤(Tag)的特質來分析所要擷取資料的位置，並將需要的數據更新到資料庫以便隨時提供給投資者查詢，例如銀行的各項利率，包括貸款利率、活期存款利率、定期存款利率等，投資人便可藉由此智慧型代理人的機制，

輕鬆從事投資。

中 華 大 學 碩 士 論 文