網路探勘在網路書局行銷之應用

4-1 簡介

很多原文書及專業書籍都是網路書局的販賣重點之一，各大學的老師是其重要的客源。一般網路書局在行銷上的主要方法是寄發電子郵件廣告，但由於目前電子郵件的氾濫，造成大多數人幾乎是看到廣告郵件就直接刪除，因此如何引起收件者的興趣進而閱讀信件內容是重要課題。一個有效的電子郵件有兩個要件：

(1) 電子郵件的主旨吸引潛在客戶：針對不同顧客以其有興趣書籍類別做為主旨。

(2) 電子郵件的內容有益潛在客戶：電子郵件推薦的書單是收件者有興趣的類別。

為了達到上述兩個目的，必須能事先知道客戶的資料(專長、興趣)。但要取得客戶的個人資料卻不容易，由於現在消費者的個人隱私觀念已經相當普遍，所以除非因為消費需要而主動填寫個人資料，大多數情況受訪者對於個人資料都是相當保密不願輕易透露。而本研究並不像其它網路書局一般，已經建立了相當數量的客戶資料或是交易記錄，在本身並沒有資料庫可供查詢研究的情況之下，勢必要藉由其它方法來取得客戶的資料。

在沒有任何資料庫可供查詢時，利用網路資訊取得客戶資料是一種相當方便且容易的解決方法。由於現代人的生活幾乎和網路息息相關，很難做到完全脫離的地步，因此在網路上很容易就能找到個人資料，網路上的資料大多數屬於公開可自由取得，更是其優勢與便捷的地方。本研究的做法是利用國科會的人才資料庫取得資訊領域老師的人名，並選出資訊領域的專長，再將人名加上專長在搜尋引擎中找出其網頁數，藉此推測特定人名與專長之間的關聯程度。其原理是：

(1) 當兩個專長經常出現在同一網頁，代表此二專長可能有關聯；當兩個學者經常出現在同一網頁，代表此二學者可能有關聯。故可用網頁為交易，專長(或學者)為項目進行關聯分析。

(2) 當伴隨兩個專長出現的學者很相似時，代表此二專長可能同屬一類專長；當伴隨兩個學者出現的專長很相似時，代表此二學者可能屬同一類學者。故可用專長(或學者)為樣本，學者(或專長)為特徵進行專長(或學者)聚類分析。

本章主要利用關聯分析及聚類分析，完成分析並產生讀者社群和興趣社群。

下面舉例說明兩種分析方法的原理：

1. 以關聯分析產生興趣社群：例如出現規則 Prolog→AI，則表示有 Prolog 專長的人可能也有 AI 專長，故可以向他推薦 AI 的書。

2. 以關聯分析產生興趣社群：規則張三→李四，則表示張三購買的書或許李四也會有興趣，因此可向李四推薦張三曾買過的書。

3. 以聚類分析產生興趣社群：例如 Prolog、AI 經過分析是屬於同聚類，則有 Prolog 專長的人可能也有 AI 專長，故可向他推薦 AI 的書。

4. 以聚類分析產生讀者社群：當張三、李四同聚類，則張三買的書可能李四也會有興趣，故可以向李四推薦此書。

4-2 資料來源與處理

4-2-1 資料來源

本章所使用的資訊領域老師名單共有200 筆資料、專長名單也是 200 筆資料。資料來源是從國科會的人才資料庫中所擷取出來，經過整理及篩選後只留下各200 筆的資料。

我們利用奇摩搜尋網頁來尋找以老師或專長為關鍵字的網頁數有多少筆，藉此判斷各名詞之間是否有關聯性。首先利用VB 撰寫程式讓它能夠自動抓取老師名字或是專長項目做為奇摩搜尋的關鍵字，接著自動取出搜尋結果的網頁數目並加以儲存，最後會完成一個200×200 的矩陣。在奇摩搜尋引擎鍵入關鍵字的情況如圖 4-1。在奇摩搜尋引擎輸入關鍵字並搜尋後，其結果畫面如圖 4-2，再將其搜尋結果數利用 VB 程式截取下來即完成步驟。

4-2-2 資料處理

這些資料在使用之前還必須經過三個前處理步驟，詳細說明如以下三點：

一、刪除異常資料

在搜尋網頁數時會有很多異常的資料出現，例如某些名字可能較為常見，或是和某些有名人士同名，那在搜尋網頁數時就會出現相當大量的結果，但其中可能有相當多的網頁都是和我們要搜尋的目標對象無關。為了解決這個問題，我們將網頁數量遠大於其他人的名字去除後，再選擇其他網頁數量不會異常龐大或是過少的名字補足到200 筆。公式為

刪除該學者資料門檻

的網頁總數

學者人名Y THEN

IF > (4-1)

圖4-1：搜尋引擎鍵入關鍵字

圖4-2：關鍵字搜尋結束輸入關鍵字

截取搜尋網頁數

在搜尋專長名詞時也會有這種情況出現，有可能是名詞過於籠統例如資訊工程，因此將網頁數量異常龐大的專長名詞去除後，再以其他網頁數不會異常龐大或是過少的專長名詞補足到200 筆。公式為

刪除該專長資料門檻

的網頁總數

專長名詞 THEN

IF X > (4-2)

如下圖4-3，為了避免老師的姓名直接表示出來造成不必要的困擾，因此只使用姓做為代表，但實際處理時則是使用全名。舉例說明，圖4-3 中所顯示的第三列張老師，由於其網頁數總和遠大於其它老師，因此必須刪除這筆異常的資料。

圖4-3：刪除異常資料(以刪除學者資料為例)

二、正規化數據

在刪除異常資料之後，接著要做的是正規化數據。公式為

100000 )

( ) (

)

(

× ×

= 包含專長名詞的網頁數包含學者人名的網頁數的網頁數

學者人名包含專長名詞

的正規化網頁指標學者人名

專長名詞

Y X

Y

X

(4-3)

刪除異常資料

這麼做的理由有

1. 因為每位學者的專長數目應該是有限的，一位學者在 50 項專長的網頁數都超過100 個，另外一位學者只有一項專長的網頁數超過 50 個，這並不代表前者有50 項專長，後者沒有專長。有可能是前者在各項專長的網頁總數達到 5000 個，後者只有500 個。對於前者 100 個網頁不過總數 5000 的 2%，對於後者 50 個網頁已達總數 500 的 10%。因此對於前者，即使達到 100 個網頁的專長項目也不能視其為該學者的「專長」或「研究興趣」，但對於後者即使只達到 50 個網頁，也應視其為該學者的「專長」或「研究興趣」。

2. 同理，因為每個專長項目的學者數目應該是有限的，一個專長項目有 50 位學者的網頁數都超過100 個，另外一個專長項目只有一位學者的網頁數超過 50 個，這並不代表前者有50 位學者(注意資料中只有 200 位學者)，後者沒有學者。其理由與第1 點類似，不再贅述。

因此必須將原始的網頁數目正規化，才能確保其數值能反應特定學者的特定專長的「強度」，不會因「名人效應」使特定學者產生大量的網頁，或「熱門效應」使特定專長產生大量的網頁，扭曲了「學者」與「專長」的關聯之判斷。

舉例來說，先搜尋張三、AI 這兩個名詞的網頁數，再搜尋張三&AI 的網頁數，最後再將數值乘以100000 方便判斷，公式如下：

100000 )

( ) AI

(

)

( ×

= ×

包含張三一詞的網頁數一詞的網頁數

包含

張三一詞的網頁數一詞

正規化網頁指標包含 (4-4)

正規化後的數值能夠去除掉某些名詞搜尋網頁數特別多或是特別少的情況，能讓我們更精確的判斷AI 和張三之間到底有沒有關係存在。

例如下圖4-4，已經完成刪除異常資料剩下網頁數正常的老師姓名。接下來的正規化數據以C207 的鄭老師為主，將 C207 這格網頁數除以欄網頁數總和 C205，再除以列網頁數總和 B207，最後因為數值過小必須乘上一個常數以獲得正規化後的數值。其計算式如下：

36.7242 100000

644 1945

460 × =

= ×

正規化網頁指標 (4-5)

圖4-4：正規化數據

三、二元化數據

正規化數據完成後，接著是二元化數據。公式為

THEN

的二元化網頁指標學者人名

專長名詞

的二元化網頁指標學者人名

專長名詞

門檻的正規化網頁指標

學者人名專長名詞

Y X

ELSE

Y X

(4-6)

這麼做的理由有關聯分析的每一筆「交易」中，「項目」不是出現，就是不出現，因此必須以1 或 0 來表示。即為了判斷某學者是否擁有某專長，因此將正規化網頁指標依據某個門檻值作判斷，大於該值就轉換成1；反之則轉換成 0，

數據1 代表該學者具有該專長，而 0 則表示不具有該專長。轉換 0 或 1 的門檻值設定依據是希望1 佔的比例大約為全部的 5~10%之間。圖 4-5 為二元化之結果。

圖4-5：二元化數據

4-3 模式一：以關聯分析產生興趣社群

在本節當中我們先使用關聯分析來做興趣社群，使用的軟體是SQL Server 2005 的關聯探勘功能。我們嘗試了五組參數來比較，在不同的 support(支持度) 及confidence(信賴度)下會有什麼樣的結果。

當支持度 = 2、信賴度 = 50%時，共有規則 2000 條，依據這些規則能繪成如圖4-6 之「關聯圖」。從圖 4-6 可看出依照字面專長可以分成 10 個「社群」：

1. 「機電整合與控制工程」社群：包括電子電路、電子工程、機電整合、電力電子、自動控制、最佳控制、控制工程。

2. 「數位通訊」社群：包括微波工程、通訊系統、通訊理論、數位通訊、訊號處理。

3. 「多媒體壓縮」社群：包括資料壓縮、影像壓縮、多媒體通訊。

4. 「電腦圖學」社群：包括電腦圖學、電腦視覺。

5. 「類神經網路」社群：包括類神經網路、模糊理論、基因演算法。

6. 「計算機架構」社群：包括計算機架構、計算機方法。

7. 「電子商務安全」社群：包括電子商務安全、密碼學。

8. 「系統生物學」社群：包括系統生物學、生物資訊、衛生資訊。

9. 「數位學習」社群：包括數位學習、學習科技、網路教學、電腦輔助教學。

10. 「軟體專案管理」社群：包括軟體專案管理、軟體品質。

當支持度 = 3、信賴度 = 30%時，共有規則 2000 條，依據這些規則能繪成如圖4-7 之「關聯圖」。從圖 4-7 可看出依照字面專長可以分成 13 個「社群」：

1. 「軟體品質」社群：包括軟體品質、軟體專案管理。

2. 「控制工程」社群：包括控制工程、自動控制、最佳控制、機電整合。

3. 「計算機架構」社群：包括計算機架構、計算機方法。

4. 「計算理論」社群：包括計算理論、計算智慧、行動計算、圖形理論、容錯計算、連結網路。

5. 「半導體元件」社群：包括半導體元件、IC 設計、VLSI 設計。

6. 「電力電子」社群：包括電力電子、微波工程、電力工程、電子電路。

7. 「類神經網路」社群：包括類神經網路、模糊理論、基因演算法。

8. 「數位通訊」社群：包括數位通訊、訊號處理、多媒體訊號處理、通訊系統、

語音處理、機器視覺、通訊理論、醫學影像。

9. 「數位學習」社群：包括數位學習、網路教學、學習科技、電腦輔助教學。

10. 「知識管理」社群：包括知識管理、語意網。

11. 「系統生物學」社群：包括系統生物學、生物資訊。

12. 「電腦圖學」社群：包括電腦圖學、電腦視覺。

13. 「電子商務安全」社群：包括電子商務安全、密碼學。

當支持度 = 3、信賴度 = 50%時，共有規則 2000 條，依據這些規則能繪成如圖4-8 之「關聯圖」。從圖 4-8 可看出依照字面專長可以分成 14 個「社群」：

1. 「電子工程」社群：包括電力工程、自動控制、控制工程、機電整合、電力電子、微波工程、最佳控制、平行處理、計算機演算法。

2. 「醫學工程」社群：包括醫學影像、醫學電子、多媒體訊號處理。

3. 「計算智慧」社群：包括計算智慧、計算理論、知識工程、組合數學。

4. 「軟體品質管理」社群：包括軟體品質、軟體專案管理。

5. 「數位通訊」社群：包括通訊系統、數位通訊、通訊理論、訊號處理、排隊理論。

在文檔中中華大學碩士論文 (頁 57-104)