資料庫資料探勘在網路書局行銷之應用

3-1 簡介

有許多專業用書的銷售市場都是學校，因此學校老師便成為書局主要的行銷對象。由於每天的出版書目實在太多了，當書商手上沒有資料可供參考時，通常都是採取亂槍打鳥的方式，將所有書單目錄以電子郵件寄給全部老師參考。但這樣子的做法卻因為老師沒有太多時間去仔細找出需要用書，反而將這些電子郵件以垃圾信處理。為了提高回應率及購買率，針對老師的專長整理成客製化的書單是一個可行的方法。由於每位老師的專長不只一種，如果只用顧客資料庫中登錄的專長去推薦圖書可能有所遺漏。例如一位專長登記「專家系統」的老師，雖然沒有登錄「人工智慧」專長，但實際上具「專家系統」專長的老師很可能對「人工智慧」也很有興趣，而且在大學部也可能開授「人工智慧」方面的課程。又例如登錄「機器視覺」專長的老師雖然沒有登錄「影像處理」，但他可能在大學部開授「影像處理」課程。因為下列的關聯規則依據專業知識是可能存在的：

z 專家系統→人工智慧

z 機器視覺→影像處理

但大學的科系甚多，老師們的專長至少可分成上千種，書局的行銷人員不可能弄清楚這些專長的關聯性，即使老師們也因隔行如隔山，不一定弄得清楚。因此如果能利用關聯探勘找出關聯規則，就能夠替每位老師以其專長關鍵字找出相關專長，進而利用這些關鍵字，找出他們可能有興趣的書。如此不但可以節省人力與資源，而且可以提升回應率與購買率。

近年來由於大量的資料與數據已經被儲存於資料庫中，但在這大量的資料與數據之中往往還隱藏著許多有價值的資料，因此藉由關聯分析找出各種資料之間有什麼關聯，已經是很熱門的議題之一。根據顧客的過往消費資料，可以找出顧客的消費習慣，於是便能夠採取較為精準的促銷活動，不但可以增加銷售量也能

降低行銷成本。

由於每年出版的書籍數量甚鉅，書商在進口新書時，如果依照老師的專長及其由關聯規則找出可能具有的專長，來列出少量有興趣的書目，應該會比列出大量書目，更能提高他們觀看新書清單的可能，進而提高回應率與購買率。

本章主要研究目的是針對資訊領域老師以關聯探勘發掘專長關聯的可能性，希望藉由軟體找出人力不容易找出來的潛藏關聯規則。其中主要的資料來源出處是國科會的人才資料庫。透過國科會的人才庫，找出資訊領域老師的專長資料。由於資料尚未經過整理，因此還需要初步整理才能使用。經過整理之後，使用SQL Server 2005 軟體的關聯探勘功能，找出各種不同的專長之間可能會有的關係。

將資料透過軟體處理過後，看看結果是否合乎常理，與預期結果會不會相距太遠，來決定結果是否可靠。如果確實可行，還可以考慮與書商合作，藉由此種方法將書的關鍵字與老師專長的關鍵字結合，不論是「替人找書」或是「替書找人」，相信都能達到比傳統亂槍打鳥的方式有更好的成效。

3-2 資料來源與處理

首先從國科會網頁中，將具有資訊專長的老師其所有專長都整理成Excel 檔格式。資訊領域專長的教授人數大約有九百多筆，每個人的專長數目差異很大，

從一個到十幾個都有，將一個人視為一筆資料。由於從網頁上擷取的專長格式並不符合軟體執行所需格式，因此將資料先做過前處理。

國科會網頁上的專長大多數是採中文形式，因此將英文全數改為中文，例如：

z Distributed Computing→分散式處理，

z Computer Vision→電腦視覺，

z Software Engineering→軟體工程。

此外也將同義不同詞的專長統一，例如：

z 「資料採勘」、「資料採礦」或是「資料探勘」，

z 「人機界面」或是「人機介面」，

z 「資料庫」或「資料庫系統」，

為了避免其名詞的混亂，因此改成統一的名詞。

另外還有部份過長名詞或複合的名詞也分割成數個獨立的名詞，例如：

z 「語意網與資訊網服務」→「語音網服務」、「資訊網服務」，

z 「文件與網路資料探勘」→「文件探勘」、「網路資料探勘」，

z 「電波監測及頻譜管理」→「電波監測」、「頻譜管理」。

由於軟體在判斷時只要差一個字就代表不同的項目，所以在統一名詞上更需要小心謹慎的處理，因為做得好不但可以增加支持度及信賴度，也更容易找出關聯規則，而上述這些工作仍需要一定程度的背景知識才能順利完成。

經過上述處理，一共獲得925 筆資料，包含 3695 個項目，這些項目包含 1460 種不同項目。

3-3 關聯探勘參數

利用關聯分析尋找規則時，影響規則有效性的主要因素來自於最小支持度，

若給定的最小支持度值過高時，則有些重要的訊息將會被掩蓋掉；相反地，若給定的支持度太低則會挖掘出過多無意義的規則，反而造成雜訊太多的困擾。以往，最小支持度之訂定均以決策者之主觀決定，因此提出藉由成本觀念客觀地建立最小支持度之演算法。根據郭泯旬(2001)的研究結果顯示，改變每條規則所負擔的成本或是改變商品損壞率，對於最小支持度訂定並無明顯差別。但當採購品發生採購頻率較低的情況，採用低的最小支持度能包含較多的採購規則，則所得到的利潤較高。而採購頻率較高者，採用較高之最小支持度，也能找出不少的規則，得到的利潤也不會太低。

當最小支持度設定太高的時候，便可能有一些交易數少，但利潤卻較佳的商

品項目被忽略。對企業來說這些商品也有可能是重要的交易項目，例如一些專業書局都是進口較為冷門的特定用書。這些書籍不但是原文的，而且是專業領域人士才有可能會購買的書，由於交易數量本來就很少了，但卻是專業網路書局的主要銷售產品，如果最小支持度設定的不好，就容易忽略掉這些重要的商品關聯。

但關聯探勘仍然能夠解決這類的問題，藉由調整最小支持度或是採用不同演算法都可以改善這項問題。

為了避免最小支持度過高或過低會大幅的影響判斷結果，因此在本研究中列出支持度2 到支持度 5 以及信賴度從 30%到 80%的各種情況，讓使用者能夠自行判斷需要支持度低時的較多規則數，但可能有許多無意義的規則；或者是支持度高時較少的規則數但結果較可靠，卻可能忽略部份重要訊息。利用圖表做成整理不但較為直覺也容易觀察比較，根據不同參數得到的關聯規則數如圖3-1 所示。

0 100 200 300 400 500 600 700

0 20 40 60 80 100

信賴度(%)

關聯規則數

支持度=2 支持度=3 支持度=4 支持度=5

圖3-1：支持度及信賴度與關聯規則數之關係

3-4 專長的關聯規則分析結果

依據支持度 = 3、信賴度 = 50%，會有 120 條關聯規則數，上述關聯規則可繪成如圖3-2 之「關聯圖」。由圖可知，作成字面專長可以分成 15 個「社群」：

z 「生物資訊」社群：包括生物資訊、資訊擷取、文件分類。

z 「自然語言處理」社群：包括自然語言處理、資訊檢索。

z 「工業管理」社群：包括工業管理、工業工程、資訊管理。

z 「人工智慧」社群：包括人工智慧、專家系統、知識庫系統。

z 「資訊工程」社群：包括資訊工程、電機工程、電信工程、醫學工程、網路工程、資訊科學教育、通訊工程、數學、微電工程、資訊教育、生產自動化。

z 「類神經網路」社群：包括類神經網路、醫學影像處理。

z 「模糊理論」社群：包括模糊理論、灰色理論。

z 「嵌入式系統」社群：包括嵌入式系統、即時系統。

z 「電腦網路」社群：包括電腦網路、分散式多媒體系統。

z 「平行處理」社群：包括平行處理、分散式處理。

z 「無線網路」社群：包括無線網路、行動通訊。

z 「影像處理」社群：包括影像處理、電腦圖學、虛擬實境、電腦動畫、電腦繪圖、醫學影像、圖形識別、多媒體技術、電腦視覺、機器視覺、影像識別、

語音處理、影像壓縮。

z 「資料探勘」社群：包括機器學習、資料探勘、資料倉儲。

z 「演算法」社群：包括演算法、連結網路、圖論、資料結構。

z 「軟體工程」社群：包括軟體工程、物件導向技術、資料工程、資料庫、資訊系統、資訊安全、資訊隱藏、密碼學。

就結果來看，15 個社群都是相當的合乎常理，因此可知關聯探勘可以自動產生合理的關聯規則。

舉例來說，圖形與箭頭的關係是：A → B，表示當 A 這個專長出現的時候，

B 專長也會跟著出現，是單向的關係。如果是 C ↔ D，表示當 C 這個專長出現的時候，D 專長也會跟著出現。或是當 D 專長出現的時候，C 專長也會出現，

兩者是雙向的關係。

圖3-2：支持度 = 3、信賴度 = 50% 相依性網路圖執行結果

依據支持度 = 5、信賴度 = 50%，會有 25 條關聯規則數，上述關聯規則可繪成如圖3-3 之「關聯圖」。由圖可知，作成字面專長可以分成 9 個「社群」：

z 「資訊安全」社群：包括資訊安全、密碼學。

z 「資訊工程」社群：包括資訊工程、生產自動化技術、數學、通訊工程、資訊科學教育、醫學工程、電機工程、微電工程。

z 「資訊檢索」社群：包括資訊檢索、自然語言處理。

z 「演算法」社群：包括演算法、圖論。

z 「人工智慧」社群：包括人工智慧、專家系統。

z 「平行處理」社群：包括平行處理、分散式處理。

z 「軟體工程」社群：包括軟體工程、物件導向技術。

z 「影像處理」社群：包括影像處理、電腦圖學、虛擬實境、電腦視覺、圖形識別、影像壓縮、影像識別。

z 「資料探勘」社群：包括資料探勘、機器學習。

圖3-3：支持度 = 5、信賴度 = 50% 相依性網路圖執行結果

依據支持度 = 2、信賴度 = 50%，會有 440 條關聯規則數，上述關聯規則可繪成如圖3-4 之「關聯圖」。由圖可知，作成字面專長可以分成 31 個「社群」：

z 「資料庫」社群：包括資料庫、物件導向分析與設計、知識庫、資訊系統、

資料工程。

z 「軟體工程」社群：包括軟體工程、軟體測試、軟體維護、軟體衡量、物件導向技術、網路。

z 「資訊安全」社群：包括資訊安全、容錯系統、資訊隱藏、電子商務技術、

改錯碼、密碼學、資料庫安全。

z 「電腦網路」社群：包括電腦網路、分散式多媒體系統、數位通訊。

z 「行動計算」社群：包括行動計算、行動學習。

z 「多媒體系統」社群：包括多媒體系統、生物資料庫。

z 「平行處理」社群：包括平行處理、Web 技術、分散式處理、超大型積體電路、計算機結構、科學計算、計算幾何、計算機圖學。

z 「演算法」社群：包括演算法、組合數學、組合最佳化、圖論、連結網路、

資料結構。

z 「資訊工程」社群：包括資訊工程、機械固力、生產自動化技術、資訊教育、

微電工程、光電工程、網路工程、電信工程、通訊工程、資訊科學教育、數學教育、醫學工程、生物資訊學、網格計算、企業管理、應用數學、計算機視覺、數位系統、電機工程、電力工程、太空工程、電腦輔助學習、自動化技術、數學、統計、電子工程、微電子工程、電子電機工程。

z 「資訊管理」社群：包括資訊管理、工業工程、決策支援系統、科技管理、

生產、作業研究、工業管理。

z 「計算生物」社群：包括計算生物、演化式計算、圖型識別。

z 「無線網路」社群：包括無線網路、行動通訊、網際網路、作業系統。

z 「計算機網路」社群：包括計算機網路、網路最佳化。

z 「管理資訊系統」社群：包括管理資訊系統、通信網路。

在文檔中中華大學碩士論文 (頁 41-57)