• 沒有找到結果。

結論與建議

在文檔中 中 華 大 學 碩 士 論 文 (頁 104-131)

5-1 結論

一、資料庫資料探勘在網路書局之應用 1. 資料之影響

第三章採用國科會的人才資料庫中資訊領域學者做為研究對象,資料量的多 寡會直接影響到關聯分析結果的正確性,越大量的資料得到的規則會越多,相對 來說也就越可靠。雖然資料量大也代表著前處理更加困難以及雜訊會變多,不過 這個問題可以藉由調高支持度或信賴度改善。如果資料量過少,首先遇到的就是 關聯規則過少,而且也無法採用降低支持度或信賴度的做法來避免。因為支持度 或信賴度過低時容易出現許多不合理的規則,因此擁有的資料量是越多越好。

2. 參數之影響

支持度與信賴度的高低會使得關聯規則數有極大的不同,過高的支持度與信 賴度會使得規則數少到不具有參考價值,但過低的支持度與信賴度則會出現許多 雜訊難以判斷。從研究的結果來看,建議的支持度是3,而信賴度則是 50%。此 時出現的關聯規則大多數都具有合理性,而且規則數也不會過少。但使用者仍然 可依照自己的需求再調高或降低支持度與信賴度。

3. 可行性之評估

經由研究結果來看,利用關聯分析替網路書局尋找可能的潛在顧客確實是可 行的。只要支持度與信賴度參數選擇適當,藉著國科會的人才資料庫做專長分 析,確實能找出有用的關聯規則。如果網路書局將現行擁有的顧客資料加以整理 並嘗試使用關聯分析,相信可以達到個人化行銷的效果,比傳統的行銷手法更容 易被顧客所接受。

二、網路探勘在網路書局社群式行銷之應用 1. 資料之影響

第四章採用從網路上搜尋,以取得資訊領域學者或研究興趣的網頁筆數,做 為學者之間或研究興趣之間的相關性判斷依據,故資料常有不合理或錯誤情況發 生。例如有某些「項目」(學者或研究興趣)的搜尋網頁筆數極大的情況發生,所 以必須採取正規化的方法,來降低這些數據影響到相關性判斷的可能性。因此在

分析前,資料需要做相當程度的前處理,故資料的前處理是此研究的重點。

2. 興趣社群

在建構興趣社群時,使用「關聯分析」具有圖形易理解,以及參數設定適當 可使關聯圖簡單易懂的優點,但也有社群圖形過於簡略,以及參數設定需要不斷 嘗試或需要經驗判斷的缺點。

而使用「聚類分析」所有興趣項目都會出現,不容易有缺漏遺失的情況,也 可依使用者需求決定要聚類的數目,不論是詳細或約略都可以辦到。相對的,如 果聚類數目過少,便容易出現一些不相關的興趣項目。

關聯分析與聚類分析的興趣社群之比較如表7,來源是第四章第三節的關聯 分析興趣社群支持度為3、信賴度為 50%;以及第四章第五節的聚類分析興趣社 群聚類數目12 群,做成的比較。由表 7 可以看出:

(1) 雖然「聚類分析」與「關聯分析」經常無一對一的社群關係,但「關聯分析」

的複合式社群經常與「聚類分析」某單一社群關係有對應關係,例如「關聯 分析」的「半導體」與「數位通訊」二個興趣社群可以在「聚類分析」找到

「半導體與數位通訊」社群。

(2) 有些興趣社群找不到對應的項目。例如「關聯分析」的「電子商務安全」興 趣社群無法在「聚類分析」找到對應社群。「聚類分析」的「自我穩定演算 法」興趣社群無法在「關聯分析」找到對應社群。

表 7:網路探勘的關聯分析與聚類分析的興趣社群之比較

關聯分析之興趣社群 聚類分析之興趣社群

z 軟體品質管理 z 軟體專案管理

z 數位教學 z 網路應用與數位學習

z 醫學工程 z 生物資訊

z 系統生物學

z 計算智慧 z 商業智慧 z 電腦計算 z 知識管理

z 資料探勘與類神經網路

z 數位通訊 z 半導體

z 半導體與數位通訊

z 電腦視覺 z 計算機架構

z 計算機方法與電腦圖學 z 計算機演算法

z 電腦結構

無明顯相關之社群 無明顯相關之社群

z 電子商務安全 z 管理與資料庫

z 電子工程 z 自我穩定演算法

z 錯誤更正碼 z 工業管理

3. 學者社群

在建構學者社群時,使用「關聯分析」由於資料格式和興趣社群相當類似,

因此只需要稍做處理就可以使用,省去了不少前處理的時間。再和興趣社群比較 時也能發現,產生的社群相當多地方都相似,證明可信度很高。但由於使用人名 代碼做關聯圖,所以不容易直覺找到相關性,需要再查詢學者擁有的專長才能理 解,而且雜訊與不相關的學者項目也較興趣社群稍多一點。

而使用「聚類分析」處理時,雜訊出現的現象比興趣社群的聚類分析更少,

和關聯分析比較起來可以讓軟體自動判斷學者社群,不需人工處理。每個聚類的 興趣項目也不會有過多或是過少的情況發生,而是統一固定取相關性最高的前十 名。缺點則是不同聚類中有可能重覆出現相同的興趣項目,造成不容易判斷。聚 類分析的樹狀系譜圖也不容易直接看出學者聚類之間內的相似點,必須先歸納同 一聚類內的學者的研究興趣,才能找到一個聚類的特點,再由比較各聚類的特 點,發現聚類之間內的相似點。

關聯分析與聚類分析的學者社群之比較如表8,來源是第四章第四節的關聯 分析學者社群支持度為3、信賴度為 50%;以及第四章第六節的聚類分析學者社 群聚類數目12 群,做成的比較。

(1) 雖然「聚類分析」與「關聯分析」經常無一對一的社群關係,但「關聯分析」

的複合式社群經常與「聚類分析」某單一社群關係有對應關係,例如「關聯 分析」的「連結網路」、「數位通訊」、「微波工程與電信工程」三個興趣社群 可以在「聚類分析」找到「電信與數位通訊」社群。

(2) 和表 7 比起來,表 8 的無明顯相關社群似乎略有增加,但仍有一定數量的社 群擁有關聯性,推測可能是因為學者社群較不易判斷,因為以人為對象其變 數會遠比單就專長來的複雜,因此其誤判或雜訊的現象較興趣社群略高是可 以理解且接受的。

表 8:網路探勘的關聯分析與聚類分析的學者社群之比較

關聯分析之學者社群 聚類分析之學者社群

z 資料庫設計 z 資料庫系統

z 計算機算術 z 計算機算術

z 企業資源規劃 z 資管領域 z 軟體專案管理與財務工程 z 軟體管理 z 計算機方法與計算機架構

z 編譯程式

z 多媒體與計算機

z 計算機架構

z 連結網路 z 數位通訊

z 微波工程與電信工程

z 電信與數位通訊

z 最佳控制 z 工業設計

z 最佳化處理

無明顯相關之社群 無明顯相關之社群

z 錯誤更正碼 z 圖形與資料處理

z 電子商務安全 z 影像處理 z 自我穩定演算法 z 資訊查詢 z 網路教學 z 語文辨識

三、資料庫資料探勘與網路探勘結果之比較

比較第三章資料庫資料探勘與第四章網路探勘之後可以了解到:

(一) 資料庫資料探勘 優點:

國科會的資料都皆由學者自行填寫資料,因此不容易有錯誤或缺漏的情況發 生。

缺點:

1. 需要顧客資料庫

必需以顧客資料庫才能進行分析,不在資料庫內的顧客無法分析。

2. 前處理無法自動化

由於必須以人工方式將學者及其專長一筆一筆整理成試算表,所以前處理相 當費時,難以提升速度。因為無法自動化,對大量的資料並不適用。

3. 易產生人為錯誤

由於必須以人工方式進行前處理,容易產生人為錯誤。

(二) 網路探勘 優點:

1. 前處理可以自動化

以網路搜尋引擎為主要資料來源,前處理過程能藉由程式幫助,達到近乎全 自動的地步。無法全自動的原因在於各大搜尋引擎對於這類動作會判定為惡意攻 擊,因此有其防禦機制存在,故無法完全自動化處理。但此一問題在技術上應該 可以克服。

2. 無需顧客資料庫

網路探勘不需要擁有顧客資料庫即可利用網路的搜尋功能,達成了解分析顧 客可能有興趣的書目或專業領域。只要取得顧客名單後,經由搜尋網頁鍵入各種 關鍵字,再分析其中的關聯,即可了解客戶對那一類的專業領域或是書目可能有 興趣。

3. 不易產生人為錯誤

由於不需以人工方式進行前處理,不會產生人為錯誤。

缺點:

1. 資料的異常

因為藉由網路搜尋,容易因為特定關鍵字而產生極大的網頁數量,例如學者 可能和某個名人同姓名,或是搜尋的研究興趣過於普遍,或正好與當前時事流行 相關,造成搜尋出極大的網頁數量,因此也就影響到關聯性判斷的可靠度。為了 降低此一現象可能造成的誤導,需採取正規化手段來修正資料。

2. 適用性有限

此種藉由網路搜尋判斷顧客有興趣的產品的方式,以現況來看只適用在對學 者專業圖書的行銷。因為一般大眾並不像學者一樣會出現在網頁上,一般產品的

特徵也不像專業圖書一樣那麼複雜,需要加以分析。

為了仔細比較資料庫資料探勘與網路探勘之結果,取支持度為3、信賴度為 50%,將其社群整理成如下表 9 以方便比較閱讀。由表 9 可以看出,即使是不同 資料來源來分析,仍有相當大的比例是具有類似或相關的社群存在,可以得知兩 種方法確實具有可信度。

表 9:資料庫資料探勘與網路探勘的興趣社群之比較

專長社群 與專長社群對應的興趣社群

生物資訊 生物資訊

醫學工程 人工智慧

自然語言處理

計算智慧 電腦計算

資訊工程 半導體

電子工程 類神經網路

模糊理論 資料探勘

商業智慧

電腦網路 無線網路

數位通訊

影像處理 電腦視覺

演算法 計算機架構

軟體工程 軟體品質管理

無明顯相關之社群 無明顯相關之社群

嵌入式系統 電子商務安全

工業管理 數位教學

知識管理

在文檔中 中 華 大 學 碩 士 論 文 (頁 104-131)

相關文件