建立資料倉儲

四、書目探勘與資料庫教育訓練探勘

4.1.3 建立資料倉儲

根據 4.1.2 小節所述的方法將需要的資料都加以清理並匿名化之後，即可進行建立資料倉儲的步驟，此步驟中主要將清理後的資料加以統整，透過下面資料倉儲架構圖，可以將資料完整地合併為一個 Table，且一列為一完整的單筆借閱紀錄。

圖 4-1 資料倉儲整合架構圖表 4-5 完整借閱紀錄檔

4.1.4 資料探勘

在前小節中完成了資料倉儲的建置，而其中每筆完整的借書紀錄檔，都將成

為本研究資料探勘的資料來源，利用 SQL Server 2005 提供了互動式的圖形化介面來呈現探勘結果，讓使用者能簡單的瞭解探勘的結果，如圖 4-2：

圖 4-2 Microsoft SQL Server2005 探勘功能圖

1.資料匯入

本研究從資料倉儲中得到了完整且已經清理完成的資料，在此將其匯入 Microsoft SQL Server 2005 中，首先利用系統精靈進行資料匯入的工作，在系統功能 Management Studio 的物件總管視窗中任一資料庫圖示按滑鼠右鍵，執行

「工作/匯入資料」命令，即可啟動精靈進行資料匯入步驟。此處將資料倉儲中的所有資料已經預存為 CSV 檔案格式文字檔，以便進行資料匯入，在檔案來源中選擇一般檔案來源，瀏覽並點選從資料倉儲中匯出的 CSV 文字檔，並設定匯入的目的地，並建立一組新資料庫名稱為「PON」，在設定好匯入項目及對應方式

De D ec ci is si io on n T Tr r ee e es s Cl C lu us st t er e ri in ng g Ti T im me e S Se er ri ie es s

A

As ss so oc ci ia at ti io on n Na N aï ïv ve e B Ba ay ye es s

N Ne eu u ra r al l Ne N et t

Lo L og gi is st ti ic c R Re eg gr re es ss s io i on n Li L in ne ea ar r Re R eg gr r es e ss si io on n

後，即可完成資料匯入的工作。

圖 4-3 SQL2005 資料探勘匯入精靈

2.設計關連規則模型

接下來於 SQL Server Business Intelligence Development Studio 中建立新的專案，且首要條件就是建立「資料來源」，而這個部分就是剛剛在前一小節中匯入的相關資料，於「資料來源」精靈中（圖 4-4）將前小節匯入的資料依步驟完成設定，接續建立「資料來源檢視」，資料來源檢視可將來自於不同資料來源的資料整合在一起，以後後續使用，但在本研究中因為在建立資料倉儲階段，已經將資料來源整合並清理乾淨，所以在此步驟並無需太多的設定即可完成。

在完成資料的檢視後，即可進行資料採礦結構及採礦模型設定，選定好「關連式規則演算法」，並選取前步驟設定的資料來源檢視，接下設定「案例資料表」

與「巢狀資料表」。在此關連規則中，本研究是要以借閱歷史紀錄來作為基本單位，且因為只需單一資料表，故在此只需設定案例資料表即可，接下來設定變數，

在這邊必須將借閱歷史紀錄資料中的分欄設定為「輸入」與「可預測」，後並命名採礦模型結構，設定完成後切換至「採礦模型」分頁，即可看到圖 4-5 設定。

圖 4-4 SQL 2005 資料採礦精靈

圖 4-5 SQL 2005 設定變數

完成上述設定，接下來將進入關連規則視覺化介面的部分，即是利用圖形來觀察探勘的結果，在「採礦模型檢視器」中可以看到三個部分，分別為：

（1）項目集：透過項目集檢視器（圖 4-6）來檢視 Apriori 演算法中產生的物件組，可以透過此檢視器瞭解各個物件組內容及其支援，可以點選資料表標頭來切換排序模式。此部分有幾個定義可供操作：

A.最小支援：此參數即代表關連規則中的最小支援，支援低於此數值之物件將會被過濾。

B.項目集大小下限：項目集之物件數低於此數值者將會被過濾。

C.顯示完整名稱：勾選此選項，則項目集內容會顯示完整名稱。

D.篩選項目集：在方格中輸入關鍵字後按「Enter」鍵，則會篩選出包含此關鍵字之項目集。

E.顯示：可以切換顯示屬性名稱及值。

F.最大資料列數：顯示檢視器所能顯示之項目集筆數。

圖 4-6 SQL 2005 採礦模型檢視器-項目集

（2）規則：透過規則檢視器（圖 4-7）可以用來檢視 Apriori 演算法中產生的關連規則，透過此檢視器可瞭解關連規則內容以及信心水準與支援。

在操作上可點選資料表標頭來切換排序模式。此部分亦有幾個參數設定可供操作：

A.最小機率：此參數即是關連規則中的最小信心水準，信心水準低於此數值之規則將會被過濾。

B.最低重要性：機率高不一定等於有意義的規則，「買了 A 則有 80%

的機率買 B」這條規則是否有意義？如果隨機找一個客戶購買 B 的機率只有 20%，那這條規則就是一條有意義的規則，從中找到比較容易購買 B 的族群，但如果隨機客戶購買 B 的機率高達 90%時，此條規則意義就不大。故必須要比較在有 A 以及沒有 A 的條件下，發生 B 事件的機率比例，由於此比例可能相當懸殊，故透過開對數的方式來取得重要性指標，公式如下：

重要性（A->B）= log （在 B 的條件下發生 A 的機率 / 在沒有 B 的機率下發生 A 的機率）

根據公式，當「在 B 的條件下發生 A 的機率」高於「在沒有 B 的條件下發生 A 的機率」時，則取對數後會大於零，且此指標越大則代表此規則越顯著。反之若重要性小於零，則代表 A 對於 B 的發生有抑制作用。

圖 4-7 SQL 2005 採礦模型檢視器-項目集-規則

（3）相依性網路：相依性網路是可以讓使用者瞭解變數之間關連性的圖形檢視，

每一個箭頭連結代表著預測的關係，同時可以根據每個箭頭連結的強弱來瞭解變數之間預測關連性的強度，在圖 4-8 左方，可以透過調整刻度來檢視關連性較強的連結，且能透過滑鼠點選，以圖形顏色瞭解變數間的相關性。

圖 4-8 SQL 2005 採礦模型檢視器-相依性網路

3.資料分析

本研究利用關連式演算法進行資料探勘作業，由上小節的相依性網路圖形找出三個關連性較強的規則（圖 4-9、4-10、4-11），彙整規則如表 4-6 所示：

表 4-6 系所借閱圖書相關性規則系別相關性 A 相關性 B 相關性 C

國文系 Biblio=120 Biblio=121 Biblio=782 輔諮系 Biblio=170 Biblio=173 Biblio=178 物理系 Biblio=314 Biblio=330

圖 4-9 相依性網路群組一

圖 4-10 相依性網路群組二

圖 4-11 相依性網路群組三

Biblio=121 先秦哲學

Biblio=782 中國傳記輔諮系 Biblio=170

心理學總論

Biblio=173 一般心理學

Biblio=178 臨床心理學物理系 Biblio=314

數學分析

Biblio=330 物理學總論

表 4-8 （96 年）國文系薦購圖書借閱狀況

表 4-9 （96 年）輔諮系薦購圖書館借閱狀況

在文檔中以開放原始碼建置大學圖書館顧客關係管理系統之研究 (頁 52-64)

四、 書目探勘與資料庫教育訓練探勘