• 沒有找到結果。

四、 書目探勘與資料庫教育訓練探勘

4.1.3 建立資料倉儲

根據 4.1.2 小節所述的方法將需要的資料都加以清理並匿名化之後,即可進 行建立資料倉儲的步驟,此步驟中主要將清理後的資料加以統整,透過下面資料 倉儲架構圖,可以將資料完整地合併為一個 Table,且一列為一完整的單筆借閱 紀錄。

圖 4-1 資料倉儲整合架構圖 表 4-5 完整借閱紀錄檔

4.1.4 資料探勘

在前小節中完成了資料倉儲的建置,而其中每筆完整的借書紀錄檔,都將成

為本研究資料探勘的資料來源,利用 SQL Server 2005 提供了互動式的圖形化介 面來呈現探勘結果,讓使用者能簡單的瞭解探勘的結果,如圖 4-2:

圖 4-2 Microsoft SQL Server2005 探勘功能圖

1.資料匯入

本研究從資料倉儲中得到了完整且已經清理完成的資料,在此將其匯入 Microsoft SQL Server 2005 中,首先利用系統精靈進行資料匯入的工作,在系統 功能 Management Studio 的物件總管視窗中任一資料庫圖示按滑鼠右鍵,執行

「工作/匯入資料」命令,即可啟動精靈進行資料匯入步驟。此處將資料倉儲中的 所有資料已經預存為 CSV 檔案格式文字檔,以便進行資料匯入,在檔案來源中 選擇一般檔案來源,瀏覽並點選從資料倉儲中匯出的 CSV 文字檔,並設定匯入 的目的地,並建立一組新資料庫名稱為「PON」,在設定好匯入項目及對應方式

De D ec ci is si io on n T Tr r ee e es s Cl C lu us st t er e ri in ng g Ti T im me e S Se er ri ie es s

A

As ss so oc ci ia at ti io on n Na N ïv ve e B Ba ay ye es s

N Ne eu u ra r al l Ne N et t

Lo L og gi is st ti ic c R Re eg gr re es ss s io i on n Li L in ne ea ar r Re R eg gr r es e ss si io on n

後,即可完成資料匯入的工作。

圖 4-3 SQL2005 資料探勘匯入精靈

2.設計關連規則模型

接下來於 SQL Server Business Intelligence Development Studio 中建立新的專 案,且首要條件就是建立「資料來源」,而這個部分就是剛剛在前一小節中匯入 的相關資料,於「資料來源」精靈中(圖 4-4)將前小節匯入的資料依步驟完成 設定,接續建立「資料來源檢視」,資料來源檢視可將來自於不同資料來源的資 料整合在一起,以後後續使用,但在本研究中因為在建立資料倉儲階段,已經將 資料來源整合並清理乾淨,所以在此步驟並無需太多的設定即可完成。

在完成資料的檢視後,即可進行資料採礦結構及採礦模型設定,選定好「關 連式規則演算法」,並選取前步驟設定的資料來源檢視,接下設定「案例資料表」

與「巢狀資料表」。在此關連規則中,本研究是要以借閱歷史紀錄來作為基本單 位,且因為只需單一資料表,故在此只需設定案例資料表即可,接下來設定變數,

在這邊必須將借閱歷史紀錄資料中的分欄設定為「輸入」與「可預測」,後並命 名採礦模型結構,設定完成後切換至「採礦模型」分頁,即可看到圖 4-5 設定。

圖 4-4 SQL 2005 資料採礦精靈

圖 4-5 SQL 2005 設定變數

完成上述設定,接下來將進入關連規則視覺化介面的部分,即是利用圖形來 觀察探勘的結果,在「採礦模型檢視器」中可以看到三個部分,分別為:

(1)項目集:透過項目集檢視器(圖 4-6)來檢視 Apriori 演算法中產生的物件 組,可以透過此檢視器瞭解各個物件組內容及其支援,可以點選資 料表標頭來切換排序模式。此部分有幾個定義可供操作:

A.最小支援:此參數即代表關連規則中的最小支援,支援低於此數 值之物件將會被過濾。

B.項目集大小下限:項目集之物件數低於此數值者將會被過濾。

C.顯示完整名稱:勾選此選項,則項目集內容會顯示完整名稱。

D.篩選項目集:在方格中輸入關鍵字後按「Enter」鍵,則會篩選 出包含此關鍵字之項目集。

E.顯示:可以切換顯示屬性名稱及值。

F.最大資料列數:顯示檢視器所能顯示之項目集筆數。

圖 4-6 SQL 2005 採礦模型檢視器-項目集

(2)規則:透過規則檢視器(圖 4-7)可以用來檢視 Apriori 演算法中產生的關 連規則,透過此檢視器可瞭解關連規則內容以及信心水準與支援。

在操作上可點選資料表標頭來切換排序模式。此部分亦有幾個參數 設定可供操作:

A.最小機率:此參數即是關連規則中的最小信心水準,信心水準低 於此數值之規則將會被過濾。

B.最低重要性:機率高不一定等於有意義的規則,「買了 A 則有 80%

的機率買 B」這條規則是否有意義?如果隨機找一個客戶購買 B 的機率只有 20%,那這條規則就是一條有意義的規則,從中找 到比較容易購買 B 的族群,但如果隨機客戶購買 B 的機率高達 90%時,此條規則意義就不大。故必須要比較在有 A 以及沒有 A 的條件下,發生 B 事件的機率比例,由於此比例可能相當懸 殊,故透過開對數的方式來取得重要性指標,公式如下:

重要性(A->B)= log (在 B 的條件下發生 A 的機率 / 在沒有 B 的機率下發生 A 的機率)

根據公式,當「在 B 的條件下發生 A 的機率」高於「在沒有 B 的條件下發生 A 的機率」時,則取對數後會大於零,且此指標 越大則代表此規則越顯著。反之若重要性小於零,則代表 A 對 於 B 的發生有抑制作用。

圖 4-7 SQL 2005 採礦模型檢視器-項目集-規則

(3)相依性網路:相依性網路是可以讓使用者瞭解變數之間關連性的圖形檢視,

每一個箭頭連結代表著預測的關係,同時可以根據每個箭頭連結的強弱來瞭 解變數之間預測關連性的強度,在圖 4-8 左方,可以透過調整刻度來檢視關 連性較強的連結,且能透過滑鼠點選,以圖形顏色瞭解變數間的相關性。

圖 4-8 SQL 2005 採礦模型檢視器-相依性網路

3.資料分析

本研究利用關連式演算法進行資料探勘作業,由上小節的相依性網路圖形找 出三個關連性較強的規則(圖 4-9、4-10、4-11),彙整規則如表 4-6 所示:

表 4-6 系所借閱圖書相關性規則 系別 相關性 A 相關性 B 相關性 C

國文系 Biblio=120 Biblio=121 Biblio=782 輔諮系 Biblio=170 Biblio=173 Biblio=178 物理系 Biblio=314 Biblio=330

圖 4-9 相依性網路群組一

圖 4-10 相依性網路群組二

圖 4-11 相依性網路群組三

Biblio=121 先秦哲學

Biblio=782 中國傳記 輔諮系 Biblio=170

心理學總論

Biblio=173 一般心理學

Biblio=178 臨床心理學 物理系 Biblio=314

數學分析

Biblio=330 物理學總論

表 4-8 (96 年)國文系薦購圖書借閱狀況

表 4-9 (96 年)輔諮系薦購圖書館借閱狀況

相關文件