• 沒有找到結果。

第三章 研究設計與實施

第三節 研究方法與設計

圖 3-3-1 研究方法流程圖

本研究的研究方法透過書目探勘中群集分析與迴歸分析的結果,做為評估 資料清理機制好壞的方式,由圖 3-3-1 得知本研究從資料蒐集與整理起,經過 資料整合、資料轉換、資料刪減、產生具概念階層的資料集最後透過書目探勘 的技術評估資料清理的結果,最後綜合評估本研究結果。

一、 資料對應

本研究將使用的問卷資料與圖書館事業中常見的問卷資料加以整理,透過 研究者整理出圖書館事業中常使用的問卷類型,與本研究問卷資料加以對應,

以利用本研究所使用之資料與圖書館事業中問卷資料能夠成功對應,以便於之 後對於本研究問卷進行資料清理、資料探勘評估等步驟。

25

二、 資料整合

本研究中資料清理步驟,主要透過 Excel 做為資料清理的工具。圖書館自 動化系統資料與圖書館外部資料之整合可以透過讀者編號的對應方式針對每 一筆外部資料與其圖書館自動化系統中的讀者資料加以整合,可彙整成讀者借 閱紀錄與外部資料的整合型式,或是讀者於圖書館自動化系統中填寫興趣圖書 的資料與外部資料整合。可利用讀者姓名與讀者年級等資料加以整合,若是所 獲得之外部資料僅填答至系所、年級等資料粒度較大之資料,則必須將圖書館 自動化系統中的所屬類別之資料加以彙整,以便於進行資料探勘。

本研究在資料整合步驟透過研究者自行整理某公司 95、97 年度的問卷資 料編碼簿為基礎,將兩年度的同質性資料做直接整合的步驟,並再針對兩年度 異質性的資料做處理,異質性資料處理可以透過兩年度的編碼簿作為整合基礎,

分為異質性紀錄值的處理、異質性意義的處理。異質性紀錄值需要透過了解兩 年度編碼簿各自不同的紀錄方式加以將記錄值彙整為單一種紀錄方式;異質性 意義的處理需要利用人工方式查閱兩年度每項欄位是否有意義相類似的欄位 才得以彙整為單一記錄,如圖 3-3-2 所示。

26

圖 3-3-2 資料整合示意圖

三、 資料轉換

資料轉換方法包含有:資料平滑化(Smoothing)、資料聚合(Aggregation)、

資料一般化(Generalization)、資料正規化(Normaliztion)、屬性建構(Attribute Construct)。

(一) 資料平滑化(Smoothing)

資料平滑化透過分箱(Binning)、迴歸(Reggration)等方式,消除資 料中的雜訊(Noise),讓書目探勘過程中,不會因為資料內容雜訊過多 而減低書目探勘的效果。例如:分箱方式將參考相鄰的值作為平滑的 方式如資料內容為 Bin1:4, 8, 15、Bin2:21, 21, 24 利用平均數平滑的 方式可以將其平滑為 Bin1:9, 9, 9、Bin2:22, 22, 22;而迴歸的方式則

27

是讓資料調適而符合一個函數(迴歸函數),如此當知道一個變數之後即 可預測另一個變數的值。

(二) 資料聚合(Aggregation)

資料聚合係利用資料粒度(Granularity)較低的資料做為聚合的目標,

例如:將每日資料聚合成每週、每月、每季的資料,透過這樣的方式 可將資料粒度過低的資料提升成我們所需要的資料層級,達到書目探 勘結果符合我們的需求。

(三) 資料一般化(Generalization)

資料一般化係將較低層級(Low-level)的資料提升其資料層級,將資 料轉化成我們一般常用的資料概念,例如:街道資料轉化成縣市資料、

縣市資料轉化成北中南三區資料等。幫助研究者能獲取所需資料。

(四) 資料正規化(Normalization)

為避免資料內容的數值變化過大或各資料欄為之間編碼方式差異 過大,透過正規化的方式能幫助減少因為數值差異太大所造成的資料 探勘結果偏誤,例如:。

(五) 屬性建構(Attribute Construct)

透過兩個或兩個以上的屬性結合,得到新的屬性,例如:透過長 度與寬度相乘能得到面積資料、透過平均使用時數與數量相乘得到總 使用時數等方式。透過這個方式幫助建立起隱藏在資料之中的屬性。

28

四、 資料刪減

資料刪減方法包含有:從資料方塊聚合(Data Cube Aggregation)、選擇屬性 的子集合(Attribute Subset Selection)等。利用從資料倉儲中的資料方塊將資料聚 合成粒度較高的資料,刪去過於細節的資料避免書目探勘過程,因為資料粒度 太低而導致無法拆解的情況產生;刪除與主題較不相關的資料部分,透過資料 子集合的資料,能夠更加貼近研究主題所需的資料。

五、 產生具概念階層資料集

建立概念階層方式有許多種,包含有:分箱式、直方圖式、分類分析法、

直觀式離散法。本研究將以直觀式離散法為主要概念階層的建立方式。

六、 評估資料清理結果

本研究以群集分析與迴歸分析結果為評估資料清理機制方式:

(一) 群集分析

群集分析結果將以結果中樣本數量最大的群集與樣本數量次大之 解釋變數的機率值為評估結果,解釋變數的機率值利用群集分析中各 項變數的差異而顯示各項變數能夠解釋群集差異的機率,透過此方法 作為評估群集分析結果之有效程度,如圖 3-3-3。

圖 3-3-3 群集分析結果評估圖

60% 65% 70% 75% 80% 85%

1 4

解釋變數的機率值

29

群集分析結果以兩個群體間的辨識率做為評估結果的方式,若是 兩個結群體間的辨識率顯著提高,則表示透過清理結果能有效提升書 目探勘結果的良率。

(二) 迴歸分析

迴歸分析透過投入的自變數與應變數了解其數量關係,能夠找出 兩個或兩個以上的變數間變化情況,例如:電器數量、電器使用時間 與用電量之間的關係。本研究評估結果利用迴歸分析中的 R2做為評估 資料清理結果的方式

30

相關文件