• 沒有找到結果。

第一章 緒論

第一節 研究背景與動機

在數位化時代下,各項的數據資料被單位和組織視為珍貴的資產,決策者 可以透過分析資料庫裡的數據資料來擷取出重要資訊以進行決策。但決策者往 往必須面對的是龐大的資料量,這些資料量超出決策者可以直接從中獲取資訊 的程度,因此需要一種可以自動分析大量資料以找出型樣(Pattern)的技術。而 資料探勘(Data Mining)技術提供決策者從資料倉儲或資料庫中挖掘不易發現,

但具有一定參考價值的訊息或資訊,從而建構出一套單位或企業可以依循的經 營模式,讓單位或企業更有競爭力。

自從圖書館自動化、電子化之後,不斷累積讀者的相關記錄,例如:借閱 記錄、檢索記錄等。卜小蝶(2001)提到圖書館借閱記錄是讀者使用圖書館資 源的最佳「證據」,也是讀者積極滿足個人資訊需求的行為結果,這類資訊能 反映使用者實際的資訊需求,因此對於掌握讀者興趣,作為加強圖書館資源利 用的基礎具有一定的參考價值。圖書館擁有大量的讀者基本資料、借閱記錄、

館際合作紀錄等,這些資料可以讓圖書館從中發掘出讀者的借閱習性、興趣等,

幫助圖書館提供更加優良的讀者服務。

此外,Glesson & Ottensmann(1993)指出,所有類型的圖書館都開始面對 越來越多問題,諸如預算縮減、不斷增加的花費、複雜性工作的增加、使用者 的要求不斷增多、技術的更新、資訊產品與資訊服務項目的日新月異以及公眾 的需求等。為了要應付這些挑戰,以及做出更有效能的計畫與決策,圖書館管 理者需要一個能迅速管理與分析資訊的工具。決策支援系統能釐清以上問題並 且是一個符合圖書館管理者需求的工具,能作為圖書館資源分配上的一個依據。

1

而圖書館的自動化系統中的許多記錄,經過適當的處理過程,包括統計分 析、資料探勘等方式,可以讓管理者得到所需要的資源與決策參考。

Scott Nicholson(2003)提到書目探勘(Bibliomining)是解決圖書館很多 問題的一個研究歷程,圖書館管理者可以使用資料倉儲(Data Warehouse)客 觀地獲取資訊,而非依靠自己主觀的判斷來識別這些資料。統計方法及資料探 勘技術可以用來分析資料倉儲以瞭解使用者的行為,並建立一套可信的模組,

透過瞭解這些模組,可獲得以下四項的優勢:

1. 提出更貼近圖書館讀者的圖書館館藏政策;

2. 藉由建立資料倉儲之後並加以分析使用者使用記錄,使圖書館管理者更 了解民眾需求,可以讓圖書館有更好的服務;

3. 制訂圖書館的相關服務工作規範以因應網際網路的時代;

4. 讓使用者更瞭解如何利用圖書館。

謝建成(2008)指出過去書目探勘資料來源主要以圖書館自動化系統或是 電子資料庫廠商為主,其中包含有借閱資料、基本資料、館藏資料與流通資料 等;另包含有電子資源、如線上資料庫、電子期刊等使用記錄資料。戴玉旻(2000)

以交通大學圖書館借閱記錄為資料探勘資料來源;李明修(2007)以某大學館 藏借閱記錄做為主要資料來源;張健彥(2008)以國立彰化師範大學圖書館資料 為書目探勘的主要資料來源。以上均可以發現以往書目探勘資料來源大多以圖 書館自動化系統資料為主要資料來源,缺乏外部資料,如:讀者問卷資料、館 員問卷資料等作為輔助書目探勘的資料,如果圖書館自動化系統中資料出現缺 漏、錯誤等情形,則書目探勘結果便淪為「Garbage In, Garbage Out」的結果。

而 Brauer(2001)指出在組織中的資料庫,大約有 15%至 20%的資料是錯 誤或是無法被使用來做資料探勘的,而重要的組織資料中又有 1%至 10%的資

2

料內容是缺漏或錯誤的(Laudon,1986)。因此可以推論由圖書館自動化系統或 電子資料庫廠商所提供的資料不能夠完全應用於書目探勘上。此外,陳建傑

(2009)分析大學圖書館讀者借閱記錄與其興趣是否相關之後,建議除了利用 歷史借閱紀錄作為資料來源,也應該一併分析外部資料,如修課記錄,以提高 書目探勘的準確率。過去書目探勘工作主要針對圖書館自動化系統中的記錄做 探勘,資料內容單一且受限於圖書館自動化系統廠商的限制。資料內容主要為 讀者的基本資料、借閱資料與檢索關鍵字等資料,無法真正了解讀者對於借閱 書籍的意圖與興趣,導致探勘內容受限於資料本身,因此必須加入外部性資料;

但外部資料的複雜性高且不同於以往書目探勘中來自於圖書館自動化系統的 記錄,其類型包含有問卷資料、修課記錄等,其中問卷資料在圖書館外部性資 料中佔的比例為大宗,包含:圖書館滿意度問卷、讀者使用行為調查、圖書館 事業調查、圖書館活動調查等,由於外部資料的來源多、複雜性又高,對於書 目探勘而言,需要更加注意資料清理的方式。

資料清理過程涉及:

1. 讀者資料與問卷資料做整合,使外部資料與讀者做正確對應;

2. 透過有效的資料轉換,將整合後的資料轉換為適合探勘的資料形式並 去除雜訊;

3. 實行概念階層,將資料提煉出不同的概念主題,以便於進行探勘。

以上皆是必須在資料探勘時考慮的因素,因此如何使用外部資料,並透過 資料清理機制而實行書目探勘,實為書目探勘中一項重要工作。

3

第二節 研究目的與問題

本研究希望以外部資料做為資料來源,先利用資料清理的機制並配合使用 書目探勘的相關技術,歸納出適合書目探勘的外部資料清理方式與清理步驟,

並以探勘結果評估資料清理的效果,幫助圖書館管理者往後在進行書目探勘時 能夠藉由本研究所提之資料清理方式,加速書目探勘之速度與書目探勘的準確 度。

本研究之研究目的為:

1. 了解書目探勘對於外部性資料進行資料清理的流程與步驟。

2. 設計外部性資料清理機制,並利用資料探勘技術評估清理前後資料探 勘結果之優劣。

為達到以上研究目的,了解在書目探勘中外部性資料的清理機制,相關的 研究問題如下:

1. 在使用問卷資料進行資料清理的過程中,如何清理以達到書目探勘所 需的資料內容?

2. 哪些資料清理步驟有助於書目探勘的進行?

3. 哪些資料清理技術應用於清理外部性資料能使書目探勘結果更加準 確?

第三節 研究範圍與限制

本研究僅針對書目探勘中,以外部性資料做為資料清理的來源,關於圖書 館自動化系統各模組中各項資料之清理方式不在此研究討論範圍。此外,本研 究利用資料探勘中資料清理方法進行外部資料清理,僅討論探勘結果優劣與否,

4

資料探勘的演算法效率與使用的資料探勘軟體不同所產生的差異,不在本研究 之探討範圍。

第四節 名詞解釋 一、 書目探勘(Bibliomining)

指結合資料探勘與書目計量學於圖書館資料分析應用之中,以分析讀者的 行為、採購政策分析、預測經費使用分配、分析讀者社群、提供讀者個人化服 務並作為館藏發展的依據。

二、 外部性資料(External Data)

指圖書館自動化系統以外之資料。圖書館自動化系統範圍大多具有以下模 組:管理模組、編目模組、流通模組、館藏查詢模組、期刊模組、採訪模組等 六大模組,此外,也包含有館際合作之交易紀錄、電子資源使用記錄等。圖書 館外部性資料包含:讀者滿意度問卷、讀者使用行為問卷、圖書館評鑑記錄等。

三、 資料清理(Data Cleaning)

本研究所採用的定義基於資料清理主要在消除原始資料中的問題,因此採 用 Famili, Shen, Weber, Simoudis (1997)所定義的資料清理是:「至少消除原始 資料中的一個問題,且清理過後的資料相較於原始資料是有價值且有用的,能 幫助達成資料分析以挖掘出重要資訊。」

5

相關文件