• 沒有找到結果。

本研究旨在透過進行外部資料的清理歸納出外部資料資料清理的方式以 提升書目探勘的有效度,並透過不同分群方式實驗是否能有效提升資料探勘的 結果。本章第一節為研究結論,綜述研究結論並回應研究目的與問題;第二節 提出未來研究建議供往後圖書館相關研究做為參考。

第一節 研究結論 一、 去除雜訊有助於幫助書目探勘的進行

在資料清理步驟方面,本研究資料清理過程以去除雜訊為原則,其中包含 有去除偏誤值、重複值、缺漏值三項,原因是雜訊最容易在資料探勘之中影響 結果,因此將其去除之後,從本研究的數據而言,也有助於提升資料探勘的有 效性(本研究中為 R2與變數的解釋機率值),因此清理步驟上以去除雜訊值最為 優先,另外,各項分群方式則視資料內容做為調整,分別可進行雙變項分群、

多變項分群、區域分類、同類合併等方式,以面對不同需求的資料探勘。

二、 透過分群使書目探勘結果更加準確

清理外部性資料時,以本研究而言為達到書目探勘所需之資料內容,必須 確定其所記錄資料之變項為何?若使用是區域變項則需要透過轉換方式將其 加以轉換為區域資料;若是以雙變項分群方式則需要將其資料分開另行資料探 勘的方式,簡化原先聚合在一起的資料,此一方法有助於減低資料複雜度,進 而提升資料探勘結果的有效性;若是以多變項分群的方式也如同雙變項方式相 同,但需要注意是否變項內容會過於繁多導致各分群資料量不足的情況;若是 以同類合併的方式則須考慮到所合併的項目是否是該當合併的,或是其合併之 後不致使資料所隱含的資訊消失。

57

而從本研究中發現,要使書目探勘的結果更加準確當方式,首先,需要清 理資料中的雜訊包含有偏誤值、重複值與缺漏值,雜訊對於書目探勘而言會導 致探勘結果不準確同時,無法使探勘結果聚焦,會導致 R2過低或是變數的解釋 機率值減低,因此去除雜訊為書目探勘中必須之項目,而其後為提升書目探勘 之準確性則必須實行不同的資料轉換方式,包含雙變項分群、多變項分類、同 類合併、區域變項分群等方法這些方法對於書目探勘而言都有其有效性。

第二節 研究建議

針對上述之結論,本研究提出幾項建議,供未來在資料清理與書目探勘時 做為參考。

一、 外部資料收集須要有計畫性蒐集

本研究中所使用兩年度資料因為資料內容收集迥異,因此在資料整合與資 料轉換上僅能擷取少部分的資料作為探勘之用,而其他記錄之資料,因為所記 錄資料項目不同或沒有相對應的資料可以合併,因此資料減低其被使用率,若 後續研究者能有計畫蒐集資料,使各年度資料能夠加以整合,則更可以看出資 料變化的趨勢。

二、 確立探勘目的後再進行資料清理

本研究中資料清理方式為努力達到資料探勘中結果的準確,在不確定探勘 目的為何的情況下進行資料清理,因此實行了許多不同方式的分群與資料合併,

希望探討每個分群方式結果是否皆能提升資料探勘的準確度,但多種的分群方 式也導致探勘主題分散,較不專一,往後研究若可以確定探勘主題之後加以清 理或許能有更明確的清理步驟提出。

58

三、 探勘結果各概念階層分群方式不一的情況可再深入探討

本研究中利用圖書館問卷中常見之各項分群方式進行概念階層的實行,並 針對每項分群方式逐一評估其結果,但從結果來看,雖對於資料探勘而言,準 確性有所提升,但各項分群結果準確度成長幅度不一,建議未來研究可針對各 項分群方式分別評估其成長原因,以及如何使特定分群方式的探勘結果準確性 成長。

59

參考文獻

中文參考文獻

卜小蝶(2001)。以圖書借閱記錄探勘加強圖書資源利用之探討。中國圖書館學會 會報,66,59-72。

卜小蝶(2002)。使用者導向之圖書分類關聯分析研究。圖書資訊學刊,17,81-94。

王毓菁(2002)。圖書館閱覽者群組潛在特性探勘資訊系統。華梵大學工業管理系 碩士論文。未出版,台北。

余明哲(2002)。圖書館個人化館藏推薦系統。國立交通大學資訊科學系碩士論文。

未出版,新竹。

吳安琪(2001)。利用資料探勘的技術及統計的方法增強圖書館的經營與服務。國 立交通大學資訊科學研究所碩士論文。未出版,新竹。

呂家賢(2005)。運用資料探勘技術於大學圖書館圖書資源推廣利用之研究。銘傳 大學管理研究所碩士在職專班碩士論文。未出版,桃園。

林湧順(2005)。以資料探勘技術探討高中生使用圖書館之行為模式--以國立台灣 師範大學附屬高級中學為例。國立臺灣師範大學社會教育學系碩士論文。未出 版,台北。

柯皓仁、楊雅雯、吳安琪、戴玉旻(2002)。個人化及群體化圖書館資訊服務初探。

國家圖書館館刊,91(1),161-195。

曹健華(2002)。應用資料探勘技術於數位圖書館之個人化服務及管理。南華大學 資訊管理學研究所碩士。未出版,嘉義。

陳建傑(2009)。基於借閱目的之資料清理機制研究—以興趣目的為例。國立台灣 師範大學圖書資訊學研究所碩士論文。未出版,台北。

陳建銘(2001)。類神經網路於 Web Mining 之應用。國立台北科技大學商業自動

60 討圖書採購決策。教育資料與圖書館學,40: 3,345-356。

謝賓帆(2008)。利用興趣加權分類技術發掘書籍借閱之適性化推薦。南台科技大 學資訊管理系碩士論文。未出版,台南。

羅子文、柯皓仁(2007)。Web 2.0 概念的圖書館個人化推薦系統。台北市立圖書 館館訊,24(4),1-30。

英文參考文獻

Banerjee, K.(1998). Is data mining right for your library? Computers in Libraries, 18

(10), 28-31.

Brauer, B. (2000). Data Quality: Spinning Straw into Gold. Retrieved Mar, 20, 2010,

61

from http://www2.sas.com/proceedings/sugi26/p117-26.pdf

Famili, A., Shen, W.M., Weber, R.,& Simoudis, E.(1997). Data preprocessing and intelligent data analysis. Intelligent Data Analysis, 1 (1),1–28.

Han J.& Kamber, M. (2000). Data Mining: Concepts and Techniques. San Francisco, CA: Morgan Kaufmann.

Jermyn, P., Dixon, M., Read, B. J.(1999). Preparing clean views of data for data mining.

Retrieved Jan, 10, 2010, from

http://www.ercim.eu/publication/ws-proceedings/12th-EDRG/EDRG12_JeDiRe.pdf Laudon, K. C.(1986). Data quality and due process in large interorganizational record

systems. Communications of the ACM, 29(1), 4-11.

Nicholson, S.(2003). The Bibliomining Process: Data Warehousing and Data Mining for Library Decision Making. Information Technology & Libraries, 22(4), 146-151.

Wu. C.H (2003). Data mining applied to material acquisition budget allocation for libraries: design and development, Expert Systems with Applications, 25(3), 401-411.

相關文件