• 沒有找到結果。

都柏林核心集使用者查詢行為調查:以施合鄭基金會為例

N/A
N/A
Protected

Academic year: 2022

Share "都柏林核心集使用者查詢行為調查:以施合鄭基金會為例"

Copied!
9
0
0

加載中.... (立即查看全文)

全文

(1)

都柏林核心集使用者查詢行為調查:

以施合鄭基金會為例

吳 政 叡

輔仁大學圖書資訊系教授兼系所主任

【摘要】

作者用與施合鄭基金會合作所建立的網路書目資料處理系統(臺灣地區中文聯 合系統,使用都柏林核心集格式)為對象,以民國90 年 2 月起至民國 90 年 12 月止 的 11 個月為期,利用系統來自動記錄使用者查詢的關鍵詞,及其他相關資料,加以 適當的分析,來探究使用者的查詢行為和資訊需求。調查結果發現,就查詢的方式 來看,即使(全部欄位)關鍵詞的查詢方式較方便,但是大部分時候使用者還是比 較喜歡較精確的單一欄位方式。再以都柏林核心集的1 5 個欄位來分析,傳統的查詢 角度(欄位)如書名和作者,仍然佔有絕對的優勢。最後,調查結果顯示,單一欄 位查詢方式,其每次查詢平均產生的個回覆款目,遠小於全部欄位查詢方式,因此 單一欄位方式較全部欄位方式,不會帶給使用者過多的垃圾資料和資訊超載問題。

不過由於本研究所使用的系統,尚屬於陸續建立館藏資料的草創階段,加上使用量 並不太大,因此所得資料尚有待後續更多的研究來證實。

關 鍵 詞:都柏林核心集、查詢過程記錄分析、檢索詞彙記錄分析

一、前 言

不管是查詢過程記錄分析(Transaction Log Analysis)[ 1 ]抑或檢索詞彙記錄

[ 1 ] 張嘉彬,〈臺大電子圖書館與博物館系統之評估研究:以查詢過程記錄分析法為例〉,《中國

(2)

分析(Search Term Log Analysis)[2]都是利用電腦來自動記錄系統使用者的檢索 或是查詢過程,然後利用所得資料來分析使用者的檢索(或是查詢)方式、行為 與資訊需求等。由於在記錄的過程中,使用者一般不會覺察到或是有意識到,因 此可以說是一種非常自然和客觀的不涉入觀察方式。有關查詢過程記錄分析法的 發展歷史與優缺點,在〈臺大電子圖書館與博物館系統之評估研究:以查詢過程 記錄分析法為例〉一文中已有詳實的敘述[3] ,不在此贅述。

雖然自 1 9 6 0 年代以來,查詢過程記錄分析已經有大量的研究成果和文獻存 在,不過由於使用者的查詢行為,可能會因為文化、地域、語文和工具類型等因 素的影響而有所不同,其研究仍然有持續進行的必要,尤其是當有全新的熱門資 料類型或是檢索系統與工具出現時,更是有必要針對新的資料類型或檢索工具來 進行調查。

1 9 9 0 年全球資訊網(Wo r l d - Wide We b,簡稱 W W W)的誕生[ 4 ],迅速創造 了一個熱門流行的新型態資料網頁。隨後基於網頁檢索的需求,產生了一個新的 檢索工具搜尋引擎(Search Engine)。〈臺灣網路使用者檢索詞彙分析研究〉一 文即是針對搜尋引擎所做的初步研究[ 5 ],不過由於在該研究中所收集的期間較短

(一為 3 個月,一為 2 星期)且為單一的時間片斷[ 6 ],因此在資料的代表性上似 乎是有所不足的。另一方面,受限於所取得資料的內容,其研究焦點也祇在檢索 詞彙的平均長度、頻率分佈、與核心詞彙的比例[ 7 ],因此研究面相對也顯得有些 不足,有待後續更多的研究來建立更穩固的結論。

由於搜尋引擎運作的方式是屬於全文檢索,主要以自動拆字(或詞)做索引 的方式來建立其資料庫,做為檢索的基礎,這種方式有高回收率與低精確率的特 性。因此目前在使用 W W W 上的搜尋引擎來查詢資料時,有資料回覆量太多和 垃圾比率太高兩個致命傷。因而在 1 9 9 0 年代中期以後,元資料(M e t a d a t a)逐

圖書館學會會報》,66(2001.6),頁 107。

[ 2 ] 卜小蝶,〈臺灣網路使用者檢索詞彙分析研究〉,《國家圖書館館刊》民國 8 9 年第 1 期

(2000. 6),頁 26。

[ 3 ] 同註 1,頁 107-109。

[ 4 ] T. Berners-Lee, L. Masinter, and M. McCahill, "Uniform Resource Locators (URL)," 1994, from ftp://ds.internic.net/rfc/rfc1738.txt, p.1.

[ 5 ] 同註 2,頁 25-34。

[ 6 ] 同註 2,頁 27-28。

[ 7 ] 同註 2,頁 27。

(3)

漸應運而生成為研究的主流。

元資料的英文定義是 "data about data",可直譯為描述資料的資料,主要是描 述資料屬性的資訊,用來支持如指示儲存位置、資源尋找、文件紀錄、評價、過 濾等的功能。因此元資料是用來揭示各類型電子文件或檔案的內容和其他特性,

其典型的作業環境是電腦網路作業環境。[ 8 ]〈臺大電子圖書館與博物館系統之評 估研究:以查詢過程記錄分析法為例〉一文[ 9],即是針對一個建基於 M e t a d a t a 的系統所進行之研究,該研究主要分成兩部分,一是就約2 星期內系統中各網頁 被使用的情況進行分析,一是就約4 個月內所收集的 1,029 個查詢敘述做分析。

[10]

不過由於第一個部分進行的期間甚短,且限於網頁被使用的次數,因此其研 究的面相相對來說較窄。第二個部分進行的期間較長,分析的面相較多,可能的 缺陷是資料量 1 , 0 2 9 筆稍少,同時似乎也未完全按照隨機原理來收集,因此資料 的代表性可能仍有疑慮,這都有待後續更多的相關研究來相互印證。

本研究所使用的資料,來自作者與施合鄭基金會長期合作所建立的網路書目 資料處理系統「臺灣地區中文聯合系統」,此系統使用的都柏林核心集格式為元 資料的一種,近年來在國際間非常受到重視。本文以11個月期間,系統所自動記 錄的使用者查詢資料為基礎,加以分析來探究使用者的查詢行為和資訊需求。

二、研究計畫與系統查詢功能簡介

如前所述,本研究所建基的都柏林核心集為元資料的一種,是1995 年 3月由 國際圖書館電腦中心(OCLC)和 National Center for Supercomputing Applications

(N C S A)所聯合贊助的研討會下的產物,目的是希望建立一套描述網路上電子文 件特色的方法,來協助資訊檢索。[11] 都柏林核心集的1 5個基本項目有:主題和關 鍵詞(S u b j e c t)、題名(Ti t l e)、著者(C r e a t o r)、簡述(D e s c r i p t i o n)、出版者

(P u b l i s h e r)、其他參與者(C o n t r i b u t o r s)、出版日期(D a t e)、資源類型(Ty p e)、資

[ 8 ] 吳政叡,〈從元資料看未來資料著錄的發展趨勢〉,《資訊傳播與圖書館學》 3:2(1 9 9 7 . 12),頁 44-45。

[ 9 ] 同註 1,頁 103-125。

[10] 同註 1,頁 110。

[11] Stuart Weibel, Jean Godby, Eric Miller, and Ron Daniel, "OCLC/NCSA Metadata Wo r k s h o p Report," 1995, from http://www.oclc.org:5047/oclc/research/publications/weibel/metadata/dublin_

core_report.html, p.2.

(4)

料格式(F o r m a t)、資源識別代號(I d e n t i f i e r)、關聯(R e l a t i o n)、來源(S o u r c e)、 語言(Language)、涵蓋時空(Coverage)、版權規範(Rights)。[12] [13]

作者近年來一直致力於都柏林核心集在圖書館的應用,先後發表一系列的論 [14],並提出一套利用都柏林核心集來處理書目資料的架構。[15] 同時自民國 88 年 6 月起,與施合鄭民俗文化基金會合作,將此套架構付諸實踐。

施合鄭民俗文化基金會設立於民國69 年 6 月 16 日,為一非營利的財團法人 機構。原先設立之宗旨在於保存、發揚及研究與社區廟會相關之民俗曲藝,如子 弟戲、布袋戲及陣頭等。自民國 8 0 年起將研究地域擴展及大陸,研究範圍增加 宗教與儀式,研究視野進而包容整個文化現象。[16]

自民國 8 8 年 6 月起,與施合鄭民俗文化基金會合作的第一期計畫,以八個 月為期,建立一套系統,協助施合鄭民俗文化基金會處理其館藏。第一期計畫的 目標在建立一個線上的操作系統,可以利用網路來執行著錄、查詢、管理等方面 的功能,並且建立 5 , 0 0 0 筆書目紀錄。不管是基金會的工作人員,或是一般的使 用者,皆可隨時上網查詢資料。

在第一期計畫順利完成後,接著進行第二期計畫,第二期第一年計畫自民國 89 年 2 月起至民國 90 年 1 月止,主要是針對尚未建檔的館藏進行編目。第二期 計畫的第二年(從民國 90 年 2 月起至民國 91 年 1 月止)的主要完成工作項目有 三:

(一)書籍編目:接續第一期計畫與第二期第一年計畫的編目工作,第二期 計畫的第二年完成 2 , 2 7 3 筆新的書目紀錄。目前系統總計約有 1 4 , 0 0 0 餘筆書目資料。

(二)舊有書目紀錄增加主題欄位:主題(s u b j e c t)對於揭示書籍的內容和 協助使用者的查詢方面,有非常大的幫助,目前系統約有2,700 筆主題 資料。

(三)使用者的查詢行為和資訊需求研究:利用系統來自動記錄使用者查詢

[ 1 2 ] 同註 8。

[ 1 3 ] 有關都柏林核心集的欄位最新資訊,請參見http://dublincore.org/documents /dces。

[ 1 4 ] 吳政叡,《都柏林核心集與圖書著錄》(臺北:學生書局,2000.12),頁 16-20。

[ 1 5 ] 同註 14,頁 15。

[ 1 6 ] 有關施合鄭民俗文化基金會的詳細介紹,見http://dimes.lins.fju.edu.tw/shc。

(5)

的關鍵詞,及其他相關資料。

與 施 合 鄭 民 俗 文 化 基 金 會 合 作 所 建 立 的 臺 灣 地 區 中 文 聯 合 館 藏 系 統

(U C S T W,網址:h t t p : / / d i m e s . l i n s . f j u . e d u . t w / s h c),提供四種不同的書目資料查 詢方式:(全部欄位)關鍵字查詢、單一欄位查詢、複合欄位查詢和u r n 查詢。

下面圖一和圖二分別為關鍵字查詢和單一欄位查詢的畫面。

圖一:關鍵字查詢的畫面

圖二:單一欄位查詢的畫面

(6)

三、查詢記錄分析結果

以下作者根據系統自動記錄的使用者查詢資料,分別從以下不同的角度來分 析:

(一)查詢方式比較:四種系統書目資料查詢方式(全部欄位)關鍵字查 詢、單一欄位查詢、複合欄位查詢和urn 查詢的次數比較。

(二)都柏林核心集 1 5 個欄位的利用情況:從單一欄位查詢中來分析 1 5 個 欄位的個別查詢次數。

(三)關鍵詞查詢時的回覆款目數量:從資訊超載的角度來比較(全部欄位)

關鍵字查詢和單一欄位查詢的平均回覆款目數量。

首先,本研究的調查期間,為民國90 年 2 月起至民國 90 年 12 月止的 11 個 月,此時期間系統的書目資料紀錄總數在1 2 , 0 0 0 至 1 4 , 0 0 0 之間。以四種系統所 提供的查詢方式來看:(全部欄位)關鍵字查詢計有 2 1 2 次、單一欄位查詢有 1,421 次、複合欄位查詢有2 次、urn 查詢有 3,335 次。

由以上的數據可以看出 urn 查詢最多,11 個月間共有 3,335 筆,平均每月有 303.18 次查詢。其原因可能是編目人員常常直接透過urn 來查詢資料所致。其次 是單一欄位查詢的 1,421 次,而最少的複合欄位查詢祇有 2 次,可見布林邏輯的 複合欄位查詢,立意雖好,但是較為複雜,一般極少被使用。

另一方面,(全部欄位)關鍵字查詢方式祇有212 次,也遠少於單一欄位查 詢的 1,421 次。看來雖然全部欄位的查詢方式較方便,不過其缺點是系統回覆款 目過多,增加使用者過濾資料的困難。因此大部分時候使用者還是比較喜歡較精 確的單一(指定)欄位方式。

以單一(指定)欄位查詢方式而言,因為都柏林核心集有 15 個欄位,因此 下面就各欄位的利用情況來分析。根據系統資料顯示,15 個欄位中祇有 9 個欄位 有被使用,分別為:Ti t l e、C r e a t o r、I d e n t i f i e r、S u b j e c t、D a t e、P u b l i s h e r、

C o n t r i b u t o r、D e s c r i p t i o n、Ty p e,其中被使用最頻繁的欄位是 Ti t l e(題名或書 名),而且超出其他欄位甚多,使用次數達 9 5 7 次,佔所有單一(指定)欄位查 詢次數(共 1,421 次)的 67.35%。其次是欄位 Creator(作者),達 172 次,佔所 有單一(指定)欄位查詢次數的 1 2 . 1 0 %。再來是 I d e n t i f i e r(4 3 次)和 S u b j e c t

(19 次),其餘欄位皆不到 10 次。以下是 9 個有被使用欄位,其次數的詳細統計

(7)

如表一(按使用次數高低排列):

表一:都柏林核心集9 個有被使用欄位的次數統計表

欄位名稱 次數

Title 957

Creator 172

Identifier 43

Subject 19

Publisher 8

Date 7

Description 7 Contributor 6

Type 1

從以上的分析可以清楚得知,傳統的查詢角度(欄位)如書名和作者,仍然 佔有絕對的優勢,兩者合計佔所有單一(指定)欄位查詢次數的79.45%。

最後為了觀察查詢時的回覆款目數量,系統也有記錄此方面的資訊。首先是 全部欄位查詢方式,全部 212 次使用者的關鍵詞查詢,產生9,658 個回覆款目,

因此平均每次關鍵詞查詢產生 4 5 . 5 6 個回覆款目。若是扣除 0 個回覆款目的查 詢,則查詢次數祇剩下 120 次,因此平均每次關鍵詞查詢產生的回覆款目增加為 80.48 個。

其次就單一(指定)欄位查詢方式的回覆款目來分析,全部1 , 4 2 1 次使用者 的關鍵詞查詢,產生29,416 個回覆款目,因此平均每次關鍵詞查詢產生17.99 個 回覆款目。若是扣除 0 個回覆款目的查詢,則查詢次數祇剩下925 次,因此平均 每次關鍵詞查詢產生的回覆款目增加為31.80 個(參見表二)。

由以上的分析清楚顯示,單一(指定)欄位查詢方式,其每次查詢平均產生 的回覆款目,遠小於全部欄位查詢方式(不管是17.99 對比 45.56,抑或是 31.80 對比 8 0 . 4 8),由此可知,單一欄位方式較全部欄位方式精確,較不會帶給使用者 過多的垃圾資料和資訊超載問題。

(8)

表二:查詢方式與平均回覆款目數量的統計表

查詢方式 平均回覆款目的數量 一般 扣除0 個回覆款目

(全部欄位)關鍵字 45.56 80.48

單一欄位 17.99 31.80

四、結 語

作者以臺灣地區中文聯合系統(U C S T W,與施合鄭基金會合作建立的網路 書目資料處理系統,使用都柏林核心集格式)為工具,從2001 年 2 月起至 2 0 0 1 年 12 月止的 11 個月期間,利用系統來自動記錄使用者的查詢方式和資料。調查 結果發現,就查詢的方式來看,即便(全部欄位)關鍵詞查詢方式較方便,但是 大部分時候使用者還是比較喜歡較精確的單一欄位方式。分別是(全部欄位)關 鍵詞查詢有 212 次和單一欄位查詢有1,421 次。

上述結果和〈臺大電子圖書館與博物館系統之評估研究:以查詢過程記錄分 析法為例〉一文中的調查結果有極大的差異,在其研究中發現(全部欄位)關鍵 詞查詢次數略多於單一欄位查詢次數[ 1 7 ];但是在本研究中發現單一欄位查詢次 數遠多於(全部欄位)關鍵詞查詢次數。

再以都柏林核心集的 1 5 個欄位來分析,傳統的查詢角度(欄位)如書名和 作者,仍然佔有絕對的優勢,書名( Ti t l e)欄位佔所有單一欄位查詢次數的 6 7 . 3 5 %,而作者(C r e a t o r)欄位佔所有單一欄位查詢次數的 1 2 . 1 0 %,兩者合計 幾近 80%。

最後,調查結果顯示,單一欄位查詢方式,其每次查詢平均產生的個回覆款 目,遠小於全部欄位查詢方式(不管是 1 7 . 9 9 對比 4 5 . 5 6,抑或是 3 1 . 8 0 對比 8 0 . 4 8,參看表 2),由此可知,單一欄位方式較全部欄位方式精確,較不會帶給 使用者過多的垃圾資料和資訊超載問題。

不過由於本研究所使用的系統,尚屬於陸續建立館藏資料的草創階段,加上 使用數量並不太大,因此所得資料尚有待後續更多的研究來證實。

[ 1 7 ] 同註 1,頁 113。

(9)

Investigation of Users’ Query on UCSTW: A Dublin Core System

Cheng-Juei Wu

Professor and Chairman, Department of Library and Information Science Fu Jen Catholic University

【Abstract】

In this work, the author checks into the query log automatically recorded by the sys- tem from Feb. to Dec. 2001 to investigate users’ query behaviors and information needs on UCSTW, a Dublin Core based system built under a cooperative project with the Shih Ho-Cheng Folk Culture Foundation. Firstly, the results indicate that most of the users prefer the more accurate single-field query to the all-field keyword query. Secondly, for the Dublin Core 15 fields, the title and creator fields are two dominating fields using in query. Lastly, on average, for the single-field query, there are about 18 hit items, com- paring to around 45.6 hit items for the simple all-field keyword query.

Keywords: Dublin Core, Transaction Log Analysis, Search Term Log Analysis, UCSTW

參考文獻

相關文件

Then they work in groups of four to design a questionnaire on diets and eating habits based on the information they have collected from the internet and in Part A, and with

This research was based on a 12-year compulsory education syllabus in the field of mathematics, and it integrated mathematical culture to develop game-based lesson plans to

Then, a visualization is proposed to explain how the convergent behaviors are influenced by two descent directions in merit function approach.. Based on the geometric properties

Feedback from the establishment survey on business environment, manpower requirement and training needs in respect of establishments primarily engaged in the provision of

The algebraic homology functor assigns to a chain complex its sequence of ho- mology groups and to a chain map the induced homomorphisms on homology defines a functor from the

[3] Haosong Gou, Hyo-cheol Jeong, and Younghwan Yoo, “A Bit collision detection based Query Tree protocol for anti-collision in RFID system,” Proceedings of the IEEE

“A Comprehensive Model for Assessing the Quality and Productivity of the Information System Function Toward a Theory for Information System Assessment.”,

The purpose of this study was to investigate if providing consumers with a general dietary guidance or impose a cash punishment policy on customers for not finishing their food on