• 沒有找到結果。

都柏林核心集評鑑

N/A
N/A
Protected

Academic year: 2022

Share "都柏林核心集評鑑"

Copied!
13
0
0

加載中.... (立即查看全文)

全文

(1)

吳政叡 Cheng-Juei Wu

輔仁大學圖書資訊系專任教授

Professor, Department of Library & Information Science, Fu-Jen University

【摘要Abstract】

由於都柏林核心集已成為國際間廣泛使用的元資料,本文針對國內外一些相關的評鑑研究進 行分析,以了解國內外在這方面研究的進展。首先,國內外研究經驗都顯示都柏林核心集符合使 用簡易性與創造簡易性這二個評鑑標準。其次,就著錄資料內容的品質而言,看法較為分歧,正 負面的評價皆有,不過,即便以負面評價的研究數據來看,欄位題名(Title)的正確率約為 50%

左右;欄位作者(Creator)、其他貢獻者(Contributor)、和出版者(Publisher)則有 65%;欄 位主題(Subject)是一如預期,主要問題在詞彙不夠特定;欄位描述(Description)雖然也有 不夠特定的問題,不過,正確率卻也有 38%左右。最後,就都柏林核心集使用性的衡量來看,作 者在國內以檢索失誤率(RER)為評鑑標準所做的相關研究顯示,都柏林核心集確實對使用者在資 料內容的判斷上有所幫助(總檢索失誤率最好可達 2.9%),皆優於搜尋引擎所提供之回覆款目品 質(總檢索失誤率一般在 20%-30%之間),不過二者的差距大小取決於都柏林核心集記錄的品質。

Since the Dublin Core has been widely-used in various applications, we investigate the progress of its evaluation. Firstly, the experiments indicate that the Dublin Core is appeared to be easy to use and create at the same time. Secondly, no consensus has been reached on the quality of the content. However, in the worst case, the element Title still has about 50% correction rate. Lastly, for the quality assessment of usage, the author designs and conducts an experiment on a group of seven graduate students using the Dublin Core as the cataloging metadata. The experimental results show that the performance of the Dublin Core is much better than that of search engines in terms of the Retrieval Error Ratio, which is the measure criterion for judging document relevance before retrieval. On average, RER is only 2.9% for the Dublin Core, in contrast to 20.7% for the seven famous search engines.

The very low RER indicates that the cataloging information of the Dublin Core is good enough for the users to make judgments of document relevance before retrieving the documents. However, because the RER of search engines is stable and ranging from 20 to 30, the difference of RER between the Dublin Core and search engines depends on the quality of the Dublin Core.

(2)

【關鍵詞 Keyword】

元資料;元資料評鑑;都柏林核心集;都柏林核心集評鑑

Metadata; Metadata Evaluation; Dublin Core; Dublin Core Evaluation

壹、前言

自西元 1990 年代初 World-Wide Web(全球資訊網,簡稱 WWW)開始 盛行後,網頁迅速成為一種資訊的承載 工具和傳播管道,其數量以極驚人的速 度在成長。由於其成長的速度遠超過書 籍或期刊文獻,因此,當時針對書籍或 期刊文獻所發展成熟的技術,並無法有 效來處理網頁。

為能快速處理和檢索數量龐大且成 長快速的網頁,一種新的處理方式──

全文檢索,和新的工具──搜尋引擎

(如 Yahoo 與 Google)應運而生。搜 尋引擎(或全文檢索)的運作方式,主 要是先透過自動抓取程式在網際網路上 抓取網頁,然後以自動拆字(或詞)作 索引的方式來建立其資料庫,做為檢索 的基礎。這種操作方式的特點是高運作 效率和一網打盡,因此,有高回收率與 低精確率的特性,很不幸的,這特性引 發資訊超載的問題,同時資訊超載隨著 網頁數量的日益龐大而越來越嚴重。

為了克服搜尋引擎高回收率與低精 確率的特性所引發的資訊超載問題,

Metadata(中文翻譯為元資料、元數 據、詮釋資料、或後設資料)的概念自 西元 1990 年代中期逐漸興起,其最常 見的英文定義是“data about data”(註

1),可直譯為描述資料的資料,主要是 描述資料屬性的資訊,用來支持如指示 儲存位置、資源尋找、文件紀錄、評 價、過濾等的功能(註 2)。廣義的描 述性元資料包括有(搜尋引擎)全文索 引、無欄位名詞集(如關鍵詞或主 題)、基本欄位架構(如無修飾詞的都 柏林核心集)、修飾詞欄位架構(如有 修飾詞的都柏林核心集)、和複雜結構

(如MARC 和 TEI)等(註 3)。

由於都柏林核心集(Dublin Core)

已成為國際間廣泛使用的元資料(註 4),同時,目前在網頁中使用元資料以 提昇檢索效能已有一定的共識,本文擬 選擇國內外一些與都柏林核心集相關的 評鑑研究進行分析,以了解國內外在這 方面研究的進展。

貳、評鑑標準

對 元 資 料 而 言 , 在 評 鑑 標 準

(Criteria)方面,目前並無一致的定 論,Moen 等人曾在西元 1997 年綜合 6 篇研究文獻(包含許多從傳統書目著錄 活動中所得到的經驗)(註 5-11),彙 整 提 出 的 23 個 標 準 , 包 括 有 : Access 、 Accuracy 、 Availability 、 Compactness 、 Compatibility 、 Comprehensiveness 、 Content 、

(3)

Consistency 、 Cost 、 Data Structure 、 Ease Of Creation 、 Ease Of Use 、 Economy 、 Flexibility 、 Fitness For Use 、 Informativeness 、 Protocols 、 Quantity 、 Reliability 、 Standard 、 Timeliness、Transfer、Usability(註 12)。

雖然上述彙整的標準達 23 個,不 過由於不同的元資料各有其特色,再加 上研究目的與對象的規範,一般祇會選 擇少數幾個標準來進行評鑑工作,例 如:在「The Role of Content Analysis in Evaluating Metadata for the US Government Information Locator Service

(GILS):Results from an Exploratory Study」一文中,Moen 等人主要以精確 性(Accuracy)、完整性(Completeness)、

和服務性(Serviceability)三個評鑑標 準來對政府資訊指引服務(Government Information Locator Service)的資料進 行評鑑(註 13);在「Author-generated Dublin Core metadata for web resources: a baseline study in an organization」一文 中 , Greenberg 等 人 以 可 接 受 性

( Acceptability ) 、 可 理 解 性

(Intelligibility)、正確性(Correctness)、

專 門 性 (Specificity )、 和 徹 底 性

(Exhaustivity)來衡量都柏林核心集

(DC)記錄的品質(註 14);在「A Study of the Metadata Creation Behavior of Different User Groups on the Internet」

一 文 中 , Zhang 等 人 用 精 確 性

(Accuracy)來衡量元資料記錄的品質

(註15)。

以宏觀的角度來分析,元資料記錄 品質的評鑑,主要可分為二個範疇(註 16),一是記錄格式和內容的正確性,

例如:精確性(Accuracy)、可接受性

(Acceptability)、一致性(Consistency)、

相容性(Compatibility)、與資料結構

(Data Structure)等;一是記錄使用性 的衡量,例如:回收率(Recall Rate)、

精確率(Precision Rate)、與檢索失誤 率(RER)等(註 17-18)。

參、都柏林核心集之評鑑

由於都柏林核心集(DC)已成為 國際間廣泛使用的元資料,以下針對國 外一些都柏林核心集相關的評鑑研究進 行分析,以了解國外在這方面研究的進 展。另一方面,也介紹作者本身在國內 曾進行過的都柏林核心集相關評鑑研 究。

作者著錄(Author-generated)是都 柏林核心集(和其他與網頁相關元資 料)的一個主要特色,這是因為一方面 搜尋引擎的全文檢索運作方式,有高回 收率與低精確率的特性,在檢索資料時 會產生資訊超載的問題;另一方面,網 頁數量又過於龐大,無法全部仰賴專業 著錄人員(如圖書館員)來處理。

針對作者著錄所產生都柏林核心集 記錄的品質好壞問題,Greenberg 等人 在 「 Author-generated Dublin Core Metadata for Web Resources: a baseline study in an organization」一文中(註

(4)

19 ), 以 6 個 National Institute of Environmental Health Sciences(NIEHS)

的員工和科學家為對象,進行了多項實 驗。這些實驗主要是屬於上述Metadata 記錄品質評鑑的第一個範疇──記錄格 式和內容的正確性。

實驗參與者的背景資料如下:

學歷:從學士學位到博士學位。

使用 NIEHS 網站經驗:4 人每 天使用,1 人每週使用,1 人每 月使用。

 Metadata 熟悉度:5 人曾聽聞 過,1 人從未聽聞過。

創造網頁經驗:3 人寫過網頁,

3 人未寫過。

實驗過程和方法如下述:首先,利 用半小時做實驗參與者背景資料問卷的 填寫和都柏林核心集的講解介紹,接著 請參與者利用半小時做網頁都柏林核心 集的著錄,6 人共完成 11 筆記錄,平 均每人1.8 筆記錄。

從上述的實驗過程來分析,首先,

都柏林核心集的講解介紹用不到半小 時,這與筆者在國內針對研究生所進行 類似實驗的經驗大致相同(註 20),這 證實都柏林核心集符合使用簡易性

(Ease Of Use)的評鑑標準。

再者,從 30 分鐘平均每人可完成 1.8 筆記錄來看,平均完成一筆記錄祇 需 16.7 分鐘。同時根據事後對參與者 所做的問卷調查,詢問著錄資料的難易 度(以1 代表困難,而 5 代表容易),

所有參與者皆反映簡單(平均值為

4.7)。雖然筆者未實際測量時間,但這 與在國內針對研究生進行類似實驗所獲 得的經驗也大致相同,這說明基本上都 柏林核心集也符合創造簡易性(Ease Of Creation)的評鑑標準。

至於實驗參與者所著錄之都柏林核 心集記錄的品質評鑑,則由二位有經驗 的專業著錄人員,依下述方式來加以評 斷:首先,以「接受」或「拒絕」兩等 級形式來評量記錄中的個別欄位,發現 在有使用的 15 個欄位中,7 個欄位的

「接受」百分比是 100%,其他如欄位 Format 為 91% , 欄 位 Title 、 Date Modified、和 Type 為 82%,也都是非 常理想的。剩餘欄位的統計資料如下:

Subject 73%、Alternative Title 67%、

Source 50%、和 Coverage 50%。整體來 說,品質評鑑的結果應該是合格的。

其次,針對整筆都柏林核心集記 錄,分別以可理解性(Intelligibility)

和正確性(Correctness)二評鑑標準來 評量,二位專業著錄人員認為所有實驗 參與者創造的 11 筆都柏林核心集記錄 皆符合可理解性(Intelligibility)和正 確性(Correctness)。

再者,特別針對欄位Subject 以專門 性(Specificity)和徹底性(Exhaustivity)

二 評 鑑 標 準 來 評 量 , 前 者 專 門 性

(Specificity)衡量深度,而後者徹底 性(Exhaustivity)衡量廣度,二位專業 著錄人員的評量結果,是 11 筆都柏林 核心集記錄中有 7 筆(64%)皆符合專 門 性 ( Specificity ) 和 徹 底 性

(5)

(Exhaustivity)。

最後,整筆都柏林核心集記錄以可 接受性(Acceptability)評鑑標準,分 四個等級:「差—拒絕」、「尚可—大修 改」、「良好—小修改」、和「優良—無 修改」來評量,二位專業著錄人員針對 11 筆都柏林核心集記錄評量結果如 下:1 筆(9%)為「優良—無修改」、

6 筆(55%)為「良好—小修改」、和 4 筆(36%)為「尚可—大修改」。

綜合上述各種數據,Greenberg 等 人認為可以產生品質良好的都柏林核心 集記錄,換言之,作者著錄這種做法是 可行的。不過,由於實驗參與者人數很 少(6 人),又屬於學歷較高的專業人 員,加上祇有分析 11 筆記錄,因此,

這比較適合當成初步的結論,須有更大 規模的樣本和更嚴謹的抽樣設計,才能 形成更堅實的結論。

在「An Evaluation of the Effectiveness of Current Dublin Core Metadata for Retrieval」一文中(註 21),Sokvitne 提 出一些對都柏林核心集記錄品質較負面 評價的看法。首先,Sokvitne 認為都柏 林核心集記錄之有效性(Effectiveness)

衡量,應該以搜尋引擎能力的對比為基 礎。這個觀點筆者認為是正確的,一方 面從歷史發展的過程來看,元資料是接 續搜尋引擎而興起,主要就是希望其能 彌補搜尋引擎的缺失;另一方面,從成 本效益的觀點,主要靠人力製作的元資 料(含都柏林核心集),其成本必較搜 尋引擎電腦自動產生的資料昂貴甚多,

因此,如果不能較搜尋引擎的資料更為 有效,其存在的價值就令人存疑。在

「都柏林核心集對減低檢索失誤率的實 務研討」一文中(註 22),筆者在設計 實驗時,就以搜尋引擎為對照組來對比 都柏林核心集的效能。

其次,Sokvitne 認為在檢索最常使 用 的 是 題 名 (Title )、 作 者 / 出 版 者

(Creator/Publisher)、和主題(Subject),

因此,鎖定如下都柏林核心集相關欄位 來分析:題名(Title)、作者(Creator)、

其 他 貢 獻 者 (Contributor )、 出 版 者

(Publisher)、和主題(Subject)。抽樣 方式是從澳洲 20 所政府或教育機構的 網站中,各隨機抽樣5 個網頁,共 100 個網頁來進行分析。

在題名(Title)部分的衡量方式

(或分析角度)有三:

都柏林核心集的題名(Title)內 容是否符合網頁呈現時(一般人 認為)的題名:調查結果發現符 合比率為 48%,顯然是很不理 想,因為題名是非常重要的檢索 欄位之一。

都柏林核心集的題名(Title)內 容是否複製網頁 HTML 中的 Title 標籤(Tag):調查結果發 現複製比率為59%。

都柏林核心集的題名(Title)內 容是否為網頁內容的某一個字 串:調查結果發現符合比率為 47%。

Sokvitne 認為如果都柏林核心集的

(6)

題 名 (Title ) 內 容 是 直 接 複 製 網 頁 HTML 中的 Title 標籤(Tag),那是無 價值的。這個觀點筆者是贊同的,一方 面那祇是重複電腦可做到的功能,如果 用人工來做是毫無意義的;一方面從使 用經驗中可以發現,HTML 中的 Title 標籤(Tag)有一定比率是與網頁呈現 時(一般人認為)的題名不相符合的,

而上述調查結果的第二點和第一點的對 比也間接証實這個觀點。

在調查分析中,Sokvitne 也發現有 44%的網頁是以圖形方式來呈現題名,

其中祇有 53%有都柏林核心集的題名

(Title)欄位。筆者認為這是一個非常 重要的發現,一方面點出目前網頁製作 上的一個趨勢,一方面顯示出元資料

(Metadata)存在的價值。

綜合來看,筆者認為上述的第一個 衡量方式是唯一較直接且適當的題名

(Title)衡量標準,同時 48%符合比率 也的確有很大的改進空間。此外,是否 第三項調查(柏林核心集的題名內容為 網頁內容的某一個字串)符合比率很高 即代表人工製作的元資料(Metadata)

無存在的價值,筆者認為這是很值得商 榷的,因為要找出某一個字串並將其放 入適當欄位,一般來說是需要很高的智 慧和判斷能力。

在作者(Creator )、其他貢獻者

(Contributor)、出版者(Publisher)部 分的衡量方式(或分析角度)有三:

都柏林核心集的作者(Creator)、

其他貢獻者(Contributor)、出

版者(Publisher)內容是否為網 頁內容的某一個字串:調查結果 發現符合比率為58%。

都柏林核心集的作者(Creator)、

其他貢獻者(Contributor)、出 版者(Publisher )內容是否正 確:調查結果發現正確比率為 65%。

 都 柏 林 核 心 集 的 出 版 者

(Publisher)是否符合國會權威 名稱(Library of Congress Name Authorities,LCNA):調查結果 發現符合比率為22%。

綜合來看,筆者認為上述的第二個 衡量方式是唯一較直接且適當的作者

(Creator)、其他貢獻者(Contributor)、

和出版者(Publisher)衡量標準,同時 65%的正確比率雖較題名部分高,但也 還是有改進的空間。另外,第三項調查

(都柏林核心集的出版者是否符合 LCNA)之符合比率很低是可以預期 的,畢竟一般網頁作者並沒有接受過相 關的專業訓練。最後,Sokvitne 發現許 多團體名稱的格式並不一致,例如,並 無包括母機構的名稱。

在主題(Subject)部分調查結果的 發現如下:

主題數量太多(超過25 個),或 固定重複某一組的主題:19%。

主題拼字或文法錯誤:7%。

 主 題 詞 彙 不 夠 特 定 (Too General):79%。

 主 題 詞 彙 太 過 狹 義 (Too

(7)

Narrow):12%。

主題不正確:17%。

漏失重要主題:23%。

綜合來看,筆者認為上述的衡量標 準並非不適當,但是主題(Subject)本 來就很複雜,即便是專業機構如圖書 館,也存在許多問題。在以上述的調查 發現來看,除了主題詞彙不夠特定

(Too General)的 79%過高外,其餘缺 失的比率並不高,但是第一項缺失卻應 該盡可能避免。

雖 然 「A Study of the Metadata Creation Behavior of Different User Groups on the Internet」一文的主要研究 焦點,是在比較不同專業團體創造之元 資料是否有(統計上的)顯著差異(註 23),因此,該研究從 4 個不同專業團 體各抽取200 個網頁,合計 800 個網頁 來加以檢視。雖然該研究主要的研究面 向和對象與本文的興趣稍有不同,不過,

一方面是其所調查的欄位與都柏林核心 集的相似度非常高,一方面有針對關鍵 詞(Keyword)、描述(Description)、

和題名(Title)等 3 個欄位的相關衡量 數據,因此,也在此列入討論。

在網頁世界中,主題(Subject)和 關鍵詞(Keyword)經常混用,可以說 是同義詞。根據上述文章的調查,關鍵 詞(Keyword)的調查結果整理如表一

(註 24),可以看出,除了由於採用類 似單選題形式造成正確比率偏低外,其 餘與一般預期的結果相差不多。

表一:關鍵詞(Keyword)的調查結果整理。

百分比

Narrow 32.3 Broad 58.6 Incorrect 3.5 Correct 4.4 Duplicate 1.3 總計 100

描述(Description)的調查結果整 理如表二(註25),其中,即便採用類 似單選題形式,正確比率仍達37.7%是 令人欣慰的,因為根據筆者在實驗中的 經驗,描述(Description)可以說是資 訊最豐富的欄位。事實上,根據Craven 針對一般HTML 網頁中 META Tag 屬 性註明為Description 者(並非一定為 都柏林核心集的欄位Description),所 做之一系列關於其書寫方式的研究顯 示,描述(Description)可以被當作摘 要(Abstract)使用(註 26),因而可 以提供豐富且多元的資訊。

表二:描述(Description)的調查結果整理。

百分比

Narrow 9.7 Broad 48.9 Incorrect 3.7 Correct 37.7 Duplicate 0.1 總計 100

綜合來看,筆者認為 Zhang 等人 在「A Study of the Metadata Creation Behavior of Different User Groups on the

(8)

Internet」一文中,針對關鍵詞(或主 題)與題名的調查結果,跟 Sokvitne 在「An Evaluation of the Effectiveness of Current Dublin Core Metadata for Retrieval」一文中的發現大致相同。簡 要言之,題名的正確率祇略為過半,仍 有改善的空間。至於更複雜的主題或關 鍵詞,正確率更是偏低,須要改善的幅 度更大。

在元資料的效用分析上,Thomas 等人在「Rising to the Top: Evaluating the Use of the HTML META Tag to Improve Retrieval of World Wide Web Documents through Internet Search Engines」一文中(註 28),為了測試一 般HTML 網頁中 META Tag 的被存取 性 ( Accessibility ) 或 被 檢 索 性

(Retrievability),以五個主題,每個主 題創造4 篇網頁:一篇沒有任何 META Tag、一篇祇有關鍵詞(Keyword)、一 篇祇有描述(Description)、一篇同時 有 關 鍵 詞 ( Keyword ) 和 描 述

(Description),總計 20 篇網頁,然後 使用搜尋引擎 AltaVista 和 Infoseek 來 搜尋,實驗結果發現使用META Tag 關 鍵詞(Keyword)可以有效增加網頁被 檢索到的機率,但是單獨使用 META Tag 描述(Description)並不會增加網 頁被檢索到的機率。

雖然 Thomas 等人上述的研究似乎 對描述(Description)的檢索效用是負 面的,但是,此為初步的研究,由於樣 本太少,與主題和樣本代表性等問題,

此實驗結果的基礎是非常薄弱的。當 然,這也有可能是受到各搜尋引擎內部 處理與排序機制很大的影響所致,元資 料欄位本身可能祇有很小的影響力。

在國內,為了驗證元資料的實際效 用,在「都柏林核心集對減低檢索失誤 率的實務研討」一文中(註 29),筆者 使用一個新的衡量標準──檢索失誤率

(Retrieval Error Ratio ,簡稱 RER )

(註 30),用來評估檢索系統的效能,

檢索失誤率是來比較和評估檢索系統所 提供之(目錄)資訊,做為使用者判斷 基準的精確程度,基本上是一個元資料 使用性的衡量標準,也可以用來比較各 種不同元資料、檢索系統目錄、與搜尋 引擎回覆款目的品質。

檢索失誤率是計算失誤筆數佔總筆 數的百分比,公式如下:

%

×100

= 總筆數 檢索失誤率 失誤筆數

例如:總筆數為20,失誤筆數為 4 時,

檢索失誤率(RER)為 20%。

由於失誤型態的不同,檢索失誤率

(RER)可分為以下兩種:(註 31)

第I 型失誤:在閱讀檢索系統所 提供的資訊時,使用者認為需 要,但在調閱原文後,判定非為 其所需要的資料。換言之,使用 者浪費了時間或金錢。

第 II 型失誤:在閱讀檢索系統 提供的資訊時,使用者認為不是 他或她需要的資料,但在事後調

(9)

閱原文時,發現是需要的資料。

換言之,使用者損失了資訊。

這二種型態的檢索失誤率(型I 檢 索失誤率和型 II 檢索失誤率)可以分 開統計來顯示元資料的不同特性,也可 以 加 總 合 計 為 ( 總 ) 檢 索 失 誤 率

(RER)。例如:在「搜尋引擎回覆款 目品質探討:以檢索失誤率為例」一文 中(註 32),筆者利用西元 2002 到西 元 2004 年的實驗數據,比較眾多搜尋 引擎之(總)檢索失誤率、型 I 檢索失 誤 率 、 和 型 II 檢 索 失 誤 率 , 發 現

( 總 ) 檢 索 失 誤 率 最 優 前 三 名 為 MSN、PC Home、和 GAIS;型 I 檢索 失 誤 率 最 優 前 三 名 為 PC Home 、 Openfind、和 MSN;型 II 檢索失誤率 最 優 前 三 名 為 MSN 、 WiseNut 、 和 Google。因此,綜合三個檢索失誤率來 看,以 MSN 和 PC Home 的表現最 佳。

在衡量都柏林核心集的品質時,筆 者採取與Sokvitne 在「An Evaluation of the Effectiveness of Current Dublin Core Metadata for Retrieval」一文中類似的立 場,認為有必要來對比都柏林核心集與 搜尋引擎之回覆款目品質。筆者是以研 究生為實驗參與者,在「都柏林核心集 對減低檢索失誤率的實務研討」一文中 的實驗結果是都柏林核心集的(總)檢 索失誤率為 2.9%,對比於搜尋引擎之 20.7%(註 33),顯示都柏林核心集確 實對使用者在資料內容的判斷上有所幫 助。雖然在往後幾年的實驗中,二者的

差距時有變化,並沒有上述如此大的差 異,主要原因是搜尋引擎的(總)檢索 失誤率一般在 20%-30%之間,但是都 柏林核心集的(總)檢索失誤率,卻常 因都柏林核心集記錄的品質不同,有較 大程度的波動,而都柏林核心集記錄的 品質主要是受到實驗參與者用心程度的 影響。

肆、結語

雖然在網頁中使用元資料已有一定 的共識,但尚未達全面普及應用的層 次,因此,國內外相關的評鑑研究尚處 於起步階段,所以,相關的文獻數量並 不多。由於都柏林核心集已成為國際間 廣泛使用的元資料,本文乃選擇國內外 一些與都柏林核心集相關的評鑑研究進 行分析,以了解國內外在這方面研究的 進展。

Greenberg 等人在「Author-generated Dublin Core Metadata for Web Resources:

a Baseline Study in an Organization」一 文中的研究經驗,顯示都柏林核心集符 合使用簡易性與創造簡易性這二種評鑑 標準,這與筆者在國內所進行相關研究 所得的經驗相吻合。

其次,就著錄資料內容的品質而言,

看法較為分歧,正負面的評價皆有。

Greenberg 等 人 在 「 Author-generated Dublin Core Metadata for Web Resources:

A Baseline Study in an Organization」一 文中,根據6 位高學歷實驗參與者和 2

(10)

位有經驗專業著錄人員擔任評審所得之 結果,對都柏林核心集記錄的品質持正 面的評價。一方面絕大部分欄位被評斷 為接受的比率都超過 80%,甚至連欄 位 主 題 (Subject ) 的 接 受 比 率 都 有 73%;一方面全部 11 筆記錄都被評斷 為符合可理解性(Intelligibility)和正 確性(Correctness)二種評鑑標準,再 以 4 個 等 級 之 可 接 受 性

(Acceptability)評鑑標準來評量,亦 有正面的評價。最後,針對欄位主題

(Subject)以專門性(Specificity)和徹 底性(Exhaustivity)二評鑑標準來評 量,結果11 筆都柏林核心集記錄中有 7 筆(64%)皆符合專門性(Specificity)

和徹底性(Exhaustivity)。

在較負面評價方面,Sokvitne 在

「An Evaluation of the Effectiveness of Current Dublin Core Metadata for Retrieval」一文中,以(對比於搜尋引 擎能力的)有效性(Effectiveness)評 鑑標準來評量都柏林核心集記錄的品 質,並且針對在檢索最常使用的是題名

(Title)、作者/出版者(Creator/Publisher)、 和主題(Subject)等欄位來進行調查分 析,抽樣方式是從澳洲 20 所政府或教 育機構的網站中,各隨機抽樣 5 個網 頁,共100 個網頁來進行分析。調查結 果發現欄位題名(Title)的正確率為 48%;欄位作者(Creator)、其他貢獻 者(Contributor)、和出版者(Publisher)

的 正 確 率 為 則 有 65% ; 欄 位 主 題

(Subject)是一如預期,主要問題在詞

彙 不 夠 特 定 ( 比 率 達 79% ); 因 此 Sokvitne 對都柏林核心集記錄的品質持 較負面評價。

另外,Zhang 等人在「A Study of the Metadata Creation Behavior of Different User Groups on the Internet」一 文中,從4 個不同專業各抽取 200 個網 頁,合計800 個網頁來加以檢視,發現 關鍵詞(或主題)的調查結果,跟 Sokvitne 的結果大致相同,主要問題在 詞彙不夠特定(比率達 58.6%);欄位 描述(Description)雖然也有不夠特定 的問題,不過,正確率卻也有 38%左 右;欄位題名(Title)部分,完全正確 比 率 為 53.4% , 部 分 正 確 比 率 為 29.3%,二者合計比率可達 82.8%。

在元資料的效用分析上,Thomas 等人在「Rising to the Top: Evaluating the Use of the HTML META Tag to Improve Retrieval of World Wide Web Documents through Internet Search Engines」一文中,發現關鍵詞(Keyword)

可以有效增加網頁被存取性(Accessibility)

或被檢索性(Retrievability),而單獨使 用描述(Description)並不會增加網頁 被檢索到的機率。但是,此初步研究由 於樣本太少與代表性問題,其基礎非常 薄弱。同時,這也有可能跟各搜尋引擎 內部處理與排序機制有很大關連,元資 料欄位本身可能祇有很少的影響力。

最後,就都柏林核心集使用性的衡 量來看,筆者在國內以檢索失誤率

(RER)為評鑑標準所做的多項研究顯

(11)

示,都柏林核心集確實對使用者在資料 內容的判斷上有所幫助(總檢索失誤率 最好可達 2.9%),皆優於搜尋引擎所提 供之回覆款目品質(總檢索失誤率一般 在 20%-30%之間),不過,二者的差距 大小取決於都柏林核心集記錄的品質。

綜合來說,都柏林核心集符合使用 簡易性與創造簡易性這二種評鑑標準是 已有共識。就著錄資料內容的品質而 言,雖然 Greenberg 等人的研究認為可 以產生品質良好的都柏林核心集記錄,

換言之,作者著錄這種做法是可行的。

不 過 由 於 實 驗 參 與 者 人 數 很 少 (6 人),又屬於學歷較高的專業人員,加 上祇有分析 11 筆記錄,因此,結論的 效力較為薄弱。Sokvitne 和 Zhang 等人 的研究,抽樣的網頁較多也較具代表 性,因此其結論較符合都柏林核心集記 錄品質目前的現況。雖然目前都柏林核 心集記錄的品質可能不盡理想,但絕非 無功效或用處,根據筆者在國內多年以 檢索失誤率(RER)為評鑑標準所做的 多項研究顯示,都柏林核心集確實對使 用者在資料內容的判斷上有所幫助,祇 不過其品質易受著錄者用心程度的影響 而有較大程度的波動。

附 註

註1 E. P. Shelley and B. D. Johnson,

“Metadata: Concepts and Models,” in Proceedings of the Third National Conference on the Management of

Geoscience Information and Data (Adelaide, Australia: Australian Mineral Foundation, 1995), pp.1-5.

註2 L. Dempsey and R. Heery, “An Overview of Resource Description Issues,” (March 1997), <http://www.

ukoln.ac.uk/metadata/DESIRE/overv iew/rev_01.htm>.

註3 S. Weibel, R. Iannella, and W. Cathro,

“The 4th Dublin Core Metadata Workshop Report,” (June 1997),

<http://www.dlib.org/june97/metadat a/06weibel.html>, p.3.

註4 都柏林核心集(Dublin Core)的官 方 網 站 在 <http://dublincore.org/>

(2007/03/12)。

註5 Stuart Ede, “Fitness for purpose: The Future Evolution of Bibliographic Records and Their Delivery,” Catalogue

& Index 116 (1995), pp.1-3.

註6 Rachel Heery, “Review of Metadata Formats,” Program 30:4 (1996), <http://

www.ukoln.ac.uk/metadata/review>.

註7 Elizabeth U Mangan, “The Making of a Standard,” Information Technology and Libraries 14:2 (1995), pp. 99-110.

8 Arlene G Taylor Introduction to Cataloging and Classification (8th ed.) (Libraries Unlimited, 1992).

註9 Amanda Xu, “Accessing Information on the Internet: Feasibility Study of USMARC Format and AACR2,”

(12)

Proceedings of the OCLC Internet Cataloging Colloquium (San Antonio, Texas: OCLC, January 19, 1996),

<http://www.oclc.org/oclc/man/colloq/

xu.htm>.

註10 Jennifer A. Younger, “Interview with Jennifer A. Younger, Ohio State University,” OCLC Newsletter 221 (1996), <http://www.oclc.org/oclc/

new/n221/view.htm>.

註11 W. E. Moen, E. L. Stewart, and C. R.

McClure, “The Role of Content Analysis in Evaluating Metadata for the US Government Information Locator Service (GILS): Results from an Exploratory Study,” (1997)

<http://www.unt.edu/wmoen/publicat ions/GILSMDContentAnalysis.htm>.

(2007/03/12).

註12 同前註。

註13 同註 11。

註14 J. Greenberg, M. Pattuelli, and D.

Robertson, “Author-generated Dublin Core metadata for web resources: a baseline study in an organization,”

Journal of Digital Information 2:2 (Nov. 2001).

註15 J. Zhang and I. Jastram,. “A study of the metadata creation behavior of different user groups on the Internet,”

Information Processing and Management 42:4 (2006), pp.1099- 1122.

註16 同註 11。

註17 S. E. Robertson, “The Parametric Description of Retrieval Tests,”

Journal of Documentation 25:1 (1969), pp.2-3.

註18 吳政叡,機讀編目格式在都柏林核 心集的應用探討 (台北市:學生 書局,1998 年 12 月),頁 210。

註19 同註 14。

註20 吳政叡,「都柏林核心集對減低檢 索失誤率的實務研討」 圖書館學 與資訊科學 24 卷 1 期 (1998 年 10 月),頁 50-64。

註21 L. Sokvitne, “An evaluation of the effectiveness of current Dublin Core metadata for retrieval,” Presented at the VALAConference (2000), <http://

www.vala.org.au/vala2000/2000pdf/

Sokvitne.PDF>, (2007/03/12).

註22 同註 20。

註23 同註 15。

註24 同註 15,頁 1112。

註25 同註 15,頁 1117。

註26 T. Craven, “DESCRIPTION Meta Tags in Public Home and Linked Pages,”

LIBRES: Library and Information Science Electronic Journal 11:2 (2001), <http://libres.curtin.edu.au/

LIBRE11N2/craven.htm>.

註27 同註 15,頁 1118。

註28 T. P. Turner, and L. Brackbill, “Rising to the top: Evaluating the use of the HTML Meta Tag to Improve

(13)

Retrieval of World Wide Web Documents through Internet Search Engines,” Library Resources and Technical Services 42:4 (1998), pp.258-271.

註29 同註 20。

註30 同註 20。

C 註 31 吳政叡,「資訊的檢索失誤率探

討」 中國圖書館學會會訊 109 期

(1998 年 6 月),頁 26。

註32 吳政叡,「搜尋引擎回覆款目品質 探討:以檢索失誤率為例」 臺灣 圖書館管理季刊 2 卷 2 期 (2006 年4 月),頁 11-19。

註33 同註 20。

參考文獻

相關文件

volume suppressed mass: (TeV) 2 /M P ∼ 10 −4 eV → mm range can be experimentally tested for any number of extra dimensions - Light U(1) gauge bosons: no derivative couplings. =&gt;

For pedagogical purposes, let us start consideration from a simple one-dimensional (1D) system, where electrons are confined to a chain parallel to the x axis. As it is well known

Courtesy: Ned Wright’s Cosmology Page Burles, Nolette &amp; Turner, 1999?. Total Mass Density

The observed small neutrino masses strongly suggest the presence of super heavy Majorana neutrinos N. Out-of-thermal equilibrium processes may be easily realized around the

incapable to extract any quantities from QCD, nor to tackle the most interesting physics, namely, the spontaneously chiral symmetry breaking and the color confinement.. 

(1) Determine a hypersurface on which matching condition is given.. (2) Determine a

• Formation of massive primordial stars as origin of objects in the early universe. • Supernova explosions might be visible to the most

The difference resulted from the co- existence of two kinds of words in Buddhist scriptures a foreign words in which di- syllabic words are dominant, and most of them are the