都柏林核心集評鑑

(1)

吳政叡 Cheng-Juei Wu

輔仁大學圖書資訊系專任教授

Professor, Department of Library & Information Science, Fu-Jen University

【摘要Abstract】

由於都柏林核心集已成為國際間廣泛使用的元資料，本文針對國內外一些相關的評鑑研究進行分析，以了解國內外在這方面研究的進展。首先，國內外研究經驗都顯示都柏林核心集符合使用簡易性與創造簡易性這二個評鑑標準。其次，就著錄資料內容的品質而言，看法較為分歧，正負面的評價皆有，不過，即便以負面評價的研究數據來看，欄位題名（Title）的正確率約為 50％

左右；欄位作者（Creator）、其他貢獻者（Contributor）、和出版者（Publisher）則有 65％；欄位主題（Subject）是一如預期，主要問題在詞彙不夠特定；欄位描述（Description）雖然也有不夠特定的問題，不過，正確率卻也有 38％左右。最後，就都柏林核心集使用性的衡量來看，作者在國內以檢索失誤率（RER）為評鑑標準所做的相關研究顯示，都柏林核心集確實對使用者在資料內容的判斷上有所幫助（總檢索失誤率最好可達 2.9％），皆優於搜尋引擎所提供之回覆款目品質（總檢索失誤率一般在 20%-30%之間），不過二者的差距大小取決於都柏林核心集記錄的品質。

Since the Dublin Core has been widely-used in various applications, we investigate the progress of its evaluation. Firstly, the experiments indicate that the Dublin Core is appeared to be easy to use and create at the same time. Secondly, no consensus has been reached on the quality of the content. However, in the worst case, the element Title still has about 50% correction rate. Lastly, for the quality assessment of usage, the author designs and conducts an experiment on a group of seven graduate students using the Dublin Core as the cataloging metadata. The experimental results show that the performance of the Dublin Core is much better than that of search engines in terms of the Retrieval Error Ratio, which is the measure criterion for judging document relevance before retrieval. On average, RER is only 2.9% for the Dublin Core, in contrast to 20.7% for the seven famous search engines.

The very low RER indicates that the cataloging information of the Dublin Core is good enough for the users to make judgments of document relevance before retrieving the documents. However, because the RER of search engines is stable and ranging from 20 to 30, the difference of RER between the Dublin Core and search engines depends on the quality of the Dublin Core.

(2)

【關鍵詞 Keyword】

元資料；元資料評鑑；都柏林核心集；都柏林核心集評鑑

Metadata; Metadata Evaluation; Dublin Core; Dublin Core Evaluation

壹、前言

自西元 1990 年代初 World-Wide Web（全球資訊網，簡稱 WWW）開始盛行後，網頁迅速成為一種資訊的承載工具和傳播管道，其數量以極驚人的速度在成長。由於其成長的速度遠超過書籍或期刊文獻，因此，當時針對書籍或期刊文獻所發展成熟的技術，並無法有效來處理網頁。

為能快速處理和檢索數量龐大且成長快速的網頁，一種新的處理方式──

全文檢索，和新的工具──搜尋引擎

（如 Yahoo 與 Google）應運而生。搜尋引擎（或全文檢索）的運作方式，主要是先透過自動抓取程式在網際網路上抓取網頁，然後以自動拆字（或詞）作索引的方式來建立其資料庫，做為檢索的基礎。這種操作方式的特點是高運作效率和一網打盡，因此，有高回收率與低精確率的特性，很不幸的，這特性引發資訊超載的問題，同時資訊超載隨著網頁數量的日益龐大而越來越嚴重。

為了克服搜尋引擎高回收率與低精確率的特性所引發的資訊超載問題，

Metadata（中文翻譯為元資料、元數據、詮釋資料、或後設資料）的概念自西元 1990 年代中期逐漸興起，其最常見的英文定義是“data about data”（註

1），可直譯為描述資料的資料，主要是描述資料屬性的資訊，用來支持如指示儲存位置、資源尋找、文件紀錄、評價、過濾等的功能（註 2）。廣義的描述性元資料包括有（搜尋引擎）全文索引、無欄位名詞集（如關鍵詞或主題）、基本欄位架構（如無修飾詞的都柏林核心集）、修飾詞欄位架構（如有修飾詞的都柏林核心集）、和複雜結構

（如MARC 和 TEI）等（註 3）。

由於都柏林核心集（Dublin Core）

已成為國際間廣泛使用的元資料（註 4），同時，目前在網頁中使用元資料以提昇檢索效能已有一定的共識，本文擬選擇國內外一些與都柏林核心集相關的評鑑研究進行分析，以了解國內外在這方面研究的進展。

貳、評鑑標準

對元資料而言，在評鑑標準

（Criteria）方面，目前並無一致的定論，Moen 等人曾在西元 1997 年綜合 6 篇研究文獻（包含許多從傳統書目著錄活動中所得到的經驗）（註 5-11），彙整提出的 23 個標準，包括有： Access 、 Accuracy 、 Availability 、 Compactness 、 Compatibility 、 Comprehensiveness 、 Content 、

(3)

Consistency 、 Cost 、 Data Structure 、 Ease Of Creation 、 Ease Of Use 、 Economy 、 Flexibility 、 Fitness For Use 、 Informativeness 、 Protocols 、 Quantity 、 Reliability 、 Standard 、 Timeliness、Transfer、Usability（註 12）。

雖然上述彙整的標準達 23 個，不過由於不同的元資料各有其特色，再加上研究目的與對象的規範，一般祇會選擇少數幾個標準來進行評鑑工作，例如：在「The Role of Content Analysis in Evaluating Metadata for the US Government Information Locator Service

（GILS）：Results from an Exploratory Study」一文中，Moen 等人主要以精確性（Accuracy）、完整性（Completeness）、

和服務性（Serviceability）三個評鑑標準來對政府資訊指引服務（Government Information Locator Service）的資料進行評鑑（註 13）；在「Author-generated Dublin Core metadata for web resources: a baseline study in an organization」一文中， Greenberg 等人以可接受性

（ Acceptability ）、可理解性

（Intelligibility）、正確性（Correctness）、

專門性（Specificity ）、和徹底性

（Exhaustivity）來衡量都柏林核心集

（DC）記錄的品質（註 14）；在「A Study of the Metadata Creation Behavior of Different User Groups on the Internet」

一文中， Zhang 等人用精確性

（Accuracy）來衡量元資料記錄的品質

（註15）。

以宏觀的角度來分析，元資料記錄品質的評鑑，主要可分為二個範疇（註 16），一是記錄格式和內容的正確性，

例如：精確性（Accuracy）、可接受性

（Acceptability）、一致性（Consistency）、

相容性（Compatibility）、與資料結構

（Data Structure）等；一是記錄使用性的衡量，例如：回收率（Recall Rate）、

精確率（Precision Rate）、與檢索失誤率（RER）等（註 17-18）。

參、都柏林核心集之評鑑

由於都柏林核心集（DC）已成為國際間廣泛使用的元資料，以下針對國外一些都柏林核心集相關的評鑑研究進行分析，以了解國外在這方面研究的進展。另一方面，也介紹作者本身在國內曾進行過的都柏林核心集相關評鑑研究。

作者著錄（Author-generated）是都柏林核心集（和其他與網頁相關元資料）的一個主要特色，這是因為一方面搜尋引擎的全文檢索運作方式，有高回收率與低精確率的特性，在檢索資料時會產生資訊超載的問題；另一方面，網頁數量又過於龐大，無法全部仰賴專業著錄人員（如圖書館員）來處理。

針對作者著錄所產生都柏林核心集記錄的品質好壞問題，Greenberg 等人在「 Author-generated Dublin Core Metadata for Web Resources: a baseline study in an organization」一文中（註

(4)

19 ），以 6 個 National Institute of Environmental Health Sciences（NIEHS）

的員工和科學家為對象，進行了多項實驗。這些實驗主要是屬於上述Metadata 記錄品質評鑑的第一個範疇──記錄格式和內容的正確性。

實驗參與者的背景資料如下：

學歷：從學士學位到博士學位。

使用 NIEHS 網站經驗：4 人每天使用，1 人每週使用，1 人每月使用。

 Metadata 熟悉度：5 人曾聽聞過，1 人從未聽聞過。

創造網頁經驗：3 人寫過網頁，

3 人未寫過。

實驗過程和方法如下述：首先，利用半小時做實驗參與者背景資料問卷的填寫和都柏林核心集的講解介紹，接著請參與者利用半小時做網頁都柏林核心集的著錄，6 人共完成 11 筆記錄，平均每人1.8 筆記錄。

從上述的實驗過程來分析，首先，

都柏林核心集的講解介紹用不到半小時，這與筆者在國內針對研究生所進行類似實驗的經驗大致相同（註 20），這證實都柏林核心集符合使用簡易性

（Ease Of Use）的評鑑標準。

再者，從 30 分鐘平均每人可完成 1.8 筆記錄來看，平均完成一筆記錄祇需 16.7 分鐘。同時根據事後對參與者所做的問卷調查，詢問著錄資料的難易度（以1 代表困難，而 5 代表容易），

所有參與者皆反映簡單（平均值為

4.7）。雖然筆者未實際測量時間，但這與在國內針對研究生進行類似實驗所獲得的經驗也大致相同，這說明基本上都柏林核心集也符合創造簡易性（Ease Of Creation）的評鑑標準。

至於實驗參與者所著錄之都柏林核心集記錄的品質評鑑，則由二位有經驗的專業著錄人員，依下述方式來加以評斷：首先，以「接受」或「拒絕」兩等級形式來評量記錄中的個別欄位，發現在有使用的 15 個欄位中，7 個欄位的

「接受」百分比是 100%，其他如欄位 Format 為 91% ，欄位 Title 、 Date Modified、和 Type 為 82%，也都是非常理想的。剩餘欄位的統計資料如下：

Subject 73%、Alternative Title 67%、

Source 50%、和 Coverage 50%。整體來說，品質評鑑的結果應該是合格的。

其次，針對整筆都柏林核心集記錄，分別以可理解性（Intelligibility）

和正確性（Correctness）二評鑑標準來評量，二位專業著錄人員認為所有實驗參與者創造的 11 筆都柏林核心集記錄皆符合可理解性（Intelligibility）和正確性（Correctness）。

再者，特別針對欄位Subject 以專門性（Specificity）和徹底性（Exhaustivity）

二評鑑標準來評量，前者專門性

（Specificity）衡量深度，而後者徹底性（Exhaustivity）衡量廣度，二位專業著錄人員的評量結果，是 11 筆都柏林核心集記錄中有 7 筆（64%）皆符合專門性（ Specificity ）和徹底性

(5)

（Exhaustivity）。

最後，整筆都柏林核心集記錄以可接受性（Acceptability）評鑑標準，分四個等級：「差—拒絕」、「尚可—大修改」、「良好—小修改」、和「優良—無修改」來評量，二位專業著錄人員針對 11 筆都柏林核心集記錄評量結果如下：1 筆（9%）為「優良—無修改」、

6 筆（55%）為「良好—小修改」、和 4 筆（36%）為「尚可—大修改」。

綜合上述各種數據，Greenberg 等人認為可以產生品質良好的都柏林核心集記錄，換言之，作者著錄這種做法是可行的。不過，由於實驗參與者人數很少（6 人），又屬於學歷較高的專業人員，加上祇有分析 11 筆記錄，因此，

這比較適合當成初步的結論，須有更大規模的樣本和更嚴謹的抽樣設計，才能形成更堅實的結論。

在「An Evaluation of the Effectiveness of Current Dublin Core Metadata for Retrieval」一文中（註 21），Sokvitne 提出一些對都柏林核心集記錄品質較負面評價的看法。首先，Sokvitne 認為都柏林核心集記錄之有效性（Effectiveness）

衡量，應該以搜尋引擎能力的對比為基礎。這個觀點筆者認為是正確的，一方面從歷史發展的過程來看，元資料是接續搜尋引擎而興起，主要就是希望其能彌補搜尋引擎的缺失；另一方面，從成本效益的觀點，主要靠人力製作的元資料（含都柏林核心集），其成本必較搜尋引擎電腦自動產生的資料昂貴甚多，

因此，如果不能較搜尋引擎的資料更為有效，其存在的價值就令人存疑。在

「都柏林核心集對減低檢索失誤率的實務研討」一文中（註 22），筆者在設計實驗時，就以搜尋引擎為對照組來對比都柏林核心集的效能。

其次，Sokvitne 認為在檢索最常使用的是題名（Title ）、作者 / 出版者

（Creator/Publisher）、和主題（Subject），

因此，鎖定如下都柏林核心集相關欄位來分析：題名（Title）、作者（Creator）、

其他貢獻者（Contributor ）、出版者

（Publisher）、和主題（Subject）。抽樣方式是從澳洲 20 所政府或教育機構的網站中，各隨機抽樣5 個網頁，共 100 個網頁來進行分析。

在題名（Title）部分的衡量方式

（或分析角度）有三：

都柏林核心集的題名（Title）內容是否符合網頁呈現時（一般人認為）的題名：調查結果發現符合比率為 48%，顯然是很不理想，因為題名是非常重要的檢索欄位之一。

都柏林核心集的題名（Title）內容是否複製網頁 HTML 中的 Title 標籤（Tag）：調查結果發現複製比率為59%。

都柏林核心集的題名（Title）內容是否為網頁內容的某一個字串：調查結果發現符合比率為 47%。

Sokvitne 認為如果都柏林核心集的

(6)

題名（Title ）內容是直接複製網頁 HTML 中的 Title 標籤（Tag），那是無價值的。這個觀點筆者是贊同的，一方面那祇是重複電腦可做到的功能，如果用人工來做是毫無意義的；一方面從使用經驗中可以發現，HTML 中的 Title 標籤（Tag）有一定比率是與網頁呈現時（一般人認為）的題名不相符合的，

而上述調查結果的第二點和第一點的對比也間接証實這個觀點。

在調查分析中，Sokvitne 也發現有 44%的網頁是以圖形方式來呈現題名，

其中祇有 53%有都柏林核心集的題名

（Title）欄位。筆者認為這是一個非常重要的發現，一方面點出目前網頁製作上的一個趨勢，一方面顯示出元資料

（Metadata）存在的價值。

綜合來看，筆者認為上述的第一個衡量方式是唯一較直接且適當的題名

（Title）衡量標準，同時 48%符合比率也的確有很大的改進空間。此外，是否第三項調查（柏林核心集的題名內容為網頁內容的某一個字串）符合比率很高即代表人工製作的元資料（Metadata）

無存在的價值，筆者認為這是很值得商榷的，因為要找出某一個字串並將其放入適當欄位，一般來說是需要很高的智慧和判斷能力。

在作者（Creator ）、其他貢獻者

（Contributor）、出版者（Publisher）部分的衡量方式（或分析角度）有三：

都柏林核心集的作者（Creator）、

其他貢獻者（Contributor）、出

版者（Publisher）內容是否為網頁內容的某一個字串：調查結果發現符合比率為58%。

都柏林核心集的作者（Creator）、

其他貢獻者（Contributor）、出版者（Publisher ）內容是否正確：調查結果發現正確比率為 65%。

 都柏林核心集的出版者

（Publisher）是否符合國會權威名稱（Library of Congress Name Authorities，LCNA）：調查結果發現符合比率為22%。

綜合來看，筆者認為上述的第二個衡量方式是唯一較直接且適當的作者

（Creator）、其他貢獻者（Contributor）、

和出版者（Publisher）衡量標準，同時 65%的正確比率雖較題名部分高，但也還是有改進的空間。另外，第三項調查

（都柏林核心集的出版者是否符合 LCNA）之符合比率很低是可以預期的，畢竟一般網頁作者並沒有接受過相關的專業訓練。最後，Sokvitne 發現許多團體名稱的格式並不一致，例如，並無包括母機構的名稱。

在主題（Subject）部分調查結果的發現如下：

主題數量太多（超過25 個），或固定重複某一組的主題：19%。

主題拼字或文法錯誤：7%。

 主題詞彙不夠特定（Too General）：79%。

 主題詞彙太過狹義（Too

(7)

Narrow）：12%。

主題不正確：17%。

漏失重要主題：23%。

綜合來看，筆者認為上述的衡量標準並非不適當，但是主題（Subject）本來就很複雜，即便是專業機構如圖書館，也存在許多問題。在以上述的調查發現來看，除了主題詞彙不夠特定

（Too General）的 79%過高外，其餘缺失的比率並不高，但是第一項缺失卻應該盡可能避免。

雖然「A Study of the Metadata Creation Behavior of Different User Groups on the Internet」一文的主要研究焦點，是在比較不同專業團體創造之元資料是否有（統計上的）顯著差異（註 23），因此，該研究從 4 個不同專業團體各抽取200 個網頁，合計 800 個網頁來加以檢視。雖然該研究主要的研究面向和對象與本文的興趣稍有不同，不過，

一方面是其所調查的欄位與都柏林核心集的相似度非常高，一方面有針對關鍵詞（Keyword）、描述（Description）、

和題名（Title）等 3 個欄位的相關衡量數據，因此，也在此列入討論。

在網頁世界中，主題（Subject）和關鍵詞（Keyword）經常混用，可以說是同義詞。根據上述文章的調查，關鍵詞（Keyword）的調查結果整理如表一

（註 24），可以看出，除了由於採用類似單選題形式造成正確比率偏低外，其餘與一般預期的結果相差不多。

表一：關鍵詞（Keyword）的調查結果整理。

百分比

Narrow 32.3 Broad 58.6 Incorrect 3.5 Correct 4.4 Duplicate 1.3 總計 100

描述（Description）的調查結果整理如表二（註25），其中，即便採用類似單選題形式，正確比率仍達37.7%是令人欣慰的，因為根據筆者在實驗中的經驗，描述（Description）可以說是資訊最豐富的欄位。事實上，根據Craven 針對一般HTML 網頁中 META Tag 屬性註明為Description 者（並非一定為都柏林核心集的欄位Description），所做之一系列關於其書寫方式的研究顯示，描述（Description）可以被當作摘要（Abstract）使用（註 26），因而可以提供豐富且多元的資訊。

表二：描述（Description）的調查結果整理。

百分比

Narrow 9.7 Broad 48.9 Incorrect 3.7 Correct 37.7 Duplicate 0.1 總計 100

綜合來看，筆者認為 Zhang 等人在「A Study of the Metadata Creation Behavior of Different User Groups on the

(8)

Internet」一文中，針對關鍵詞（或主題）與題名的調查結果，跟 Sokvitne 在「An Evaluation of the Effectiveness of Current Dublin Core Metadata for Retrieval」一文中的發現大致相同。簡要言之，題名的正確率祇略為過半，仍有改善的空間。至於更複雜的主題或關鍵詞，正確率更是偏低，須要改善的幅度更大。

在元資料的效用分析上，Thomas 等人在「Rising to the Top: Evaluating the Use of the HTML META Tag to Improve Retrieval of World Wide Web Documents through Internet Search Engines」一文中（註 28），為了測試一般HTML 網頁中 META Tag 的被存取性（ Accessibility ）或被檢索性

（Retrievability），以五個主題，每個主題創造4 篇網頁：一篇沒有任何 META Tag、一篇祇有關鍵詞（Keyword）、一篇祇有描述（Description）、一篇同時有關鍵詞（ Keyword ）和描述

（Description），總計 20 篇網頁，然後使用搜尋引擎 AltaVista 和 Infoseek 來搜尋，實驗結果發現使用META Tag 關鍵詞（Keyword）可以有效增加網頁被檢索到的機率，但是單獨使用 META Tag 描述（Description）並不會增加網頁被檢索到的機率。

雖然 Thomas 等人上述的研究似乎對描述（Description）的檢索效用是負面的，但是，此為初步的研究，由於樣本太少，與主題和樣本代表性等問題，

此實驗結果的基礎是非常薄弱的。當然，這也有可能是受到各搜尋引擎內部處理與排序機制很大的影響所致，元資料欄位本身可能祇有很小的影響力。

在國內，為了驗證元資料的實際效用，在「都柏林核心集對減低檢索失誤率的實務研討」一文中（註 29），筆者使用一個新的衡量標準──檢索失誤率

（Retrieval Error Ratio ，簡稱 RER ）

（註 30），用來評估檢索系統的效能，

檢索失誤率是來比較和評估檢索系統所提供之（目錄）資訊，做為使用者判斷基準的精確程度，基本上是一個元資料使用性的衡量標準，也可以用來比較各種不同元資料、檢索系統目錄、與搜尋引擎回覆款目的品質。

檢索失誤率是計算失誤筆數佔總筆數的百分比，公式如下：

%

×100

= 總筆數檢索失誤率失誤筆數

例如：總筆數為20，失誤筆數為 4 時，

檢索失誤率（RER）為 20%。

由於失誤型態的不同，檢索失誤率

（RER）可分為以下兩種：（註 31）

第I 型失誤：在閱讀檢索系統所提供的資訊時，使用者認為需要，但在調閱原文後，判定非為其所需要的資料。換言之，使用者浪費了時間或金錢。

第 II 型失誤：在閱讀檢索系統提供的資訊時，使用者認為不是他或她需要的資料，但在事後調

(9)

閱原文時，發現是需要的資料。

換言之，使用者損失了資訊。

這二種型態的檢索失誤率（型I 檢索失誤率和型 II 檢索失誤率）可以分開統計來顯示元資料的不同特性，也可以加總合計為（總）檢索失誤率

（RER）。例如：在「搜尋引擎回覆款目品質探討：以檢索失誤率為例」一文中（註 32），筆者利用西元 2002 到西元 2004 年的實驗數據，比較眾多搜尋引擎之（總）檢索失誤率、型 I 檢索失誤率、和型 II 檢索失誤率，發現

（總）檢索失誤率最優前三名為 MSN、PC Home、和 GAIS；型 I 檢索失誤率最優前三名為 PC Home 、 Openfind、和 MSN；型 II 檢索失誤率最優前三名為 MSN 、 WiseNut 、和 Google。因此，綜合三個檢索失誤率來看，以 MSN 和 PC Home 的表現最佳。

在衡量都柏林核心集的品質時，筆者採取與Sokvitne 在「An Evaluation of the Effectiveness of Current Dublin Core Metadata for Retrieval」一文中類似的立場，認為有必要來對比都柏林核心集與搜尋引擎之回覆款目品質。筆者是以研究生為實驗參與者，在「都柏林核心集對減低檢索失誤率的實務研討」一文中的實驗結果是都柏林核心集的（總）檢索失誤率為 2.9%，對比於搜尋引擎之 20.7%（註 33），顯示都柏林核心集確實對使用者在資料內容的判斷上有所幫助。雖然在往後幾年的實驗中，二者的

差距時有變化，並沒有上述如此大的差異，主要原因是搜尋引擎的（總）檢索失誤率一般在 20%-30%之間，但是都柏林核心集的（總）檢索失誤率，卻常因都柏林核心集記錄的品質不同，有較大程度的波動，而都柏林核心集記錄的品質主要是受到實驗參與者用心程度的影響。

肆、結語

雖然在網頁中使用元資料已有一定的共識，但尚未達全面普及應用的層次，因此，國內外相關的評鑑研究尚處於起步階段，所以，相關的文獻數量並不多。由於都柏林核心集已成為國際間廣泛使用的元資料，本文乃選擇國內外一些與都柏林核心集相關的評鑑研究進行分析，以了解國內外在這方面研究的進展。

Greenberg 等人在「Author-generated Dublin Core Metadata for Web Resources:

a Baseline Study in an Organization」一文中的研究經驗，顯示都柏林核心集符合使用簡易性與創造簡易性這二種評鑑標準，這與筆者在國內所進行相關研究所得的經驗相吻合。

其次，就著錄資料內容的品質而言，

看法較為分歧，正負面的評價皆有。

Greenberg 等人在「 Author-generated Dublin Core Metadata for Web Resources:

A Baseline Study in an Organization」一文中，根據6 位高學歷實驗參與者和 2

(10)

位有經驗專業著錄人員擔任評審所得之結果，對都柏林核心集記錄的品質持正面的評價。一方面絕大部分欄位被評斷為接受的比率都超過 80%，甚至連欄位主題（Subject ）的接受比率都有 73%；一方面全部 11 筆記錄都被評斷為符合可理解性（Intelligibility）和正確性（Correctness）二種評鑑標準，再以 4 個等級之可接受性

（Acceptability）評鑑標準來評量，亦有正面的評價。最後，針對欄位主題

（Subject）以專門性（Specificity）和徹底性（Exhaustivity）二評鑑標準來評量，結果11 筆都柏林核心集記錄中有 7 筆（64%）皆符合專門性（Specificity）

和徹底性（Exhaustivity）。

在較負面評價方面，Sokvitne 在

「An Evaluation of the Effectiveness of Current Dublin Core Metadata for Retrieval」一文中，以（對比於搜尋引擎能力的）有效性（Effectiveness）評鑑標準來評量都柏林核心集記錄的品質，並且針對在檢索最常使用的是題名

（Title）、作者/出版者（Creator/Publisher）、和主題（Subject）等欄位來進行調查分析，抽樣方式是從澳洲 20 所政府或教育機構的網站中，各隨機抽樣 5 個網頁，共100 個網頁來進行分析。調查結果發現欄位題名（Title）的正確率為 48%；欄位作者（Creator）、其他貢獻者（Contributor）、和出版者（Publisher）

的正確率為則有 65% ；欄位主題

（Subject）是一如預期，主要問題在詞

彙不夠特定（比率達 79% ）；因此 Sokvitne 對都柏林核心集記錄的品質持較負面評價。

另外，Zhang 等人在「A Study of the Metadata Creation Behavior of Different User Groups on the Internet」一文中，從4 個不同專業各抽取 200 個網頁，合計800 個網頁來加以檢視，發現關鍵詞（或主題）的調查結果，跟 Sokvitne 的結果大致相同，主要問題在詞彙不夠特定（比率達 58.6%）；欄位描述（Description）雖然也有不夠特定的問題，不過，正確率卻也有 38%左右；欄位題名（Title）部分，完全正確比率為 53.4% ，部分正確比率為 29.3%，二者合計比率可達 82.8%。

在元資料的效用分析上，Thomas 等人在「Rising to the Top: Evaluating the Use of the HTML META Tag to Improve Retrieval of World Wide Web Documents through Internet Search Engines」一文中，發現關鍵詞（Keyword）

可以有效增加網頁被存取性（Accessibility）

或被檢索性（Retrievability），而單獨使用描述（Description）並不會增加網頁被檢索到的機率。但是，此初步研究由於樣本太少與代表性問題，其基礎非常薄弱。同時，這也有可能跟各搜尋引擎內部處理與排序機制有很大關連，元資料欄位本身可能祇有很少的影響力。

最後，就都柏林核心集使用性的衡量來看，筆者在國內以檢索失誤率

（RER）為評鑑標準所做的多項研究顯

(11)

示，都柏林核心集確實對使用者在資料內容的判斷上有所幫助（總檢索失誤率最好可達 2.9%），皆優於搜尋引擎所提供之回覆款目品質（總檢索失誤率一般在 20%-30%之間），不過，二者的差距大小取決於都柏林核心集記錄的品質。

綜合來說，都柏林核心集符合使用簡易性與創造簡易性這二種評鑑標準是已有共識。就著錄資料內容的品質而言，雖然 Greenberg 等人的研究認為可以產生品質良好的都柏林核心集記錄，

換言之，作者著錄這種做法是可行的。

不過由於實驗參與者人數很少（6 人），又屬於學歷較高的專業人員，加上祇有分析 11 筆記錄，因此，結論的效力較為薄弱。Sokvitne 和 Zhang 等人的研究，抽樣的網頁較多也較具代表性，因此其結論較符合都柏林核心集記錄品質目前的現況。雖然目前都柏林核心集記錄的品質可能不盡理想，但絕非無功效或用處，根據筆者在國內多年以檢索失誤率（RER）為評鑑標準所做的多項研究顯示，都柏林核心集確實對使用者在資料內容的判斷上有所幫助，祇不過其品質易受著錄者用心程度的影響而有較大程度的波動。

附註

註1 E. P. Shelley and B. D. Johnson,

“Metadata: Concepts and Models,” in Proceedings of the Third National Conference on the Management of

Geoscience Information and Data (Adelaide, Australia: Australian Mineral Foundation, 1995), pp.1-5.

註2 L. Dempsey and R. Heery, “An Overview of Resource Description Issues,” (March 1997), <http://www.

ukoln.ac.uk/metadata/DESIRE/overv iew/rev_01.htm>.

註3 S. Weibel, R. Iannella, and W. Cathro,

“The 4th Dublin Core Metadata Workshop Report,” (June 1997),

<http://www.dlib.org/june97/metadat a/06weibel.html>, p.3.

註4 都柏林核心集（Dublin Core）的官方網站在 <http://dublincore.org/>

（2007/03/12）。

註5 Stuart Ede, “Fitness for purpose: The Future Evolution of Bibliographic Records and Their Delivery,” Catalogue

& Index 116 (1995), pp.1-3.

註6 Rachel Heery, “Review of Metadata Formats,” Program 30:4 (1996), <http://

www.ukoln.ac.uk/metadata/review>.

註7 Elizabeth U Mangan, “The Making of a Standard,” Information Technology and Libraries 14:2 (1995), pp. 99-110.

註8 Arlene G Taylor Introduction to Cataloging and Classification (8th ed.) (Libraries Unlimited, 1992).

註9 Amanda Xu, “Accessing Information on the Internet: Feasibility Study of USMARC Format and AACR2,”

(12)

Proceedings of the OCLC Internet Cataloging Colloquium (San Antonio, Texas: OCLC, January 19, 1996),

<http://www.oclc.org/oclc/man/colloq/

xu.htm>.

註10 Jennifer A. Younger, “Interview with Jennifer A. Younger, Ohio State University,” OCLC Newsletter 221 (1996), <http://www.oclc.org/oclc/

new/n221/view.htm>.

註11 W. E. Moen, E. L. Stewart, and C. R.

McClure, “The Role of Content Analysis in Evaluating Metadata for the US Government Information Locator Service (GILS): Results from an Exploratory Study,” (1997)

<http://www.unt.edu/wmoen/publicat ions/GILSMDContentAnalysis.htm>.

(2007/03/12).

註12 同前註。

註13 同註 11。

註14 J. Greenberg, M. Pattuelli, and D.

Robertson, “Author-generated Dublin Core metadata for web resources: a baseline study in an organization,”

Journal of Digital Information 2:2 (Nov. 2001).

註15 J. Zhang and I. Jastram,. “A study of the metadata creation behavior of different user groups on the Internet,”

Information Processing and Management 42:4 (2006), pp.1099- 1122.

註16 同註 11。

註17 S. E. Robertson, “The Parametric Description of Retrieval Tests,”

Journal of Documentation 25:1 (1969), pp.2-3.

註18 吳政叡，機讀編目格式在都柏林核心集的應用探討（台北市：學生書局，1998 年 12 月），頁 210。

註19 同註 14。

註20 吳政叡，「都柏林核心集對減低檢索失誤率的實務研討」圖書館學與資訊科學 24 卷 1 期（1998 年 10 月），頁 50-64。

註21 L. Sokvitne, “An evaluation of the effectiveness of current Dublin Core metadata for retrieval,” Presented at the VALAConference (2000), <http://

www.vala.org.au/vala2000/2000pdf/

Sokvitne.PDF>, (2007/03/12).

註22 同註 20。

註23 同註 15。

註24 同註 15，頁 1112。

註25 同註 15，頁 1117。

註26 T. Craven, “DESCRIPTION Meta Tags in Public Home and Linked Pages,”

LIBRES: Library and Information Science Electronic Journal 11:2 (2001), <http://libres.curtin.edu.au/

LIBRE11N2/craven.htm>.

註27 同註 15，頁 1118。

註28 T. P. Turner, and L. Brackbill, “Rising to the top: Evaluating the use of the HTML Meta Tag to Improve

(13)

Retrieval of World Wide Web Documents through Internet Search Engines,” Library Resources and Technical Services 42:4 (1998), pp.258-271.

註29 同註 20。

註30 同註 20。

C 註 31 吳政叡，「資訊的檢索失誤率探

討」中國圖書館學會會訊 109 期

（1998 年 6 月），頁 26。

註32 吳政叡，「搜尋引擎回覆款目品質探討：以檢索失誤率為例」臺灣圖書館管理季刊 2 卷 2 期（2006 年4 月），頁 11-19。

註33 同註 20。