• 沒有找到結果。

數位典藏互通性理論架構之研究(I)

N/A
N/A
Protected

Academic year: 2021

Share "數位典藏互通性理論架構之研究(I)"

Copied!
67
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會專題研究計畫 成果報告

數位典藏互通性理論架構之研究(I)

計畫類別: 個別型計畫 計畫編號: NSC91-2413-H-002-023- 執行期間: 91 年 08 月 01 日至 92 年 07 月 31 日 執行單位: 國立臺灣大學圖書資訊學系暨研究所 計畫主持人: 陳雪華 共同主持人: 陳昭珍 計畫參與人員: 協同主持人:項潔; 研究生:徐代昕、 張懷文 報告類型: 精簡報告 報告附件: 出席國際會議研究心得報告及發表論文 處理方式: 本計畫可公開查詢

中 華 民 國 92 年 11 月 11 日

(2)

目次

摘要...2

第一章 數位典藏互通性的內涵 ...4

第一節 前言...4 第二節 互通性的意義與類型...6 第三節 互通性模式...10

第二章 各類型互通協定介紹 ...12

第三章 OAI 詮釋資料擷取協定...19

第一節 OAI 詮釋資料擷取協定制訂緣起...19 第二節 OAI 詮釋資料擷取協定的內涵與規範...21 第三節 OAI 詮釋資料擷取協定之技術架構...23 第四節 OAI 詮釋資料擷取協定指令說明...25 第五節 OAI 詮釋資料擷取協定的優勢...32

第四章 以 OAI 互通性架構為基礎的相關應用...33

第一節 國外OAI 相關計畫之發展...33 第二節 國內OAI 相關計畫之發展...37

第五章 結論與建議 ...40

參考書目 ...42

附錄一:

出席國際學術會議心得報告(

2002 亞洲數位圖書館國際會議

(International Conference of Asian Libraries(ICADL)2002)心得報告)

附錄二:

出席國際學術會議發表之論文(

Building an OAI-based Union

(3)

數位典藏互通性理論架構之研究

The Interoperability Framework Theory of Digital Collections

摘要

目前世界各國均致力於數位典藏的發展,參與的單位與典藏的內容多元且 豐富。欲使各典藏單位所建置的系統彼此分享、使用者從一個介面即可檢索到所 有典藏機構的資料、以及讓民眾看到數位典藏的全貌,互通性機制的建立與達成 為其關鍵。 過去廣泛用來解決數位博物館檢索互通性需求之機制首推 Z39.50,但由於 Z39.50 在互通性檢索的效能不盡理想,且難以建立彈性的瀏覽介面,造成數位 圖書館互通性檢索機制難以有效普及。2001 年 1 月,開放性資料庫發展協會(Open

Archives Initiative,OAI)發表了名為 OAI 詮釋資料擷取協定(Open Archives

Initiative Protocol for Metadata Harvesting,OAI-PMH),提供互通性網路搜尋問題

一項可行的解決方案。OAI 詮釋資料擷取協定運用目前高度發展的網際網路及詮 釋資料兩種技術,在增強功能及簡化實行難度上,達成了極佳的平衡。發布到網 路上的學術資料,藉助 OAI 詮釋資料擷取協定,不限於相異的系統平台、應用 程式、領域、國界及語言,達到廣泛流通的目的。也因此,透過 OAI 詮釋資料 擷取協定,使用者能利用最經濟的時間,取得較諸先前更豐富且精確的資料。目 前已有許多機構與研究單位著手進行 OAI 等互通性架構之研究與實際系統的建 置與使用。本計畫將針對數位典藏之互通性理論架構、協定與發展進行研究與分 析,並深入探討OAI 互通性架構,提供數位典藏相關研究發展之參考。 關鍵詞:數位典藏、數位圖書館、互通性、OAI、OAI-PMH、詮釋資料

(4)

Abstract

The development of digital preservation has received much attention. In order to make all the digital information systems be shared, retrieve the digital collections of these content holders just via a union interface, and allow general public to access the digital collection, creating an interoperable framework is a key point.

At previous, the most common method to solve the problem of interoperable retrieval is Z39.50. However, the performance for using Z39.50 is not satisfying and it is difficult to build flexible browse interface. Thus, the mechanism of interoperable retrieval encounters constraints in making it popularity over the community of digital libraries. In January 2001, Open Archives Initiative (OAI) announced OAI Protocol for Metadata Harvesting to provide a practicable solution for interoperable retrieval over digital libraries. OAI Protocol for Metadata Harvesting applies two currently well-developed techniques, the Internet and Metadata, to make an excellent balance between the reinforcement of functionality and the simplification in implementing. Through OAI Protocol for Metadata Harvesting, the academic resources released on World Wide Web can circulate boundlessly over heterogeneous platforms, application programs, academic disciplines, countries and languages. In this way, users will be able to get more abundant and accurate information more efficiently. Currently, many academic organizations and universities have been undertaking the theoretical study and system design of OAI framework. This project intends to conduct deeper research and analysis on OAI theory for digital preservation.

Keywords:Digital Preservation、Digital Library、Interoperability、Open Archives Initiative、Open Archives Initiative Protocol for Metadata Harvesting、Metadata

(5)

第一章 數位典藏互通性的內涵

第一節 前言

目前世界各國均致力於數位典藏的發展,參與的單位與典藏的內容多元且豐 富。數位圖書館可視為提供使用者存取和找尋數位典藏資源的一個重要工具,但 由於網路分散的特質,數位圖書館多半為各自獨立的系統,各有其獨特的發行和 檢索介面、系統結構、通訊協定和管理政策等,不能互相透通地溝通以及分享彼 此的資源。1欲使各典藏單位所建置的系統彼此分享、使用者從一個介面即可檢 索 到 所 有 典 藏 機 構 的 資 料 、 以 及 讓 民 眾 看 到 數 位 典 藏 的 全 貌 , 互 通 性 (interoperability)機制的建立與達成實為關鍵。 互通性為發展數位圖書館的核心課題。然而,互通性指涉層面廣、觸及許多 不同的面向,諸如技術、組織、內容、使用者等層面皆可討論之,與其相關的主 題則有詮釋資料、資源檢索與發掘、服務架構等皆包含之。目前已有許多互通性 相關的研究與發展,強調跨領域的整合,並期望能提供一般層級的資訊分享架構。 Z39.50 過去被廣泛用來解決圖書館自動化系統的整合檢索需求,然而在數 位圖書館環境中,Z39.50 在互通性檢索的效能並不盡理想,且難以建立彈性的 瀏覽介面,因此有其他相關之互通性協定正紛紛發展與制訂中,而目前能用於數

位圖書館且最受矚目者當屬OAI(Open Archives Initiative,簡稱 OAI)。2

OAI 的提出,乃為發展最小層級但具高度便利性的互通性架構,其在增強功 能與簡化實行難度上,達成了極佳的平衡。在歐、美、及台灣地區,已經有許多 機構與研究單位著手進行 OAI 等互通性架構之研究與實際系統的建置、使用。 許多的結果亦顯示其具有易於建置與架構簡單的特性,且使用者能利用最經濟的 時間,取得比先前更豐富且精確的資料。3 是故,本研究將針對數位典藏互通性作理論探討與內涵分析,介紹各類型相 關的互通性協定,進而深入探討 OAI 互通性架構,並概述國內外數位典藏相關 1余顯強,「淺談數位圖書館典藏資料互通之存取協定」,書藝 39(民國 92 年)。 2陳雪華、項潔、陳昭珍、洪筱盈、徐代昕、張懷文,「數位典藏互通性架構之探討」,中國圖書 館學會會報 68(民國 91 年):頁 1-13。 3同 2。

(6)

計畫應用 OAI 的情形,以作為理論探討的具體說明。藉由本研究的執行,期望 能提供數位典藏在互通性議題上,相關研究發展的參考與建議。

(7)

第二節 互通性的意義與類型 自1990 年起,隨著網路頻寬的日益增加,出現越來越多的電腦系統、大型 資訊貯藏庫、各式應用程式、以及不可勝數的使用者之後,互通性議題開始受到 高度的關注。然而,互通性卻缺乏一明確的定義。4 互通性普遍被視為系統或技術上的術語,最常被以系統觀點定義之。其認為 互通性的問題存在於當系統希望獨立開發與運作各個組成元件,但又希望它們能 方便、有效率的互相呼叫與使用彼此的功能來完成系統交付的任務時。5 在資訊技術及網路情境中,互通性亦有許多不同的詮釋。如 Bailey 提出所 謂的互通係指能在不同的通訊基礎結構上,以個別之技術交換資訊/資料而不會 降低整體的運作效能。互通性在網際網路技術層面屬相當重要的概念,且可促進 網際網路成為新的資訊媒體平台。Moen 則認為互通性的核心概念在於網路環境 中元件如何共同運作,其將互通性簡單地定義為不同元件共同運作以完成預定之 過程或任務的能力。Miller 則提出比系統觀點涉及層面更廣的互通性定義,認為 必須從複合的層面,包括技術、語義、組織及法律的概念加以闡釋,且強調互通 性需要組織環節,特別為對資訊態度上的改變。其認為互通性乃為確保組織之系 統、過程、及文化的管理,能夠擴大資訊交換與再使用的機會,而持續主動涉入 的過程。歸納而言,互通性在資訊技術及網路情境中,乃用以概括欲達到透通取 用資訊的目標所可能遭遇的議題與挑戰。 就數位典藏的觀點而言,由於早期的數位圖書館/博物館多半是各自獨立開 發系統並採用不同的規範,但在應用上,卻往往需要跨系統地進行檢索、瀏覽、 或其它目的的資料交換(如詮釋資料的分享)。因此,當進行這類需要依賴互相合 作才能完成的工作時,互通性的問題即浮上檯面。互通性的重要目標之一,即在

4 Moen, W. E., “Assessing Interoperability in the Networked Environment:Standards,

Evaluation, and Testbeds in the Context of Z39.50” (September 2000)

<http://www.unt.edu/wmoen/publications/InteropEvalPreprint.pdf >(24 June 2003)

5徐代昕,「數位典藏互通性架構之建置」(國立臺灣大學資訊工程學研究所,碩士論文,民國 92

(8)

整合這些系統與規範,提供使用者一致性的服務。欲達此目標必須包含三個層面 的互通需求:6 (一)技術層面(Technical agreements):包含系統彼此之間交換訊息的格式、應用 及溝通協定、安全系統等。 (二)內容/呈現層面(Content agreements):包含內容範圍、語言、詮釋資料、命 名方式、語義及使用者介面等。 (三)組織層面(Organizational agreements):個人與組織的權利、責任,包括系 統間有關資料存取、館藏的保存及服務、付費、認證等規則。

基於不同層面的互通性,美國國家科學基金會(National Science Foundation)

將現有的開放式典藏資料互通的協定區分成三個型態︰7 (一)聯盟(Federation) 聯盟模式可說是最傳統的互通性模式,乃指所有參與的系統均使用相同的協 定。每一個互通與互動之間都有正式的定義,且每個組織之間均確實地遵循這些 標準與規格建立彼此的服務。通常這種模式常會要求所有組織採用相同的電腦系 統或軟體套件以便能在預定行程內實現互通性的目標。例如圖書館界使用 Z39.50,以分享其線上圖書目錄。組成聯盟最主要的挑戰在於每個成員都必需 使用,並且隨時跟上所有的現行規格,參與的成本高。 (二)聚合(Gathering) 聚合是一個最基本的互通模式,如果各種組織之間並未採取任何正式的互通 協定,仍可以採用此種模式達到存取彼此間公開的資訊。最常見的就是 Web 上 的搜尋引擎,因為不需花費任何成本即可聚合大量的數位圖書館來提供服務與分 65。 75。

(9)

享彼此間的資訊。不過,這些服務通常會比較貧乏且缺乏品質,除非有經過額外 的加工處理或品質管制。 (三)擷取(Harvesting) 由於創造一個大型的聯盟有其困難性,因此發展出以較為鬆散的方式建立群 組的構想。擷取背後的想法是參與者花費少量的努力,來建立某些基本的共通服 務,而非像聯盟方式必需採用一整套的標準規格。OAI 的架構,就是環繞著詮釋 資料擷取(metadata harvesting)而設計。每個參與單位都以簡單的詮釋資料交換格 式--Dublin Core 來描述其典藏品,之後這些詮釋資料可以被服務提供者擷取,應 用在它們的資訊服務中。擷取所能提供的服務通常不像聯盟那麼強有力,但是參 與者的負擔卻大大地減低,故能吸引更多參與者,這正是 OAI 為何能這麼迅速 為大眾所接受的原因。 綜合互通的定義與層面類型,數位典藏互通性概括多個主題:詮釋資料、檢 索與發掘(search and discovery)、資源命名(resource naming)及服務架構(service architecture)等。影響互通性因素極其複雜且非單一面向,Moen 認為包括有:

(一)複合且不同的操作與檢索系統(Multiple and disparate operating and IR systems)

(二)複合的協定(Multiple protocols)

(三)複合的詮釋資料集(Multiple metadata schemes) (四)複合的資料型式(Multiple data formats)

(五)複合的語言及字集(Multiple languages and character sets)

(六)複合的辭彙、學科(Multiple vocabularies,ontologies,and disciplines)

歸納而言,數位典藏互通性的達成可分為技術、內容及組織三個層面,而這 三個層面皆與標準有關。數位典藏互通性涉及標準的創造與採用,包含各種類型 的詮釋資料標準,如管理、識別,讓詮釋資料於外部系統呈現的方式,如擷取 (harvesting),支持互通性的開放架構,涵括如使用者介面、貯藏庫、索引或管 理系統(indexing or handle system)及檢索系統等。而在動態的網路環境中,必

(10)

須持續發展互通性的評估策略及方法;達成互通性的實效層面亦需被強調,即解 決互通性的成本問題,必須了解不同使用者社群所可接受的互通程度,才能提出 促進互通之不同成本的方法。

(11)

第三節 互通性模式 互通性涉及多個層面,欲為每個層面制定出通用的協議極為不易,而且如何 創造出使各個組織都願意採納的動機,會是更艱鉅的挑戰。Saratos Kapidakis 在 1998 年提出以成本與功能比較的方式,來分析互通性。根據此建議,Arms 於 1999 提出圖一之模式:8 圖一:Cost of adoption against functionality

傳統的互通方法為所有的參與者皆遵循同樣的標準;然而,過去的經驗也顯 示此法不易達成。雖然採用相同的標準能夠提供數位圖書館較具價值的功能,但 也必須付出相當的成本。其中,有些成本直接與經費相關;但絕大部份的成本來 自於組織層面的問題。採用一個新標準必須要更改與其相關的既有系統、修正工 作流程、改變與供應者間的關係等。上圖一即顯示了組織在接受標準時所做的權 衡。縱軸代表組織接受新標準的成本,橫軸表示組織所能獲致的功能。若採納標 準的成本極高,將只被高度重視功能的組織所接受;相反地,當成本降低,即使 功能有限,多數的組織也願意採用。 而隨著應用領域、設計目標、設計前提的不同,評估一個互通性模式是否成 功,或是比較兩個互通性模式的優劣,極其困難。應列入評估的要素可有以下幾 點:9

8 Arms, W. Y., Digital Libraries. (Cambridge, Ma.: MIT Press,2000)

9柯皓仁、黃夙賢、楊維邦,「詮釋資料與數位圖書館系統互通性之探討」,大學圖書館 5(1)(民國

(12)

(一)元件自主性(Component autonomy):儘量不需遵循共同的規範來設計數位 圖書館的系統或元件。 (二)建置基礎建設的代價(Cost of infrastructure):儘量不需花費龐大的成本來建 置支援元件互通的基礎建設。 (三)元件的加入(Contributing components):要很容易地讓新的元件加入互通的 行列。 (四)元件的使用(Using Components):元件的使用越簡單越好。需考慮服務元件 及元件互動的成本與複雜度。

(五)元件功能的複雜度和廣泛度(Breadth of task Complexity supported by the solution):元件所能逹成的功能儘量多樣化。

(六)元件數目的成長空間(Scalability in the number of components):所能支援參 與互通的元件數量越多越好。

(13)

第二章 各類型互通協定介紹

為達成互通性的目的,不斷有許多協定標準被開發出來。下面茲簡列一些數 位典藏領域常用的協定標準,視不同的功能需求而各有其優缺點。

一、DIENST

DIENST 是 由 DARPA(Defense Advanced Research Projects Agency) 與 NSF(National Science Foundation)贊助 DLI(Digital Libraries Initiative)所發展的計

畫。DIENST 事實上是 OAI-PMH 的前身,其做法也是利用詮釋資料擷取(metadata

harvesting)來分享數位化檔案。但是在求功能強大的同時,也使得整個通訊協定 複雜化,因此不得不促使其精簡化的版本--OAI-PMH 的產生。由於兩者承先啟

後的關係,事實上可以透過 DOG(Dienst/OAI-PMH Gateway)做為 DIENST 與

OAI-PMH 伺服器間的相互溝通。10

二、NCSTRL, NCSTRL+

NCSTRL+是由包括美國太空總署 NASA Langley Research Center 專門負責 科 學 與 技 術 資 訊(Scientific and Technical Information , STI) 計 劃 所 發 展 的 Networked Computer Science Technical Reference library(NCSTRL)分散式架構所 擴充的工具集,最初計劃的目標是希望建立一個簡化出版與存取的使用模式,以 便用來整合NASA STI 館藏中各種不同的學科和資料格式。NCSTRL 結合了超過 100 以上的機構,彼此分享資訊科學相關的技術資料。NCSTRL 達成館際間資料 互通的主要協定為Dienst。Dienst 包含了︰儲存體、索引、Meta、使用者介面、 圖書館管理等五個服務組件,並採用HTTP 作為資料傳輸的協定。所以 NCSTRL+ 可以說是應用Dienst 協定之 NCSTRL 的擴充版本。NCSTRL+包含兩個主要的技 術︰Clusters 和 Buckets。Clusters 允許依據主題目錄、典藏檔案型態、出版、組 織等條件,任意地結合或分割典藏資料。而Buckets 則是用於聚集數位圖書館線 上出版的智慧型代理人(agent)。Buckets 不僅能夠獨立運作且能負責處理典藏資 10 同 5。

(14)

料的管理、與遠端協調顯示的內容等等。 NCSTRL 和 NCSTRL+可以說是現今美國大學院校內資訊科學報告線上出 版最主要的系統之一,而且也提供了數位圖書館間的互通功能。不過由於協定規 範的範圍過大,所以如果有一個新的數位圖書館欲加入此一聯盟,必須修改採取 Dienst 協定,並安裝相關的程式庫,以便能與聯盟的服務提供者作業協同一致。 不過當軟體的版本修定時,所有加入聯盟的數位圖書館系統必須全部配合修正, 否則便無法正常運作。11 三、NESSTAR

就整體而言,Networked Social Science Tools and Resources (NESSTAR)是一

組藉由 Internet 傳播資料的基礎建設,其核心結構為應用 Data Documentation

Initiative (DDI)的 XML 版本 metadata 系統。NESSTAR 是由 Norwegian Social Science Data Services (NSD)、UK Data Archive (UKDA)和 Danish Data Archive (DDA)聯合發展的軟體系統,並依據此系統的應用目標而設計的協定。其希望能 達成的目標包括下列四點︰ (1)能找出在不同組織與國家之間各種資料的原始來源 (2)瀏覽這些資料的細節,包括記述資料與原件實體。 (3)能夠因應不同使用者的專業程度,快速且容易的列表與呈現資訊內容 (4)提供資料和文件的選粹服務,包括完整或部分的資訊,甚至製作成適當的表 格以方便使用者應用。 NESSTAR 整體系統架構包括下列三個部分︰ (1)Explorer︰提供圖形式的使用者介面。 (2)Publisher︰各資料提供者處理可分享之典藏資料的伺服器。 (3) Protocol︰負責在其間傳遞以 XML 為標示的 metadata 訊息之交換規範。 11 同 1。

(15)

因此其主要實現數位圖書館之間互通性的協定也稱之為 NESSTAR。不過 NESSTAR 處理的資料種類過於簡單,因此有後續 FASTER(Flexible Access to Statistics, Tables and Electronic Resources)的擴充計劃,希望能改善資料處理的深

度與範圍。12

四、Metadata search engine

嚴格來說,如Google, JumpStation II, Northern Light, MetaCrawler, AltaVista Search, EasyASk, Inktomi Enterprise Serach, Mercado, Teapot, HotMeta 等 Metadata 搜尋引擎,並不是為了數位圖書館互通性而發展出來的檢索工具與協定,因為數 位圖書館主要是強調服務的品質,而搜尋引擎則是著重再搜尋結果的品質。也就

是說,搜尋引擎的目標通常是效率高於服務。但是 Meta 搜尋引擎是 Internet 環

境裡取得 metadata 最基本的模式,而且 Metadata 搜尋引擎和一般的網頁搜尋引

擎 所 使 用 的 技 術 與 功能 類 似 。 一 般 網 頁 由於 HTML 屬於程序性標示語言

(Procedural Markup Language),無法提供自動化分析文件的語意內涵,而 metadata 本身屬於描述性標示語言(Descriptive Markup Language),因此能夠很方便地藉由 標籤(tag)自動化分析資料內的結構與內涵。所以對於數位圖書館可以隨時藉由各

種Metadata 搜尋引擎,檢索與獲取其他 DL 的 metadata,達成典藏資料分享的互

通需求。13

五、SDLIP

簡易數位圖書館互通協定(Simple Digital Library Interoperability Protocol, SDLIP)是由史丹佛大學所發展一個定位為檢索的中介軟體(middleware)。如圖二

所示,在 SDLIP 架構中,資訊前端與後端的資料來源之間是透過數位圖書館

proxy 來達成互通檢索的需求。介於前端與 proxy 之間,SDLIP 定義了包括傳輸 協定、查詢語言以及存取介面等。

121。

(16)

圖二︰SDLIP 系統架構圖 不過SDLIP 使用 proxy 的方式,允許各數位圖書館採用各自專屬的協定方 式,對數位圖書館而言也有下列三項缺點︰ (1) proxy 與各資料來源之間的訊息處理,允許採用各自專屬的協定。採取此種方 式主要是為了考量各數位圖書館實作方便,但是當要新增或註冊一個數位圖書館 時,proxy 必須針對該數位圖書館所使用協定的特性重新修改程式,因此反而導 致整體效率不佳。 (2) 正因為各資料來源端允許使用既有的協定,因此加入 SDLIP 時必須在前端額 外開發處理SDLIP 的程式以便和 proxy 溝通,無法提供公用的程式庫給各數位 圖書館共同使用。 (3) 雖然 SDLIP 提供了整合性的檢索介面,不過使用著仍需逐一送出檢索的需 求,無法透過單一檢索步驟查詢所有聯盟的數位圖書館。14 141。

(17)

六、GINF

通用互通框架(Generic Interoperability Framework,GINF)主要的目的是希望 能達成各數位圖書館之間存取資料的協定、程式語言、資料模式、格式都能彼此 獨立,並且能夠動態的發掘元件(component)之間的功能,以及統一各元件之間 的介面。因此,GINF 可以說是一種簡化異質系統之間執行元件的整合協定,而 其最大貢獻便是各數位圖書館系統能保有各自獨立的協定、程式語言、資料和介 面描述。GINF 是基於 RDF 所實際運作的框架,透過此框架來作為語意導向的中 介軟體,系統便可藉由此中介軟體開發出高度彈性的主從(client/server)應用模 式。15

七、OAI-PMH(Open Archives Initiative Protocol for Metadata Harvesting)

OAI-PMH 是一個簡易且具延伸性的輕量化(lightweight)通訊協定。它在設計 上是利用HTTP/XML 來當作底層的通訊協定。其優點是不仰賴任何特殊的資訊 元件技術或是程式語言。OAI-PMH 的主要目標,是藉由資料提供者分享詮釋資 料,而能有效率的傳遞資訊給服務提供者,提供資訊服務。16 八、OpenURL OpenURL 為一種分散查詢語法,藉由一組已經定義好的標籤(tag),以增進 Web 超連結的能力。組成元件有資料提供者(source)與服務提供者(target),服務 提供者只要遵照此機制,就可以輕易解析資料提供者所傳送的要求。而資料提供 者也可經由此規範,輕易對服務提供者送出深度連結服務要求。17

九、SOAP(Simple Object Access Protocol)

SOAP 最早是由微軟、DevelopMentor、UserLand 所共同提交 IETF(Internet

151。 165。

(18)

Engineering Task Force)的標準。與 OAI 類似的是它同樣是一個輕量化的通訊協 定,也同樣以 HTTP/XML 的組合做為資料載具。不同的是 SOAP 並沒有像 OAI-PMH 一樣有預先制定的六個命令,而是讓傳遞資料的雙方自行再定義其傳 輸的XML 如何解讀。其優點是能使用的範圍更廣泛,但常需與其他通訊協定合 併使用。由於 SOAP 目前是由 W3C 組織所制定發展,並且將會成為 W3C 的標 準。因此若有需要,OAI-PMH 也可以開發以 SOAP 為通訊載具的版本。18 十、Z39.50 Z39.50 已經是圖書館系統使用很久的開放式檢索協定,主要是由「原始系 統」(或稱 Z39.50 Client) 依靠線上即時連結一個以上的「目標系統」(或稱 Z39.50 Server),使用複雜的通訊協定集執行所需的查詢行為,再逐一取得由目標系統獲 得的查詢結果、排序、去除重覆,最後將處理結果呈現出來。應用在圖書館界的 Z39.50 協定是最普遍的聯盟式典藏資料互動協定之一。而 Z39.50 以 MARC 和 Dublin Core 為資料處理的依據,著重在點對點(peer to peer)的協定服務模式,透 過線上即時查詢目標系統的資訊,然後處理所有遠端回應的資料集之後,再呈現 給前端使用者。強調的是即時性的聯盟檢索服務,中間不存在任何中介者的角 色,前端也不強調資料加值的處理與分析。19 18 同 5。 191。

(19)

十一、各類型互通協定綜合比較 總結前述之各類型開放式典藏資料互通協定,可整理比較如下表所示︰20 NCSTRL, NCSTRL + OAI-P MH Meta web search engine

SDLIP GINF Search Light Z39.50 互通型態 聯盟式 獲取式 聚合式 聚合式 聚合式 聚合式 聯盟式 提供多個 數位圖書 館之間同 步互通 可 依服務提 供者功能 而定 可 不可 不可 可 可 提供非同 步檢索 不可 依服務提 供者功能 而定 不可 可 不可 不可 可 資料提供 模式 主動式 被動 被動 被動 被動 被動 被動 包含檢索 協定 無 無 有 有 有 有 有 傳輸協定 HTTP HTTP HTTP TCP, HTTP, CORBA 物件 TCP, HTTP HTTP 不限定 Metadata 格式 任何 metadata 均 可 XML 格 式的 metadata 無 任何 metadata 均可 RDF 無 MARC, DC 建置成本 資料提供 者︰高 服務提供 者︰低 資料提供 者︰低 服務提供 者︰(中 等),視服 務內容而 定 資料提供 者︰無 服務提供 者︰高 資料提供 者︰無 服務提供 者︰高 資料提 供者︰ 高 服務提 供者︰ 高 資料提供 者︰無 服務提供 者︰高 資料提供 者︰高 服務提供 者︰高 201。

(20)

第三章 OAI 詮釋資料擷取協定

第一節 OAI 詮釋資料擷取協定制訂緣起

有鑑於數位圖書館或學術機構的資料庫與系統彼此互不隸屬,相關資料或不 同領域的資料不僅分散儲存而且難以整合,使得資料的分享與流通有所限制, Paul Ginsparg, Rick Luce, Herbert Van de Sompel 等人在 1999 年 10 月於 New Mexico 的 Santa Fe 所舉行的 Universal Preprint Service 會議中推動開放性典藏 庫發展協會(Open Archives Initiative,簡稱 OAI)的成立,由研究者、圖書館員、 出版商、檔案學家等所組成,為一強調互通性議題的組織。組織目標在於提昇學 術社群間具體的溝通方式,藉由技術定義及組織的支持兩層面,發展最小層級但 具高度便利性的互通性架構。在技術層面將可透過各種終端使用者服務,例如檢 索引擎等,以獲取資料;組織層面則定義資料提供者(data providers)與服務提供 者(service providers),規範提供者、資料、服務三者間的溝通機制。OAI 組織 的最初目的是針對期刊論文與預刊本之電子資源的互通性檢索而成,但這與各類 型數位圖書館所遭遇的互通性問題相當類似,所以在 2000 年上半年,OAI 更將 其適用範圍擴展至數位圖書館領域,由 DLF 與 Andrew W. Mellon Foundation 兩個組織在 Harvard University 所舉行的 Cambridge Meeting,討論如何將數位 圖書館之館藏資訊散播到網路搜尋引擎上。會中一致認為利用互通的模式在網際

網路交換詮釋資料,將是數位圖書館資料散佈至網路上的重要方式。21

OAI 認 為 達 成 互 通 性 的 第 一 步 , 需 發 展 詮 釋 資 料 擷 取 協 定 (metadata harvesting protocol)以利於詮釋資料在資料庫間的交換,因此於 2001 年 1 月發 表 OAI 詮釋資料擷取協定(Open Archives Initiative Protocol for Metadata Harvesting,簡稱 OAI-PMH),提供數位圖書館檢索互通機制上的一可行方案。 OAI-PMH 運用目前高度發展的網際網路與詮釋資料兩種技術,在增強功能、簡 化實行難度上,達成了極佳的平衡。發佈到網路上的學術資料,藉助 OAI-PMH

21 Lagoze, C., Van de Sompel, H,”The Open Archives Initiative:Building a Low-Barrier

Interoperability Framework” (2001) http://www.openarchives.org/documents/oai.pdf (10 January 2002)

(21)

能不限於相異的系統平台、應用程式、領域、國界及語言,達到廣泛流通的目的。 也因此,使用者能利用最經濟的時間,取得較諸先前更豐富且精確的資料。 OAI-PMH 已向 W3C 組織提出申請,目前 OAI-PMH 的最新版本為 2002 年 6 月 所提出的 2.0 版,預計將成為開放性的全球標準。

(22)

第二節 OAI 詮釋資料擷取協定的內涵與規範 OAI-PMH 協定的內涵主要包含詮釋資料的發佈(expose)與擷取(harvest)兩 個類型,其在協定上分別定義此兩部分: (一)定義一個資料提供者能夠透過 HTTP 為基礎的協定,發佈其詮釋資料 (metadata)的機制。 (二)定義一個能夠從儲存器(Repository)獲取含有詮釋資料(metadata)資料錄 (record)的機制。

OAI-PMH 提供選擇性擷取(selective harvesting),讓擷取程式可以將擷取的範 圍限制在資料庫的部分子集合,過濾掉其他不需要的部分。為了避免太過複雜的 實作細節,並提供足夠的功能性,OAI-PMH 選擇以兩個較為簡單的條件作為選 擇 性 擷 取 實 的 參 數 : 時 間 戳 記 與 集 合 。 選 擇 性 擷 取 使 用 在 ListRecords 和 ListIdentifiers 命令中,時間戳記與集合兩個參數可以獨立或合併使用。22 (一)以時間戳記進行選擇性擷取 在OAI-PMH 規範中規定每筆紀錄都必須包含時間戳記,用來表示資料物件 最近一次新增、刪除、或修改的時間。擷取時可以由from 和 until 決定完整的時 間範圍,或是只使用from 或 until 決定時間範圍的起點或終點。為了在擷取時, 能同步世界各地不同時區的資料庫,時間的格式必須符合UTCdatetime 格式

(coordinated universal time)。

(二)以資料集進行選擇性擷取 資料集(set)在 OAI-PMH 規範中只列為一個可選擇實作與否的條件。其功能 在於將資料庫中的物件歸類為一個個子集合,以協助選擇性擷取指定其選擇的範 圍。資料庫可以將其集合訂立為階層式的架構,即集合下還可以再分為若干子集 22 同 5。

(23)

合,再往下依此類推。但特別要注意的是,一個資料物件可以被歸類在一個集合、

多個集合中,或是完全不出現在任何集合中。每一個集合以其setSpec 作為識別

(24)

第三節 OAI 詮釋資料擷取協定之技術架構 OAI-PMH 整體的運作如圖二所示,核心主要是在 HTTP 協定上傳輸使用 XML 文件的協定,而前後端整個運作環境,包含下列五個主要的組成元件: 圖三:OAI-PMH 技術架構組成元件 (一)資料提供者(data provider) 提供其文件內容,並以 OAI-PMH 作為發佈詮釋資料的協定。主要工作為維 護一個或一個以上支援 OAI-PMH 來將其內容以詮釋資料發佈的儲存器(Web 伺 服器)。 (二)服務提供者(service provider) 透過 OAI-PMH 協定向資料提供者取得資料,並利用獲得的詮釋資料建立各 種加值服務。 (三)資料儲存器(Repository) 透過 HTTP,接受 OAI-PMH 所提出存取資料需求的伺服器。

(25)

(四)資料集(Set) 非必備功能,主要是為了方便取得部分範圍所需的資料。儲存器內可將不同 類別的資料區分成不同的群組,並以階層式架構表示,以節點(node)作為各分類 的區分,因此每一個節點即稱之為資料集。 (五)資料錄(Record) 一個資料錄是後端伺服器依據 OAI-PMH,從儲存器內將資料以 XML 編碼 傳回前端的詮釋資料。

(26)

第四節 OAI 詮釋資料擷取協定指令說明 以下列舉OAI-PMH 的命令(verb),包括命令使用方式、所有參數、及錯誤 處理,並舉例說明。其中Identify、ListMetadataFormats、ListSets 屬於支援命令, 負責提供與資料庫相關的資訊;ListRecords、ListIdentifiers、GetRecord 則屬於擷 取命令,負責取回所指定的詮釋資料。 參數中若指明為必需(required)者,則一定要要包含在要求(request)之中(除非 要求中使用了具唯一性的參數)。若為非必需(optional),則視要求的情況是否需 要而選用。若為唯一的(exclusive),則表示這項參數不能與其他參數合用。意即 可以不使用,但若使用了,則它會是唯一使用的參數,不會同時出現其他參數。 (一)GetRecord 1.使用方式:當欲從資料庫(repository)中,單獨取得一筆特定的資料紀錄時使 用。使用時必須指定其資料物件的識別碼(identifier),及所要的詮釋資料格 式。若資料庫能夠追蹤刪除資料,則在回應時,對於已刪除的資料可以在 header 欄加入 status 參數,其值為“deleted”。

2.可用參數: (1)identifier:必需,用以指示一個資料物件(item)在資料庫中的唯一識別碼。 (2)metadataPrefix:必需,用以指示回應時使用何種詮釋資料格式。資料庫 能提供的所有詮釋資料格式,可以藉ListMetadataFormats 命令取得。 3.錯誤狀況: (1)badArgument : 使用了不合法的參數,或缺失了必需的參數。 (2)cannotDisseminateFormat : 由 identifier 所指定的資料物件並不支援由 metadataPrefix 所指定的詮釋資料格式。 (3)idDoesNotExist : 指定的 identifier 不合法,或在資料庫中根本不存在。 (二)Identify

(27)

1.使用方式:用以取得資料庫的各項基本資訊。資料庫也可以將一些敘述性 的資訊放在這個命令的回應裡。 2.可用參數:無。 3.錯誤狀況: (1)badArgument : 使用了不合法的參數。 (三)ListIdentifiers 1.使用方式:這個命令可以看作 ListRecords 的縮減版,與 ListRecords 的差別 在於它只取回每一筆資料紀錄的標頭(header)部分,而不是完整的紀錄(一筆 完整的紀錄還必須包括詮釋資料部分,以及非必需的相關(about)部分)。可 以利用資料集(set)與時間戳記(datestamp)兩個參數,作選擇性擷取(selective harvesting)。若資料庫能夠追蹤刪除資料,則在回應時可以在標頭(header) 部分加入status 參數,並設定其值為“deleted” ,來表示該筆資料已刪除。 2.可用參數:

(1)from:非必需,其值必須符合 UTC(Coordinated Universal Time)的標準格 式。當我們依某一段日期時間範圍進行選擇性擷取時,用以指示開始的 時間點。

(2)until:非必需,其值必須符合 UTC(Coordinated Universal Time)的標準格 式。當依某一段日期時間範圍進行選擇性擷取時,用以指示終止的時間 點。 (3)metadataPrefix : 必 需 , 用 以 指 示 回 應 時 只 取 回 詮 釋 資 料 格 式 符 合 metadataPrefix 的標頭(若資料庫能夠追蹤刪除資料,則已刪除的資料標 頭 也 會 被 取 回) 。 資 料 庫 能 提 供 的 所 有 詮 釋 資 料 格 式 , 可 以 藉 ListMetadataFormats 命令取得。 (4)set:非必需,當進行選擇性擷取,想將範圍限制在某一個資料集內時使 用。

(28)

(5)resumptionToken:唯一,其值為前一個 ListIdentifiers 命令未傳完全部的 資料時,所傳回來的一個流量控制用的標記。在要求中放入該傳回來的 resumptionToken,則資料提供者會延續之前未完成的 ListIdentifiers 命 令,繼續傳送接下去的資料。 3.錯誤狀況: (1)badArgument:使用了不合法的參數,或缺失了必需的參數。 (2)badResumptionToken:所給予的 resumptionToken 是無效的,或是已經過 期。 (3)cannotDisseminateFormat:資料庫不支援要求中 metadataPrefix 所指定的 詮釋資料格式。 (4)noRecordsMatch:由 from,until,set 三個參數所構成的選取範圍裡沒有 任何一筆紀錄。 (5)noSetHierarchy:資料庫未支援資料集。 (四)ListMetadataFormats 1.使用方式:這個命令的用途是取得資料庫所有可用的詮釋資料格式。可以 利用非必需的identifier 參數,將傳回的結果限制為資料庫中某一個資料物 件所有可用的詮釋資料格式。 2.可用參數: (1)identifier:非必需,其值應該要是資料庫中某個資料物件的唯一識別碼, 並且將傳回的結果限制為該資料物件所有可用的詮釋資料格式。當省略 這個參數時,傳回的結果則是資料庫所有可用的詮釋資料格式。特別要 注意的是:資料庫支援某種詮釋資料格式,並不表示資料庫裡的所有資 料物件都能使用該種詮釋資料格式。 3.錯誤狀況: (1)badArgument:這個要求包含了不合法的參數,或缺失了必需的參數。 (2)idDoesNotExist:指定的 identifier 不合法,或在資料庫中根本不存在。

(29)

(3)noMetadataFormats: identifier 所指定的資料物件目前並沒有可以使用的 詮釋資料格式。 (五)ListRecords 1.使用方式:此命令用於從資料庫擷取大批資料紀錄。它提供一些非必需的 參數,協助我們運用資料集、時間戳記,進行選擇性擷取。若資料庫能夠追 蹤刪除資料,則在回應時可以在標頭(header)部份加入 status 參數,並設定 其值為“deleted” ,來表示該筆資料已刪除。已刪除的資料物件,其紀錄中 不會包含有詮釋資料(metadata)部份。 2.可用參數:

(1)from:非必需,其值必須符合 UTC(Coordinated Universal Time)的標準格 式。當我們依某一段日期時間範圍進行選擇性擷取時,用以指示開始的 時間點。

(2)until:非必需,其值必須符合 UTC(Coordinated Universal Time)的標準格 式。當我們依某一段日期時間範圍進行選擇性擷取時,用以指示終止的 時間點。 (3)set:非必需,當進行選擇性擷取,想將範圍限制在某一個資料集內時使 用。 (4)resumptionToken:唯一,其值為前一個 ListRecords 命令未傳完全部的資 料紀錄時,所傳回來的一個流量控制用的標記。在要求中放入該傳回來 的resumptionToken,則資料提供者應該要延續之前未完成的 ListRecords 命令,繼續傳送接下去的資料紀錄。 (5)metadataPrefix:必需,用以指示回應的資料紀錄中,詮釋資料的部份應 該要使用的詮釋資料格式,並且每筆紀錄只有能夠照metadataPrefix 所指 定之格式發佈詮釋資料,才會被取回。資料庫能提供的所有詮釋資料格 式,可以藉ListMetadataFormats 命令取得。 3.錯誤狀況: (1)badArgument : 這個要求包含了不合法的參數,或缺失了必需的參數。

(30)

(2)badResumptionToken : 所給予的 resumptionToken 是無效的,或是已經 過期。 (3)cannotDisseminateFormat : 資料庫不支援要求中 metadataPrefix 所指定 的詮釋資料格式。 (4)noRecordsMatch : 由 from,until,set 三個參數所構成的選取範圍裡沒 有任何一筆紀錄。 (5)noSetHierarchy : 資料庫未支援資料集。 (六)ListSets 1.使用方式:這個命令的用途,在於取得資料庫內,資料集的階層架構,以 協助選擇性擷取之處理。 2.可用參數: (1)resumptionToken:唯一,其值為前一個 ListSets 命令未傳完全部的資料 集架構時,所傳回來的一個流量控制用的標記。在要求中放入該傳回來的 resumptionToken,則資料提供者應該要延續之前未完成的 ListSets 命令, 繼續傳送接下去的資料集架構。 3.錯誤狀況: (1)badArgument : 這個要求包含了不合法的參數。 (2)badResumptionToken : 所給予的 resumptionToken 是無效的,或是已 經過期。 (3)noSetHierarchy : 資料庫未支援資料集之使用。 (七)實例 下面的命令使用OAI-PMH 來要求單一一筆資料的詮釋資料,資料的識別碼

(31)

Request: Response: <?xml version="1.0" encoding="UTF-8"?> <OAI-PMH xmlns=http://www.openarchives.org/OAI/2.0/ xmlns:xsi=http://www.w3.org/2001/XMLSchema-instance xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd"> <responseDate>2002-02-08T08:55:46Z</responseDate>

<request verb="GetRecord" identifier="oai:arXiv:cs/0112017" metadataPrefix="oai_dc">http://arXiv.org/oai2</request> <GetRecord> <record> <header> <identifier>oai:arXiv:cs/0112017</identifier> <datestamp>2001-12-14</datestamp> <setSpec>cs</setSpec> <setSpec>math</setSpec> </header> <metadata> <oai_dc:dc xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/ http://www.openarchives.org/OAI/2.0/oai_dc.xsd">

<dc:title>Using Structural Metadata to Localize Experience of Digital Content</dc:title>

<dc:creator>Dushay, Naomi</dc:creator> <dc:subject>Digital Libraries</dc:subject>

<dc:description>With the increasing technical sophistication of both information consumers and providers, there is increasing demand for more meaningful experiences of digital information. We present a framework that separates digital object experience, or rendering, from digital object storage and manipulation, so the rendering can be tailored to http://arXiv.org/oai2?verb=GetRecord&identifier=oai:arXiv:cs/0112017&metadataP refix=oai_dc

(32)

particular communities of users. </dc:description>

<dc:description>Comment: 23 pages including 2 appendices, 8 figures</dc:description> <dc:date>2001-12-14</dc:date> </oai_dc:dc> </metadata> </record> </GetRecord> </OAI-PMH>

(33)

第五節 OAI 詮釋資料擷取協定的優勢 OAI-PMH 之互通性架構規範具有許多優點,分述如下:23 (一)提供學術溝通及交流的新模式 OAI-PMH 之架構使數位化文件能更容易、更廣泛的傳播。且採用詮釋資料蒐 集(metadata harvesting)的方式,可涵蓋各種多媒體格式、資料型態、與內容等, 擴展了數位化資料存取種類的範圍。 (二)實作容易 OAI-PMH 在設計時即以「簡單」為原則。一個具架設網路伺服器經驗的工 程師,可以在極短的時間內架設起OAI 伺服器。 (三)具開放性(open) 任何人都能使用OAI-PMH 定義的架構,來建構資料提供或服務提供的伺服 器。 (四)採用 HTTP 及 XML 之開放性標準 OAI-PMH 利用 HTTP 通訊協定作為其基本的通訊協定。其優點在於:現今 所有的網頁伺服器及瀏覽程式等,幾乎毫無例外的支援HTTP;這使得 OAI 在先 天上就已解決了跨平台及相容性等問題,也節省了另行架構的困難。另一方面, XML 亦漸漸成為全球共同的資料標準交換格式。由於 HTTP 及 XML 均為開放 性的標準,採用HTTP 及 XML 的組合不僅考慮了相容性的問題,也確保了 OAI-PMH 的開放性原則。 23 同 2。

(34)

第四章 以 OAI 互通性架構為基礎的相關應用

在歐美等地,已有許多機構與研究單位著手進行 OAI 等互通性架構之研究

與實際系統的建置與使用。就目前發展的結果顯示OAI-PMH 之規範的確具有易

於 建 置 及 架 構簡 單 的特 性 。 各 式 的服 務 不斷 地 在 發 展 ,在 OAI 組織網站

(http://www.openarchives.org) 上,截至 2003 年 7 月已有 102 個資料提供者註冊,

提供貯藏庫的詮釋資料檢索,如OCLC(Online Computer Library Center)、美國國

會圖書館(Library of Congress),與大學、研究計畫都名列其中;服務提供者,則

有Arc、my.OAI、NCSTRL 等多項依據 OAI-PMH 所建立的加值服務系統。以下

茲舉出幾項發展計畫,做為說明參考:

第一節 國外 OAI 相關計畫之發展

一 、 CIMI ( Consortium for the Computer Interchange of Museum

Information):博物館界的資料提供者-提高文化資源在網路環境的 可得性

博物館擁有豐富的資源,但在網路環境中卻有許多內容無法被取得或者取得

的資訊不具實用性與正確性。為此,CIMI 與 Digital Library Federation 及 Andrew

W. Mellon Foundation 合作,提出 Metadata Harvesting Project,依據 OAI-PMH 之

規範以解決資訊無法有效獲取的問題。此計畫目標共分三階段,依序為CIMI 現

有資料的測試,檢索機制的建立及發展入口網站服務。CIMI 採用 Dublin Core 及 XML 架構,欲使資料提供者與服務提供者間做良好的溝通,讓資訊容易被獲取。

經由CIMI 六個月的測試,發表了依據 OAI-PMH 1.0 版所建立的貯藏庫;初期評

估顯示OAI-PMH 具有簡單易建的優點,且其使用 Dublin Core 及 XML 的格式,

在博物館界早已被認同其可用性。未來需要克服的問題在於:詮釋資料需有一致

性的共識及其社群專指特性的滿足,並且各使用單位皆要能支援 XML 格式。

CIMI 預期將會有越來越多的服務提供者接受 OAI 模式,並認為 OAI 的採用,將 會使得博物館資源得以更廣泛地為其使用者所利用。CIMI 也將持續研究與測試

(35)

OAI-PMH 在博物館界的使用情形,並希望能執行更正式且具規模的測驗。24

二、Arc:OAI-PMH 架構下的數位圖書館整合服務提供者

目前數位圖書館所遭遇的問題之一,在於互通性的缺乏,因而無法將資源以

單一介面加以整合;而OAI-PMH 的發展即強調檔案傳佈在技術上的互通性。Arc

為Old Dominion University 所發展,是第一個根據 OAI-PMH 所建構的整合式檢

索服務,根據原先的「國際預刊本伺服器」(Universal Preprint Server,UPS)的

設計理念,提供使用者數位圖書館形式的服務。其架構包括檢索者(harvester)、 階層式檢索(hierarchical harvesters)、終端使用者檢索機制(end-user search facility);Arc 分別由不同的 OAI 貯藏庫檢索詮釋資料,將其標準化後儲存於關 聯式資料庫中以提供服務,可同時檢索資料提供者及其它服務提供者的資料。25 Arc 在發展過程中,所遭遇的問題主要有: (一)資料命名的不一致:不同的檔案具有不同的格式與命名方式; (二)資料提供者的安全保護機制可能阻礙檢索工作的進行; (三)資料現時性的維持等。 Arc 擬在未來逐漸擴增所涵蓋的資料提供者廣度,同時也擬增加其深度及服 務的豐富性;並可做為研究詮釋資料在各類電子圖書館的品質及效用的工具。 三、Kepler:提供個人出版的 OAI 資料 服務提供者 基於多數個人期望有簡化的出版工具,並能保留對所屬資料的控制權;另一

方面有鑑於P2P(Peer to Peer)系統的成功,Kepler 採用 OAI-PMH 發展所謂的

「個人資料提供者」(personal data providers)或稱「檔案資料小集」(archivelets)。

其目標即在滿足一般大學研究學者自我出版、使用者資料獲取的需求。Kepler 架構包含四部份:26 242。 252。 262。

(36)

(一)依 OAI-PMH 架構建立的貯藏庫(OAI compliant repository); (二)出版工具(publishing tool):供出版者使用;

(三)註冊服務(registration service):Kepler 除提供註冊服務外,並能持續追蹤已 註冊的檔案資料庫的狀態;

(四)服務提供者(service provider):即 Kepler 本身。

Kepler 所提供的工具為: (一)能夠下載及自動安裝的檔案資料庫; (二)供出版者使用的自動註冊服務; (三)簡易的服務提供者,檢索來自於貯藏庫的詮釋資料。 Keple 目前所建立的標準系統,可以安裝在任何機器上,並能夠處理所有註 冊伺服器及服務提供者之間的互動,希望能夠建立一個出版及資訊發掘的新典 範。 四、Torii:開放型檔案庫下的入口網站 電子化及網路的發展,對學術性出版造成不小的衝擊;諸如電子與紙本型 式、著作財產權等問題,皆引起許多的討論與爭議。TIPS(Tools for Innovative Publishing in Science)即於此環境下因應而生,其認為未來網路的資訊傳播及出 版在文獻交換上需要有較多面向的結構,以及一致性、桌面型式的網頁獲取服務 及工具來管理資訊,還需要有發展完善的資訊檢索及過濾技術。Torri 為 TIPS 計

畫下所建置的入口網站(portal),為The European Union Fifth Framework Program

Information Society Technologies Program(IST-1999-10419)的一部份,以透過單

一入口網站的方式提供終端使用者個人化的服務。而OAI-PMH 則為入口網站與

其各項服務間的基本溝通協定;透過OAI-PMH,Torri 將更具擴張性。27

272。

(37)

五、OLAC(Open Language Archives Community):語言社群間的跨檔 案檢索服務

面對大量且多元的語言資源,如何建立語言資源及其相關使用者間的連結是 必要的。OLAC 為一國際性組織,於 2000 年 12 月,由近百位語言學者發起。欲

根據OAI-PMH 及 Dublin Core 建立起全球性的整合語言檔案系統,發展一致性

的數位語言資源檔案及其貯藏庫與服務的提供。由於OAI-PMH 具有由上而下傳 播的特性,同時是有效且結構化的資料庫,非常適用於資料成長迅速、使用者具 有資源描述需求的語言資源環境。另一方面,OAI-PMH 的資料提供者可以根據 諸如Dublin Core 等詮釋資料標準,專家社群如語言資源社群即能依循其標準送 出符合OAI-PMH 的格式。即是使用 OAI-PMH 得以將社群檔案加以結合並提供 終端使用者檢索使用。28 282。

(38)

第二節 國內 OAI 相關計畫之發展

一、數位典藏國家型科技計畫聯合目錄原型系統設計

自 2002 年起展開的國科會「數位典藏國家型科技計畫」,提出以 OAI 建置

「國家數位典藏聯合目錄」的構想。於九一年四月起邀請國內參與數位典藏機構

之代表成立OAI test-bed 小組,由陳昭珍教授主持,以 OAI 技術建構國家數位典

藏之聯合目錄。經過四個多月的設計,已發展出數位典藏聯合目錄的原型系統。 29雖然OAI 是一個簡單、容易設計程式的協定,但是在實際的聯合目錄系統設計 上,尚有一些是 OAI 未考慮到的問題,如與各單位之資料庫應如何連結、如何 透過詮釋資料擷取數位物件、資料服務端之介面應如何設計等,都是 OAI 未訂 定,也是無法訂定的部份,但在實際環境中,則是一定要處理的問題。聯合目錄 的主要系統架構則如圖四所示:30 圖四:OAI 整體系統架構圖 29陳昭珍、何佳欣,「數位化圖書館互通檢索機制之探討」,中國圖書館學會會報70(民國 90 年) 頁53-68。 30陳昭珍,「數位典藏計畫異質系統互通機制:以OAI 建立聯合目錄的理論與實作」,國家圖書館 館刊91(1)(民國 91 年 6 月):頁 1-17。

OAI Service

Provider Knowledge Worker Internet Internet DO

Handle System

OAI data provider

版本更新 自動註冊 OpenURL

(39)

二、「臺大典藏數位化計畫」之「臺灣大學數位典藏資源中心」建置

「臺大典藏數位化計畫」為國科會「數位典藏國家型科技計畫」中的一機 構計畫,其下包含七個子計畫,有鑑於典藏單位眾多且獨立,為使各典藏單位所 建置的系統得以分享,使用者藉由單一介面即能檢索到所有典藏單位的資料,並 能讓數位典藏的全貌得以展現;「臺大典藏數位化計畫」擬規劃一「臺灣大學數 位典藏資源中心」(NTU Digital Archives Resource Center;DARC),以 OAI 架構 為基礎的互通檢索系統規劃為其發展重點之一。期望使各個資料提供者與服務提 供者之間的溝通更為容易,讓數位典藏的資料能夠保有詮釋資料的原始結構或 Dublin Core 格式,並透過標準且簡單的程序達到分享、使用與加值,有助於使 用者更方便地檢索與獲取網路資源,滿足文獻資訊檢索的需求。整體系統架構環 境則如圖五所示。 圖五:台大數位典藏資源中心架構圖 此系統為依據 OAI-PMH 2.0 版,藉由實作資料提供者及服務提供者兩端的 程式,作為台灣大學數位典藏資源中心系統的運作核心。採用 Java 作為系統軟 體之開發語言,而資料庫系統在開發時採用 Microsoft 的 SQL Server2000,不 過只要符合 SQL92 標準之關聯式資料庫系統均可。綜觀實作過程的經驗如下: (一)因各典藏單位詮釋資料性質的差異,必須另提供一共同欄位之精簡版詮釋資

(40)

料,而最適當的共同欄位合集便是Dublin Core metadata。

(二)各典藏單位基於資料來源著作權等因素,部分資料並不適合公開,或只允許

公開部分欄位內容,因此在OAI Data Provider 運作上必須先經資料過濾的處

理過程。基於前項與本項需求,在各典藏單位除了需建置OAI 相關之程式外, 尚需包含資料異動與轉換之處理程式。 (三)本質上,OAI 只是一個用來交換詮釋資料的協定,並不包含如文件、影像、 聲音等全文資料(full-content);因此其餘文件格式、內容均需透過其它程式應 用技術輔助,並不在此協定處理的範圍。因此在整合資源中心的功能上必須 要能連結回原典藏單位之數位物件所在。而在服務提供者端(資源中心),除 了提供整合性的資料檢索功能外,在呈現台大數位典藏資源中心架構圖時, 亦需顯示簡易的數位物件內容,例如縮圖或部分多媒體檔案內容。整體而言, 服務提供者端除了利用OAI 協定向資料提供者獲取相關詮釋資料外,亦需下 載所需的簡易數位物件資料。

(41)

第五章 結論與建議

近年來,由於世界各國數位圖書館與數位典藏貯藏庫的蓬勃發展,互通性 的議題成為眾所注目且亟待解決的焦點,故有助於資訊系統間互通之協定與規範 陸續被提出討論,例如Z39.50、SOAP、OAI-PMH 等,其中 OAI-PMH 的簡單、 易建特點,實為一項極具潛力的互通性協定。 回頭審視OAI-PMH 的幾個主要目標:在跨系統、跨平台這個目標上,OAI 的架構用了最簡單最普及的HTTP/XML 組合,雖然未必最簡潔、最有效率,但 也因此,在實作的過程中,能利用許多成熟的程式元件處理網路服務及XML 文 件,兼顧易於實作及使用這個目標。此外,OAI 的架構中並不管資料是以何種方 式儲存,無論是資料庫或檔案均可,詮釋資料是預先儲存或臨時產生也都是系統 設計者的自由。由於只要求六道基本指令,系統設計者可以因應原本的資料型 態,來巧妙的加入 OAI-PMH 服務。OAI-PMH 定時擷取的方式,也合乎數位典 藏資料的特性,一筆數位資料在完成後,很少需要經常性的變動修改。不過這方 面值得討論的問題在,詮釋資料的格式是經常更改的。在處理各資料來源時,常 常遇到典藏單位因為不同的需要而更改其詮釋資料的欄位設計,甚至更改資料庫 的設計。雖然OAI-PMH 提供了支援多種詮釋資料格式的彈性,但若頻繁的更動 詮釋資料格式,對服務提供者事實上是很難處理的。 使數位資料更有效率、更廣泛的傳播是 OAI 提出的另一項重大訴求,有幾 個研究計畫,例如DP9,其目標更特別專注於利用 OAI-PMH 來將隱藏在資料庫 內的資料傳遞到一般搜尋引擎,使得平常的使用者不用特別經過某些 OAI 的服 務提供者,而是依習慣在常用的搜尋引擎裡就可以找到OAI-PMH 所傳遞的詮釋 資料。而有的研究計畫,則是希望作出OAI-PMH 與其他通訊協定的溝通介面。 然而資訊的整合與流通,需要的不單單是資料流通的機制而已,即使 OAI-PMH 強制每個資料提供者都必須提供 Dublin Core 的詮釋資料,但是用於資料的分 類、整合、使用,仍顯不足。因此在未來的一兩年,當 OAI 的機制普遍在數位 典藏界建置完成後,資料的流通、使用模式,值得我們觀察分析。 對於數位典藏互通性理論架構的研究,歸納而言,有以下幾點建議: 一、由於網路環境具備全球性連結、開放與分散式的架構概念、異質的特性,數

(42)

位典藏的成果若欲讓使用者有效率的進行檢索、分享或執行其它工作,互通 性的達成為其關鍵。 二、互通性指涉層面廣、觸及許多不同的面向,應加強跨領域間的合作與整合, 並發展能提供一般層級的資訊分享架構。而在數位典藏互通性模式的發展與 評估過程中,成本效益與功能的考量為其關鍵。 三、OAI-PMH 在許多的研究與實作結果中,顯示其具有易於建置與架構簡單的 特性,且使用者能利用最經濟的時間,取得比先前更豐富且精確的資料,確 實為數位典藏在互通性架構上提供一可行的解決方案。然有亦有一些重要但 OAI 未做規範的問題,如與各單位之資料庫應如何連結、如何透過詮釋資料 擷取數位物件、資料服務端之介面應如何設計等,皆是在現實環境中需尋求 解決的議題。

(43)

參考書目

1. Arms, W. Y. Digital Libraries. Cambridge, Ma.: MIT Press,2000.

2. Lagoze, C., Van de Sompel, H.”The Open Archives Initiative:Building a Low-Barrier Interoperability Framework” 2001.

<http://www.openarchives.org/documents/oai.pdf> (10 January 2002) 3. Moen, W. E. “Assessing Interoperability in the Networked Environment:

Standards, Evaluation, and Testbeds in the Context of Z39.50” September 2000. <http://www.unt.edu/wmoen/publications/InteropEvalPreprint.pdf >(24 June 2003) 4. 余顯強。「淺談數位圖書館典藏資料互通之存取協定」。書藝 39(民國 92 年)。 5. 柯皓仁、黃夙賢、楊維邦。「詮釋資料與數位圖書館系統互通性之探討」。大 學圖書館 5(1)(民國 90 年):頁 49-78。 6. 徐代昕。數位典藏互通性架構之建置。國立臺灣大學資訊工程學研究所,碩 士論文,民國92 年。 7. 陳昭珍、何佳欣。「數位化圖書館互通檢索機制之探討」。中國圖書館學會會 報 70(民國 90 年):頁 53-68。 8. 陳昭珍。「數位典藏計畫異質系統互通機制:以 OAI 建立聯合目錄的理論與 實作」。國家圖書館館刊91(1)(民國 91 年 6 月):頁 1-17。 9. 陳雪華、項潔、陳昭珍、洪筱盈、徐代昕、張懷文。「數位典藏互通性架構之 探討」。中國圖書館學會會報 68(民國 91 年):頁 1-13。 10. 國家圖書館。「數位圖書館分散檢索協定」。民國 90 年 10 月。, <http://www.ncl.edu.tw/bbs/pdf/6-3-3.pdf >(民國 92 年 10 月 24 日)

(44)

附 錄 一 :

出席國際學術會議心得報告

91 年 12 月 25 日 填 姓名 陳雪華 性 別 女 年 齡 年 月 日 生 籍貫 福建省 寧德縣 服 務 單 位 台大圖書資訊學系 職 稱 教授 會 議 名 稱 (中文)2002 亞洲數位圖書館國際會議

(英文)International Conference of Asian Libraries(ICADL)2002

主 辦 單 位

Division of Information Studies School of Communication & Information

Nanyang Technological University (NTU)

會 議 地 點 Grand Hyatt Singapore

會 期 自 91 年 12 月 11 日 迄 91 年 12 月 14 日

發表論文題目

(中文)

(英文)Building an OAI-based Union Catalog for the National Digital Archives Program in Taiwan

擔任職務

1. ICADL2002 Steering Committee member 2. ICADL2002 Program Committee member 3. ICADL2002 Session Chair

(45)

參加國際學術會議活動概況簡表

姓 名 陳雪華

服務單位及職稱 台大圖書資訊學系教授

中文:2002 年亞洲數位圖書館國際會議 會 議 名 稱

英文:International Conference of Asian Digital Libraries, ICADL2002 日 期 2002/12/11~ 2002/12/14 地 點 Grand Hyatt Singapore 經 費 來 源 申請補助 補助單位:國科會 中文 名稱

英文 國際組 織 與我 關係 □國家會員 □團體會員 □個人會員 □贊助會員 □觀察員 □其它 □ 國際組織 主辦 地主國承辦單位 性質 □政府機關 □學校 ˇ民間團體 □其他 主辦單 位

名稱 Division of Information Studies

School of Communication & Information Nanyang Technological University (NTU) 性質

□非國際組 織主辦

協 辦 單 位 1. National Library Board of Soingapore 2. Nanyang Technological University Library 3. National University of Singapore Libraries 4. Library Association of Singapore

5. Library Information Technology Association of Singapore 重要性 涉及我與會之 □會籍 □名稱 □權利 □地位 請說明: 亞洲、美洲、歐洲、澳洲 共三十個國家人員參與 國 際 會 議 資 料 參加國家或地區 中共有無參加人員 ˇ有 □無 □不確知 其 他 說 明 填表人簽章:_ 陳雪華_____________________ 填表人電話 Tel: 2363-0231 ext 2296 填表日期: 2002/12/25

(46)

報告內容目次

一、參與會議簡介

---p.47

二、會議議程

---p.49

三、會議報告主題

---p.53

(47)

一、參與會議簡介

世界三大國際數位圖書館會議,分別為JCDL(Joint Conference of Digital

Library)、ECDL(European Conference on Digital Libraries)及 ICADL(The International Conference on Asian Digital Libraries。JCDL 為 ACM 及 IEEE-CS 兩 機構聯合舉辦,以美國數位圖書館發展為主要探討對象的美國數位圖書館研討 會,兩機構合辦歷史起於2001 年,整合兩者所舉辦之數位圖書館相關技術研討 之國際會議。ECDL 是歐洲各國探討數位圖書館技術、發展的主要論壇,2002 年9 月在羅馬舉辦了第六屆的會議,第七屆於 2003 年 8 月在挪威舉行。ICADL (亞洲數位圖書館會議)則為亞洲各國交流數位圖書館製作經驗、技術研究成果 經驗的研討會,第一屆始於1998 年 8 月,在香港舉辦,第二屆於 1999 年 11 月 在台灣台北舉辦,第三屆於2000 年 12 月在韓國漢城舉辦,第四屆於 2001 年 12 月,在印度班加羅爾舉辦,本屆為第五屆,於2002 年 12 月在新加坡舉辦。

第 五 屆 ICADL 會 議 , 由 Division of Information Studies, School of

Communication, Nanyang Technological University of Singapore 所主辦,協辦單位 則有National Library Board of Singapore, Nanyang Technological University Library, National University of Singapore, Library Association of Singapore,及 The Library and Information Technology Association of Singapore.。而本屆打破以往慣例,與第 三屆的WISE2002 ( International Conference on Web Information System )一同舉 行,合辦主要意義在於鼓勵更多、更頻繁的跨領域互動,促進並推動數位圖書館 研究在網際網路研究社群的發展。 ICADL 是一個讓參與者交流研究成果、創新意見,以及交流亞洲各國數位 圖書館方面發展技術的一個國際會議,並自詡為亞太地區最大規模、亞洲國家自 發之數位圖書館研討會。在新加坡舉辦的第五屆會議,目標在於強化ICADL 成 為首要數位圖書館研究領域的定位,能夠吸引全球具高學術價值的論文發表,以 滿足亞洲太平洋地區數位圖書館研究機構需求。在會議進行規模制度上,不但廣 納亞洲、美國及歐洲重要領域人士組成委員會,並設置電子論文註冊系統提升管 理會議之效率及透明化、介紹正式議程及會議記錄於LNCS 期刊,最後並計畫收

羅本次會議的精華論文,出版Information Processing and Management Journal 特

刊。

今年會議的Program Committee members 總共有 72 人,來自亞洲的有 41 人,

美國有14 人,歐洲國家有 17 人,雖為亞洲圖書館會議,但歐美國家 PC members

參加比率也將近四成。本屆ICDAL2002 論文投稿方面,共來自 401 位作者,包

含有110 篇 full papers 及 61 篇 short papers 投稿,分別從 full papers 中,錄取 34

(48)

short papers 及 16 篇為 poster papers,總共收錄了 70 篇論文。其中以印度投稿最 為踴躍(37 篇),但只錄取 5 篇。其次是美國與新加坡(均為 19 篇),分別錄取 12 篇與 10 篇。大陸居於第三(18 篇),錄取 9 篇。在台灣方面,雖然投稿並不 多,投稿了七篇,錄取四篇,錄取比率算是很高的。各國論文發表情況請見下表:

表1:各國發表論文統計

_________________F-S F-AF F-AS S-S S-AS S-AP

Australia 5 1 0 1 0 0 Austria 0 0 0 2 1 0 Belgium 0 0 0 1 0 0 China 12 3 4 6 0 2 Czech 0 0 0 1 0 1 Greece 1 0 1 0 0 0 Germany 1 0 0 1 0 0 HK China 1 0 0 0 0 0 India 29 1 1 8 0 3 Indonesia 1 0 0 2 0 0 Iran 1 0 0 0 0 0 Italy 4 3 0 0 0 0 Japan 4 2 0 2 0 0 Korea 3 0 0 11 1 4 Malaysia 3 1 1 1 0 0 Nepal 1 1 0 0 0 0 Netherlands 1 1 0 0 0 0 New Zealand 2 1 1 1 1 0 Palau 0 0 0 1 0 0 Philippines 0 0 0 1 0 1 Russia 0 0 0 1 0 0 Singapore 15 7 1 4 1 1 Spain 2 1 0 0 0 0 Sri Lanka 2 0 0 0 0 0 Switzland 1 0 0 1 0 0 Taiwan 4 2 1 3 0 1 Thailand 5 2 0 0 0 0 UK 6 5 0 0 0 0 USA 6 3 0 13 6 3

(49)

23 Countries 110 34 10 61 10 16 F-S: Number of submitted full papers

F-AF: Number of submitted and accepted full papers

F-AS: Number of submitted full papers accepted as short papers S-S: Number of submitted short papers

S-AS: Number of submitted and accepted short papers

(50)

二、會議議程

Wednesday 11 December, 2002 - Tutorials

0800 Registration

0900-1215 Tutorial 1a

Evaluating Digital Libraries for Usability

(Christine Borgman: Univ. of California, Los Angeles, USA)

Tutorial 1b

Knowledge Management Systems: A Text Mining Perspective

(Hsinchun Chen: Univ. of Arizona, USA)

1330-1700 Tutorial 2a

Digital Libraries: Theory and Practice

(Edward Fox: Virginia Tech, USA)

Tutorial 2b

Dublin Core

(Stuart Weibel: OCLC, USA)

1800-2100 Registration

數據

表 1:各國發表論文統計
Figure 1. Component of OAI-based technical architecture
Figure 2. Work flow of handle system
Figure 3. Architecture of the OAI-based union catalog for the National Digital  Archives Program

參考文獻

相關文件

We do it by reducing the first order system to a vectorial Schr¨ odinger type equation containing conductivity coefficient in matrix potential coefficient as in [3], [13] and use

A factorization method for reconstructing an impenetrable obstacle in a homogeneous medium (Helmholtz equation) using the spectral data of the far-field operator was developed

Wang, Unique continuation for the elasticity sys- tem and a counterexample for second order elliptic systems, Harmonic Analysis, Partial Differential Equations, Complex Analysis,

Wang, Solving pseudomonotone variational inequalities and pseudocon- vex optimization problems using the projection neural network, IEEE Transactions on Neural Networks 17

Hope theory: A member of the positive psychology family. Lopez (Eds.), Handbook of positive

volume suppressed mass: (TeV) 2 /M P ∼ 10 −4 eV → mm range can be experimentally tested for any number of extra dimensions - Light U(1) gauge bosons: no derivative couplings. =&gt;

Define instead the imaginary.. potential, magnetic field, lattice…) Dirac-BdG Hamiltonian:. with small, and matrix

• Formation of massive primordial stars as origin of objects in the early universe. • Supernova explosions might be visible to the most