數位典藏國家型科技計畫－聯合目錄系統建置計畫

(1)

行政院國家科學委員會專題研究計畫成果報告

數位典藏國家型科技計畫－聯合目錄系統建置計畫

計畫類別：個別型計畫計畫編號： NSC92-2422-H-004-012- 執行期間： 92 年 01 月 01 日至 92 年 12 月 31 日執行單位：國立政治大學圖書資訊與檔案學研究所計畫主持人：楊美華計畫參與人員：王梅玲報告類型：完整報告處理方式：本計畫可公開查詢

中華民國 93 年 2 月 13 日

(2)

國家數位典藏聯合目錄系統建置計畫

摘要

數位典藏國家型計畫是政府提倡知識經濟之後，開始重視國內數位內容建置的重大施政。目前數位典藏國家型計畫參與的單位有中央研究院、國立臺灣大學、國家圖書館、國立故宮博物院、國立自然科學博物館、國立歷史博物館、國史館、國史館臺灣文獻館、文化建設委員會等單位及數十個學術團體。欲分享各單位所建置的數位資源，聯合目錄的建置是當務之急；如何透過 metadata 將全文、影像、聲音、視訊等數位物件展現出來，亦同等重要。OAI 詮釋資料擷取協定（Open Archives Initiative Protocol for Metadata Harvesting），於 2001 年 1 月，由開放性資料庫發展協會（Open Archives Initiative，OAI）發展，提供一個簡單的自動、批次、分散擷取不同機構資料庫之詮釋資料、及建立集中式聯合目錄的解決方案。本研究主要目的在： 1. 研討數位圖書館聯合目錄相關理論、技術之研究趨勢，互通性理論、架構與系統個案之研討。 2. 分析國內數位典藏單位互通性架構與系統需求，探討其系統建置之可行性及效益評估。 3. 建構符合 OAI 規範之數位典藏聯合目錄系統，本計畫預定建構符合 OAI 規範及國內環境所需之Service provider 及 Data Provider，並以此為基礎，使之成為數位典藏計畫聯合目錄之建置機制。透過metadata 之檢索，除能提昇中文資料的國際能見度外，更能增加我國與國際交流合作之機會。 4. 探討數位檔案命名原則，及分析管理 metadata 與數位資源連結之機制。本研究報告分：緒論、文獻探討、聯合目錄系統需求分析與規劃、共通欄位與DC XML DTD 格式研究、聯合目錄系統設計與資料測試、聯合目錄工作小組網站建置及結論等七大部份。最後建議在聯合目錄系統之規劃及管理方面，應該有一個統籌負責的單位，全盤規劃，積極推動，不應只停留在研究測試階段。在資料之交換方面應加強中央研究院後設資料工作小組、系統開發資訊人員、主題計畫、與聯合目錄小組四方面作業之共識，尤其是有關後設資料欄位意涵之規劃，並應考量後續加入計畫之擴充性及整合性。【關鍵字】：國家數位典藏聯合目錄、OAI、數位檔案命名原則、詮釋資料

(3)

The Design and Implementation of Union Catalog of

National Digital Archives Program

Abstract

The “National digital Archives Program” (NDAP) was launched on January 1st, 2002. This program, sponsored by the National Science Council (NSC) of the R.O.C. is to promote and coordinate content digitalization and preservation at leading museums, archives, universities, research institutes, and other content holders in Taiwan. There were nine participating institutions, including the Academia Historica, the Academia Sinica, the Council for Cultural Affairs, the National Museum of Natural Science, the National Palace Museum, National Taiwan University and the Taiwan Historica.

In order to share the digital resources built by the NDAP, the construction of a union catalog is urgently needed. For the designing of the union catalog of digital libraries, the efficient mechanism of harvesting metadata, and the digital objects naming principle and the persistent connection method between metadata and the digital objects need to be considered. In this research, the functions and the system architecture of the OAI-based union catalog will be surveyed and defined. The reason why the OAI (Open Archives Initiative) protocol was chosen as the mechanism to create the Union Catalog of National Digital Archives Program will be explained. Finally the implementation of the union catalog with those standards will be demonstrated.

【Keywords】：National Digital Archives Program、Open Archives Initiative (OAI)、Metadata、 Union Catalog

(4)

第一章、緒論...1 第一節、問題陳述... 1 第二節、研究目的... 2 第三節、研究方法與步驟... 4 第四節、預期工作成果與效益... 7 第二章、文獻探討...9 第一節、數位圖書館、博物館的合作... 9 第二節、聯合目錄的建置模式... 13 第三節、OAI 協定與技術... 16 第四節、數位圖書館聯合目錄系統... 24 第三章、聯合目錄系統需求分析與規劃 ...53 第一節、國家數位典藏計畫概說... 53 第二節、數位典藏聯合目錄系統規劃... 59 第四章、共通欄位與 DC XML DTD 格式研究 ...78 第一節、數位典藏計畫後設資料共通欄位分析... 78 第二節、DC XML DTD 格式與資料匯入 ... 107 第五章、聯合目錄系統設計與資料測試 ... 111 第一節、聯合目錄系統原型設計... 111 第二節、聯合目錄系統原型資料測試... 123 第六章、聯合目錄工作小組網站建置 ...174 第一節、網站簡介與架構... 174 第二節、軟硬體設備與網站功能... 180 第三節、網站內容... 181

(5)

第七章、結論與建議 ...189

第一節、結論... 189

第二節、問題探討... 190

第三節、建議... 193

(6)

圖表目次

圖1-1 數位典藏國家型科技計畫圖示... 2 圖1-2 確立數位典藏聯合目錄系統之分工與協調... 5 圖2-1 OAI 系統簡易架構圖... 18 圖2-2 COLORADO 網站... 25 圖2-3 CDP 建檔工作站 ... 26 圖2-4 主題名詞查詢... 27 圖2-5 名稱查詢樣本... 27 圖2-6 CDP 檢索模式畫面 ... 28 圖2-7 CDP Advanced 檢索畫面... 28

圖2-8 Moffat Tunnel Search... 29

圖2-9 Moffat Display Record... 29

圖2-10 Moffat Tunnel Website Link ... 30

圖2-11 PANDORA 網站... 31 圖2-12 PANDORA 計畫關係示意圖... 33 圖2-13 PANDORA 簡易查詢... 35 圖2-14 PANDORA 進階查詢... 36 圖2-15 PANDORA 檢索結果... 36 圖2-16 PANDORA 檢索結果... 37 圖2-17 American Memory 網站 ... 39 圖2-18 AMICO 網站... 46 圖3-1 數位典藏的應用前景... 54 圖3-2 內容發展分項計畫架構圖... 55 圖3-3 整體系統架構... 60

(7)

圖5-1 OAI 基本架構... 112 圖5-2 OAI-based 聯合目錄系統架構 ... 112 圖5-3 主要功能架構圖... 113 圖5-4 數位典藏聯合目錄系統... 114 圖5-5 數位典藏聯合目錄服務系統檢索示意圖... 114 圖5-6 數位典藏資料匯入聯合目錄系統示意圖... 115 圖5-7 數位典藏聯合目錄資料匯入典藏資料提供者類別圖... 116 圖5-8 數位典藏聯合目錄資料匯入典藏資料提供者順序圖... 116 圖5-9 OAICAT 讀取後設資料之類別架構圖 ... 117 圖5-10 數位典藏聯合目錄系統主畫面... 118 圖5-11 數位典藏聯合目錄系統「考古」類瀏覽畫面... 119 圖5-12 數位典藏聯合目錄系統「書畫」類瀏覽畫面... 119 圖5-13 數位典藏聯合目錄系統「檔案」類瀏覽畫面... 120 圖5-14 數位典藏聯合目錄系統「植物」類瀏覽畫面... 120 圖5-15 數位典藏聯合目錄典藏品詳細內容瀏覽畫面... 121 圖5-16 數位典藏聯合目錄連結至漢簡機構資料庫瀏覽畫面... 121 圖5-17 數位典藏聯合目錄全文檢索畫面... 122 圖5-18 數位典藏聯合目錄Dublin Core 檢索畫面 ... 122 圖6-1 國家數位典藏聯合目錄工作小組網站架構圖... 174 表1-1 現有Dublin Core 標準比對數位典藏計畫一覽表 ... 3 表2-1 OAI-PMH 指令說明... 20 表2-2 各類型開放式典藏資料互通協定之比較... 24 表2-3 CDP 檢索欄位必備及選擇要件之比較 ... 26 表2-4 Pandora 數位文獻典藏量統計表... 31

(8)

表2-5 各資料類型之可檢索欄位彙整表... 37

表2-6 PANDORA 提供的分類瀏覽項次... 38

表2-7 Digital Object Metadata ... 41

表2-8 Data Element Metadata for Digital Object... 41

表2-9 國會圖書館數位典藏發展詮釋資料之核心要件... 42

表6-1 機構分類一覽表... 175

表6-2 十二主題分類一覽表... 177

(9)

第一章、緒論

第一節、問題陳述

我國於民國91 年開始推動「數位典藏國家型科技計畫」，計畫辦公室下設五個分項計畫：內容發展、技術研發、應用服務、訓練推廣及辦公室維運分項計畫，負責計畫辦公室相關業務的推動（其詳如圖1-1）。該計畫旨在將文化建設委員會、自然科學博物館、故宮博物院、國史館、國家圖書館、國立臺灣大學、國史館台灣文獻館、國立歷史博物館及中央研究院等九個機構珍貴的重要文物典藏加以數位化，建立國家數位典藏，以保存文化資產、建構公共資訊系統，促使精緻文化普及、資訊科技與人文融合，並推動產業與經濟發展。(註1) 依據各機構計畫數位產出內容，設有 12 個主題小組，包括：動物、植物、地質、人類學、檔案、地圖與遙測影像、金石拓片、善本古籍、考古、器物、書畫與新聞等。本「國家數位典藏聯合目錄建置計畫」係屬內容發展分項計劃，計畫時間為91 年至 94 年規劃與執行。網際網路的普及，使得我們可以便利的查尋遠端資源，全球蔚為風潮的數位化計畫，更使我們得以從網路上取得更多有價值的數位內容。然而，一個個異質且分散的資訊系統，對使用者而言，有其優缺點，如果沒有很好的機制，將分散各地的異質系統加以整合，則使用者將需要個別去連結並使用其不同的檢索功能；除非有一個好的聯合目錄，否則可能各機構辛苦建立的資訊系統，將不易被人得知。再好的數位典藏資訊，缺乏聯合目錄收錄，也難被檢索與利用。聯合目錄除了提供整合檢索的便利外，對數位典藏國家型計畫而言，它更是展現計畫成效的最佳工具，由聯合目錄，可以得知數位化之現況，而各種主題、類型、地區、時期及單位的資料可以被排比、查檢，無論對學習者、研究者、加值者而言，都是便利的工具，更使得數位內容的價值有加乘的效果。

OAI（Open Archives Initiative，簡稱OAI）是由Paul Ginsparg, Rick Luce, Herbert Van de Sompel等人，在 1999 年 10 月於Santa Fe的Universal Preprint Service會議中所促成的。有鑒於各資料庫系統，彼此互不隸屬，相關資料分散而難以統整，使得資料的流通有所限制，該會議之與會代表認為有必要對於學術性電子期刊之預刊本及相關數位典藏，發展出一套可以互通（interoperability）的標準架構，因此成立開放典藏計畫(註2)。並於 2001 年 1 月，發表了名為Open Archives Initiative Protocol for Metadata Harvesting（簡稱為OAI- PMH）的網路通訊協定，提供在異質性資料庫間互通搜尋一個可行的解決方案。

(10)

計畫辦公室內容發展分項計畫技術研發分項計畫應用服務分項計畫訓練推廣分項計畫辦公室維運分項計畫機構計畫中央研究院文化建設委員會國立自然科學博物館國立故宮博物院國立臺灣大學國立歷史博物館國史館國史館臺灣文獻館國家圖書館協調、支援與訓練機制 ◎ 內容發展：12個主題小組（動物、植物、地圖與遙測影像、書畫、器物、金石拓片、善本古籍、考古、人類學、地質、檔案、新聞） ◎ 技術規範：6個工作群（數位典藏管理系統參考平台、命名系統與分散式檢索、數位物件與檔案格式、多媒體與數位化參考程序、數位典藏服務系統、多語言處理）公開徵選計畫內容發展、技術研發、應用加值三類公開徵選計畫圖1-1 數位典藏國家型科技計畫圖示

第二節、研究目的

聯合目錄系統將匯集國家型科技計畫各機構數位典藏成果，提供使用者在此一資訊系統下進行查檢，並找到與取用數位典藏資訊。

開放典藏計畫（Open Archives Initiative，簡稱 OAI）是介面建置的一種技術，其功能是負責擷取後設資料（metadata）記錄，由於其目標是為了發展及提高互通性的操作標準，以便內容資料有效的分享與交換，故近年來大量應用在數位圖書館資料交流的應用，廣受

歡迎。在歐美等地，已有許多機構與研究單位著手進行OAI 等互通性架構之研究與實際系

(11)

1. 透過文獻閱讀、與個案研討的方式，研究數位圖書館聯合目錄相關理論、技術之研究趨勢，互通性理論、架構與系統個案之研討。

2. 國內數位典藏單位互通性架構與系統需求分析與其系統建置之可行性及效益評估。

3. 建構符合 OAI 規範之數位典藏聯合目錄系統，本計畫預定建構符合 OAI 規範及國內環境所需之Service provider 及 Data Provider，並以此為基礎，使之成為數位典藏計畫聯合目錄之建置機制。透過metadata 之檢索，除能提昇中文資料的國際能見度外，更能增加我國與國際交流合作之機會。

4. 探討數位檔案命名原則，及分析管理 metadata 與數位資源連結之機制。

『國家數位典藏聯合目錄建置計畫』預計2 至 3 年完成，本（92）年度以完成聯合目

錄系統原型（prototype）為目標，初期以中央研究院與故宮博物院二機構已有 Dublin Core 標準比對的數位典藏計畫為主要規劃與測試對象。（其詳如表1-1）表1-1 現有 Dublin Core 標準比對數位典藏計畫一覽表單位主題主題計畫名稱 DC mapping 中研院金石拓片拓片與古書數位典藏計畫（漢簡） V 金石拓片拓片與古書數位典藏計畫（佛教造像） V 金石拓片拓片與古書數位典藏計畫（青銅器） V 考古考古發掘標本、照片、記錄與檔案數位典計畫 -- 人類學台灣原住民數位典藏計畫 -- 人類學台灣南島語數位典藏計畫 V 檔案近代外交經濟重要檔案數位典藏計畫 V 檔案內閣大庫檔案著錄格式、權威檔建立 V 善本古籍善本圖籍數位典藏計畫 V 動物台灣動物相典藏之研究：魚類 V 動物台灣動物相典藏之研究：貝類 -- 植物台灣本土植物數位典藏計畫 V 故宮器物故宮器物數位典藏子計畫 V 書畫 _{故宮書畫數位典藏子計畫} _V

(12)

技術方面由中研院何建明副所長工作團隊，依本工作小組與後設小組提出的聯合目錄資訊系統需求設計，以OAI 方式建置。本工作小組將提分類架構與編碼需求書，後設小組將提出Dublin Core 標準比對的核心欄位的 XML DTD 格式需求書。本小組、後設小組、與技術小組合作設計聯合目錄系統原型。本（92）年度聯合目錄小組工作目標如下： 1. 訂定聯合目錄分類架構：由本小組協同主題小組共同訂定聯合目錄的分類架構。 2. 由後設工作小組確認中央研究院與故宮博物院二機構已有 Dublin Core 標準比對的數位典藏計畫，並將訂定比對Dublin Core 的 XML DTD，與主題小組溝通確認後，將比對Dublin Core 的 XML DTD 需求送技術研發組設計檢索功能。 3. 訂定聯合目錄系統分類架構需求書：本小組訂定聯合目錄系統需求書，交由技術研發組開發系統。 4. 協助系統測試：由中研院與故宮博物院與主題小組提供資料測試，由聯合目錄小組、主題小組、技術研發組、後設小組共同測試系統，並對未來全體資料輸入工作程序與問題提出建議。

第三節、研究方法與步驟

一、研究方法

本計畫採用之方法包括： 1. 文獻分析法：蒐集國內外有關 OAI、數位圖書館聯合目錄等相關技術、計畫與系統之文獻加以研讀分析。 2. 研討、座談與訪談：藉由研討與座談了解學者專家及典藏單位之問題與想法。 3. 系統設計：分析系統需求以提供技術小組針對國内數位典藏環境進行系統設計。

二、進行步驟

1. 成立數位典藏聯合目錄工作團隊進行系統分析，由聯合目錄小組、後設小組、內容主題小組、技術分項小組、相關學者專家等組成。 2. 後設資料小組研究中研院與故宮博物院已有 Dublin Core 標準比對的數位典藏計畫，並將訂定比對Dublin Core 的 XML DTD 格式，與主題小組溝通確認後，將比對Dublin Core 的 XML DTD 需求送技術研發組設計檢索功能。

(13)

3. 本小組研究與訂定聯合目錄分類架構與編碼，參考主題小組的 metadata 與 Dublin Core 標準比對的欄位。

4. 本小組、後設資料小組與主題小組溝通確認 Dublin Core 對照欄位，以及分類架構與編碼。

5. 視建置聯合目錄之需要，邀請相關典藏單位與學者專家召開會議，探討數位典藏環境中之OAI service provider、service provider 的角色及系統架構、功能與需求。 6. 後設資料小組將 Dublin Core 標準對照的 XML DTD 需求書，聯合目錄小組將分類

架構與編碼需求書交由技術小組建置OAI 協定的聯合目錄系統原型。

7. 各典藏單位系統與 OAI data provider 的整合。

8. 設計完 OAI 原型系統後，進行系統測試，整合 OAI data provider 端之系統及各單位之資訊系統，並做必要之修改。 9. 聯合目錄系統網頁設計與維護。 10. 撰寫本年度研究成果報告。

三、執行團隊

1. 執行團隊成員：聯合目錄小組、內容發展分項計畫及各主題小組、技術研發分項計畫、後設資料工作組，分工如下圖。數位典藏聯合目錄系統聯合目錄小組後設資料小組內容分項小組技術服務分項小組圖1-2 確立數位典藏聯合目錄系統之分工與協調

(14)

2. 本聯合目錄小組團隊：主持人：楊美華教授共同主持人：王梅玲副教授協同主持人：林呈潢館長研究人員：曾秋香組長、王麗蕉小姐、黃邦欣小姐、郭麗芳小姐專任助理：黃慧娟、陳澤榮 3. 內容發展分項計畫黃銘崇共同主持人負責聯合目錄協調業務，協助聯合目錄小組與各主題小組溝通。

四、工作時程

第 1 月第 2 月第 3 月第 4 月第 5 月第 6 月第 7 月第 8 月第 9 月第 10 月第 11 月第 12 月研讀相關文獻，蒐集數位典藏metadata 資料購買電腦、建立數位典藏計畫的伺服器成立數位典藏聯合目錄工作團隊聯合目錄系統網頁設計與維護研究與訂定聯合目錄分類架構與編碼與MAAT 進行檔案、人類學、動物、植物後設資料核心欄位分析，Dublin Core 對照研究後設資料與內容小組確認XML DTD 與檔案、人類學、動物、植物單位確認聯合目錄分類架構提出聯合目錄系統分類架構需求書技術小組建置聯合目錄系統原型各典藏單位系統與OAI 資料提供者的整合請參與測試之典藏單位，整合OAI 資料提供者端之系統及各單位之資訊系統，並做必要之修改撰寫計畫報告進度累計% 5 10 15 20 25 30 50 60 70 80 90 100 月次工作項目

(15)

第四節、預期工作成果與效益

本計畫預計獲得下列研究成果與效益： 1. 數位典藏建立互通性架構與系統之探討分析； 2. 數位典藏聯合目錄系統設計與開發； 3. 數位典藏國家型計畫聯合目錄系統架設與測試； 4. 提出未來聯合目錄系統資料輸入程序與建議。

(16)

註釋

1 謝清俊，數位典藏國家型科技計畫簡介（2003）（台北：數位典藏國家型科技計畫，2003 年），頁4。

2 Herbert Van de Sompel and Carl Lagoze， “The Santa Fe Convention of the Open Archives Initiative.” D-Lib Magazine 6 (Feb. 2000). WWW=

Hhttp://www.dlib.org/dlib/february00/vandesompel-oai/02vandesompel-oai.htmlH, 2004-01-01

(17)

第二章、文獻探討

第一節、數位圖書館、博物館的合作

(註1)

一、數位圖書館的合作

1997 年美國國會圖書館和 Ameritech 建立合作的機制，將不同圖書館的特殊館藏相結合，並投入「美國記憶」研究計畫(American Memory Project，網址：http://memory.loc.gov），從1997

年至1999 年，這個計畫參單與成員大多是圖書館，但仍有少數的博物館加入這項計畫。隨著

計畫和指南的建立，這些合作計畫的館藏可以透過國會圖書館的網站連結，進行檢索運用。有超過七百萬件的數位物件從原來僅屬於各圖書館或其他合作單位的館藏，進而能讓全世界來利用。

美國科學基金會的數位圖書館先導計畫（National Science Foundation’s Digital Library Initiative，網址：http://dli2.nsf.gov）提供數百萬美元進行數位圖書館研究計畫，NSF所進行的計畫在探就文字與媒體的數位化及展示，而早期計畫中研究的是數位圖書館的互通性及資訊在網路環境中的檢索情形。1990 年代晚期，NSF引進「數學、工程、科技教育數位圖書館先導計畫」（ National Science Mathematics, Engineering and Technology Education 　 <SMETE>Digital Library，或稱NSDL，網址：http://www.smete.org/nsdl/projects/index.html）的構

想。NSDL建置在一個分散式的網路環境，支援各教育層級有關高品質館藏的利用，以追求卓

越。

有些NSDL的數位圖書館計劃有特定主題，如：The National Biology Digital Library （http://www.inquiry.uiuc.edu/partners/nbdl/nbdl.php3、http://cecssrvl.rnet.missiouri.edu/NSDL Project/index.html）或Digital Library for Earth System Education（DLESE，網址：http://www.dlese. org/）。其他NSF的數位圖書館計畫牽涉到與各個圖書館、或圖書資訊學系所計畫合作，如 Indiana University project for digital music（網址：http://www.dml.indiana.edu/index.html）。

數位圖書館聯盟（ Digital Library Federation ，簡稱 DLF ，網址： http://www.diglib.org/dlfhomepage.htm）亦自 1996 年開始推動各項合作研究計畫，如：密西根（Michigan）美國康乃爾（Cornell）大學合作進行的”Making of American”計劃（網址： http://moa.umdl.umich.edu/）主要將1850-1870 年代的資料公開化。這個計畫說明一個成功的模式，可以利用掃描的方式將文件透過識別的方式呈現，並且可以進行全文檢索原文的資訊。目前The Making of American的網站可以提供 10,912 冊和 3,166,450 網頁資料的利用。而Duke University Perkins 圖書館、Columbia University 善本和原稿圖書館（Rare Book and Manuscript Library、柏克萊大學（University of California）的Bancroft圖書館共同合作創造”Digital Scriptorium”（網址：http://sunsite.berkeley.edu/Scriptorium/）。

(18)

書館」（California Digital Library，簡稱CDL，網址：http://www.cdlib.org/）、肯德基虛擬圖書館（Kentucky Virtual Library，網址：http://www.kyvl.org/）以及維及尼亞州的學術圖書館聯盟（ The Virginia Academic Library Consortia ，簡稱 VIVA ，網址： http://www.viva.lib.va.us/viva/collect/image.html）。這些數位圖書館計劃，包括線上資料庫取用、圖書館線上目錄、檢索網路資源的路徑以及數位化內容。大部分計畫設計是為了讓大眾與K-12 社群增加取用這些資源。其中CDL是 10 所加州大學分校的圖書館在 1997 年所設立的，主要是提供各分校的資源給其他的分校使用。另外；「加州線上檔案」（Online Archive of California，簡稱OAC，網址：http://www.oac.cdlib.org）主要是從加州的 9 所大學的館藏建立一個資料庫。在1998 年時，CDL開始了第一個計畫Japanese American Relation Digital Archive （簡稱JARDA）。JARDA提供一個優質典藏，館員和系統館員共同努力，不僅是發展數位館藏，而且能提供遠端使用者找出資料。

二、數位博物館的合作

博物館過去沒有像圖書館社群一樣的合作傳統。過去的10 年中，博物館才開始建立合作

的關係。1997 年有超過 20 個主要的藝術博物館共同建立「博物館影像聯盟」AMICO(The Art Museum Image Consortium)計劃（網址：http://www.amico.org/），其主要的工作是將作品數位

化以便於教育的使用。AMICO計畫網站所呈現的館藏量計有：超過 11,000 件以上的繪畫；超過4,000 件以上的雕刻品；超過 9,000 幅以上的圖畫；超過 11,000 件以上的印刷品；超過 23,000 以上的張照片；超過1,000 件以上的紡織品；超過 1,000 件以上的服飾珠寶；超過 4,500 件以上的裝置藝術作品；超過500 本書和手稿。「博物館資訊互通聯盟」（Consortia for the Computer Interchange of Museum Information，簡稱CIMI，網址：http://www.cimi.org/）是一個國際性的

博物館組織，在1990 年建立，目的創造出一個合作的環境，並對於博物館運作標準和科技相關研究進行探究。在科技的活動範圍中發展、提倡博物館標準。博物館有鑒於圖書館已經大量的參與圖書館間的合作，分享彼此的館藏，因此博物館也開始了資源的分享。例如，展覽品的外借、提供研究以及和歐美國家館藏目錄資料的提供。然而，在網際網路的時代，環境已經改變了，從世界上的任何一個地方，每一天每一個小時，網際網路都能建立我們文化遺產，從網際網路中獲得資訊，同時更創造了一個增加競爭力的環境。下列是博物館間合作計劃：

1. ArtConnectEd（網址：http://www.artsmia.org/aboutace.html）：由Walker Art Museum和 Minneapolis Institute of Arts分享線上資源和高科技網站展示。該網站重點放在教師課程

計畫和課程指南、線上藝術作品和線上活動。並運用數位導覽和3D展示進行分享。

2. Odyssey Online（網址：http://carlos.emory.edu/ODYSSEY/）：一個三方合作共同支持一個博物館教育展覽的發展。這個展示是關於非洲的多元化與豐富性，讓兒童與教師同樣著迷，參與的單位有Michael C. Carlos Museum at Emory University、Memorial Art Gallery at the University of Rochester和Dallas Museum of Art。

(19)

：是西方文化遺產中心和黃石遺產共同經營發展一個數位化旅程。這個網站包含黃石流域的文字、圖表、聲音、課程指南和建議課程。

三、數位圖書館與博物館的合作

(一) Colorado 數位計劃

Colorado數位計劃（Colorado Digitization Project，簡稱CDP）是博物館與圖書館服務研究機構（Institute of Museum and Library Services，簡稱IMLS，網址：http://www.imls.gov/）所支援的計劃中最複雜的一個，合作的內涵包括計劃的發展、管理和建立等層面。CDP 有五個地區性的掃描中心，圖書館或地區性的系統主機也有各自的掃描中心。CDP在數位化的架構陳述一個合作的模式，使能夠在小型和大型的文化遺產機構都可以獲得相同的資源去進行數位化，而不用額外投入在訓練、軟體、掃描硬體以及資料庫、或者使用者面上。在CDP的範圍之內，有一些圖書館、博物館進行合作，證明了就算是小型機構也可以成功的一同工作，而這些大型、小型機構共有四種類型包括圖書館、博物館、檔案館和歷史協會。 1998 年，CDP開始時有 15 個Colorado計畫在進行中，有 8 個計畫是建置在圖書館基礎下，其他則是博物館或歷史協會。在這裡有大量的資訊取用，包含利用Web進入當地發展的資料庫，收集MARC紀錄，連結到html目標，以MARC為基準的圖書館和沒有運用Metadata的數位物件展覽。系統必須去接受資料是透過線上的輸入或批次，而且符合 Z39.50 ，整合圖書館目錄進入 Colorado Virtual Library 。 OCLC SiteSearch （網址： http://www.oclc.org/oclc/menu/site.htm）軟體是可以選擇的，在同時開始線上系統支援 Dublin Core，提供批次和線上的輸入，並符合Z39.50 標準，必須建立顧客資料輸入系統。 CDP夥伴，Colorado Alliance of Research Libraries，建立了資料輸入系統和發展轉換紀錄為Dublin Core的形式。現在Colorado Digitization Project可以下載紀錄以MARC為基礎的圖書館系統，取用各類型資料，以及博物館系統。

除了CDP，IMLS 還有其他的博物館／圖書館的數位計畫，包括：

1. “Connecticut History Online”（網址：http://www.lib.uconn.edu/cho/）：是由Connecticut Historical Society、Mystic Seaport Museum和Thomas J. Dodd Research Center。這三個組織建立一個以網站為基礎的Connecticut社區影像紀錄的數位館藏。 2. “Images of the Indian People of the Northern Great Plains” （網址：

http://www.lib.montana.edu~elainep/imlsabst.html）：這個計畫是Rockies博物館與蒙大拿州州立大學圖書館一同建置的資料庫，主要是與印地安人的文化有關。

3. “Digital Cultural Heritage Community＂（網址：http://images.library.uiuc.edu/projects/ DCHC/index.htm）：伊利諾州大學與三個當地的博物館和三個小學共同建置一個模組，並進行測試數位歷史影像電子資料庫。

(20)

館系統的26 個圖書館包括：Knox College、Illinois College 、Bradley University 等，主要是在做伊利諾州1818-1918 年間的歷史檔案，將這些檔案數位化，成為數位圖書館。 (二) 其他大型博物館與圖書館合作 美國有數個州已經開始合作數位化的工作，有所有類型的文化遺產，包括 North Carolina、Missouri、New Mexico、Minnesota 州，是最大且最早開始進行當地文化遺產的計畫。而最主要的一個計畫是「研究圖書館協會」(Research Libraries Group，RLG）的「文化資料聯盟」(Culture Material Alliance，CMA)計劃。其主要的工作在進行蒐集大範圍的文化資料，將全球人類的檔案文件分享，並提供學習與檢索之用。而這些資料來

自於圖書館的特殊館藏、檔案館、歷史協會和其他RLG 成員組織。參與者將貢獻資料給

RLG 系統。這個範圍廣大的系統包含當地發展的 Metadata 系統、MARC、Visual Resources Association Core，EAD 這些紀錄將被 RLG 利用 XML 工具做轉換，成為 RLG 資料模組使用。

四、國際圖書館或博物館的數位化與合作

英國也重視數位發展，立法機構要求增加政府單位的資訊取用、管理、數位化格式資訊等。早期最先開始發展的”Arts and Humanities Data Service，AHDS”，是一個國際性的數位管理中心，是”Joint Information System Committee”，(簡稱JISC，網址：http://ahds.ac.uk/）的計畫之一。AHDS回應與滿足和數位內容有關的問題，收集、描述、保存電子資源，起因於人文諸學科的學術研究以及為了讓學者可以容易透過線上目錄查找到資料。

JISC 亦支援另一個計畫，「分散式全國電子資源」（Distributed National Electronic Resource，簡稱 DNER），在確保網路環境資訊的品質。這些資源包含有學術期刊、論文、參考書、手稿、地圖、音樂樂譜、影像、和其他數位化的資源。

英國的「大學研究圖書館聯盟」（The Consortium of University Research Libraries，簡稱 CURL，網址：http://www.curl.ac.uk）有一個Digital Archive（CEDARS）Project，其目標是針對策略、方法論及實用的議題等，並提供圖書館在實行數位化保存時的實踐指南。其領導機構包括有Oxford University、Cambridge University和University of Leeds以及其他CURL和非 CURL組織。英國數位圖書館另設立的UKOLN（UK Office for Library Networking），是一個國際性的數位管理中心。它對圖書館和文化遺產機構提供服務。UKOLN對於文化遺產社群建立了大範圍的服務，包括科技標準和線上檢索。

博物館和圖書館合作的模式有些計劃必需包含二種不同類型的文化組織，有些計劃則否。Brooklyn Expedition 是由 Brooklyn Children’s Museum、Brooklyn Library、Brooklyn Museum

合組的計劃，該計劃網站形塑成Brooklyn 地區教育服務和發展模式，每一個參與計劃的單位

(21)

合作時也常出現組織文化障礙，博物館與社會文化機構都希望能與圖書館及檔案合作。因為圖書館有與不同類型單位合作的豐富經驗，重視開放性資訊取用限制，資訊的取用是沒有特權的，並有館藏政策的制定。而博物館的館藏大多是唯一性的，並有相當的價值，因此文物的安全與保存則是博物館專注的議題。 Metadata標準的一致性關係著文化遺產館藏的取用，但這有著潛在的衝突。圖書館社群有一個固定目錄標準傳統，並能描述資料和轉換以及檢索資料。檔案館社群的標準是與保存、保護資源有關，近來支持一個標準，也就是Encoded Archival Description（簡稱EAD，網址： http://www.loc.gov/ead/）。標準在博物館社群內是不同的，例如藝術博物館標準，與一個歷史博物館或者動物博物館而言，在描述的使用上是接近但不同的。每一個單位都有自己的標準和自動化系統，因此決定採用哪一個標準支援合作的機制和相互工作，使不同的系統間能正常的運作是高難度的挑戰。從1990 年中期起，數位圖書館社群有了新的發展，少數複雜的標準可以描述數位資源，包含數位物件，而當中最為人所知的即是 Dublin Core （簡稱 DC ，網址： http://dublincore.org/index.shtml）。Dublin Core的發展者包含從圖書館社群、電腦科學家、出版業者、和學者。因為有著廣大社群的共同發展，且有許多組織認可，其已經正式通過，包含CIMI，對於博物館社群發展了特別的Dublin Core。許多州包括North Carolina、Minnesota 和Colorado都發展的屬於自己的Dublin Core。不像MARC或者Dublin Core的項目描述或館藏， Encoded Archival Description（EAD）反應歷史關係館藏內部的展現。Text Encoding Initiative （簡稱TEI，網址：http://www.tei-c.org/）是一個SGML文件類型定義，利用數碼化的文件內容和創造來傳達描述的資源。組織描述政府數位文件使用「政府資訊定位標準（Government Information Locator Standard，簡稱GILS）」。當不同類型的機構合作數位化，它可以快速且控制大量的字彙，並提供不同資訊的呈現。許多人希望藉著WWW解決這個領域複雜的Metadata標準問題。不同的網站檢索引擎工作不同，而且結果也是多變的。因為網路的便利性許多搜索引擎提供各種不同的檢索。網際網路社群的遠見是建立分散式網路系統。只有少數的商業系統支援Dublin Core或EAD甚至有一些有Z39.50 的機能，來處理這些新的閘道。目前為了讓Metadata可以利用，有些透過Z39.50 來支援。Z39.50 是一個國際閘道支援相互網站間的檢索。有一些問題與使用不同系統有關連，就是運用一個標準到達另一個系統去。美國國會圖書館就發展了許多這樣的管道，資訊透過這些管道可以在圖書館網站中被利用。（網址：http://www.loc.gov/marc/marc2dc.html 或 http://lcweb.loc.gov/ead/lag/agappb.html）

第二節、聯合目錄的建置模式

(註2) 聯合目錄的建置模式主要有兩種，一種為實體聯合目錄，又稱為集中式聯合目錄；另一種為虛擬聯合目錄，又稱為分散式聯合目錄。所謂實體聯合目錄是指在聯合目錄伺服器上已建好索引檔，使用者查尋時乃查尋此索引檔，系統告知使用者找到多少符合查尋條件的資料，

(22)

再由此索引檔連到實際的網站，如蒐尋引擎，或呼叫出書目記錄，如圖書館界的書目中心。虛擬聯合目錄則指未在伺服器建立實際的索引檔，只是透過檢索介面將使用者的查尋問句送到各資料庫，並將查尋結果匯整後顯示在螢幕上。例如以Z39.50 協定所建立的查尋介面，就是這種做法。這兩種聯合目錄各有優缺點，以下即分別說明其類型與特色。

一、集中式的聯合目錄

(註3) (一) 集中式聯合目錄之類型 集中式的聯合目錄可分為：由人工建立詮釋資料之集中式聯合目錄，及由系統自動蒐尋抓取資料並做全文索引的集中式索引伺服器。前者又可分為：商業性的聯合目錄、非商業性的聯合目錄、共用式的聯合目錄，後者則以蒐尋引擎為代表。 (二) 集中式聯合目錄之特性 集中式的聯合目錄，具有下列特性。 1. 查尋與索引的一致性 (1) 這類聯合目錄的資料，雖由不同的單位上載而來，但由於已透過標準軟體處理，集中儲存在聯合目錄中，所以實際在查尋時只針對一個資料庫查尋，因此查尋功能及索引方式都是一致的。 (2) 不過由於各館的編目原則並不完全一致，因此送到聯合目錄的資料也無法完全一致，所以各聯合目錄系統都會處理資料品質控制問題。 (3) 這類聯合目錄的查尋與檢索技術乃以資訊檢索技術為基礎，也可以根據資料的屬性或統計屬性來排序檢索結果。 2. 記錄的整合 (1) 各聯合目錄系統對資料的整合處理，詳盡情況不盡相同，如OCLC有很多計畫在做記錄的整合，不過他們的整合，主要在刪除重複，並保留一筆正確的記錄，而不紀錄各館編目的差異。 (2) 要花很多時間在整合上，對於每一筆新輸入的資料都一欄一欄的與既存的記錄做比較，當發現有不一致的情形時，系統會一欄欄的紀錄及保存不一致之處，以致載入速度很慢。 (3) 對集中式的聯合目錄而言，高品質的整合目標是可以達到的。 3. 系統效能及管理 (1) 集中式聯合目錄在管理大量資料的技術已相當成熟，但與一般終端使用者之間的互動，經驗尚淺。

(23)

(2) 集中式的聯合目錄有很好的系統效益評估工具，如對於系統反應時間及系統的使用情況的掌握相當完整。 (3) 若要加入一個新的合作單位，所需成本不高。

二、分散式的聯合目錄

(註4) (一) 分散式聯合目錄之類型 分散式的聯合目錄主要可分為以標準協定來建立主從架構的分散式查尋系統，最有名的就是 Z39.50 系統，及非依標準設計的分散式查尋系統。其中 Z39.50 是廣被圖書館界及電子圖書館界／博物館界接受的標準。非依據標準而設計的分散式查尋系統，其查尋介面需要能轉換查尋問句到各個不同的系統，當異質系統不多時、或只檢索同一種資訊組織模式時還可以應付，但若要跨不同資訊組織模式、不同國界做檢索，困難度較大。 (二) 分散式聯合目錄的特性 分散式聯合目錄最大的優點，是不需花任何的軟硬體成本及人力資源，去建立及維護實體的聯合目錄。不過就查尋與索引的一致性、記錄的整合、系統的管理與效能而言，都較集中式的聯合目錄差。茲說明如下： 1. 就查尋與索引的一致性而言 理論上，就功能而言，分散式應可做到和集中式一樣的效果，事實上有兩個問題： (1) 所有的系統，必需支援最小共通的查尋功能，如果其中一館無法支援切截（truncate），或索引欄位不同，就會產生不一致的查尋結果。介面設計的愈複雜，各館也更需正確的支援這些功能，才能執行複雜的查尋動作。 (2) 不同的系統必需用共通的語意設計Z390.50的查尋屬性，以及以一致的方法處理這些屬性。由於Z39.50並非資料庫的索引標準，因此屬性集也不是依資料庫的架構來定義。例如很多系統會接受並回覆Z39.50問句的作者與題名查尋，但在資料庫中，這些系統並不見得用相同的欄位做作者與題名索引，如有的系統，題名索引包括正題名、副題名、並列題名、其他題名。有的則不齊全。 2. 從資料整合的角度而言

(24)

(1) 有些Z39.50 client只用來以相同的介面檢索遠端的系統，而未做多資料庫同時查尋（broadcasting，或稱廣域查尋），因此沒有整合的問題。即使做整合，也是根據單一鍵如ISBN等來刪除重複，但大部份的系統都無此功能。 (2) 如果要做到整合，必需將檢索出來的記錄反複查尋各參與的系統；但要做任何的整合必需由客戶端將送回的資料加以整合（merging），或在伺服端將資料以相同的方式排序，並不是一件簡單的事。

(3) 從系統效能與管理的角度而言（Performance and Management）分散式系統的效能往往視client／server之間的網路速度而定。此外，也常受速度慢的伺服器的影響，因為它必須等所有的伺服器都回覆後，才能顯示查尋結果。所以有的系統會考慮設定等待時間，因此是否要設定等待時間，以及等待時間要設多久，是這類系統必需考慮的問題。 (4) 分散式查尋會增加各系統的查尋負擔，因為每一個查詢都會送到各local system處理。 (5) 查尋反應時間比聯合目錄慢很多。 (6) 各系統專屬的查尋系統功能，往往比虛擬聯合目錄還多，但是如果各系統的資訊組織模式一致，則共通介面所能提供的功能也會和專屬的查尋功能越接近。 (7) 小系統參與虛擬聯合目錄做分散式查尋，會使得查尋速度更慢。虛擬聯合目錄的可靠性也是一個問題，因為隨時會有某一台主機當機，或停止提供服務的情況發生。

第三節、OAI 協定與技術

一、OAI 的定義

數位典藏的最大特色就是擁有豐富的數位資源，而這些數位資源的管理者與擁有者分散於各個典藏單位，進而造成使用者不易掌握數位物件，因此為了提高使用者的便利及增進數位物件使用率，各種整合技術逐漸興起。

「開放典藏計劃」（Open Archives Initiative，簡稱OAI）近來受到重視，其定義係介面建置的一種技術，其功能是在負責擷取（harvesting）後設資料（metadata）記錄，凡是任何一種電子典藏（electronic archive）或數位圖書館（digital library）利用OAI技術建置介面者，皆可稱為「開放典藏資料提供者」（Open Archives data provider）。(註5)其目標是為了發展及提高互通性的操作標準，以方便內容資料有效的分享與交換。

(25)

構使數位化文件能更容易、更廣泛的傳播。且採用後設資料擷取的方式，能涵蓋各種多媒體格式、資料型態與內容等，擴展了數位化資料可存取種類的範圍。(2)實作容易：OAI 後設資料擷取協定在設計時即以「簡單」為原則。利於在極短的時間內架設起OAI 伺服器。(3)具開放性：任何人都能使用OAI 定義的架構，來建構資料提供或服務提供的伺服器。(4)採用 HTTP 及 XML 之開放性標準：OAI 後設資料擷取協定目前是利用 HTTP 通訊協定作為其基本的通訊協定，使得OAI 在先天上就已解決了跨平台及相容性等問題，也節省了另行新架構的困難。同樣的，XML 也漸漸成為全球共同的標準資料格式。由於 HTTP 及 XML 均為開放性的標準，採用HTTP 及 XML 的組合不僅考慮了相容性的問題，也確保了 OAI 的開放性原則。

二、OAI發展歷史

(註6)

OAI 最初是由 Paul Ginsparg、Rick Luce、Herbert Van de Somel 等人，在 1999 年 10 月於 Santa Fe 發起的 University Preprint Service 會議中所促成。OAI 原本是為了增進多樣性電子印刷出版資料的互通，藉以促進學術交流為目的，同時亦保證資料在未來也可以互通的需求。

雖然OAI 最初是針對學術性電子期刊預印本的互通性而產生，但這與目前數位圖書館等數位

典藏單位所遭遇的問題極為類似，因此OAI 技術自然而然擴展到數位圖書館領域，亦逐漸受

到重視。

2001 年 1 月，OAI 發表 Open Archives Initiative Protocol for Metadata Harvesting，簡稱 OAI-PMH 是為後設資料擷取協定，。OAI-PMH 初期的發展仍為實驗階段，2001 年至 2002 年間分別提出了 OAI-PMH 1.0 版及修訂 1.1 版，目前已發展至 OAI-PMH 2.0 版，並期望向 W3C 申請成為全球的開放型標準。

三、OAI-PMH

OAI-PMH是由「數位圖書館聯盟」（The Digital Library Federation）與「網路資訊聯盟」（The Coalition for Networked Information）提供支援，該OAI通訊協定的研究工作獲得美國科學基金會（National Science Foundation Grant No. IIS-9817416 與Defense Advanced Projects Agency Grant No. N66001-98-1-8908）資助。OAI-PMH提供異質性資料庫之間整合搜尋的解決方案，利用網際網路與後設資料技術，透過資料擷取共通協定，可不受平台、語言、開發程式等限制，達到互通的目的。(註7)

(一) 相關名詞定義(註8)

1. 資料提供者（Data Provider）：

提供其文件內容，並以OAI 作為發佈 metadata 的協定。主要工作在維護一個或一個以上支援OAI 協定來將其內容以 metadata 發佈的儲存器，如：Web 伺服器。 2. 服務提供者（Service Provider）：

(26)

的服務。 3. 資料儲存器（Repository）：透過HTTP，接受 OAI 協定所提出存取資料需求的伺服器。 4. 資料集（Set）：非必備功能，為了方便取得所需資料的目的，儲存器內可將不同類別的資料區分成不同的群組，並以階層式架構表示，以節點（node）作為各分類的區分，因此每一個節點即稱之為資料集。 5. 資料錄（Record）：一個資料錄是後端伺服器依據OAI 協定，從儲存器內將資料以 XML 編碼傳回前端的metadata。 (二) OAI-PMH 系統架構

OAI-PMH 系統主要是架構在 Internet 上的應用協定，透過「資料提供者」（Data Provider）與「服務提供者」（Service Provider）機制來抓取 metadata 資料，Service Provider 會定期向各典藏單位的資料庫系統（Data Provider）擷取後設資料，利用命令集方式傳輸給後端的伺服器程式，並遵循OAI 協定 XML Schema 所規範的 XML 格式傳送資料。

Data Providers 主要的工作在維護倉儲（Repositories），並支援 OAI 協定來揭示倉儲的內容。Service provider 是向 Data Providers 發出 OAI protocol 請求（Requests）並將得到的後設資料建構具有附加價值的服務。

OAI Protocol request OAI Protocol Response

Users

Service Provider

Data Provider

Repository

(27)

(三) 選擇性擷取功能(註9)

OAI-PMH 提供了選擇性擷取功能，可讓擷取程式將資料庫中的部分子集合擷取出來，可以過濾不需要的資料集合，擷取方式是利用時間戳記與集合兩個參數進行，兩個參數可以獨立或者合併使用。OAI-PMH 規範每筆記錄必須要包含時間戳記，藉以表示物件的更新狀況，例如：新增、刪除、修改的時間。擷取時間戳記時，必須符合UTCdatetime 時間格式（coordinated universal time），如此才能與全球世界各地不同時區同步。資料集（Set）的功能在於將資料庫中的物件，分類成一個一個子集合，並可以有選擇性的指定範圍。

(四) 後設資料

1. Dublin Core

OAI 協定的技術體系中，指定了 Dublin Core（簡稱 DC）作爲 Data Providers 支援提供的後設資料格式。同時支援多種後設資料格式的查詢。Metadata 資料規定必須支援 DC，是否支援其他後設資料格式由倉儲自行决定，或可以利用 metadata 的前置詞－prefix 進行標識。關於一般內容的部分後設資料，例如：使用權限等，並不在協定中做規定與規範。 2. 後設資料傳遞方式 OAI協定的請求使用HTTP中的GET或POST方法。請求傳遞至少一個的參數，形式如：key=vlaue，多個參數時使用｀&’隔開。每個OAI請求都必須包括一個名字爲verb=‘OAI方法名＇的參數。為了確保高度的互通性，OAI協定要求所有的倉儲都必需支援保留在後設資料的前置詞｀oai_dc’，DC後設資料格式的schema可在 http://www.openarchives.org/OAI/dc.xsd找到。 3. 後設資料的 Prefix 和 Schema 當向倉儲發送請求時，使用後設資料的前置詞來標識每一種後設資料的格式，後設資料字首的命名由無空格的字母數位所組成。後設資料 schema 是一個 XML schema 文件，可以用來對記錄中的後設資料的合法性進行驗證。利用 ListMetadataFormats 命令請求可以列出一個倉儲支援的所有後設資料格式。針對請求的回應所包括的各種格式的後設資料前置詞和 schema 的 URL，而這種XML namespace 的 URI 是可選部分。在ListRecords和GetRecord請求中，後設資料的前置詞也可以作為參數，指定返回記錄中包含元資料的格式。返回記錄中的後設資料遵循XML namespace的規範，因此後設資料部分必須包含一個屬性｀xmlns’ ，取值是這種後設資料格式的 namespace的URL。(註10)

(28)

(五) OAI 後設資料擷取協定（Open Archives Metadata Harvesting Protocol）指令 說明此協定的制訂目的是提供與應用程式獨立的交互運作架構。各種從事於文件內容出版發行至網路上的社群，能夠藉此互相溝通。其主要目標為：(1)簡化文件內容有效的傳播。(2)提升電子化文件的存取。(3)擴展存取數位化資料種類的範圍。 OAI 提供六項檢索指令： GetRecord Identify ListIdentifier ListMetadataFormats ListRecords ListSets 每當進行請求時都是按照下列格式，(1)每個小節的標題就是必備的verb參數。(2)請求中其他的參數，共有三種類型：必備的、可選的、獨占的（除了VERB參數，如果有這個參數，就一定是唯一的參數）。(3)回應的格式定義是一個XML schema。(4)請求的例外條件，狀態碼在OAI協定的環境中具有特殊意義，各項指令參數說明如表 2-1。(註11) 表2-1 OAI-PMH 指令說明請求命令說明 Verb 參數（必備）其他參數例外 GetRecord 取得一個單獨的記錄/後設資料。 GetRecord identifier：必備參數，是記錄的唯一識別。metadataPrefix：必備。識別字不存在時，回應內容將沒有record container 部分。後設資料格式不支援時，該記錄不能以指定的後設資料格式回應，此時回應內容將包括一個header 但是沒有metadata container。 Identify 取得關於倉儲的資訊，包括管理、標識、組織單位的專門資訊。 Identify 無無 ListIdentifiers 要求取得可以由倉儲中查到記錄的識別字。 ListIdentifiers until：選擇性參數，日期類型，指定返回時間戳比until 後的時間老的記錄的識別字。 from：選擇性參數，日期類型，指定回應時間戳比until 後的時間新的記錄的識別字。 set：選擇性參數，setSpec 類型，指定回應特定集中的當沒有符合條件的記錄時。

(29)

請求命令說明 Verb 參數（必備）其他參數例外記錄的識別字。 ResumptionToken：獨占參數，顯示不完整結果列表，所得到的值是前一個 ListIdentifiers 請求回應的部分結果中所包含的 resumptionToken。 ListMetadata Formats 查詢倉儲或一筆特定記錄所支援的後設資料格式。 ListMetadataFormats identifier：選擇性參數，指定一個記錄的識別字，要求回應此筆記錄所支援的後設資料格式。假若沒有這個參數，回應的將是倉儲支援的全部後設資料格式，但並不表示全部的記錄都支援這些格式。當識別字指示的記錄不存在時。 ListRecords 從倉儲中取得記錄。 ListRecords until：選擇性參數，日期類型，指定回應時間戳比until 後的時間舊的記錄。 from：選擇性參數，日期類型，指定回應時間戳比until 後的時間新的記錄。 set：選擇性參數，setSpec 類型，指定回應特定集中的記錄。 ResumptionToken：獨占參數，指示不完整記錄列表，取值是前一個ListRecords 請求回應的部分記錄列表中所包含的 resumptionToken MetadataPrefix：必備參數，回應記錄中後設資料必須是前置詞所指定的格式。當沒有符合的記錄時。當符合的記錄不支援指定的後設資料格式時。 ListSets 取得倉儲中的資料集結構（set hierarchy）。 ListSets ResumptionToken：獨占參數，指示不完整記錄列表，取值是前一個ListSets 請求回應的部分集合資訊列表中所包含的 ResumptionToken。當倉儲中沒有資料集結構（set hierarchy）時。

四、OAI 的應用與優缺點

聯合目錄可讓使用者跨資料庫檢索與瀏覽，透過聯合目錄網路介面，可將使用者查詢需求透過相關技術，擷取到不同單位典藏機構數位物件，有鑑於此，發展出OAI-PMH協定，建立資料服務提供者來分享所有可辨識的後設資料，並規範資料提供者所應支援的後設資料格式，開發轉換程式，讓所有後設資料格式能夠對應至規範的，目前被廣為使用的後設資料格式為Dublin Core，程式開發核心以Java語言為主，系統使用介面則以web-based網介面為主。(註

(30)

12)

OCLC OAICat是Java Servlet網路應用程式，其支援OAI-PMH v2.0 的網路應用協定架構，這個架構可以透過JAVA介面程式來處理異質的資料。OAICat也是一個建置工具，並完全支援 OAI-PMH v2.0 協定與物件導向基本功能。OAICat分為兩種檢索模式：(1)oaicat_jar：在伺服端建置支援OAI-PMH v2.0 的伺服端應用程式。(2)oaicat_war：在OAI-PMH v2.0 應用協定架構下，利用Java Servlet 2.3 版本引擎檢索。OAICat提供欲使用OAI技術整合一套介面，只要傳送相關參數至網路應用程式執行，便可快速建置支援OAI整合性系統。(註13) OAI 之理論架構與規範自 2000 年制訂以來，即受到數位圖書館界的重視與討論。OAI 互通性架構之規範有許多優點，分述如下： 1. 提供學術溝通及交流一個新的模式 OAI 架構使數位化文件能更容易、更廣泛的傳播。且採用詮釋資料擷取（metadata harvesting）的方式，能涵蓋各種多媒體格式、資料型態與內容等，擴展了數位化資料可存取種類的範圍。 2. 實作容易 OAI 詮釋資料擷取協定在設計時即以「簡單」為原則。 3. 具開放性（open）任何人都能使用OAI 定義的架構，來建構資料提供或服務提供的伺服器。 4. 採用HTTP及XML之開放性標準 OAI詮釋資料擷取協定目前是利用HTTP通訊協定作為其基本的通訊協定。其優點在於現今所有的網頁伺服器及瀏覽程式等，幾乎毫無例外的支援HTTP。這使得OAI在先天上就已解決了跨平台及相容性等問題，也節省了另行新架構的困難。同樣的， XML也漸漸成為全球共同的標準資料格式。由於HTTP及XML均為開放性的標準，採用HTTP及XML的組合不僅考慮了相容性的問題，也確保了OAI的開放性原則。 (註 14) 除此之外，OAI-PMH 在應用上也有一些容易使人誤解的迷思如下： 1. OAI-PMH 發佈和獲取的物件，並不包含如文件、影像、聲音等全文資料（Full-content）。OAI-PMH 只是一個用來交換 metadata 的協定，其餘文件格式、內容均需透過其他程式應用技術輔助，並不在此協定範圍內。不過 OAI 承諾此協定將會提供全文資料的交換能力，至少在最新發表的2.0 版本，仍未有此方面的協定規範。 2. OAI-PMH 不是提供兩個檔案系統之間資料交換的協定，而是明確的將兩者之間切割成資料提供者（發佈metadata 的實體）和服務提供者（獲取元資料並提供前端使用者加值服務的實體）。當前後端明確地分為資料提供者與服務提供者這兩個實體，並不是每一個加入OAI-MPH 服務的單位必須只能擇一為之，例如 Cite Base 便是一個既為資料提供者，也是服務提供者。

(31)

夠提供DC作為資料交換的基本格式。但為了考量一些特定領域的應用需求與其metadata格式，OAI組織並不限制只能使用DC，而且還鼓勵發展特殊的格式以便能提供特殊領域的使用需求。不僅如此，OAI也在多次會議中宣告支援所有的metadata。(註15)

五、OAI 與其他系統的比較

(一) OAI-PMH與Z39.50 的比較(註16) Z39.50 已經是圖書館系統實現自動化系統間聯盟式的書目資料檢索的開放式檢索協定，其主要是由「原始系統」（或稱Z39.50 Client）依靠線上即時連結一個以上的「目標系統」（或稱Z39.50 Server），使用複雜的通訊協定集（protocol set）執行所需的查詢行為，在逐一取得由目標系統獲得的查詢結果、排序、去除重複，將處理結果呈現出來。而近年來數位產業與metadata 廣泛的應用，OAI-PMH 也廣泛地應用在許多數位典藏資料分享、獲取或是聯合目錄。本質上，OAI-PMH 與 Z39.50 均能達成聯盟檢索的需求，也就是使用者能夠透過單一的介面從多個不同DL 取得所需的資訊。透過一次查詢的動作，便可從許多不同來源獲得結果，讓使用者不需逐一查詢各個DL。由於下列三項原因，應用Z39.50 協定的分散式檢索系統之間必須考量回應時間、結果大小、網路頻寬的條件，使Z39.5 被批評非常難建立一個高品質的聯盟檢索服務(註17)： 1. 不同的自動化系統對 Z39.50 查詢請求的語意常會有不同的解釋，而導致不正確的執行結果。 2. 連結多個目標系統時，由於取得的資訊必須線上即時在原始資料內組合整理，導致嚴重影響系統的效率。 3. 使用者在獲得結果之前，必須等待資料在系統之間傳輸與處理的時間。因此，就OAI-PMH 與 Z39.50 兩者作一比較，OAI-PMH 以 XML 做為資料處理的依據，著重在容易建置，並期望解決所有 metadata 的分享問題。服務提供者可以使用 OAI-PMH 事先取得所有後端資料提供者所有的資料，加值或建立索引之後，間接提供前端使用使用者所需的資訊，達成聯盟檢索的需求。在這種模式之下，OAI-PMH 服務提供者是建立在資料中介者（Broker）的角色。而 Z39.50 以 MARC 和 Dublin Core 為資料處理的依據，著重在點對點（peer to peer）的協定服務模式，透過線上即時查詢目標系統的資訊，然後處理所有遠端回應的資料集之後，再呈現給前端使用者。強調的是即時性的聯盟檢索服務，中間不存在任何中介者的角色，前端也不強調資料加值的處理與分析。由前述討論可知，OAI-PMH 與 Z39.50 兩者協定不僅應用目的不相同，使用的方法也不相同，雖然兩者都可達聯盟檢索服務的需求，但彼此之間都可達成聯盟檢索服務的需求，但彼此之間卻無法取代彼此。不過一個改良的方式是將 Z39.50 視為一個橋街器（bridge）或閘道（gateway），除了處理Z39.50 的命令之外，也能處理 OAI-PMH 的命令，而其中需要增加的處理能力是能支援metadata 綱要，即可結合彼此的優點。

(32)

(二) 各類型開放式典藏資料互通協定之比較(註18) 余顯強曾為文比較各類型開放式典藏資料互通協定，其詳如下表：表2-2 各類型開放式典藏資料互通協定之比較 NCSTRL NCSRL+ OAI-PMH Meta Web Search engine

SDLIP GINF Search _Light Z39.50

互通型態聯盟式獲取式聚合式聚合式聚合式聚合式聯盟式提供多個 DL 之間同步互通可依服務提供者功能而定可不可不可可可提供同步檢索不可依服務提供者功能而定不可可不可不可可資料提供模式主動式被動被動被動被動被動被動包含檢索協定無無有有有有有傳輸協定 HTTP HTTP HTTP TCP、 HTTP、 CORBA 物件 TCP、 HTTP HTTP 不限定 Metadata 格式任何 metadata 均可 XML 格式的metadata 無任何 metadata 均可 RDF 無 MARC、 DC 建置成本資料提供者：高資料提供者：低資料提供者：無資料提供者：無資料提供者：高資料提供者：無資料提供者：高服務提供者低中等，視服務內容而定高高高高高出處：余顯強，「淺談數位圖書館典藏資料互通之存取協定」，書藝39（2003 年 5 月），頁21。

第四節、數位圖書館聯合目錄系統

以下介紹四數位圖書館計畫的聯合目錄系統，包括Colorado Digitization Project’s Heritage database、PANDORA 數位典藏計畫；Library of Congress American Memory 計畫；AMICO 計畫，分從計畫簡介、Metadata 標準、系統檢索與瀏覽架構探討。

(33)

一、Colorado Digitization Project’s Heritage Database

(一) 計畫簡介

科羅拉多州數位化計畫（Colorado Digitization Project ，簡稱 CDP ，網址： http://coloradodigital.coalliance.org）始於 1998 年，是一項由Colorado州的檔案館、歷史學會、圖書館與博物館合作的數位典藏先導計畫。該計畫建構了一個由metadata紀錄組成的聯合目錄，發展metadata記錄並編製標題詞（subject term），採用名稱表單（name list）。 CDP計畫也研究藉由WebDewey採用Dewey Decimal Classification分類號，並聯結主題名詞與高度專門性主題名詞，在聯合目錄提供主題瀏覽功能，可看見這些主題名詞。

圖2-2 COLORAD

(二) metadata 標

1. CDP 聯合目錄採用 Dublin Core/XML metadata 標準。 O 網站

準

2. 採用一系列必備要件，包括：Title、Creator、Subject、Description、Identifier、 Date and Format 等，其詳如表 2-3。

表2-3 CDP 檢索欄位必備及選擇要件之比較

(34)

Title Con Creator Subject Description Identifier Date: Digital Format: Creation Format: Use tributor Publisher Relation Type Source Date: Original Language Coverage Rights Managemen

3. 採用標題詞（Subject Term），利用美國國會圖書館標題表（Library of Congress Subject Headings，簡稱 LCSH），這個詞表包括科羅拉多州的地理詞彙和美國國會的標題詞，不管是簡寫或全稱，使用者可以直接以精確字查詢，或以瀏覽的方式獲知。

4. 採用姓名稱表單（Name List），包括個人與團體公司。CDP 開始自詞彙表單中，發展索引典及完整權威控制的概念。後者乃是由州際的名詞權威機構（Name Authority Cooperative，簡稱 NACO）透過合作編目計畫（Program for Cooperative Cataloging）來產生名詞標目及主題標目。

(35)

圖2-4 主題名詞查詢

-(三) 系統查詢

提供兩種檢索模式

1. 簡易檢索 Search 模式畫面：提供 title、author、subject headings、keywords 查詢。圖2 5 名稱查詢樣本

(36)

圖2-6 CDP 檢索模式畫面 2. 進階檢索 Advanced S

提供title、author、subject words、De ey number、date、language、project 查詢，並可用布林邏輯查詢。

earch 模式

w

(37)

3. CDP 計畫是用聯合目錄網站與數位影像聯結

圖2-8 Moffat Tunnel Search

(38)

(四) 本分類代碼：(1) 數位典藏分類； (2) 館藏與數位典藏單位－ participan ion；(4)焦點－Spotlights；(5)地理。主題瀏覽 ence、 Sports、T

二、PAN O

(一) 計畫 P 全稱為 Preservin a ，網址為 http://pan

圖2-10 Moffat Tunnel Website Link

瀏覽架構

計畫包括分類與

ts；(3)主題分類－Dewey Decimal Classificat

，包括Agriculture、Arts、Colorado and Western History、People、Social Sci echnology and Engineering 等大類。

D RA 數位典藏計畫

簡介

ANDORA網站是澳洲國家圖書館的網路文件資源保存與取用的網站， g and Accessing Networked Documentary Resources of Australi dora.nla.gov.au/index.html。自1 儲存、辨識及保護成果公布在「潘朵拉（PANDORA）」拉」集合了多家圖書館與文化機構的資源，並統合至一個「熊貓系統）」(註20)共同檢索。此外，澳洲國家圖書館持續將焦點放在數位典藏的活動上，希望進一步了解保存技術演進與其他相關議題。故計畫性地收錄並保存澳洲本土及世界各國相關的網路資源。目前持續於「帕迪網（PADI）」(註21)進行這項計畫。 996 年以來，澳洲國家圖書館致力於數位化資源的選擇、轉換、編目、，並提供線上出版品的檢索。這部分的工作 (註19)上。「潘朵（PANDAS

(39)

為了長期保存數位套「數位典藏管理系統（DCM）」(註22)。本系統的原始目的，在長期保存手稿、地圖、圖像等數位典藏品，示等可能衍生的法律問題。目前系統包括下列的模組：「熊貓系統」（PANDAS 慧型圖書館管理系統（ILMS）(註23)、圖像經理（Pictorial manager）、圖像表列（）、手稿查檢工具（Manuscript finding aids）、數位化系統與專案（）、1845-1950 年間澳洲期刊（Australian Periodicals 1845-1850）、澳洲國家圖書館目錄（NLA Catalogue）(註24)、權限管理系統（Rights Managem 多媒體出版（Multimedia Publications）。

化的物件，澳洲國家圖書館已建置一

並解決圖檔在網路上顯）、智 Pictorial lists

Digitisation Systems and Projects

ent Systems）、圖2-11 Pandora網站 Pandora從 1996 年發展至目前包括五千餘種數位典藏資料，截至 2004 年 1 月 26 日，其館統計如下位文獻典藏藏量 (註25)：表2-4 Pandora 數量統計表本月上個月本月成長總典藏種類 5,279 5,160 119 總典藏實例 10,289 9,975 314 總檔案量 18,116,771 17,761,783 354,988 總GB（gigabytes）量 566.559 554.24 12

(40)

計供獲取、典藏、與提供長期

取用。起internet 出現大澳洲資訊，為了保存澳洲的歷史文化與

提升未的些線上出版品永久取用。澳洲國家圖書館開始發展

PAND 來

使用。

館藏收集原則以凡是Internet 公開提供者為對象，而澳洲國家圖書館（National Library

of Au 包括下列類型

資料：

• 雜其他期刊（Journals, newspapers, newsletters and other e

Substantial reports, papers and speeches） • 年 • 地 • 重 • 公 ac a ents and ex e

• 公 formation for public access）

• 先前以印刷形式出版的任何文件（Any document that would formerly have be b

• 任 N 的文件（Any document eligible for an ISSN, IS

Web sites or parts of web sites, which provide substantial or unique information about a topic, organisation, person of

• 沒有包含在此的其他領域，而圖書館認為具有長期研究價值者（Other

time to time would have long term research value）

PANDOR 畫目標為國家保存而選擇澳洲良好線上出版品，並提計畫背景係由於1996 年來創造力，有必要提供這 ORA 計畫，這是在出版社同意下，提供線上出版品典藏，並永久保存以提供未 stralia）選擇無印刷品的線上出版物，無論是免費或取用收費。主要誌、報紙、新聞稿及 s rials） • 研討會論文（Conference proceedings） • 重要的報告、文件及講演（度報告（Annual reports）圖（Maps）

要文學作品（Substantial literary works）

共說明文件，例如：作為公共評論的環境影響聲明及揭露草案（Public count bility documents, such as environmental impact statem

posur drafts for public comment）眾取用的資訊資料庫（Databases of in en pu lished in print）何有ISSN、ISBN 或 ISM BN or ISMN） • 提供某一主題、組織、國內重要人士、計畫或事件之重要或獨特資訊的網站或其中部份網頁（

national significance, project or event）

categories not included here, which the Library may consider from

(41)

圖2-12 PANDORA 計畫關係示意圖 (二) metadata 標準 A、描述 metadata 描述Metadata 資料包括如下： • 題名（Title） • 後題名（Later Title） • 前題名（Previous Title） • 作者（Creator） • 捐贈者（Contributor） • 語言（Language） • 描述（Description）

• 圖書業識別號，如：ISBN、ISSN、DOI（Book Industry Identifier, e.g., ISBN, ISSN,

• 圖書館業識別號，如：ABN RID（Library Industry Identifier, e.g., ABN RID） • • Pandora PURL • • • • 存在日（Life Date） • 頻率（Frequency） • 主題關鍵字（Subject K • 資源種類（Resource Type B、數位典藏 metadata（preservation metadata）

PANDORA 研訂數位典藏 metadata, 包括三層 Collection Object File DOI）出版者的全球資源定位器（Publisher's PURL/URL）商標（Label）索書號（Call Number）出版日（Date Of Publication） eyword））

(42)

包括25 要件如下：

1. 永久識別碼 – 種類及識別碼（Persistent Identifier - type and identifier） 2. 產生日（Date of Creation）

3. 結構種類（Structural Type）

4. 複雜物件的技術基礎架構（Technical Infrastructure of Complex Object）

5. 檔案描述 – 5.1 影像、5.2 聲音、5.3 影音、5.4 文本、5.5 資料庫（File Description – 5.1 Image, 5.2 Audio, 5.3 Video, 5.4 Text, 5.5 Database）

6. 已知系統需求（Known System Requirements） 7. 安裝要求（Installation Requirements）

8. 儲存資訊（Storage Information） 9. 取用管控員（Access Inhibitors）

10. 搜尋輔助及取用輔助器（Finding and Searching Aids, and Access Facilitators） 11. 維護行動許可（Preservation Action Permission）

12. 認證（Validation） 13. 關聯（Relationships） 14. 突然的變化（Quirks）

15. 檔案決策（作品）（Archiving Decision（work）） 16. 決策理由（作品）（D

17. 檔案決策（作品）之責任制度（Institution Responsible for Archiving Decision （work））

18. 檔案決策（表現形式）（Archiving Decision（manifestation））

19. 決策理由（表現形式） n））

20. 檔案決策（表現形式）之責任制度（Institution Responsible for Archiving Decision （manifestation））

（Intention Type）

22. 維護責任制度 Institution with preservation responsibility） 23. 過程（Pro

23.1

23.2 負責過程之機構名稱（Name of the Agency Responsible for the Process）過程中所使用的關鍵硬體（Critical Hardware Used in the Process）

23.4 過程中軟體 re U ）

23.5 過程如 ow Pr ied O

23.6 執行過程的指導方針（Gu ecified to Process） 23.7 日期及 and tim 23.8 結果（ 23.9 過程原 ess R 變化（ 23.11 其他（Other）記錄產生者（Record Creator） Other C 理metadata（Administrative metadata） DORA 提供館藏管理者儲存有關典藏的管理 metadata, 括： ecision Reason（work））（Decision Reason（manifestatio 21. 目的類別（ cess）過程描述（Description of Process） 23.3

所使用的關鍵（Critical Softwa sed in the Process 何被執行（H ocess was Carr ut）

idelines Sp Implement 時間（Date Result） e）理闡述（Proc ationale） 23.10 Changes） 24. 25. 其他（）、行政管 PAN 包

數位典藏國家型科技計畫－聯合目錄系統建置計畫

行政院國家科學委員會專題研究計畫 成果報告