第二章、 文獻探討
第三節、 OAI 協定與技術
(1) 有些Z39.50 client只用來以相同的介面檢索遠端的系統,而未做多資料庫同 時查尋(broadcasting,或稱廣域查尋),因此沒有整合的問題。即使做整合,
也是根據單一鍵如ISBN等來刪除重複,但大部份的系統都無此功能。
(2) 如果要做到整合,必需將檢索出來的記錄反複查尋各參與的系統;但要做任 何的整合必需由客戶端將送回的資料加以整合(merging),或在伺服端將 資料以相同的方式排序,並不是一件簡單的事。
(3) 從系統效能與管理的角度而言(Performance and Management)分散式系統 的效能往往視client/server之間的網路速度而定。此外,也常受速度慢的伺 服器的影響,因為它必須等所有的伺服器都回覆後,才能顯示查尋結果。所 以有的系統會考慮設定等待時間,因此是否要設定等待時間,以及等待時間 要設多久,是這類系統必需考慮的問題。
(4) 分散式查尋會增加各系統的查尋負擔,因為每一個查詢都會送到各local system處理。
(5) 查尋反應時間比聯合目錄慢很多。
(6) 各系統專屬的查尋系統功能,往往比虛擬聯合目錄還多,但是如果各系統的 資訊組織模式一致,則共通介面所能提供的功能也會和專屬的查尋功能越接 近。
(7) 小系統參與虛擬聯合目錄做分散式查尋,會使得查尋速度更慢。虛擬聯合目 錄的可靠性也是一個問題,因為隨時會有某一台主機當機,或停止提供服務 的情況發生。
第三節、OAI 協定與技術
一、OAI 的定義
數位典藏的最大特色就是擁有豐富的數位資源,而這些數位資源的管理者與擁有者分散 於各個典藏單位,進而造成使用者不易掌握數位物件,因此為了提高使用者的便利及增進數 位物件使用率,各種整合技術逐漸興起。
「開放典藏計劃」(Open Archives Initiative,簡稱OAI)近來受到重視,其定義係介面建 置的一種技術,其功能是在負責擷取(harvesting)後設資料(metadata)記錄,凡是任何一 種電子典藏(electronic archive)或數位圖書館(digital library)利用OAI技術建置介面者,皆 可稱為「開放典藏資料提供者」(Open Archives data provider)。(註5)其目標是為了發展及提 高互通性的操作標準,以方便內容資料有效的分享與交換。
OAI 技術由於下列因素,使其受到歡迎:(1)提供學術溝通及交流一個新的模式:OAI 架
構使數位化文件能更容易、更廣泛的傳播。且採用後設資料擷取的方式,能涵蓋各種多媒體 格式、資料型態與內容等,擴展了數位化資料可存取種類的範圍。(2)實作容易:OAI 後設資 料擷取協定在設計時即以「簡單」為原則。利於在極短的時間內架設起OAI 伺服器。(3)具開 放性:任何人都能使用OAI 定義的架構,來建構資料提供或服務提供的伺服器。(4)採用 HTTP 及 XML 之開放性標準:OAI 後設資料擷取協定目前是利用 HTTP 通訊協定作為其基本的通 訊協定,使得OAI 在先天上就已解決了跨平台及相容性等問題,也節省了另行新架構的困難。
同樣的,XML 也漸漸成為全球共同的標準資料格式。由於 HTTP 及 XML 均為開放性的標準,
採用HTTP 及 XML 的組合不僅考慮了相容性的問題,也確保了 OAI 的開放性原則。
二、OAI發展歷史(註6)
OAI 最初是由 Paul Ginsparg、Rick Luce、Herbert Van de Somel 等人,在 1999 年 10 月於 Santa Fe 發起的 University Preprint Service 會議中所促成。OAI 原本是為了增進多樣性電子印 刷出版資料的互通,藉以促進學術交流為目的,同時亦保證資料在未來也可以互通的需求。
雖然OAI 最初是針對學術性電子期刊預印本的互通性而產生,但這與目前數位圖書館等數位 典藏單位所遭遇的問題極為類似,因此OAI 技術自然而然擴展到數位圖書館領域,亦逐漸受 到重視。
2001 年 1 月,OAI 發表 Open Archives Initiative Protocol for Metadata Harvesting,簡稱 OAI-PMH 是為後設資料擷取協定,。OAI-PMH 初期的發展仍為實驗階段,2001 年至 2002 年間分別提出了 OAI-PMH 1.0 版及修訂 1.1 版,目前已發展至 OAI-PMH 2.0 版,並期望向 W3C 申請成為全球的開放型標準。
三、OAI-PMH
OAI-PMH是由「數位圖書館聯盟」(The Digital Library Federation)與「網路資訊聯盟」
(The Coalition for Networked Information)提供支援,該OAI通訊協定的研究工作獲得美國科 學基金會(National Science Foundation Grant No. IIS-9817416 與Defense Advanced Projects Agency Grant No. N66001-98-1-8908)資助。OAI-PMH提供異質性資料庫之間整合搜尋的解決 方案,利用網際網路與後設資料技術,透過資料擷取共通協定,可不受平台、語言、開發程 式等限制,達到互通的目的。(註7)
(一) 相關名詞定義(註8)
1. 資料提供者(Data Provider):
提供其文件內容,並以OAI 作為發佈 metadata 的協定。主要工作在維護一個或 一個以上支援OAI 協定來將其內容以 metadata 發佈的儲存器,如:Web 伺服器。
2. 服務提供者(Service Provider):
透過OAI 協定向資料提供者取得資料,利用得到的後設資料建構具有附加價值
的服務。
3. 資料儲存器(Repository):
透過HTTP,接受 OAI 協定所提出存取資料需求的伺服器。
4. 資料集(Set):
非必備功能,為了方便取得所需資料的目的,儲存器內可將不同類別的資料區 分成不同的群組,並以階層式架構表示,以節點(node)作為各分類的區分,
因此每一個節點即稱之為資料集。
5. 資料錄(Record):
一個資料錄是後端伺服器依據OAI 協定,從儲存器內將資料以 XML 編碼傳回 前端的metadata。
(二) OAI-PMH 系統架構
OAI-PMH 系統主要是架構在 Internet 上的應用協定,透過「資料提供者」(Data Provider)與「服務提供者」(Service Provider)機制來抓取 metadata 資料,Service Provider 會定期向各典藏單位的資料庫系統(Data Provider)擷取後設資料,利用命令集方式傳輸 給後端的伺服器程式,並遵循OAI 協定 XML Schema 所規範的 XML 格式傳送資料。
Data Providers 主要的工作在維護倉儲(Repositories),並支援 OAI 協定來揭示倉儲 的內容。Service provider 是向 Data Providers 發出 OAI protocol 請求(Requests)並將得 到的後設資料建構具有附加價值的服務。
OAI Protocol request OAI Protocol Response
Users
Service Provider
Data Provider Repository
圖2-1 OAI 系統簡易架構圖
(三) 選擇性擷取功能(註9)
OAI-PMH 提供了選擇性擷取功能,可讓擷取程式將資料庫中的部分子集合擷取出 來,可以過濾不需要的資料集合,擷取方式是利用時間戳記與集合兩個參數進行,兩個 參數可以獨立或者合併使用。OAI-PMH 規範每筆記錄必須要包含時間戳記,藉以表示物 件的更新狀況,例如:新增、刪除、修改的時間。擷取時間戳記時,必須符合UTCdatetime 時間格式(coordinated universal time),如此才能與全球世界各地不同時區同步。資料集
(Set)的功能在於將資料庫中的物件,分類成一個一個子集合,並可以有選擇性的指定 範圍。
(四) 後設資料
1. Dublin Core
OAI 協定的技術體系中,指定了 Dublin Core(簡稱 DC)作爲 Data Providers 支 援提供的後設資料格式。同時支援多種後設資料格式的查詢。Metadata 資料規定必 須支援 DC,是否支援其他後設資料格式由倉儲自行决定,或可以利用 metadata 的 前置詞-prefix 進行標識。關於一般內容的部分後設資料,例如:使用權限等,並不 在協定中做規定與規範。
2. 後設資料傳遞方式
OAI協定的請求使用HTTP中的GET或POST方法。請求傳遞至少一個的參數,
形式如:key=vlaue,多個參數時使用`&’隔開。每個OAI請求都必須包括一個名字 爲verb=‘OAI方法名'的參數。為了確保高度的互通性,OAI協定要求所有的倉儲都 必需支援保留在後設資料的前置詞`oai_dc’,DC後設資料格式的schema可在 http://www.openarchives.org/OAI/dc.xsd找到。
3. 後設資料的 Prefix 和 Schema
當向倉儲發送請求時,使用後設資料的前置詞來標識每一種後設資料的格式,
後設資料字首的命名由無空格的字母數位所組成。後設資料 schema 是一個 XML schema 文件,可以用來對記錄中的後設資料的合法性進行驗證。
利用 ListMetadataFormats 命令請求可以列出一個倉儲支援的所有後設資料格 式。針對請求的回應所包括的各種格式的後設資料前置詞和 schema 的 URL,而這 種XML namespace 的 URI 是可選部分。
在ListRecords和GetRecord請求中,後設資料的前置詞也可以作為參數,指定返 回記錄中包含元資料的格式。返回記錄中的後設資料遵循XML namespace的規範,
因 此 後 設 資 料 部 分 必 須 包 含 一 個 屬 性 `xmlns’ ,取值是這種後設資料 格 式 的 namespace的URL。(註10)
(五) OAI 後設資料擷取協定(Open Archives Metadata Harvesting Protocol)指令
GetRecord Identify ListIdentifier
ListMetadataFormats ListRecords
ListSets
每當進行請求時都是按照下列格式,(1)每個小節的標題就是必備的verb參數。(2)請 求中其他的參數,共有三種類型:必備的、可選的、獨占的(除了VERB參數,如果有 這個參數,就一定是唯一的參數)。(3)回應的格式定義是一個XML schema。(4)請求的例 外條件,狀態碼在OAI協定的環境中具有特殊意義,各項指令參數說明如表 2-1。(註11)
表2-1 OAI-PMH 指令說明
請求命令 說明 Verb 參數(必備) 其他參數 例外
GetRecord 取得一個單獨的 記錄/後設資料。
GetRecord identifier:必備參數,是記錄的 唯一識別。metadataPrefix:必 備。
識別字不存在時,回應 內容將沒有record container 部分。
後設資料格式不支援 時,該記錄不能以指定 的後設資料格式回 應,此時回應內容將包 括一個header 但是沒 有metadata container。
Identify 取得關於倉儲的 資訊,包括管理、
標識、組織單位的 專門資訊。
Identify 無 無
ListIdentifiers 要求取得可以由 倉儲中查到記錄 的識別字。
ListIdentifiers until:選擇性參數,日期類 型,指定返回時間戳比until
set:選擇性參數,setSpec 類型,指定回應特定集中的
當沒有符合條件的記錄 時。
請求命令 說明 Verb 參數(必備) 其他參數 例外
記錄的識別字。
ResumptionToken:獨占參 數,顯示不完整結果列表,
所得到的值是前一個 ListIdentifiers 請求回應的 部分結果中所包含的 resumptionToken。
ListMetadata
Formats 查詢倉儲或一筆 特定記錄所支援 的後設資料格式。
ListMetadataFormats identifier:選擇性參數,指 定一個記錄的識別字,要求
ListRecords 從倉儲中取得記 錄。
ListRecords until:選擇性參數,日期類 型,指定回應時間戳比until 後的時間舊的記錄。
from:選擇性參數,日期類 型,指定回應時間戳比until 後的時間新的記錄。
set:選擇性參數,setSpec
set:選擇性參數,setSpec