第二章、 文獻探討
第二節、 聯合目錄的建置模式
聯合目錄的建置模式主要有兩種,一種為實體聯合目錄,又稱為集中式聯合目錄;另一 種為虛擬聯合目錄,又稱為分散式聯合目錄。所謂實體聯合目錄是指在聯合目錄伺服器上已 建好索引檔,使用者查尋時乃查尋此索引檔,系統告知使用者找到多少符合查尋條件的資料,
再由此索引檔連到實際的網站,如蒐尋引擎,或呼叫出書目記錄,如圖書館界的書目中心。
虛擬聯合目錄則指未在伺服器建立實際的索引檔,只是透過檢索介面將使用者的查尋問句送 到各資料庫,並將查尋結果匯整後顯示在螢幕上。例如以Z39.50 協定所建立的查尋介面,就 是這種做法。這兩種聯合目錄各有優缺點,以下即分別說明其類型與特色。
一、集中式的聯合目錄(註3) (一) 集中式聯合目錄之類型
集中式的聯合目錄可分為:由人工建立詮釋資料之集中式聯合目錄,及由系統自動 蒐尋抓取資料並做全文索引的集中式索引伺服器。前者又可分為:商業性的聯合目錄、
非商業性的聯合目錄、共用式的聯合目錄,後者則以蒐尋引擎為代表。
(二) 集中式聯合目錄之特性
集中式的聯合目錄,具有下列特性。
1. 查尋與索引的一致性
(1) 這類聯合目錄的資料,雖由不同的單位上載而來,但由於已透過標準軟體處 理,集中儲存在聯合目錄中,所以實際在查尋時只針對一個資料庫查尋,因 此查尋功能及索引方式都是一致的。
(2) 不過由於各館的編目原則並不完全一致,因此送到聯合目錄的資料也無法完 全一致,所以各聯合目錄系統都會處理資料品質控制問題。
(3) 這類聯合目錄的查尋與檢索技術乃以資訊檢索技術為基礎,也可以根據資料 的屬性或統計屬性來排序檢索結果。
2. 記錄的整合
(1) 各聯合目錄系統對資料的整合處理,詳盡情況不盡相同,如OCLC有很多計 畫在做記錄的整合,不過他們的整合,主要在刪除重複,並保留一筆正確的 記錄,而不紀錄各館編目的差異。
(2) 要花很多時間在整合上,對於每一筆新輸入的資料都一欄一欄的與既存的記 錄做比較,當發現有不一致的情形時,系統會一欄欄的紀錄及保存不一致之 處,以致載入速度很慢。
(3) 對集中式的聯合目錄而言,高品質的整合目標是可以達到的。
3. 系統效能及管理
(1) 集中式聯合目錄在管理大量資料的技術已相當成熟,但與一般終端使用者之 間的互動,經驗尚淺。
(2) 集中式的聯合目錄有很好的系統效益評估工具,如對於系統反應時間及系統 的使用情況的掌握相當完整。
(3) 若要加入一個新的合作單位,所需成本不高。
二、分散式的聯合目錄(註4) (一) 分散式聯合目錄之類型
分散式的聯合目錄主要可分為以標準協定來建立主從架構的分散式查尋系統,最有 名的就是 Z39.50 系統,及非依標準設計的分散式查尋系統。其中 Z39.50 是廣被圖書館 界及電子圖書館界/博物館界接受的標準。非依據標準而設計的分散式查尋系統,其查 尋介面需要能轉換查尋問句到各個不同的系統,當異質系統不多時、或只檢索同一種資 訊組織模式時還可以應付,但若要跨不同資訊組織模式、不同國界做檢索,困難度較大。
(二) 分散式聯合目錄的特性
分散式聯合目錄最大的優點,是不需花任何的軟硬體成本及人力資源,去建立及維 護實體的聯合目錄。不過就查尋與索引的一致性、記錄的整合、系統的管理與效能而言,
都較集中式的聯合目錄差。茲說明如下:
1. 就查尋與索引的一致性而言
理論上,就功能而言,分散式應可做到和集中式一樣的效果,事實上有兩個問 題:
(1) 所有的系統,必需支援最小共通的查尋功能,如果其中一館無法支援切截
(truncate),或索引欄位不同,就會產生不一致的查尋結果。介面設計的 愈複雜,各館也更需正確的支援這些功能,才能執行複雜的查尋動作。
(2) 不同的系統必需用共通的語意設計Z390.50的查尋屬性,以及以一致的方法 處理這些屬性。由於Z39.50並非資料庫的索引標準,因此屬性集也不是依資 料庫的架構來定義。例如很多系統會接受並回覆Z39.50問句的作者與題名查 尋,但在資料庫中,這些系統並不見得用相同的欄位做作者與題名索引,如 有的系統,題名索引包括正題名、副題名、並列題名、其他題名。有的則不 齊全。
2. 從資料整合的角度而言
(1) 有些Z39.50 client只用來以相同的介面檢索遠端的系統,而未做多資料庫同 時查尋(broadcasting,或稱廣域查尋),因此沒有整合的問題。即使做整合,
也是根據單一鍵如ISBN等來刪除重複,但大部份的系統都無此功能。
(2) 如果要做到整合,必需將檢索出來的記錄反複查尋各參與的系統;但要做任 何的整合必需由客戶端將送回的資料加以整合(merging),或在伺服端將 資料以相同的方式排序,並不是一件簡單的事。
(3) 從系統效能與管理的角度而言(Performance and Management)分散式系統 的效能往往視client/server之間的網路速度而定。此外,也常受速度慢的伺 服器的影響,因為它必須等所有的伺服器都回覆後,才能顯示查尋結果。所 以有的系統會考慮設定等待時間,因此是否要設定等待時間,以及等待時間 要設多久,是這類系統必需考慮的問題。
(4) 分散式查尋會增加各系統的查尋負擔,因為每一個查詢都會送到各local system處理。
(5) 查尋反應時間比聯合目錄慢很多。
(6) 各系統專屬的查尋系統功能,往往比虛擬聯合目錄還多,但是如果各系統的 資訊組織模式一致,則共通介面所能提供的功能也會和專屬的查尋功能越接 近。
(7) 小系統參與虛擬聯合目錄做分散式查尋,會使得查尋速度更慢。虛擬聯合目 錄的可靠性也是一個問題,因為隨時會有某一台主機當機,或停止提供服務 的情況發生。