第二章 文獻探討
第二節 數位物件保存
自二十世紀末起,數位科技為人類文明帶來衝擊與轉機,各國政府皆致力 於以數位化方式保存重要文化資產,保存維護數位資訊的挑戰和緊迫性已經成 為負責所有人類知識檔案機構所密切關心的事情。如第一節所提,許多國家近 年 來 皆 致 力 於 數 位 典 藏 的 相 關 計 畫 。 然 而 ,數 位 化 並 不 代 表 保 存 ( Smith, 2007),不論是紙質或其他類型的檔案都可能因為保存時間與保存條件的差 異,而面臨檔案日漸劣化,甚至無法再提供利用的問題(林素甘、楊美華、柯 皓仁,2008)。美國國會圖書館在一段名為〈Why Digital Preservation is Important to Everyone〉的影片中指出(Library of Congress, 2010):傳統的資訊資源例如 書籍、照片、地圖和其他知識資源可輕易存活多年、數十年,甚至數百年,但 數位物件是脆弱的、容易損壞的,因此需要特別的照顧以確保它們是可以被使 用的。
一、 數位資訊生命週期
生命週期源自植物在其個體發育過程中,歷經萌芽、生長、開花、結果、
衰老及死亡等階段,此過程稱為植物生命週期。後來才逐漸發展出各種生命週 期,例如:產品生命週期、資訊生命週期等。
其中,資訊生命週期意指資訊從產生、保護、讀取、遷移、存檔、應用、
到回收 的過 程。 而數 位資訊 生命 週期 主要 分 為資料 創造 (Creation)、獲取
(Acquisition)、分類與定義(Cataloging & Identification)、儲存(Storage)、保 存(Preservation)、以及取用(Access)(Hodge, 2000)。中央研究院電子計算中
心提出的數位資訊生命週期圖中,包含了資料數位化(創造、擷取)、建構與管 理(分類、索引、智財管理)、傳播(分享、知識搜尋、檢索與取用)與儲存
(中央研究院,2007)。陳昭珍(2001)認為數位資訊的生命週期意指從數位資 料的創作、編輯、描述與索引、傳布、徵集、使用、註解、修訂、再創造、修 改、一直到永久保存或遭毀損等等。許多研究都顯示數位資訊保存和資訊生命 週期有關(何建民,2000;AHDS, 2001;RLG, 1996;Tennant, 1999)。英國藝 術與人文資料服務(Arts and Humanities Data Service,簡稱 AHDS)(2001)認 為數位資訊的保存與其資訊生命週期息息相關,因此提出了創造與保存數位資 料 的 策 略 政 策 框 架 (A Strategy Policy Framework for Creating and Preserving Digital Collection)。該框架將數位資訊生命週期分成四個部分:法律及經濟環 境、數位資訊的創造、數位資訊的使用,以及數位資訊的管理與保存,如圖2-2 所示。綜合上述,可知在每個生命週期的階段都必須考慮保存的問題。
圖2- 2 數位資訊生命週期
資料來源:Art and Humanities Data Services, A Strategy Policy Framework for Creating and Preserving Digital Collections, Version 5.0, updated July 2001.
Smith(2002)認為數位資源有容易建立、可快速取得、傳播成本低的優 點;缺點則是容易變及脆弱。王輝雄(2002)則以數位資源組成的角度提出幾 點數位資源的特性:
(二) 變異性大,電腦軟硬體設備面臨淘汰,管理與維護不易。
(三) 儲存空間較紙本式資料小。
(四) 文件檔案格式多,諸如:文字、聲音、圖片、影像等。
(五) 資料容易大量拷貝複製。
(六) 傳輸與應用快速。
(七) 系統方面安全性低,容易遭受入侵與竄改。
數位資訊有容易建立、快速檢索、容易傳播和使用的優點,但數位內容必 須依賴載體才能呈現,而載體之使用還需配合適當的系統支援。傳統的保存方 式就是保持資訊媒體的不改變,然而數位資訊最難做到的便是這點,若只採用 傳統的保存方式,會讓數位資訊隨著時間而流失不見,無法達成數位資源長期 保存的目標。陳昭珍(2001)認為數位資源不易保存的原因為數位資訊容易損 壞或無用以及電子文獻無法獨立存在,必須與軟體結合在一起的緣故。數位資 訊不易保存也有鑑於其脆弱的特性,可能被有意或無意地篡改或變樣,又或因 儲存媒體與軟硬體技術的改變,而造成無法使用的情形。
二、 數位物件保存的內涵
數位物件保存又稱為「數位保存」、「數位資料保存」、「數位資訊保存」和
「數位資源保存」等。以美國圖書館學會(American Library Association,簡稱 ALA)(2007)給予的定義,就廣義上來說,數位物件保存是指透過政策、策略 和行動,以確保數位內容的使用可以突破時間的限制。數位保存可定義為一連 串有系統、有管理的行動,以達成下列兩項目的 (Research Libraries Group, 2002):
1. 數位物件位元流和詮釋資料的長期維護,以利重現原始文件適當的擬真版 本;
2. 不因時間流逝和科技演進而能持續取用數位物件內容。
數位化並不代表保存(Smith, 2007),數位物件保存是指採用制度性的管 理措施,以確保數位資源的長期可用性;數位物件保存需要妥善的規劃且運用 儲存媒體更新(Refreshing)、轉置(Migration)、與模擬(Emulation)等方式來 達成(Digital Preservation Coalition, 2016)。
另一個與數位物件保存相近的名詞為「數位庋用(Digital Curation)」。簡單 來說,數位庋用可被定義為「數位物件的管理與保存,以確保其能長期被取 用」(Abbott, 2008)。Digital Curation Centre(DCC)則將數位庋用定義為「在數 位研究資料的生命週期中,對其進行維護、保存和加值。而數位研究資料範圍 廣泛,可以是政府資訊、科學資料,甚至是文化與智能資產」(Digital Curation Centre, 2008a)。從上述定義,可見數位物件保存乃是數位庋用的一環。
DCC 提供了數位庋用生命週期模型,如圖 2-3 所示,該模型以資料為中 心,周圍環繞著三組數位庋用的行動,包含全生命週期行動(Full Lifecycle Actions)、循序行動(Sequential Actions),以及偶發行動(Occasional Actions)
(Digital Curation Centre, 2008b):
1. 全 生 命 週 期 活 動 : 包 含 資 源 的 描 述 與 表 徵 方 式 (Description and Representation Information)、保存規劃(Preservation Planning)、社群注視 與 參 與 (Community Watch and Participation)、 庋 用 與保 存 (Curate and Preserve)。
2. 循序行動:概念化(Conceptualise)、創建或接收(Create or Receive)、評 價 與 選 擇 (Appraise and Select)、 攝 入 (Ingest )、 數 位 物 件 保 存 行 動
(Preservation Action)、儲存Store、取用、利用與再利用(Access, Use and Reuse)、轉換(Transform)。
3. 偶發行動:棄置(Dispose)、再評價(Reappraise)、轉置(Migrate)。 從該模型來看,數位庋用和數位物件保存之間仍有部分重疊,就如同「庋 用」一詞包含了收藏(庋)與使用(用)兩種概念,數位物件保存則較偏重
數位物件保存看似重要,然而 Ross(2012)指出這個議題在全球普遍的狀 況卻是:
1. 機構間(甚至機構內)對數位物件保存相關議題的認知存在著很大的差 異。
2. 僅有少數機構以長遠的角度面對數位物件保存的議題。
3. 很少機構以策略性的方法處理數位物件保存。
4. 「大多數機構未制定數位物件保存政策與程序」仍是一項值得關注的議 題。
5. 機構通常都忽略了保存政策。
6. 「對數位物件的複雜度、多元種類或格式,以及數位物件大小會使數位物 件保存和儲存的困難度增加」這件事已經有普遍的認知。
7. 對數位物件保存所需成本與費用的理解仍不充分。
8. 機構仍在等待科技研發者、研究者、服務提供者對數位物件保存提出解決 方案。
圖2- 3 數位庋用生命週期
資料來源:Digital Curation Centre (2008b). The DCC curation lifecycle model.
Retrieved from http://www.dcc.ac.uk/resources/curation-lifecycle-model
數位保存的目標如圖2-4 的金字塔所示,從圖中可看出數位物件保存應具備 真 實 性 、 呈 現 性 、 可 行 性 ( Viability )、 固 定 性 、 可 理 解 性
(Understandability)、可識別性(Identity)和可用性(Availability)幾項特徵
(Caplan, 2008)。真實性意指驗證物件的來源和其內容的完整性。呈現性意指 確保數位物件是可顯示、可播放,或是可用的。可行性意指在數位媒體上的閱 讀品質,媒體的損壞與過時會威脅可行性,檔案需定期的複製至新的媒體,並 備份和複製至不同的實體設備中。固定性意指保存系統必須確保數位物件免受 未經授權的竄改,無論是有意或無意。可理解性意指必須確保數位物件的內容 是可以被理解的。可識別性意指必須對數位物件進行足夠詳細的描述以供將來 取用,理想的數位物件必須自我描述,並將此描述性詮釋資料伴隨在數位物件 當中。可用性意指數位物件的獲得亦有難易的差異,因此保存的必須是本身可 以控制的數位物件。
圖2- 4 數位物件保存金字塔
資料來源:Caplan, P. (2008). The Preservation of Digital Materials. Library
Technology Reports, 44(2).
重要屬性(Significant Properties)已經成為長期保存一個關鍵的概念,
CEDARS 計畫將重要屬性定義為典藏管理者認為長期保存最重要的特徵。重要 屬性為數位物件必須保存的特徵,以確保數位物件保持可取得性和有意義,因 此一直是許多數位保存研究計畫的重點(Hockx-Yu, & Knight, 2008)。重要屬性 的判別取決於數位保存的經驗,例如保存庫可以決定一個 PDF 檔只需保存該 PDF 檔的內容,也就是說,保存庫可以將內容視為該 PDF 檔的重要屬性。如果 在使用特定保存方法後,系統並未持續列出該重要屬性,則可能表示該過程失 敗,或該方法不適用於該數位物件(PREMIS Editorial Committee, 2015)。
三、 數位物件保存策略
數位物件長期保存是資訊系統現今所面臨的重要課題之一。在大量資料數 位化、電子化或原生數位資料不斷產生後,其所面臨的資訊安全、保存與典藏 的問題與傳統紙本印刷上的問題截然不同(Hodge, 2000)。數位資訊十分容易被 破壞,尤其是經過時間的累積或資訊載體的演變,可能會面臨到資料無法讀取 的情況。除了可能面臨資料無法讀取的問題,數位資訊是否毀損、不見,也都 很有可能發生。數位物件保存的另一項關鍵為選擇適合長期保存的物件檔案格 式,檔案的儲存格式都與處理程序、電腦硬體、應用軟體和標準等有關。且在 整個資訊出版、處理和保存上都與傳統紙本 文件有所不同(Beamsley, 1999;
Cooley & Nilges, 1998; Hodge, 2000; Plante et al., 1999)。為了長期保存數位物件 並且提供使用,且其真實性、完整性不遭受質疑,除了幾種常見的數位資訊保 存策略可以保存資訊外,還需要保存性詮釋資料的配合。
Kranch(1998)認為數位資訊長期保存的策略有:保存原技術(系統保 存)、轉移至新技術(轉置)、轉移至紙張或其他可瀏覽的媒體(印成紙本或其
Kranch(1998)認為數位資訊長期保存的策略有:保存原技術(系統保 存)、轉移至新技術(轉置)、轉移至紙張或其他可瀏覽的媒體(印成紙本或其