• 沒有找到結果。

數位典藏長期保存策略及系統建置之研究:以中研院台史所檔案館為例

N/A
N/A
Protected

Academic year: 2021

Share "數位典藏長期保存策略及系統建置之研究:以中研院台史所檔案館為例"

Copied!
70
0
0

加載中.... (立即查看全文)

全文

(1)

科技部補助專題研究計畫成果報告

期末報告

數位典藏長期保存策略及系統建置之研究:以中研院台史

所檔案館為例

計 畫 類 別 : 個別型計畫 計 畫 編 號 : MOST 102-2410-H-004-220- 執 行 期 間 : 102 年 08 月 01 日至 103 年 09 月 30 日 執 行 單 位 : 國立政治大學圖書資訊與檔案學研究所 計 畫 主 持 人 : 薛理桂 計畫參與人員: 碩士班研究生-兼任助理人員:黃若瑜 碩士班研究生-兼任助理人員:林育如 博士班研究生-兼任助理人員:陳慧娉 報 告 附 件 : 出席國際會議研究心得報告及發表論文 處 理 方 式 : 1.公開資訊:本計畫涉及專利或其他智慧財產權,1 年後可公開查詢 2.「本研究」是否已有嚴重損及公共利益之發現:否 3.「本報告」是否建議提供政府單位施政參考:否

中 華 民 國 103 年 11 月 20 日

(2)

中 文 摘 要 : 中文關鍵詞: 英 文 摘 要 : 英文關鍵詞:

(3)

1

數位典藏長期保存策略及系統建置之研究:以中

研院台史所檔案館為例

壹、 緒論 數位典藏與數位學習國家型科技計畫至今已執行十年,產生了豐富的數位化 成果,在電腦科技與儲存媒體迅速進步的情形下,如何將數位化成果透過模擬、 轉置等方法長期保存豐碩的成果已成為重要議題。本研究擬藉由文獻探討,瞭解 國際上數位保存策略、相關系統及工具,首先以曾參與數位典藏國家型科技計畫 的重要典藏單為焦點訪談對象,以了解進行長期保存時所遭遇的問題和困難。再 以 Archivematica 作為實驗工具,以中央研究院台灣史研究所檔案館為測試實例, 期能提出一個經濟實惠的數位保存策略及作業模式,作為國內檔案相關單位參考 之依據。 貳、 研究計畫之目的與研究問題 一、研究目的 本研究希望針對現有數位檔案保存的問題,提出改善方案,與數個重要典藏 單位進行焦點座談,後以中央研究院台灣歷史研究所(以下簡稱台史所)檔案館之 數位檔案保存性後設資料系統為個案,以系統實作方式,並評估成效,以達到提 昇館藏品質及行政效能之目標,進而提供其他檔案館進行數位保存後設資料系統 設計時之參考。本研究希望達到以下三大目的: (一) 探討國內典藏單位數位檔案保存之政策與作業方式。 (二) 探討導入 Archivematica 軟體對中研院台史所檔案館保存政策及人 力作業之影響。 (三)探討數位保存標準模式/流程如何建立與執行。 二、研究問題 根據上述研究目的,本研究主要探討的問題有下列幾項: (一)探討數位保存後設資料標準之內涵、特性及世界各國應用之現況以及 所遭遇的困難與限制為何? (二)探討中研院台史所檔案館在管理數位檔案之政策與人力執掌、工作執 行現況為何? (三)導入 PREMIS 標準及系統工具後,對中研院台史所檔案館的保存政策 及人力之影響為何? (四)理想的數位保存標準模式的建置與流程為何

(4)

2

參、文獻探討

一、長期保存後設資料標準 PREMIS (一)背景資訊

PREMIS 最初由 OCLC(Online Computer Library Center, OCLC)與 RLG (Research Libraries Group, RLG)贊助的 Preservation Metadata Framework 工作小組所發展,在 2001-2002 年該小組提出報告—A Metadata Framework to Support the Preservation of Digital Objects (the Framework )。2003 年 6 月, 在 OCLC 與 RLG 的共同贊助下,集合全球圖書館、博物館、檔案館、政府,及 私 人 單 位 的 數 位 保 存 專 家 , 成 立 了 PREMIS ( PREservation Metadata: Implementation Strategies, 以下簡稱 PREMIS)工作小組。工作小組的任務是 發展數位保存的核心後設資料,以協助數位資料的創造、管理及利用。(PREMIS Editorial Committee,2012) PREMIS 工作小組的目標是(OCLC/RLG,2005,p.vii)  定義一套可執行的「核心」保存後設資料元素,能廣泛應用於數位保存社群。  設計資料字典以支援核心保存後設資料元素集。  檢驗或評估在數位保存系統中,保存性後設資料的編碼、儲存與管理以及在 系統間交換保存性後設資料等策略。  執行試驗計劃在多樣化的系統設定中測試該小組的建議與最佳實踐。  探索合作生產與分享保存性後設資料的機會。 為了找出保存機構如何實際執行保存性後設資料,於 2003 年 11 月調查 70 個與數位保存相關的組織。這個調查提供了解數位保存目前發展水平的機會,草 擬問題引出關於政策、管理與資金、系統架構與保存策略,以及後設資料實施的 資訊。PREMIS 工作小組在 2005 年 5 月完成此任務,並發表「保存性後設資料 資料字典:PREMIS 工作小組最 終報告(Data Dictionary for Preservation Metadata: Final Report of the PREMIS Working Group)」,此為 PREMIS v1.0。 (PREMIS Editorial Committee,2012)

此資料字典定義保存性後設資料為:(PREMIS Editorial Committee,2012)  支援可行性、執行性、可理解性、可信賴性以及在保存性數位物件內容的一 致性。  為了盡可能表現資訊,保存典藏單位必須知道如何長期保存數位素材。  強調保存性後設資料是:嚴厲的、清晰的,遵守指導方針來建立、管理與使 用,及指向自動工作流程。  具體化科技中立,沒有對於保存性科技、策略、後設資料儲存及管理有任何 假定(assumptions)。

(5)

3

此外,PREMIS 工作小組也出版了一組 XML schema 來支援數位文件系統 中的 資料 字典 。PREMIS 資料 字典 贏得 了 2005 年 英國 保存 大 獎(British Conservation Awards)之數位保存獎,同時也贏得了 2006 年美國文件檔案人 員學會之保存出版品獎(American Archivists Preservation Publication Award)。 (PREMIS Editorial Committee,2012)

在 2005 年發行資料字典後,PREMIS 工作小組結束其任務,改由國會圖書 館贊助運作 PREMIS 維護活動,並開始其他工作以進一步瞭解保存性後設資料 及相關主題。除提供資料字典、XML schema 和相關資源的永久的網站外,維護 活動同時也運作 PIG(PREMIS Implementers Group)討論清單及協作平台, 提供資料字典的使用指導,並授權關於保存性後設資料的研究主題。維護活動並 建立編輯委員會,負責未來資料字典及 XML schema 的發展,同時推廣它們的 使用。編輯委員會成員背景包含多個國家與機構。(PREMIS Editorial Committee, 2012) 在資料字典發行的同時,也決定暫停其內容修改至少 18 個月,讓數位保存 委員會閱讀並且消化、試驗其操作性、除錯,以及最重要的是提供關於資料字典 改進、增加價值及簡單運用的回饋。在此期間接收到許多機構的相關回饋,在 2007 年時,編輯委員會累積到一定程度的評論,因此決定進行第一次的資料字 典版本更新。編輯委員會的成員進行資料字典的修訂,在重新修訂的過程中致力 於滿足所有利益相關者。委員會討論保存社群的相關議題,並徵集對於改版的建 議,及諮詢外部專家的意見,PREMIS Data Dictionary for Preservation Metadata 第二版就在此過程中誕生。(PREMIS Editorial Committee,2012,p.2)

本 標 準 的 Framework 主 要 以 開 放 式 檔 案 資 訊 系 統 (OAIS) 參 考 模 組 (ISO14721)所建置。OAIS 資訊模組提供一概念性的基礎,提供資訊物件與典藏 物件的封包和他們相關的後設資料的架構的分類。Framework 可視為 OAIS 資 訊模組的精心之作,透過保存後設資料對應其概念性架構來闡述。PREMIS 可視 為將 Framework 轉化成資料字典中一組可執行的語意單元。然而,PREMIS 語 意單元比 OAIS 定義提供的要更具體,其期望從概念性架構進展至實際可運作的 架構。(PREMIS Editorial Committee,2012)

(二) PREMIS Data Model

為促進 PREMIS 後設資料元素的邏輯組織,本標準發展了一簡單的模組, 其包含在數位保存活動中有關的五種類型的實體:智慧實體(intellectual entities)、 物件實體(object)、事件實體(event)、權利實體(rights)、代理者實體(agents)。 在資料模型圖中,實體都以方型表示,他們彼此間的關係則以線表示。箭頭表現

(6)

4

的方向即是資料字典中所定義的關係,例如:箭頭自權利實體至代理者實體意味 著權利實體的後設資料包含語意單元,以辨別相關的代理者實體。雙箭頭意味著 相互連結的關係,見圖 1,並敘述如下:(PREMIS Editorial Committee,2012)

圖 1 PREMIS 資料模組關係圖

資料來源:(PREMIS Editorial Committee,2012) 1.智慧實體(intellectual entity)

一組連貫的內容其可被描述為一單元,例如,一部特別的書、地圖、照片或 是資料庫。一智慧實體可包含其他智慧實體,例如一網站可包含一網頁,一網頁 可包含一張照片。一智慧實體可能有一個或一個以上的數位表示法。((PREMIS Editorial Committee,2012)

2.物件(或數位物件)實體(object or Digital Object)

數位形式中資訊分離單元。物件實體細分為表示法、檔案、位元流,說明如下: (PREMIS Editorial Committee,2012)

 表示法:代表或具體化內容(intellectual)實體的數位物件。表示法是一組已 儲存的數位檔案及結構化後設資料,提供內容(intellectual)實體一完整且合 理的詮釋(rendition)  檔案:為作業系統所知已命名且有次序的位元組。  位元流:在檔案中的連續或非連續性資料,其具有保存目的屬性資訊。 3.事件實體(event) 智慧實體 物件實體 權利實體 事件實體 代理者實體 連結智慧 實體識 別 連結事件識別 連結許可 聲明識別 連結代理者識別 連結物件識別 連結物件

(7)

5

一動作包含 或影響至 少一個 物件或保 存機構 已知的代 理者(PREMIS Editorial Committee,2012)

4.代理者實體(agent)

與一物件的生命週期的事件中相關的人、組織或軟體程式系統或與物件相 關的權利(PREMIS Editorial Committee,2012)

5.權利實體(right) 關 於 一 物 件 或 代 理 者 的 所 有 權 或 許 可 權 的 聲 明 (PREMIS Editorial Committee,2012) (三)PREMIS 物件關係 典藏庫中的物件可與典藏庫中一個或更多物件有相關。PREMIS 利用語意單 元來支援物件間關係的敘述。PREMIS 工作組利用收集現有保存性後設資料計畫 的範例來探索,發現廣泛的關係表示,例如「從…移轉(is migrated from)」、「是… 縮圖(is thumbnail of )」等等。此外,工作組也檢視都柏林核心集(Dublin Core), 關聯(Relation)欄位,如是..一部份(IsPartOf)、是…的格式(is format of)等,總結 在物件關係中大多是三種基本關係的變異:結構的、來源的、附屬的,詳述如下: (PREMIS Editorial Committee,2012)

1.結構關係(Structural relationship) 結構的關係表現在物件間的部分關係。在檔案間的關係構成智慧實體的表現是必 要的保存後設資料。如果一保存典藏庫不能將數位物件回復原狀,則其未保存該 物件。例如:單一的數位物件(例如一張照片)結構資訊是很小的,由檔案構成表 示法。其他數位物件例如電子書和網站可能會有相當複雜的結構關係。 2.來源關係(Derivation relationship) 來源關係產生於一物件的複製或轉製。所產生的物件的智慧實體是相同的, 但是物件的形式等可能是不同的。當 X 形式的 A 檔案轉製產生 Y 形式的檔案 B, 則檔案 A 與檔案 B 間有來源關係。 許多數位物件是很複雜的,由於保存活動的關係使結構與來源資訊歷經時間 改變。例如,一本數位化的圖書可能由 400 頁 TIEF 影像檔呈現,之後可能轉製 成四個 PDF 檔案,每一檔案包含 100 頁。 物件間的結構關係在物件被典藏庫收入前能由來源動作所建立。例如,一個 文字處理的文件能分別被製成 PDF 檔案與 XML 檔案。如果僅 PDF 和 XML 檔案

(8)

6

提交至保存機構,這些物件是相同智慧實體的不同表現,與來源文字處理檔案有 母子關係。他們彼此間並沒有來源關係,但有結構關係如同血緣關係。(p.13) 3.附屬關係(A dependency relationship)

附屬關係存在於當一物件需要其他者來支援其功能、傳遞或內容的連貫性。 一物件可能需要字型、樣式表、DTD、圖解或其他檔案,其不是該物件本身正式 的一部份,但卻是必要的。資料字典將附屬關係視為環境資訊的一部份,在語意 單元中為 dependency and swDependency

(四)不同類型實體間的關係 資料模組圖示(如圖 1)以箭頭顯示不同類型實體間的關係。物件與相關的 智慧實體,物件與相關的事件,代理者與相關的事件等等。PREMIS 表現關係如 連結資訊般,如實體 A 的資訊指向相關的實體 B。在資料模組中的每一個實體都 有獨特的識別碼作為指向。例如,物件實體有箭頭指向智慧實體和事件實體。在 PREMIS 中 , 這 些 都 由 語 意 單 元 linkingIntellectualEntityIdentifier 和 linkingEventIdentifier 表示。(PREMIS Editorial Committee,2012,p.14) PREMIS 實體間關係:一比一原則(The 1:1 principle)詳述如下,(PREMIS Editorial Committee,2012) 在數位保存中,以儲存的物件產生新的副本或版本是很普遍的情況。例如, 前面轉製 X 形式的檔案 A 在一程式中輸入後可能輸出成 Y 形式的檔案 B。檔案 A 與 B 有兩個考量,考量之一為他們兩個都是一單一的物件,其歷史包含從 X 轉製成 Y,或是將他們看成是兩個不同的物件,其中的關係由轉置事件所產生。 1:1 原則在後設資料顯示每個描述僅描述一種資源。如同應用 PREMIS 後 設資料,在保存典藏庫中擁有的每一物件實體(檔案、位元流、表示法)被描述為 一組靜態的位元。改變一個檔案(或位元流或表示法 )是不可能的,僅能產生一 個新的檔案(或位元流或表示法)其與來源物件相關。例如,檔案 A 與 B 是不同的 物件,他們之間有來 源關係。資料 字典對於物件 的產生日期有一 語意單元 (dateCreatedByApplication),但對於一物件的修正日期則沒有,因為一物件在 定義上是不能被修正的。 當新物件來自於現存的物件,產生新物件這個事件應被紀錄為一事件,其將 會 有 一 日 期 / 時 間 標 記 。 物 件 間 的 關 係 應 被 紀 錄 ,使 用 與 物 件 實體 相 關 的 relationship 語意單元。 (五)PREMIS 的限制

(9)

7 1. 資料字典的重心不在描述性後設資料 描述性後設資料是用來描述智慧實體,例如智慧實體的產生者、產生日期、 描述、格式、權利、主題與關鍵字等,而保存性後設資料主要描述保存智慧實體 的軟硬體相關資訊、保存日期、保存方法等。所有保存典藏庫都會包含描述性後 設資料或是連結在典藏庫以外的描述性後設資料。描述性後設資料非重心的原因 有二:第一,描述性後設資料已有多個標準。MARC、MODS、都柏林核心後設 資料集、EAD 等都是描述性後設資料標準。第二,描述性後設資料通常是特殊 的領域。在國際上,目前多使用 METS 標準結合智慧實體的描述性後設資料與 保存性後設資料。(PREMIS Editorial Committee,2012)

2. 代理者(Agents)

PREMIS 並沒有定義代理者的特性。後設資料描述人們、組織和其他實體能 作為代理者,已在許多現存的格式和標準中定義,例如 MARC、vCard、MADS 和其他正在發展的綱要。只要保存機構能正確地辨別代理者,其他的代理者特性 將由需求決定。(PREMIS Editorial Committee,2012)

3. 權利(Rights)

PREMIS 僅定義權利的特性和保存活動相關的許可,與取用或散佈無關。修 訂版擴增權利資訊的 語意單元,並 允許延伸使用 外在權利後設資 料綱要。 (PREMIS Editorial Committee,2012)

4. 技術性後設資料(Technical metadata) 技術性後設資料描述數位物件的實體而非智能特性。詳細的、格式特定的技 術性後設資料在執行大多數的保存策略時,是必要的,但是工作組既沒有時間也 沒有專家,可獲取不同類型的數位檔案特定格式技術性後設資料。因此,在資料 字典中有限的技術性後設資料,其相信可應用於任何格式的物件。技術性後設資 料 的 更 進 一 步 發 展 將 留 給 格 式 專 家 。 延 伸 性 機 制 為 提 供 語 意 單 元 objectCharacteristicsExtension , 其 可 用 於 外 在 的 技 術 性 後 設 資 料 綱 要 。 (PREMIS Editorial Committee,2012)

5. 媒體或硬體細節 工作小組並未試圖定義媒體或硬體詳細的使用說明的後設資料。例如, PREMIS 為辨別一物件儲存的媒體,定義一語意單元。保存機構將可能想知道更 多有關使用媒體的詳細資訊。例如,典藏庫將資料儲存在 DVD 上,可能需要知 道特定 DVD 單元的特殊技術特性,例如製造廠商、染色素材和染色厚度。 PREMIS 將描述媒體與硬體特性的後設資料的定義留予該領域的專家。(PREMIS Editorial Committee,2012) 6. 業務規則(Business rules)

(10)

8 工作小組並未試圖描述典藏庫的業務規則,雖然此種後設資料在典藏庫中的 保存來說是必要的。業務規則編纂保存策略的應用和紀錄典藏庫的政策、服務、 任務和角色。保存期限、處置、危機評估、持久率、媒體更新時間表等等都是與 物件相關的但並非是 物件的實體特 性。唯一例外 是保存層級可紀 錄於物件 (preservationLevel),因為這對任何保存典藏庫都是關鍵的資訊。更多的業務規 則可透過定義規則實體(Rules entity),其近似權利實體,但目前並未包含於現在 這個版本內。(PREMIS Editorial Committee,2012)

二、OAIS 參考模組

開 放 性 檔 案 資 訊 系 統 參 考 模 式 (Refernce Model for Open Archival Information System , 簡 稱 OAIS) 是 國 際 標 準 組 織 (International Standards Organization,簡稱 ISO)所屬 NASA 的太空資料系統諮詢委員會(Consultative Committee for Space Data Systems,簡稱 CCSAS)於 1999 年所發展的一套標 準模式,並於 2001 年提出修正版。OAIS 模式是一個典藏系統的概念模型,可 應用於任何型態資料,尤其是數位資料的長期保存並提供檢索取用。它描述典藏 機構所處的環境、典藏機構本參的功能組成、支援典藏機構工作流程的資訊基本 架構等,同時也為對於數位典藏有興趣的不同領域人士,提高一種高層次的討論 語言。應用 OAIS 的機構,可以得到國際標準的種種好處,藉著使用共同的參考 模式、共同用詞及共同的概念結構,大家更容易分享想法及交換經驗。(王文英, 2003) OAIS 是「一個人與系統結合而成的組織,負責為特定社群保存資訊並提 供使用」,它同時定義數位典藏機構的功能模型及資訊模型。在 OAIS 描述的功 能模型中,數位典藏機構應具備的功能包括:檢索取用、行政管理、資料儲存、 資料管理、資料獲取及保存工作規劃,這些功能與資料產生者、使用者及館方的 互動,形成 OAIS 的功能模型。(王文英,2003) 依據 OAIS 參考模式的定義,可將數位典藏活動視為一個由 OAIS 典藏系統 本 身 , 加 上 資 訊 產 生 者 (producer) 、 資 訊 消 費 者 (consumer) 及 管 理 部 門 (management)等四個實體所組成的互動環境,如圖二所示。而 OAIS 典藏系統 又包含攝入(Ingest)、典藏儲存(archival storage)、資料管理(data management)、 行政管理(administration)、保存規劃(preservation planning)、取用(access)等六 種主要功能實體。此外,OAIS 參考模式中數位資訊係以資訊封包(Information package)的形式存在;而資訊封包依任務不同可分為三種:1.由資訊產生者傳送 給 OAIS 典藏系統的「投入資訊封包」(Submission Information Package,簡稱 SIP)2. 儲 存於 OAIS 典藏 系 統 中 的「 典 藏 資訊 封 包 」 (Archival Inforamtion Package,簡稱 AIP)3.當資訊使用者發出取用要求時,從 OAIS 典藏系統回應給

(11)

9

使用者的「遞出資訊封包」(Dissemination Information Package,簡稱 DIP)。(林 信成、黃文彥,2012) 三、長期保存政策發展現況與要項分析 Sheldon(2013)於 2013 年出版數位保存政策規劃的報告,其研究發現針 對 2008-2013 年之間 33 所機構中,檔案館佔 48%,11 所為政府機構、5 所為 學術機構。圖書館佔 45%,其中 8 所為學術機構,7 所為政府單位。而博物館僅 佔 2%,1 所為政府機構,1 所為非營利組織。以出版年份而言,2008-2010 年 之間出版 14 份文件,2011-2013 年間則有 19 份文件,從 2011 年後呈現急遽成 長趨勢。(Sheldon, 2013) Sheldon 重新分析 33 份政策後,提出 19 類標準,包含取用與使用、登錄/ 攝入、稽查(audit)、參考書目、合作(Collaboration)、內容範圍、詞彙/術語、命 令(Mandates)、後設資料/文件(Documentation)、政策/策略評估探討、保存模組 /策略、保存規劃、權利和限制管理、角色與責任、安全管理、選擇/鑑定、員工 訓練/教育、儲存、複製和備份、永續性規劃等。最常使用的標準包含保存策略/ 模組、合作以及內容範圍。最少被提到項目為:登錄/攝入、稽查和保存規劃。 (Sheldon, 2013) 數位保存的管理方面,Sheldon(2013)提到國會圖書館的機構發展主管認 為,電子文件管理及先前處理數位資料的經驗,直接影響檔案館、圖書館和博物 館的數位管理方式。1960 年代圖書館建置 MARC 機讀格式,使圖書館可在虛擬 環境中維護其書目資訊內容,並促使檔案館和博物館在幾年後也追尋相似的程序。 當檔案館和圖書館開始在機構中收集越來越多的數位內容時,管理電子文件的經 驗使他們有能力保存數位資料。 攝 取 入 用 典藏儲存/保存規劃 AIP 資料管理/行政管理 資訊產生者 (Producer) SI 資訊使用者 (Consumer DI 管理者(Management)

(12)

10

就數位保存經驗方面,博物館著重收集某些時間為主的媒體,維護由原件和 數位資料組成之混合式物件,然而檔案館和圖書館則是以數位化或原生數位館藏 為主。紐約 Rhizome 博物館數位保存人員 Ben Fino-Radin 曾說,在規劃數位保 存政策時,檔案館和圖書館是領先於博物館,乃因多數博物館多投入媒體藝術作 品的數位維護(conservation)。博物館的工作和圖書館、檔案館略有不同,以維 護媒體為主之藝術作品的實體和內容,以及藝術家的原意,需要特定維護措施。 (Sheldon, 2013)。因此,圖書館、博物館和檔案館這三類機構,在數位長期保 存管理或策略上,有互相學習、相輔相成的關係。 在保存政策所包含項目中,檔案館方面較特別的項目為詞彙/術語、安全管 理、儲存、複製和備份、政策/策略評論以及權利和限制管理。圖書館方面則是 較著重合作、參考書目、永續規劃以及後設資料/文件。博物館方面的政策則較 為簡略。(Sheldon, 2013) (一)長期保存政策之目的 英國國家檔案館出版「數位保存政策:檔案館指南」中提到,數位保存政 策目的意在表明為何典藏單位要進行數位保存,如下所示:(The National Archives, 2011)  保存數位文件的目的與動機。  數位保存如何能使檔案館達成其核心目的(例如作為一個記憶機構)。  數位保存如何與其母機構的策略目標保持一致(例如檔案館和地方政府)。  提高長期取用資料的效益,透過數位保存滿足經濟、名譽、再使用和文化危 機方面的需求 數位保存政策對於執行數位保存時也扮演權威性的角色,擔任連接典藏單位 與外部團體(例如合約者、文件的寄存者或捐贈者)的角色與責任,如下所述: (The National Archives, 2011)

 定義一組簡潔的成功標準,使之可作為對照。  定義數位保存活動的範圍,包含廣泛的文件種類。  定義檔案館何時以及如何鑑定數位文件,這些數位文件必須具有歷史價值且 符合技術特性才得以典藏。  辨識數位保存策略的存在(以及擁有者)。  指出在此數位保存策略中的任何標準。 以上項目都是檔案館以一致的框架來實現數位保存,不需再為其他資源或服 務來修正需求,因在政策中都已明述。政策也提供清楚的責任界線以便典藏單位 解決爭議。本文以兩所國家檔案館與一所地方檔案館所訂定之數位保存政策目的 (見表 1),作為檔案館訂定數位保存政策之參考。

(13)

11 表 1: 長期保存政策之「目的」範例 原始出處 長期保存政策之目的 英國國家檔案館保 存政策 (The National Archives, 2009,p.3) 長期保存政策的目的是陳述並引導英國國家檔案館館藏 之保管與保存的原則,提供英國國家檔案館在決策時全面 性框架,並作為程序發展的參考,本政策是關於數位文件 及複製品的所有格式與材料。 澳洲國家檔案館數 位保存政策 (National Archives of Australia, 2011) 政策聲明:澳洲國家檔案館確保澳洲聯邦檔案資源的長期 保存和可用性,這些檔案資源是以數位格式產生或管理 的。 政策目標如下: 澳洲國家檔案館的目標是保存任何類型的數位文件:  以任何類型的應用軟體產生的數位文件  在任何電腦平台所產生的數位文件  以任何數位媒體所傳遞的數位文件  從任何澳洲聯邦機構或眾所公認的個人文件寄 存者(個人文件是現任和歷任總理、部長以及其 他與聯邦政府相關的人的文件)  提供現在和未來查詢與取用 赤郡檔案館及地方 研究的數位保存政 策(Cheshire Archives & Local studies, 2010) 數位保存政策的目的是規劃如何達成保存數位材料的方 式,並釐清寄存者和其他典藏管理者預期從數位保存的服 務中獲得什麼。這個政策也解釋以目前的資源、基礎建設 和可取得的技能中,哪些服務是無法執行或保證的。 (二)數位保存政策與數位保存策略關係 英國國家檔案館於 2011 年出版長期保存政策指南,提供檔案館發展長期保 存政策參考。指南中提到政策和策略須確保可驗證及可信賴的方法,以保存數位 文件的完整性。依據數位保存的規模和複雜度,以小型組織為例,若須政策中部 份的策略,只要確認策略的改變,而不須要修改政策。(The National Archives, 2011)

數位保存策略廣泛由典藏單位所採用的方法,確保數位文件的內容保留於歷 時可用的形式。策略工作由辨識特定的時間與工具,將會決定數位保存活動的發 生。例如:(The National Archives, 2011)

(14)

12  移轉:檔案格式接近保存期限時,將移轉至更長久的格式。  攝入:當文件的檔案格式歷經定義好的正規化程序後,以更長久持續的 格式呈現文件的內容。 然而,數位保存政策必須能辨識保存策略和其擁有者。若強調策略和所定義 的保存活動,僅須要允許政策保持獨立性,不須要更新所造成的改變。表 2 顯示 數位保存之政策與策略關注的不同焦點。此為英國國家檔案館所舉之範例,非政 策或策略完整應包含的內容。(The National Archives, 2011)

表 2:英國國家檔案館政策與策略內容比較表 功能 政策 策略 數位保存的擁有權 ● 數位保存的策略聯盟 ● 數位保存的範圍 ● 角色和責任 ● 與其他政策的關係 ● 與其他文件的關係 ● 數位文件儲存的類型 ● 接受/優先的格式 ● 移轉的時機 ● 移轉的類型 ● 正規化的時機 ● 正規化的類型 ● (三)數位保存政策的範圍 在數位保存政策範圍方面,英國國家檔案館認為檔案館將從不同的來源得到數位 文件。因此,政策必須辨識其範圍,集中於數位文件相關的徵集和館藏政策。必 須要包含下列的陳述:(The National Archives,2011)

 作為保存之數位文件的類型(包含內容、結構和格式)。  從哪些機構或組織蒐集的文件。  這些文件的位置(指儲存和系統方面)。 數位保存政策清楚地詳述保存數位文件之蒐集和辨識的程序,則可優先確保 數位文件的館藏和維護是在政策的規範之內。同時檔案館也可拒絕典藏定義範圍 外的文件,例如一批館藏難以保存或超出保存的能力時。其他的可能作法是僅保 存館藏的特性,或建議他們寄存至其他檔案館。

(15)

13 在此,本文以英國國會檔案館保存政策與澳洲國家檔案館數位保存政策所訂 定之範圍(見表 3),作為檔案館制定數位保存政策之參考。 表 3: 長期保存政策之「範圍」範例 原始出處 長期保存政策之範圍 英國國會檔案館 保存政策 (Parliamentary Archives, 2009) 本政策應用至國會檔案館保管的數位形式資訊資源,可細分 為三大類 1.「原生數位」資源,因業務目的以電子形式產生與管理 2.「人造數位」資源,以非電子的形式產生,但之後因下列目 的而轉置為數位形式:  業務,在功能上等同於第一類  保存,因原始保存形式無法使用,例如由於實體損壞 或技術過時。這些在功能上等同於第一類。  取用 3.「再生」數位資源,以數位形式產生,因業務目的以非電子 形式管理(例如,在「印出為紙本」的政策下),但之後因業 務、保存或取用目的再數位化。這些在功能上與第二類的相 同。 數位資源包含數位文件和其他數位素材。數位資源可被視為 混合實體,包含內容和描述部分。  內容由原始應保存的物件構成  描述的部分由後設資料描述構成或其他與內容相關 的部分。 這些部分都是資訊物件,可能以位元流、位元流的一部分或 在電腦檔案系統中的一組位元流呈現。實體上,後設資料可 能與內容整合,或分開。本政策因此提供保存資訊內容物件 和他們相關的後設資料,維護兩者間的一致性,並產生新的 後設資料記錄所執行的保存程序 澳洲國家檔案館 數位保存政策 (National Archives of Australia, 2011) 依據 1983 澳洲檔案法,澳洲國家檔案館負責保存聯邦政府的 文件,以此形成聯邦政府的檔案資源。這其中包含原生數位 文件和傳統原件的數位保存典藏副本(master copies)。 國家檔案館僅接受來自政府機構的文件,並且這些文件經由 文 件 權 威 (Records authorities) 判 定 保 留 作 為 國 家 檔 案 (National Archives)(也就是永久保存),(「判定」是使用文 件權威或其他工具決定哪些要保留、銷毀或移轉文件的一個

(16)

14 原始出處 長期保存政策之範圍 程序。文件權威是由國家檔案館和機構特定核心業務公佈給 個別機構的。) 在例外的情況下,澳洲國家檔案館將接受未經辨識文件價值 的文件,例如具有風險的文件或被認為是重要的資源。 澳洲檔案館不保存用來產生、管理或呈現數位文件的方法, 例如文件管理軟體。澳洲國家檔案館接受從系統中輸出的數 位文件和他們的後設資料,但不輸出系統本身。 (四)數位保存政策的責任與角色 英國國家檔案館數位保存政策指南中提到定義角色和責任是必要的,以此辨 識典藏單位中誰應負責管理和保存數位文件。 這個政策辨識誰應該負責數位保存,以及對他們的期待。如果是非真實的期 待,將會使保存真實數位文件的目的落入風險。為避免如此,在政策發展的期間, 應諮詢所有可能涉入的人。這將使典藏單位評估自己或預期的合作夥伴是否真實 可支援數位保存。指南將責任和角色分為三大類:(The National Archives,2011) (1)數位保存的擁有權 若要使保存政策發揮效能,保存政策在典藏單位中必須擁有高階地位,使數 位保存政策可進行策略決定,並對數位保存有長遠影響。 (2)服務提供者與合約者 典藏單位可能需要外來的協助,以執行數位保存活動,彼此間的關係需要清 楚辨識,並期待服務層級具正式同意和記錄,以確保所有合作夥伴的可靠性。當 採用服務提供者時,很重要的是委託之典藏單位仍保留負責數位文件。 (3)寄存者/捐贈者 數位文件的寄存者/捐贈者將需要確保文件以適當的狀況提交至檔案館,政 策需要陳述接受寄存之數位文件時的需求,包含提供數位保存相關文件(例如可 接受或優先的檔案格式清單,以及最小描述和技術性後設資料)等相關的文件, 以及廣泛的徵集或館藏問題(例如文件是否符合檔案館徵集和館藏政策的標 準)。 本文以英國國會檔案館保存政策所訂定之責任和角色(見表 4),作為檔案 館制定數位保存政策之參考。

(17)

15 表 4: 長期保存政策之「責任與角色」範例 原始出處 長期保存政策之責任和角色 英國國會檔案館 保存政策 (Parliamentary Archives, 2009) 執行數位保存時,隨著時間變革需要與國會外部的單位合作。 廣泛而言,國會檔案館將負責設立、維護及監控、數位保存 策 略 和 政 策 、 徵 集 及 館 藏 政 策 、 技 術 監 控 (Technology Watch ,with PICT)、保存規劃、保存行動(with PICT)、及呈 現(with HC 及 HT 資訊服務)。PICT 將確保 ICT 策略及所有 的 ICT 計畫都依循本政策及相關的標準。內容產生者將負責 確保數位資源的產生與管理都依據本政策及相關的標準。詳 細的角色與責任將是數位保存計畫的一部份。 (五)數位長期保存政策和其他政策的關係 數位保存政策在執行和實現數位保存活動時,必須考量的其他政策。詳述這 些政策之間的關係,並指出其他政策的優先順序。英國國家檔案館數位保存政策 指南,以表列出組織可能已建立的重要政策(詳表 5),對於數位保存將有影響, 因此必須作為數位保存政策的參考。(The National Archives, 2011)

表 5: 長期保存政策與其他政策之關係表 政策 關係 接受/優先的檔案格式 的清單 檔案館將接受的軟體檔案格式清單(例如 pdf-A, .doc 等)。這份清單並非固定不變,應定期檢視與更新,以 反應技術變革和組織的需求。 徵集/館藏政策 檔案館必須決定數位文件是否具有典藏價值、符合蒐 集範疇。這些決定應遵循徵集或館藏政策,以確保文 件是與檔案館和其使用者有關。 傳統保存政策 不論其格式為何,皆承諾提供傳統文件適當的保存, 強調整體檔案館藏的保存的需求。 文件管理政策 文件管理政策協助典藏單位管理自己的數位文件,並 釐清聚集和處置的方法。 這些原則具有相關性,而且可能用來管理儲存已組織 且聚集的數位文件。 數位永續性和資訊保證 政策 數位永續政策定義資訊應如何管理,以確保資訊對典 藏單位而言,仍可使用,且為完整可取用的。 對於所典藏之數位文件合理地使用相同程序,使典藏 單位可一致性地管理所擁有的 IT 系統。 資訊自由/資料保護政 策 2000 年資訊自由法案和 1998 年資料保護法,兩者 影響數位保存如何管理或傳遞。

(18)

16 政策 關係 數位保存政策必須辨識典藏單位在處理這兩個法案 的政策,以回應資訊需求的權威性。 資訊安全政策 為保護典藏單位的資訊財產,在資訊安全政策上將規 劃特定的需求。 這些規則必須反映於數位保存政策中,以維護典藏單 位的資訊安全不中斷。 著作權政策 在英國著作權法律下,無權產生文件的副本,除了某 些限定的目的之外。當檔案館不是著作權擁有者時, 著作權政策必須納入典藏文件的考量。 標準作業程序(SOP) 標準作業程序應提供執行數位保存任務的程序和教 學,以標準方式保護數位文件的完整性。 這些標準作業程序建立成果的標竿,可與現有的成果 作為對照。 服務層級協議(SLAs) 數位保存的服務層級協議應指定層級和提供支援的 範圍,以管理數位保存策略中的部份或所有程序(例 如:從 ICT 提供者獲得的支援管理用來儲存數位文件 的伺服器) 系統發展 新系統或軟體的發展可能會造成產生新型態的數位 文件。數位保存政策對早期負責數位保存者,應提供 授權。 檔案館若盡早評估數位文件(例如在產生階段),就越 能準備與瞭解數位文件最佳的保存方式。 正式的合約 正式合約適當地強迫服務提供者負責,也可由數位保 存政策強被作為同意合作的證據。 這個協議對中斷所同意之服務層級,應提供特定修正 方式。 (六)數位長期保存政策的評估與監控 數位長期保存政策應定期檢視政策的需求(不要超過三年),以確保政策和 組織的數位保存能力,以及更大的業務目標仍是相關的。政策應成為廣大監控程 序的一部分,以辨別數位保存中的任何弱點或需要改變的方法。在執行期間,政 策制定後仍需持續檢視以確保其相關性與有效性。(The National Archives, 2011)

本文在檔案館制定數位保存政策之評估與監控方面,以英國國會檔案館、英 國國會檔案館與赤郡檔案館及地方研究三者,列舉有關長期保存政策之評估與監 控項目(見表 6),提供參考。

(19)

17 表 6: 長期保存政策之「評估與監控」範例 原始出處 長期保存政策之評估與監控 英國國家檔案館 保存政策 (The National Archives, 2009) 英國國家檔案館的館藏維護部和數位保存部將每年重新評 估保存政策。作業與服務的執行者,是策略風險擁有者和風 險改善管理者,將會向國家檔案館審查委員會提供定期保證 英國國家檔案館檔案文件館藏的整體性,並有效控制緩和遺 失、損害。 英國國會檔案館 保存政策 (Parliamentary Archives, 2009) 國會將發展與執行符合此政策的監控方式,並將執行定期稽 查。這些稽查將用來評量執行政策執行的有效性,辨識未來 的優先性,以及通知政策的未來評估。 此政策至少每兩年依環境變遷因素來做評估。將由國會檔案 館,聯合上下議院的資訊服務部門,以及其他典藏管理者進 行檢視。其他的評估將視之後的改變而定。 赤郡檔案館及地 方研究的數位保 存政策(Cheshire Archives & Local studies, 2010)

最佳實務做法和技術發展在此領域變化快速,因此,政策需 要每年重新做審查,修改不足地方,以因應新的問題產生。

(20)

18 肆、研究方法與步驟 一、研究方法 本研究以文獻分析法、深度訪談法及個案研究法進行研究問題的探討: (一)文獻分析法 文獻分析法是以「系統而客觀的界定、評鑑並綜合證明的方法,其主要目 的在於瞭解過去、洞察現在、預測將來。」(葉至誠、葉立程,1999,p.138) 本研究欲蒐集國外數位保存相關之研究計畫、政策、後設資料、作業流程 等相關書籍、期刊、論文、工具等,藉由文獻探討來了解國外的發展情況與現況, 以此建立本研究的基本架構。 (二)焦點座談法 以焦點訪談法了解中研院台史所檔案館、中研院史語所、故宮、台大數位人 文中心、檔案管理局、國家圖書館等現形數位檔案保存政策、作業方式、使用的 工具、檔案格式等等,透過焦點座談了解目前數位保存作業執行的現況與困境。 (三)個案研究法 個案研究法之目的為:(1)透過相關資料之蒐集與分析,深入瞭解所欲探討 個案之問題,並找出全方位的問題解決模式;(2)同時邀集相關人員透過溝通與 協調,取得共識,並就份內工作針對問題進行適度地調整並配合之;(3)並透過 召開個案研討會,相互分享經驗,以增進其專業知能。由此可知,其目的不僅在 探究問題的癥結所在,且希望能夠更具體地歸納得出適當的因應對策,並引導將 解決問題的方案付諸相關的行動。(陳姿伶,2003) 本研究專注於數位保存策略的制訂與數位保存系統建置,以台史所檔案館作 為深探此議題的輔佐例證之分析,焦點在於議題或事件而不在個案本身,因此屬 於工具性的個案研究(instrumental case study),即個案的作用只是輔助進行議 題或事件探討的工具而已。 本研究先透過深度訪談了解國內典藏單位目前數位保存的策略、實際措施、 流程,並分析其實際作業問題,再參酌國外數位保存策略或標準,利用 Archivematica 系統作為數位保存系統原型,產出符合國際保存性後設資料標準 的XML,以訂定合適的數位保存策略與作業流程,並依據實測結果,修正數位 保存策略與作業流程。 二、研究限制 本研究國內相關文獻甚少,國外機構數位保存實際案例與作業方式取得不易,

(21)

19

由於時間及經費限制,國外實作案例僅能以網路上可獲取之免費數位保存軟體作 為實驗工具。

(22)

20 三、研究工具 圖 2:研究程序流程圖 訂定數位保存策 略、作業流程 研究開始 蒐集文獻資料 決定論文題目及範圍 整理、分析相關文獻資 Archivematica 系統 研析及建置 焦點座談 國內重要典藏單位 系統實作測試 綜合分析、整理 結論及建議 研究結束

(23)

21

伍、Archivematica 軟體研析

Archivematica 為 Artefactual Systems 與聯合國世界記憶之科技委員會、加 拿大溫哥華市立檔案檔、哈佛商學院貝克圖書館、紐約現代藝術博物館(MoMA)、 哥倫比亞大學圖書館、洛克斐勒檔案中心、耶魯大學圖書館、密西根大學班特列 圖書館等眾多合作者共同合作發展的長期保存軟體。Archivematica 於 2013 年 5 月1 日發佈 0.10 版軟體,至 2014 年 10 月 24 日發佈 Archivematica 1.3.0 版軟 體。(Archivematica, 2014c) Archivematica 這套數位保存系統,將數位物件攝入典藏庫作為檔案典藏, 並提供典藏資料的取用,此一整體流程以自動化的方式呈現,主要是透過網路為 基礎的後台管理,以圖形化介面,並協調一整套的微服務,產出符合國際標準的 長期保存後資料,以作為查詢和交換分享之用。

Archivematica 整合數種開放原始碼的工具,例如 FITS、 OpenOffice、 FFmpeg,、 Clam Antivirus 使用其內部 microservices 框架,並利用開放、標準化的格式,例如 METS, PREMIS, BagIt 確認長期、標準化為基礎來管理和取用儲存於 AIP 的內容 和後設資料。內容攝入 Archivematica 稱為「移轉」:包含將保存的內容,描述這 些檔案的後設資料、”submission documentation”(liscenses 和其他行政文件)。 移轉會結構化內容,準備重新封包成為 SIP,然後轉為長期保存的 AIP,如果可 提供給一般使用者使用,就會產生 DIP。 Archivematica 將上述步驟切為一系列結構化任務,在系統中稱為微服務。每 一組任務,人管理人員必須做一些決策,例如正規化上傳的檔案以作為保存、取 用,是否要認可正規化的結果,利用附加的描述性後資料來移轉,並儲存為 AIP。 Archivematica 的保存策略為以正規化檔案作為保存與取用格式。保存副本會 加入 AIP,取用副本用來產生 DIP 上傳至取用系統。原始檔案始終都作為保存, 允許在未來時進行不同的保存動作,例如正規化為不同的檔案格式或模擬。但不 是所有 的數 位物 件都 可在 攝入 時正 規化 ,某些 數位 物件 例如 CAD 圖檔或 Microsoft Visio 檔案,沒有 Linux 的 opensource 工具可處理轉置,也沒有一致的 保存格式。除此之外,有些格式例如 Microsoft Word 文件不必然是最好的儲存 格式,旦仍是普遍存在且良好支援,他們目前不需要正規化。在這些案例, Archivematica 預設是保存他們原始格式。格式風險評估和資訊由我們的使用者 來取得,經過時間後,將允許人工延伸預設,透過Format Policy Registry or FPR 包含更多格式。(Archivematica, 2014f)

(24)

22 雖然本計畫進行時,已有 1.0 版系統,但系統釋放不久後即發現其開放原始 碼有錯誤,因此 Artefactual systems 暫時關閉所有分享,是故本計劃選擇 0.10 版本之系統作為測試版本。以下將就 0.10 版本之功能與流程做一介紹: (一)移轉 移轉是將數位物件移轉成為 SIP 的過程,Archivematica 允許以作業系統瀏 覽器或網路介面進行移轉。要移轉的來源檔案,不能使用網路介面做上傳:必須 要透過Archivematica 伺服器存取。Archivematica 允許你指定”source directory”。 在”source directory” 裡 面 放 置 將 作 為 移 轉 的 檔 案 及 目 錄 。 一 種 方 式 為 在 Dashboard 的 Transfer tab 中,使用者將數位物件透過 Storage Service 從來源目 錄移動至Archivematica。另一種方式則是在開始處理前,先建立結構化的目錄, 應包含三個子目錄:logs, metadata, objects。Metadata 目錄包含 checksum, METS file, 以及 submissionDocumentation 子資料夾,可作為 transfer form, 捐贈協議 或其他與徵集檔案相關的其他文件。Logs folder 包含在 Archivematica 中處理移 轉時產生的 logs。在 objects 資料夾中可建立任何需要的子目錄。submission documentation 資料夾中的檔案可為捐贈協議、移轉表、著作權同意書和其他與 移轉相關的文件、信件。從這次移轉的任何SIP 封包都會自動包含這些文件的副 本。在 tansfer tab 中,在下拉式選單可選擇移轉類型,其包含:標準、未壓縮 封包、DSpace and maildir。(Archivematica, 2014g)

當我們在準備移轉封包的內容時,封包中數位物件相對應的後設資料必須以 csv 檔案呈現,在移轉時將檔案名稱命名為 metadata.csv。Archivematica 對於 csv 檔案的規範如下:(Archivematica, 2014h)

 第一個原始的 csv 檔案組成欄位名稱。欄位名稱不可包含 spaces  Dublin Core 欄位名稱必須包含”dc”於名稱內,例如”dc.title”  對每一目錄或檔案,包含完整的欄位值  對多值欄位(例如 dc.subject),重複整欄,每一欄包含單一值  單一物件的 metadata,csv 檔案必須包含”fileneame”列出每一物件的檔 案名稱和檔案路徑,例如:”objects/BrocktonOval.jp2”  複合物件的後設資料,csv 必須包含”parts”欄列出形成複合物件的 包含物件(items)之目錄名稱,例如”objects/Jan021964”  檔案名稱可重複在其他子目錄中的檔案名稱。例如”page01.jp2”可在 多個子目錄中發生

(25)

23

(二)建立SIP

確認移轉後,Archivematica 為建立 SIP 欲進行的微服務,包含(Archivematica, 2014g):

 驗證符合移轉(驗證移轉為適當的結構化—例如具有 logs, metadata and objects folders)

 以transfer UUID 重新命名(指派唯一識別碼給此次移轉;移轉時會跟隨其 metadata)

 指派 file UUIDs 以及對 object 進行 checksum(指派唯一識別碼,以及對在 /objects 目錄中的每一各檔案進行 sha-256 checksum)

 驗證移轉的checksum(驗證在移轉時 metadata 目錄中的任何 checksum)  產生METS.xml 文件(擷取移轉的原始順序產生 METS file。METS file 從移

轉時會加入於任何產生的SIP 封包)

 Quarantine (隔離)(隔離移轉的時間,依據 administration tab 所做的前端配置, 允許在病毒掃描前更新病毒定義  掃描病毒(掃描病毒和惡意軟體)  淨化檔案和目錄名稱(在資料夾和檔案名稱中移除禁止的character 例”&”)  辨別檔案格式(辨別是否需要正規化,使用者可選擇FIDO 或於此階段跳過 或延伸辨識格式)。見Format identification  取得封包(從呀所檔或其他封包檔案摘錄內容):你可改變你預先配置的工 作流程設定,允許關於封包摘錄的某些選擇。詳Extract packages

Characterize and 摘錄 metadata(辨別與驗證檔案格式;摘錄內嵌於檔案的技 術metadata)。如果有預先配置這些流程, Archivematica 在 micro-service 時將會停止,允許使用者從下拉式選單選擇檔案辨別的指令。預先配置選項, 見administrator manual 1.1-processing configuration。Archivematica 預設 的檔案辨識,以file extension 作為辨識。你可選擇略過辨識,之後再運作, 在攝入時才運作。 移轉在處理過程中將顯示微服務已完成為綠色,若在處理中為橘色。當微服務失 敗或遇到錯誤時,微服務的背景色從綠色轉為粉紅色,並在移轉旁或SIP 名稱旁 顯示”failed”。 一旦微服務完成,移轉旁會顯示鈴鐺icon。意味著移轉已封包成為 SIP 可作為攝 入或送至backlog、索引並儲存作為日後處理時可檢索。

(26)

24

Option 1:選擇”建立 SIP 並持續處理”(附註手動產生 SIP 非目前功能。從 一個或多個移轉建立一個或多個SIP 將會作為改善功能。)

Option2:選擇”send transfer to backlog”。移轉將會於儲存 AIP 之同一地點 儲存backlog,如此就可以檢索從攝入後的一個或多個移轉。

Option 3:選擇”reject the transfer” (三)攝入

攝入時,數位物件會封包於 SIP 中,透過數個微服務運轉,包含正規化、封 包成為AIP,並產生 DIP。在攝入時,系統會提醒你要填入後設資料,以 Dublin Core 元素為欄位,僅能於 SIP 階段填寫後設資料。另一組的後設資料為 PREMIS Rights 欄位,但若想對封包中個別數位物件加上 Rights Metadata,則需要在物 件上傳至自己的取用系統時才作。(Archivematica, 2014e) 正規化是轉置攝入的數位物件作為保存及取用格式之過程。原始物件會與正 規化版本一起。正規化階段,SIP 將顯示為鈴鐺圖示,從下拉式選單選擇一種正 規化:  正規化作為保存和取用:產生物件的保存副本,以及取用副本,將來可 用來產生DIP  正規化作為取用:不產生保存副本。產生取用副本,將用來產生DIP  正規化作為保存:產生保存副本。不產生取用副本,也不會產生DIP  不作正規化:不產生保存副本。不產生取用副本,也不產生DIP  你也可能在此階段拒絕SIP 1. 一旦正規化完成,可在正規化報告中檢視結果。點選 report icon 報告顯示什麼已經完成正規化,且什麼已是可接受的保存和取用格式 2. 在 Review tab 可檢視正規化成果,可用瀏覽器檢視檔案,若瀏覽器無法開啟, 將會下載至本地端,你可用自己電腦上適當的軟體來看。

3. 處理 SIP 時,在 Actions 下拉式選單,認可(Aprrove)正規化。你也可拒絕 SIP 或再次正規化。

 如果在正規化中看到錯誤,在Error handling 了解問題 (四)METS 封包

組成 AIP 的 METS file 資料目錄,以及三個資料夾:logs, objects, and tubnails。 METS file:/data/METS.uuid.xml 包含完整的 PREMIS(詳 PREMIS metadata for original file, PREMIS metadata: normalized files, PREMIS metadata: events, and PREMIS metadata: rights )(Archivematica, 2014b)

(27)

25

 METS file 的角色是連結原始物件至他們保存的副本,以及描述和 submission documentation,並連結 PREMIS metadata 至 AIP 中的物件

 Logs:/data/logs contains the /transfers directory,正規化 logs,惡意軟體掃 描 log,以及摘錄 log(從未封包的封包)

 /transfers 目錄包含從處理到每次移轉的紀錄,此為 SIP 在移轉工作流程 中的一部分

 Objects:/data/objects 包含原始物件、正規化物件,/metadata and

/submissionDocumentation。如果在 SIP 終有任何低層次的目錄,目錄結構會 維持

 /metadata 包含/transfer,包含在移轉時匯入的任何後設資料

 /submissionDocumentation 包含每次移轉時的 submission documentation,其 為 SIP 的一部分,以及每次移轉的 METS.xml 檔案。移轉的結構地圖最 接近移轉的原始順序

 Thumbnail: /data/thumbnails 包含在 AIP 搜尋介面檢視,所產生的任何 thumbnail (五)儲存AIP 或 AIC

當管理人員認可正規化後,SIP 運轉數個微服務,包含處理 submission documentation,產生 METS 檔案、索引、產生 DIP 和 AIP 封包。當這些微服務 完成時,使用者可上傳DIP 至取用系統,並儲存 AIP 封包。一旦完成攝入,在下 拉式選單選擇地點以”Storing AIP”,並壓縮與 zip AIP,並移動至檔案儲存。 (Archivematica, 2014d)

因為資料集和數位物件館藏可能很大量,且為異質性,一個資料集或數位物 件館藏可分成多個 AIP。這種情形時,多個 AIP 可智能地整合為一個 AIC 或 Archival Information Collection,由 OAIS 模組定義為”AIP 的內容資訊(Content Information)是其他 AIP 的聚集”。基本的 AIC 在 Archivematica 由任何數量的 相關AIP,以及一個METS 檔案包含fileSec以及邏輯結構圖列出所有相關的AIP。 (Archivematica, 2014a)

產生AIC 的步驟如下(Archivematica, 2014a): 1. 產生 AIPs

1.1 攝入標準移轉的 metadata 和 data files 1.2 在正規化微服務時,點選 metadata 1.3 在 Meatdata 之下,點選 add

(28)

26

使用metadata entry template 產生 AIP 內容的詳細描述 1.5 點選 Create 按鈕

1.6 回到 Ingest,完成處理並將 AIP 放入檔案儲存

1.7 重複 1.1 到 1.6,產生需要的 AIP。在 1.4 步驟確認輸入相同的 Part of AIC, 如果所有的AIP 都指定加入相同的 AIC。

1.8 一旦所有的 AIP 都放入儲存,打開 archival stroage。 2. 產生 AIC

2.1 以相同值的 Part of AIC 檢索所有的 AIPs,輸入 AIC#輸入於搜尋欄,選擇 Part of AIC 作為搜尋欄。在右邊,選擇 Show AICs?,點選 Search Archival storage。螢幕會顯示搜尋結果。

2.2 產生 AIC 包含所有搜尋結果的 AIP,點選產生 AIC

2.3 在 metadata entry template,至少要填入 title 和 Identifier。Identifier 必 須如AIC 號碼的結構。如果需要時,可產生更多 AIC 內容描述

2.4 點選 Create。回到 Ingest。當 AIC 顯示時,認可 AIC 2.5 持續處理 AIC,並置放在檔案儲存

在 Archivematica 系統中,不論是 SIP、AIP、AIC 等因系統自動產生完整的 METS xml 及每一在系統所執行的微服務皆記錄於 PREMIS Metadata 中,因此皆 可進行搜尋,有兩種搜尋方式,一為以 File UUID, File path, File extension, AIP UUID and AIP name 等欄位做查詢;另一種方式為依關鍵字或片語搜尋。(Archivematica, 2014d)

若需要刪除已產生的 AIP 或 AIC,則系統會詢問刪除之原因,並將刪除需 求送至Archival Storage Service 管理員,如果管理員認可需求,AIP 將可從 AIP Storage 中刪除,索引也會更新。如果管理員拒絕需求,AIP 將會保持儲存。 (Archivematica, 2014d) 陸、 國內典藏單位數位長期保存管理現況 本研究為了解國內重要典藏單位進行多年數位典藏與數位學習國家型計畫 後,關於長期保存數位化檔案的策略,並且是否有遭遇任何的困難。本研究先與 中研院台史所檔案館進行深度訪談,以了解訪談大綱是否需要修正,之後邀請中 研院史語所、國家圖書館、檔案管理局、故宮博物院、台灣大學數位人文中心進 行焦點座談,此外,國史館則是以答覆問卷的方式參與本次研究。

(29)

27 一、 各典藏單位的原始資料與已完成數位化資料之比率 (一)實體館藏量不斷增加,難以估算 中研院史語所、檔案管理局和國家圖書館、故宮皆因每年實體館藏資料不 斷增加,使整體母數不斷擴張,而無法估計已完成數位化比率。例如,中研院史 語所的內閣大庫檔案必須先經整編才能納入館藏統計,而考古文物也是每年不斷 有新發現的文物,但至102 年已產出超過 110 萬件的數位化圖檔,以及近 60 萬 筆的後設資料,共計10 個資料庫。檔案管理局每年徵集入庫的檔案數量遠比進 行數位化的檔案要快且多,目前數位化比率大約為5.71%。而國家圖書館送存的 資料類別非常多,數位化比率依照各種不同資料類型而完成度不一,主要以特藏 文件為優先,再以主題性方式進行數位化,另外,國家圖書館與其他典藏機構較 不同的是還典藏電子論文資料、電子書、電子公報等。 (二)以典藏數位檔案為主 中研院台史所檔案館因庫房典藏空間較小,大多和其他單位合作數位化, 並共享數位化成果,因此以典藏載體以數位化檔案居多,例如與國史館台灣文獻 館合作數位化臺灣總督府公文類纂、專賣局的檔案;和省諮議會合作省諮議會檔 案。另外,台史所檔案館典藏的民間文書、土地契約等進行數位化,整體數位化 的檔案超過台史所檔案館實體館藏的 9 成。另一特別例子為台大人文數位中心, 該中心主要提供數位化技術與系統建置,原實體館藏仍典藏於台大各個系所或典 藏機構。 二、 典藏數位化檔案時的考量因素 (一)典藏數位化檔案的格式與畫素 各個典藏機構會因其母機構性質不同,對於數位化檔案格式與畫素要求相 異,以中研院所屬的史語所和台史所檔案館而言,皆以學術研究為主要目的, 並遵循國家型計畫所訂定的規範,文字類檔案以300 dpi 為主,而圖像類則以 600 dpi 為主。在提供瀏覽級數位檔案時,台大數位人文中心以及國家圖書館 皆為提供150dpi 的 JPG 檔。 若為提供日後各種應用所需的檔案時,各典藏機構因應方式不一,例如中 研院台史所檔案館在典藏級TIFF 檔之外,會再轉出一份 JPG 300 的檔案,並 將JPG300 的檔案上傳至系統,並依據不同資料尺寸、類型再壓縮為瀏覽級檔 案格式,因此無統一瀏覽級檔案規格。而故宮因有出版展覽目錄、輸出海報等 需求,因此在最初數位化時即盡可能產生所有檔案格式,以備未來應用所需。

(30)

28 檔案管理局的影像規格依據文書及檔案電腦化作業規範辦理,原始檔案數 位化的規格以300dpi 為主,並分為彩色與黑白兩種格式,而線上簽核的公文 則主要子常見且可在線上處理的檔案格式為主。另外,國家圖書館還典藏視聽 資料,在永久保存方面以mpg4 格式為主。 (二)數位化檔案著錄的後設資料標準及檔案命名原則 典藏品種類較多元豐富的機構,例如中研院史語所和台大人文數位中心, 其各類典藏品群會參考國際標準後,自訂後設資料欄位與著錄規範,並未採用統 一的後設資料。而檔案命名原則也是相似的情形,依據各類典藏品特性訂定命名 原則,例如中研院史語所各類型典藏品有各自命名原則,而台大數位人文中心亦 是,並從系統端的部份進行資料的互通分享。 而以檔案為主的典藏機構,中研院台史所檔案館分有古籍系統和檔案系統, 古籍系統訂有圖書書目和期刊篇目二種不同的DTD,檔案系統則是參考 DACS 與 ISAD(G)訂定 DTD,再轉出符合 EAD 的 XML。國史館與檔案管理局之國家檔 案目錄採用 EAD 標準。在檔案命名原則方面,各機構大多依據檔案層次進行檔 案編碼,因各機構檔案編排與控制層次的詳簡不一,而編碼長度也不一。 國家圖書館雖然典藏品種類眾多,但後設資料標準以Dublin Core為主; 故 宮在器物和書畫類方面的典藏品以 CDWA 作為為主要後設資料標準並做在地化 修改,而其圖書文獻處的資料則是以 MARC 為主要的後設資料標準。此二機構 在檔案命名原則方面,都有其各自的命名原則與規範。 (三)數位典藏資料庫系統建置 各典藏機構開發之數位典藏資料庫,大多請廠商建置,在進行多年數位 化工作後,某些機構開始進行系統的整合,例如中研院史語所和故宮。表 7 為 各典藏機構系統建置情形。 表7 各典藏機構系統建置方式 典藏機構 系統 備註 中研院台史 所檔案館 XDCM 核心平台 中研院史語 以Oracle 資料庫建置,前端以 2014 年起委託大

(31)

29 典藏機構 系統 備註 所 JSP 做介面設計 鐸公司整合11 個 資料庫 台大人文數 位中心 自行開發,也有寫DAM 檔案管理局 不同的原生與再生資料,使用 不同的管理系統,不同的管理 應用系統所對應的資料庫 dpms 就會不一樣,例如國家檔 案影像處理 dpms,檔案局則是 使用 microsoft 的 SQL2008r2 版 本 考量原因:價格, 因 dpms 是可以做 變更的 國家圖書館 MAS4、MySQL、debate 等 故宮 數位媒材管理系統式與自動 化系統結合,自動化系統就可 以直接點選原始的 TIFF 檔、jpg 檔 2013 年將 5 個系 統進行整合,仍可 提供數位媒材的 DAM 國史館 JAVA:JDK1.5、Hibernate 3.0 、Spring 2.0 Apache Tomcat:5.5 以上(或 同等級) 作業環境:Microsoft Windows 2008 Server(或同等級) 資料庫:Microsoft SQL Server 2008(或同等級) 三、 數位資料的保存管理 關於數位資料的保存管理,包含數位化檔案儲存管理方式、檔案損壞與復原 方式、應用軟體過時問題、格式移轉或轉置策略,分述如下: (一)數位化檔案儲存管理方式 中研院台史所檔案館將典藏級 TIFF 檔僅作為保存使用,並以 DVD、Hard Disk Drive 作為保存,也有部分檔案上傳至中研院計算中心。在典藏系統中的檔 案都是300dpi 的檔案,並會做備份磁帶和 Disk Arrays,而系統則會針對不同使

(32)

30

用需求批次轉出可查看目錄的最小縮圖,以及提供給讀者的瀏覽級圖檔。DVD、 Hard Disk Drive 的保存資料內容都是一樣的,有 TIFF 檔與 JPEG 檔,在典藏系統 裡面,磁帶和磁碟陣列就只有 jpg 檔,它會自動轉出瀏覽級與縮圖。但 DVD 很 佔空間,都放置於庫房的櫃子上,異地備援就是電腦計算中心,或給予合作單位 也持一分檔案備份。 中研院史語所數位化檔案,以硬碟和光碟為主,遵循國家型計畫的異地備份 機制進行異地備份,以虛擬的磁碟陣列作為管理。主要備份於所內儲存空間(包 括文物館402 機房、傅斯年圖書館等),完成後製後,會依循國家型計畫異地備 份的機制,上傳至備份空間。 台大數位人文中心,關於檔案的儲存規定至少有兩種的備份,不論是硬碟、 光碟、陣列皆可,總機在台大校園裡,異地備援在水源校區,但異地備援距離是 不足的。與中研院也有合作一個異地備援的機制,不過國家型計畫結束後,這部 分合作也就終止了。 檔案管理局方面,數位掃描後的檔案儲存於光碟和硬碟,系統備份於磁帶, 並直接備份至 NAS 系統。發生資料毀損時,以光碟和硬碟重新讀取資料; 若是 系統功能毀損,則是以 NAS 系統或磁帶做復原。在異地的部份,因目前影像檔 過大,僅做異地備份,未做系統備援,但重要系統備援則是台北與台中同步操作。 不同年代完成的光碟資料,轉入國家檔案資訊系統後,會依備援機制決定是否進 行異地備援。 國家圖書館進行數位化檔案掃描時,會儲存於 DVD、Hard Disk,一份備份 儲存於網路上,會定期備份至 Hard Disk,但有的存放於磁碟陣列。目前異地備 份位於資訊圖書館,一部分位於書庫。異地備援位於宜蘭大學,但僅網頁電子書 送存系統、ISDN 系統、館藏系統有做異地備援。 故宮的數位化檔案備份總共有 4 份,主要儲存於磁碟、磁帶(原為 LTO2, 現更換為 LTO5)、DVD(DVD 於 2013 年都轉置為藍光,燒錄第二份的 LTO 帶), 在故宮南院進行異地備份,待故宮南院興建完成後,會再進行異地備援。基本的 檔案備份,皆是磁帶再加一份備份。 (二)數位化檔案損壞之復原方式 在焦點座談中,各典藏機構提到多種數位化檔案損壞的情形,本研究將之歸

(33)

31 為四類,如下所述: 1. 磁碟壞軌或磁碟陣列毀損 有些圖檔在進行掃描數位化時,即已發生壞軌,導致圖檔模糊,此 種方式需要重新進行掃描。若是陣列損毀或硬碟損毀,則是利用備份迅 速重建資料。 2. 光碟損毀 關於離線儲存的媒體,例如光碟片,因保存期限難以判斷,各典藏 機構當需使用光碟中的資料時,偶而會發生檔案無法開啟的問題,此時 只能找出另一備份檔案使用,若同樣無法讀取,就必須重新掃描檔案。 檔案管理局每年定期清查離線儲存媒體的讀取狀況,針對讀取有問題的 影像內容,會直接利用另一套儲存媒體進行複製,必要時再調原件重新 數位化。此外,檔案管理局也已將VCD 皆以轉置為藍光儲存。 3. 軟體損壞 有時數位典藏系統會發生損壞或癱瘓的問題,但因最初開發資料庫 的單位,沒有留下程式說明及系統損壞的應變方式,導致典藏單位最後 必須將應用軟體重新轉置,建立新的系統作為保存與服務。 另外,數位典藏系統有時發生檔案連結錯誤,此類多是在移機時發 生或系統中的連結失效。 4. 駭客入侵 有時數位典藏系統會因駭客惡意破壞,使得系統無法運作,此時也 是以另一備份做迅速的復原。檔案管理局表示目前政府機關處理關鍵基 礎建設部分,有要求要做安全監控,現在分成2 個層級,以前是知通安 全彙報,針對安全基礎建設設置一個設備回傳資料,現在則是讓民間的 廠商去做,例如中華電信、宏碁等,和他們取得監控的機制,再做安全 彙報,然後再彙整全國性的資料,再決定哪些資料需要做防毒,目前是 用這種背景的資料庫來進行的。 (三)應用軟體過時 由於數位化的檔案影像多以 TIFF 和 JPEG 格式儲存,目前尚未發生檔案

(34)

32 格式過時的問題。但應用軟體或系統支援上,則有過時或無法支援的問題。例 如,中研院史語所傅斯年圖書館從 1988 年起開始進行善本古籍的數位化工作, 選擇了當時最先進的「王安整合影像資訊系統」,利用光碟儲存館內善本圖籍, 並建立書目與影像連結之資料庫。但 1996 年王安公司不再支援該系統,因而 需進行系統轉換。現在該館則用非專屬化的格式和系統,避免問題再發生。檔 案管理局方面,則有公文交換標準格式因廠商倒閉,而使得必須撰寫其他保存 格式的程式,來保存電子公文。故宮則曾發生 LTO 磁帶過時的問題,原 LTO1 的閱讀機器和燒錄的軟體版本、以及當時的作業系統都已找不到,復原方式則 將所有的資料全部重新讀取一次,並重新轉置。 (四)格式移轉或轉置策略 台大數位人文中心的格式轉置,為二年一次,利用系統寫程式提醒須轉置 的時間,但有時因需要轉置的資料太多,並未確實執行轉置工作。國家圖書館 則是將啟動長期保存計畫,欲將所有儲存於光碟中的數位資料全部讀取一次, 並更新為磁帶儲存,希望將數位物件和後設資料可以先做一個封裝,再以檔案 的格式去做儲存,希望可以每三年做一次更新,但此計畫仍未開始。 關於原生性的軟體,檔案管理局自己開發保存的工具以及共用的元件, 提供機關下載使用。因電子公文沒有實體資料,保存上較為複雜,必須以公文 樣態保存,以封裝的格式來提供,檔案局提供如何開啟此封裝檔的內容,為了 確保它的內容不會被變更,所以在封裝的時候,必須加上憑證加簽的動作。如 果XP系統無法使用,XP系統的檔案在新的系統上要讀取,就要用模擬的方式, 只能用相容方式,較常使用轉置成現在使用的格式,這種方式就常被使用,轉 置的工作很費時,所以通常用系統去幫忙做輔助。 柒、Archivematica 實測— 以台史所檔案館典藏品為例 本研究在了解國內典藏單位進行數位化檔案長期保存方式與策略後,並建置 Archivematica 0.10 版系統,以中研院台史所吉岡喜三郎文書全宗作為測試實例。 吉岡喜三郎文書全宗是日籍人士吉岡喜三郎(1882-196?)所產生的文書,時間橫 跨明治40 年至昭和 14 年間(1907-1939),絕大部分是其於日治時期來臺擔任警 察工作期間(1907-1931)產生的。文書的內容包含吉岡喜三郎的私人日記、工作 相關的各式書狀、履歷文件、照片等。本批文書最早是由戰前臺灣文物收藏家鄭 喬維先生及國立臺灣師範大學歷史所曾令毅先生所發掘。基於長久保存臺灣珍貴 史料的想法,文書發現者與吉岡喜三郎家屬(文書持有者)持續洽商,爭取將文書 留存於臺灣。經過將近一年的溝通,使吉岡家了解本批文書對於臺灣歷史研究的

(35)

33 重要性與特殊性,更加重視史料的保存與利用,因此認同將文書交由臺灣公家學 術機關保存的提議。透過曾令毅先生的中介,吉岡家屬於2010 年 3 月訪問中研 院臺史所,並捐贈吉岡喜三郎文書。本全宗共分三次入藏,前二批是由家屬在 2010 年 3 月、5 月親自送到臺史所,包含日記、照片、書狀及履歷文書;第三 批是是吉岡喜三郎明治時期日記,由臺史所「臺灣文史資源海外徵集與國際合作 計畫」(數位典藏國家型計畫)團隊,於同年6 月從日本取回。(中央研究院臺灣 史研究所臺灣史檔案資源系,無日期) 一、建立移轉封包與SIP 在本次測試資料中,主要為三個系列:吉岡喜三郎文書 日記(T0747_01) 、 吉岡喜三郎公職關係文書(T0747_02)、吉岡喜三郎在臺時期照片(T0747_03)。 準備移轉至Achivematica 系統的封包,主要以一個系列的資料做為一個封包, 封包包含數位圖檔及metadata csv 檔,資料夾以系列號命名(實際範例詳圖 3)。 首先需將原數位典藏系統匯出之Metadata XML 轉為符合保存系統所需之 metadata.csv 檔,保存系統將會解析.csv 轉為 METS XML。 圖 3 符合保存系統規範之.csv 檔範例 第二步驟為將欲上傳至保存系統的完整封包(包含數位圖檔及相對應 csv 檔), 上傳至虛擬機器中的保存系統資料夾,之後登入保存系統,在 Transfer 頁面下選 擇預上傳的封包資料夾,由於計畫時間有限,我們選擇以系統預設的標準模式進 行典藏保存。 圖 4 選擇預上傳資料夾,並填入登錄號,開始上傳

(36)

34

系統進行上傳後,會請系統操作者確認此封包是否要移轉或拒絕移轉。若確 認移轉,則系統會開始進行一系列的微服務,詳見圖 5 與圖 6。

圖 5

(37)

35 圖 6 系統自動進行微服務任務 微服務完成後,系統會告知已成功完成微服務,並可查閱微服務執行報告, 詳圖 7 和圖 8。此時 SIP 封包已完成,並建立 AIP 封包。 圖 7 微服務執行的細項內容

數據

圖 1 PREMIS 資料模組關係圖
表 5:  長期保存政策與其他政策之關係表  政策  關係  接受/優先的檔案格式 的清單  檔案館將接受的軟體檔案格式清單(例如 pdf-A, .doc 等)。這份清單並非固定不變,應定期檢視與更新,以 反應技術變革和組織的需求。  徵集/館藏政策  檔案館必須決定數位文件是否具有典藏價值、符合蒐 集範疇。這些決定應遵循徵集或館藏政策,以確保文 件是與檔案館和其使用者有關。  傳統保存政策  不論其格式為何,皆承諾提供傳統文件適當的保存, 強調整體檔案館藏的保存的需求。  文件管理政策  文件管理政策協助

參考文獻

相關文件

在數位系統中,若有一個以上通道的數位信號需要輸往單一的接收端,數位系統通常會使用到一種可提供選擇資料的裝置,透過選擇線上的編碼可以決定輸入端

利用 Microsoft Access 資料庫管理軟體,在 PC Windows 作業系 統環境下,將給與的紙本或電子檔(如 excel

例如,參閱:黃啟江,《因果、淨土與往生:透視中國佛教史上的幾個面 相》〈第六章·從佛教研究法談佛教史研究書目資料庫之建立〉,(台北:臺 灣學生書局,2004 年),頁 237-252; Yasuhiro

• 不過,如果是為調查及懲處嚴重不當行為(並不限於罪案)的目的而使用 的個人資料,則受《 私隱條例》第58條所豁免 ,以致有關資料不受保障資

由於醫療業導入 ISO 9000 品保系統的「資歷」相當資淺,僅有 三年多的年資 11 ,因此,對於 ISO 9000 品保系統應用於醫療業之相關 研究實在少之又少,本研究嘗試以通過

本研究所開發的 XML-base ECG Management System 架構及流程 如圖 1-3 所示。ECG 的來源是地區醫院所收集的 SCP-ECG 檔案,解 碼後取得內含資訊及各導程原始電位數據,經過 XML-based

為完成上述研究目的,本文將於第二章依序說明 IPTV 的介紹與現況,以及詳述 e-SERVAUAL

本研究計畫之目的是要以 MPEG-7 之 ART