數位典藏是以網際網路為媒介,以文化資產為內涵,利用資訊技 術為工具,所建置之數位資訊庫。因典藏內容與資訊技術兩者並重,
並具有高度依存性,不僅需要完整規劃建置過程,才能彰顯成效;更 需要適時導入具成本效益之工作流程與新技術成果,才能達到數位典 藏永續性與擴充性的目標。典藏之資訊需經人為處理,本計畫進行過 程,分為「制訂工作流程與規範」、 「影像數位化與 Metadata 建檔」
兩項工作程序完成數位典藏。進行過程說明如下:
(一)制訂工作流程與規範 1.實體物件的分析與造冊
進行實體物件的分析與選擇,需要瞭解需要數位化物件的保存狀 況、數量估計、材質尺寸、媒體形式,有時候並不是所有典藏物件都 要在第一時間進行數位化,基於經費與效益因素考量,需要衡酌典藏 物件的性質,根據藏品價值、使用者需求、原件保存的風險、智慧財 產權歸屬問題等原因,決定數位化的優先順序。一旦決定數位化標的 順序後,需將實體物件造冊列清單,並載明足以辨識該物件之特徵項 目與頁數。
本計畫一邊訪談瞭解實體物件數量形式,並釐清優先進行數位化 之標的範圍後,一邊編造需要數位化的物件清單。
2.決定數位化方式
對於文字性資料之數位化處理,需要根據物件特性與使用需求決
定數位化方式,如果是以典藏原貌為重點,較節省經費的方式是採影
像掃瞄或數位攝影方式,將物件掃成影像檔;如果是強調內容文字的
檢索需求,可以採用人工逐字輸入內文,或是以光學文字辨識(OCR)
轉置為文字檔方式,比較兩者適用狀況如下(表 3):
表 3 數位化作業方式比較分析表
需求重點 數位化方式 比較分析
強 調 典 藏 原 貌呈現
影像掃瞄 數位攝影
1. 較節省經費與作業時間
2. 以影像檔保存可完整保留物件 原貌
3. 檢索以 Metadata 著錄內容為主 4. 對於較脆弱等不適合置於掃瞄 平臺之物件,可採數位攝影方式 強 調 內 文 檢
索性
人工輸入 光 學 文 字 辨 識(OCR)
1. 人工逐字鍵入,成本高且較為費 時
2. 可全文檢索,但系統呈現樣貌未 必是原樣
3. OCR 辨識率視原件內容文字特性 而定
4. 比較適合數量有限,又強調內容 全文檢索需求之物件
本計畫經實體物件狀況與數量分析後,對於本次處理標的的紙質 檔案物件,因考量有原樣數位保存物件之必要,且衡酌經費與時效性,
遂決定以數位掃瞄方式為主,依物件特性分別以平臺式掃瞄器或饋紙
式掃瞄器,進行數位化。
3.建立數位化工作流程
數位化是持續進行的工作,為確保不同時間以及各項工作參與者 對於數位化工作過程有一致的瞭解,需要研訂數位化工作手冊,說明 作業程序、步驟、規範、品質要求與檢核標準等事項,做為作業指導 原則與後續人員教育訓練參考。其工作流程包括:
(1)實體物件狀況分析與造冊
(2)訂定數位化規格
(3)評估數位掃瞄進行方式
(4)進行物件整理,包括拆卷、起釘、編碼、整平、分件等作業
(5)進行影像掃瞄程序
(6)掃瞄影像檢核與校正
(7)影像命名與匯入系統
(8)儲存媒體備份與安全維護
本計畫數位化工作程序與步驟,自掃瞄作業規劃、進行物件掃瞄
與最後影像檔匯入系統等完整作業流程,預為規劃並繪製作業流程圖
如下(圖 1) :
圖 1 本計畫數位掃瞄作業流程圖
(二)影像數位化與 Metadata 建檔 1.決定影像數位化作業方式
數位化的作業方式,可以由本機關人員自行辦理或是委外由廠商 作業。如果需要數位化的資料數量較多,原有人力無法負荷,加上需 要用到的掃瞄設備價位較高時,大多會考慮採用外包方式進行數位化,
但是如果數位物件較為珍稀,且保存狀況不佳時,就不宜委外辦理。
自行處理檔案數位掃瞄作業,需要機構不同部門人力彼此配合,
齊心合作完成工作;如果採行委外辦理方式,需要預為擬訂掃瞄作業 要求,找尋合適的配合廠商。比較整理兩種作業進行方式,說明如下
(表 4):
表 4 影像數位化辦理方式說明表
辦理方式 參與人員 負責工作
自行辦理 藏 品 管 理 人員
負責規劃影像數位化之材料範圍、數 量清理、作業流程規劃及人力調配等 事項。
資訊人員 負責協助掃描作業相關軟硬體之規劃
及設置,包含個人電腦、掃描器、印表
機、集線器、光碟燒錄器、區域網路架
設、電子檔案命名及影像檔儲存規劃
等事項。
務性工作。
委外辦理 藏 品 管 理 人員
負責對外招商,委由具專業經驗之廠 商負責辦理檔案影像掃描作業。
廠商 實際進行影像掃瞄工作。
本計畫因考量掃瞄標的是早期公文檔案,一方面不適合由廠商外 借在校外進行作業,雖然廠商執行的作業時程很快,但品質較難掌控;
另一方面此批文件紙質脆弱不適合廠商以低價競標作業方式進行,故 採用由校內聘按時計酬工讀生方式進行。
2.訂定數位化格式與作業規範
本計畫執行需要訂定之數位化格式規範,包括:檔案儲存格式
(TIFF、JPEG、GIF) 、影像解析度(200dpi-500dpi) 、數位檔案命名 原則與詮釋資料格式。但通常規範不是不變的標準,會隨著資訊技術 與時俱進,對於數位化的格式將會因應用途需求,產生三種格式數位 檔:
(1) 永久典藏級:檔案格式 TIFF、不壓縮、解析度 300-500dpi;
(2) 流通服務級:檔案格式 JPG、壓縮比 10:1、解析度 150-300dpi;
(3) 網路瀏覽級:檔案格式 GIF、原生影像不壓縮、解析度 72dpi。
衡量本計畫執行數位掃瞄之影像最終要匯入目前校方採用之電
子公文系統,因此,僅能參考國家型數位典藏計畫之規格建議,但匯
入系統以目前系統接受之 PDF 檔為之。
本計畫掃瞄設備不另外添購,以文書組原有設備使用,此兩台 SHARP 數位多功能影印機兼具影印與影像掃瞄功能,其規格說明如下:
表 5 掃描設備規格表 設備型號 設備功能
SHARPMX-354N 1. 型式:桌上型/落地型 2. 原稿尺寸:最大 A3 3. 輸出紙張尺寸:A3~A5R
4. 紙匣容量:1100 張(500 張紙匣 x2+100 張手 送台)、最大可擴充至 2100 張
5. 影印速度:每分鐘 26/35 張
6. 掃瞄方式:自動連續雙面送稿+平台式掃瞄 7. 解析度:200、300、400、600dpi
8. 相容性:TWAIN
9. 檔案格式:TIFF、PDF、JPEG SHARP AR-M351U 1. 型式:落地型
2. 原稿尺寸:最大 A3 3. 輸出紙張尺寸:A3~A5R
4. 紙匣容量:2100 張(含手送台 100 張)、最大 可擴充至 3100 張(含手送台 100 張)
5. 影印速度:每分鐘 35 張
6. 掃瞄方式:自動連續雙面送稿+平台式掃瞄 7. 解析度:200、300、400、600dpi
8. 相容性:TWAIN
9. 檔案格式:PDF、TIFF、TIFF-F、TIFF-FX
影像掃瞄設定規格為:解析度 300x300,檔案格式為 PDF,色彩 模式為黑白。一般公文檔案解析度 300,已具有非常清晰的效果,但 色彩模式設定為黑白,是與文書組人員討論過後,認為一般公文書多 為黑白內容,僅有蓋章部分為紅色,如果選擇彩色模式,會造成檔案 體積過大,不利系統管理,故採用黑白模式已足敷所需。
掃瞄完成之電子檔採一件公文一個檔案名稱命名,檔案命名以日 期加流水號方式組合標記,以避免掃瞄檔案檔名重複問題。經掃描完 成之影像,需逐一進行校驗。若有遺漏或不符合要求之資料,應無條 件修正,直至合乎要求為止。檢查項目包括:
(1)影像品質是否不失真(原樣呈現) ,在原件清楚的前提下,
影像文字清楚。
(2)影像是否校正去除黑邊、陰影及雜點等。
(3)文件是否擺正,掃描影像歪斜度以中心線為基準,左右不可 超過一度。
(4)掃描內容是否完整,影幅邊緣是否切割到文字或文句;如果 是影像太大需要分為數部分掃描,經接圖完成後,應檢查 所有接縫處文字或圖形是否完整。
(5)文頁是否有所遺漏。
(6)檔案命名是否符合所定規範。
經過檢測完成之影像檔,轉錄於 DVD-R 光碟片,儲存以同一年份 同一分類號存置於同片光碟為原則。所有影像掃瞄完成之電子檔,以 品質優良之光碟燒錄機燒製光碟,以確保燒製之品質。燒錄後之光碟 片,印上本校全銜及資料名稱(例:國立政治大學《典藏資料數位化 掃描》 )、光碟編號、檔案格式及資料量等。
3.建立 Metadata 格式與建檔
對於數位化物件的內容需要利用詮釋資料(Metadata,又稱後設 資料或元資料)格式加以描述著錄,因應不同藏品特性需求,各專業 領域已發展各自之詮釋資料格式,Metadata 類型的歸納不乏相關著 作,可參閱中央研究院數位典藏系列圖書的整理。例如:描述政府資 訊之 GILS、描述檔案藏品之 EAD、描述博物館藏品之 CIMI 等,均是 基於不同物件需要描述的特性考量加以設計。Metadata 的建置過程,
通常經歷下列步驟:
(1)導入階段:選擇合適的 metadata,找出已被廣泛應用或接
受 的 標 準 , 並 釐 清 本 身 採 用 metadata 的 目 的 , 確 認
metadata 標準的應用範圍,然後分析資料元素的類目結構
與完整性,必要時對現有 metadata 資料元素進行修正或定
(3)管理及使用階段:記錄著錄過程的問題,衡酌需要可不斷維 護擴充 metadata。
一般檔案著錄之 metadata 格式,是採用都柏林核心集
1(Dublin Core 簡稱 DC),或是檔案描述編碼格式
2(EAD Encoded Archival Description),但本計畫所有檔案最後要匯入本校電子公 文系統,故而捨檔案專業採用之 metadata 格式,而是以本校公文系 統採用之《文書及檔案管理電腦化作業規範》有關文書與檔案管理 作業所需之欄位,其欄位名稱與內容說明如下:
1DC 源於 1995 年 3 月由國際圖書館電腦中心(OCLC)和美國超級電腦中心
(National Center for Supercomputing Applications, NCSA)所聯合贊助的 研討會,邀請五十二位來自圖書館、電腦、網路方面的學者和專家,共同研討 下的產物,目的是希望建立一套描述網路上數位資訊特色的方法,來協助資訊 檢索。因其具備描述物件之基本項目,故廣泛被使用在不同領域。
2EAD(Encoded Archival Description),為一種檔案描述格式,是專門設計 用以描述檔案及手稿記錄,其發展始於 1993 年,加州大學柏克萊分校圖書館 (University of California, Berkeley Library) 首先開始發展此項標準,並 歷經許多檔案典藏單位共同參與研發而成。目前由美國國會圖書館(LC)所屬 的「網路發展與 MARC 標準處」(Network Development and MARC Standards office)與美國檔案人員學會(Society of American Archivists,簡稱 SAA)共同維護。EAD 是一個階層式的結構,用以詳實呈現檔案和圖書館的目錄 系統,協助典藏在圖書館與檔案館的手稿與檔案資源。
表 6 metadata 欄位表
欄位名稱 說 明
檔案目錄傳送名 稱
代碼;該筆紀錄之檔案係屬:A案卷之檔案目錄彙送、B 案卷之檔案移轉目錄、C案件之檔案目錄彙送、D 案件之 檔案銷毀目錄、E 案件之檔案移交目錄、F案卷之檔案銷 毀目錄、G 案卷之檔案移交目錄、T案件之檔案移轉目 錄、X 分類表。
系統名稱 代碼 ;指資料來源之系統名稱, 1:公文管理系統 2:檔
案管理系統
月份 [01-12]
應用註記 文字;註記影響檔案提供應用之相關條約、協定或政策,
如捐贈後 15 年公開。若無特殊狀況則不著錄。
複製註記 代碼,Y:可複製,N:不可複製,C:部分限制
應用方式 代碼;1:紙本;2:線上瀏覽;3:儲存媒體;4:電子
郵件
併案註記 代碼;1:併同一案名;2:併同一案件。
基準項目編號 指共通性檔案保存年限基準項目編號
媒體編號 文字;電子媒體之編號。
計量單位 文字;如:頁、件、張、卷、幅、檔案或(其他)。
數量 文字;總頁數、總件數、總卷數或總檔案數,不含附
件,案卷層級為必要欄位。
紙本來文數量 文字;用以記錄改採線上簽核併同歸檔之紙本公文頁
數。
頁數 指檔案之頁數。
檔案路徑 指檔案之存放路徑。
檔案類別 指原生檔案型式,代碼;1:紙本檔案;2:電子檔案
檔案格式版本 指檔案所使用之格式定義之版本,如 Adobe Acrobat 6.0 等。
編碼方式 指文件之編碼方式,如 BIG5、Unicode 等。
保存狀況 代碼 ; 參見「附錄、代碼清冊」。
其他案由 文字,補充說明案由。
案卷檔案迄止日期
移轉文號 文號,指檔案之核准移轉文號。
其它電子影音檔 非紙本掃描影像之其它電子影音檔案資訊。
媒體製作日期 (年月日,時分)
作業事項 文字,指系統執行電子檔案更新轉置等作業項目。
異動內容 文字,指對電子檔案新增、更新及刪除之異動內容。
作業紀錄 (異動人員,異動日期及時間,作業事項,異動內容)*
應用時間 (年月日,時分),指應用者申請檔案應用之日期與時
間。
應用目的 文字,指應用者申請檔案應用之目的。
應用紀錄 應用時間,年度號,分類號,案次號,卷次號,目次
號,應用目的
歸檔人員 姓名
點收人員 姓名
退文人員 姓名
立案人員 姓名
編目人員 姓名
目錄維護人員 姓名
掃描人員 姓名
清查人員 姓名
調閱人員 姓名
目錄轉出人員 姓名
歸還人員 姓名
媒體製作人員 姓名
申請人員 姓名
審核人員 姓名
核准使用群 文字
核准使用者 姓名
實體附件儲存位置 文字
電子檔案名稱 文字
案件清單 於案卷下呈現案件清單,案件清單列出該案卷下所有之
案件資訊。
案件資訊 年度號,分類號,案次號,卷次號,目次號,檔案路徑,電子
檔案名稱
併案 記錄併案資訊。此欄位之屬性如下:
併案關係:註記為母文或子文。
受移轉機關金鑰信
封 記錄檔案加密演算法、以及加密密鑰資訊。
EncryptionMethod
記載資料及金鑰傳輸加密方式,採 XML Encryption 規 範,此欄位屬性如下:
Algorithm:金鑰傳輸(Key Transport)使用的演算法,
採 XML Encryption 規範。
EncryptedKey 加密密鑰資訊,採 XML Encryption 規範。
CipherData 加密後資料,採 XML Encryption 規範。
KeySize 加密用金鑰長度,採 XML Encryption 規範 。
OAEPparams 以 RSA-OAEP 作為金鑰傳輸加密演算法時,該演算法使 用參數,採 XML Encryption 規範 。
CipherValue 密文,原始資料(明文)經加密處理後,產生之密文,採 XML Encryption 規範 。