• 沒有找到結果。

第二章 文獻探討

第一節 古籍數位化概況分析

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

10

綜合五種主題文獻,瞭解全文資料庫的發展、OCR 辨識對古籍典藏的幫助、

明人文集內容資訊與研究價值、古籍的版面格式及學者對數位資源的疑慮與期待。

下列針對各主題文獻,進行分節說明及探討。

第一節 古籍數位化概況分析

隨著科技的發展,學者對文獻的接觸使用也跟著改變,學者接觸的文獻形式,

由傳統的紙本模式轉變成電子模式。文獻的檢索,也由使用工具書或書後索引,

轉變成使用資料庫進行查找搜尋(陳金木,2008)。古籍的數位典藏,指透過影 像掃描的技術,將古籍原件轉製成數位影像,儲存至資料庫中供民眾瀏覽使用。

古籍數位化,不僅能將人類知識的結晶,以適當的方式保存下來,除達到保存古 籍的目的,也能善用網路的無邊界,將資源透過推廣分享給更多的使用者(陳秀 慧,2000)。

將古籍進行數位化,有助於人類文化的傳承,除了能妥善保存古籍外,也能 展現出古籍的現代新樣貌。整體來看,數位形式具有幾項優越性(謝清俊、林晰,

1997):一、可供無限複製,是取之不盡、用之不竭的資源;二、網路無遠弗屆 的特性,造成使用上無空間的限制,何處都能連結網路進行瀏覽使用;三、數位 化古籍能彙整各種版本,方便進行比對研究,激起過往未見的問題觀點,產生新 的研究思維。

古籍數位化的目的包含四種面向:典藏、流通、研究及教學。前兩者以保存 古籍及宣傳文獻為目的,喚起學者對古籍研究的需求;後兩者是對古籍的探究,

數位化能方便學者研究使用,進一步達到研究及教學的目的(羅鳳珠,2004)。

德國巴伐利亞圖書館運用數位技術,將木刻書進行數位化處理,不僅能延長古書 的使用,也能呈現古書的不同樣貌。計畫目標除進行數位化外,也著錄詮釋資料,

放置於線上館藏目錄中,不僅能保存古書,將影像資源編列成機構出版品,能達 到推廣古書的效果善用網路無國界性質,將數位資源加以整合,能方便學者進 行研究交流(Wagner、Brantl、Meinlschmidt,2012)。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

11

本節介紹古籍的數位化發展,首先,從臺灣地區古籍數位典藏機構,及計畫 發展歷程介紹,瞭解古籍典藏發展狀況;接著,延伸古籍資料庫的建立,說明古 籍全文資料庫的建置;最後,分析科技技術對於古籍典藏及全文資料庫建置的衝 擊與影響。

壹、 古籍數位典藏發展

臺灣於民國 91 年成立數位典藏國家型科技計畫,承襲了行政院「數位博物 館計畫」、「國家典藏數位化計畫」及「國際數位圖書館合作計畫」三個子計畫的 經驗,將典藏文物依類型區分不同的典藏主題。透過拍攝及掃描等方式,針對文 物進行數位化,除了能達到保存維護的效果,也能方便開放瀏覽使用。針對古籍 文物典藏範圍,包含宋代至清代的善本圖籍、詩文集、曲本、敦煌文獻、佛經及 舊藏書等。參與的典藏機構包括:中央研究院史語所傅斯年圖書館、故宮博物院 圖書文獻處及國家圖書館特藏組(謝瀛春,2005,頁 36-37)。以下針對參與數位 化典藏的單位機構進行介紹:

一、 中央研究院史語所傅斯年圖書館

傅斯年圖書館典藏包括善本古籍、類善本書、民俗文學及線裝書,主要為清 代及民初的刊本,以史部及集部占多數。針對典藏特色及研究主題,擬定數位化 清單,除配合研究課題,進行相關古籍數位化外,也將部份特定素材如印記等,

結合典藏文物建置成主題資料庫(吳政上,2004)。

傅斯年圖書館的數位化流程,分成五個程序及三個環節。五程序分別為:一、

確立數位化清單;二、實體典藏的管理整理;三、實體典藏的數位化;四、虛擬 典藏的檢索應用;五、依檢索應用調整數位化流程。首先,依館藏特色、使用需 求及紙質狀況,進行古籍數位化清單的挑選;接著,整理清單古籍書目,進行數 位化掃描轉製,轉製方法包含儀器掃描及相機拍攝;最後,將數位影像結合詮釋 資料建置影像資料庫,提供查閱檢索使用(林妙樺,2004)。

三個環節分別為典藏管理、實體典藏數位化及典藏檢索應用,典藏管理部份,

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

12

對外有公用目錄系統,提供讀者檢索查詢館藏使用,對內有書庫管理系統,負責 記錄古籍整理及修復過程,方便古籍館藏的管理;實體典藏數位化部份,分別建 立掃描及拍攝校驗系統,負責數位影像的規格及成品檢驗;典藏檢索應用部份,

建立各種資料庫,包括全文影像、全文內容、附圖影像、印記等不同類型,透過 使用介面需求設定,協助數位古籍的檢索加值(林妙樺,2004)。

二、 故宮博物院圖書文獻處

故宮典藏的文物以清宮舊藏為主,可分成器物、書畫及圖書文獻三種類型,

於民國 91 年參與數位典藏國家行計畫,試圖運用科技儲存及複製的技術,達到 文物的保存及研究利用的目的。以圖書文獻為例,主要分成古籍善本、清宮檔案 及家譜,前兩者為實體文物,後者為微縮膠片。古籍獲得除清宮舊藏外,也接收 原北平圖書館的館藏古籍,古籍種類遍佈四部,涵蓋年代範圍廣泛,不僅能考證 歷代古籍流傳情形,也可作為版本的校勘依據(楊美莉、劉芳如、劉錚雲,2004;

吳璧雍、許媛婷,2006)。

數位化流程分前置作業及古籍掃描。前置作業階段,進行數位化清單的編列,

按古籍的稀有性及館藏獨特性,判斷數位化的順序,並進行詮釋資料的建檔,以 供數位影像的描述;古籍掃描階段,進行掃描儀器的檢查,避免因設備問題而影 響掃描影像的呈現。故宮的「善本古籍資料庫」採「部」—「冊」—「圖」三層 連結架構。最上層先建置「部」層,下層連結古籍各冊細目,方便依不同使用需 求進行搜尋檢索,「冊」層下設有「圖」層,提供數位影像掃描放置,透過資料 庫將數位影像及詮釋資料相互連結(吳璧雍、許媛婷,2006;國立故宮博物院,

2016)。

透過數位化技術,使用者可直接在家透過網路數位影像,進行文物的閱覽,

不需親至故宮。透過線上查閱檢索的功能,既可獲得大量研究資源,又不必擔心 交通不便或是損害古籍等問題。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

13

三、 國家圖書館特藏組

國家圖書館購藏大量古籍,具有保存文化及切近實用等雙重價值,珍藏古籍 數量龐大,為世界漢學研究的國際重鎮。透過善本古籍典藏數位化計畫的推動,

將書目資料、影像資料及全文資料三者結合,建立「古籍影像檢索系統」,創造 善用古籍的環境,協助學者進行考證研究。透過與海內外典藏機構的合作,共同 建構古籍文獻資料庫,整合現存古籍資料並發揚漢學研究(顧力仁,2004;國家 圖書館,2016c)。

古籍書目的詮釋有兩部份,分別為書目格式及書目品質,以都柏林核心集

(Dublin Core)為依據訂定欄位,分別著錄書目資料。古籍的影像產出分掃描器 輸入、相機拍攝及底片掃描,掃描器有快速處理的優點,但有接觸古籍及掃描限 制的缺點;相機拍攝能避免接觸古籍,但容易受環境影響且花費成本較高;底片 掃描能在不接觸古籍下取得影像,但影像色彩解析度不易調整。全文的輸入建置 運用逐字編打的方式,將含有題跋的古籍輸入至資料庫中。三者資料的結合,造 就善用古籍研究的使用平臺(顧力仁,2004)。

典藏機構合作以與美國國會圖書館交流為例,國會圖書館珍藏明清時期豐富 的古籍史料,是研究政治、社會、經濟等歷史的重要文獻,單從古籍數量來看,

是全世界除中國及日本外,珍藏中國古籍最為豐富的國家。透過機構間的合作發 展,共同進行古籍數位化的流程作業,能將不同機構的特色珍藏以數位形式相互 共享,達到增進數位資源多樣性的目標(張圍東,2009)。

古籍的數位化,除了能保存文物,也能善用網路的便利性,進行典藏資源的 推廣,達到保存及加值的效果。雖然數位化提供原件替代的使用,具有保存原件 及推廣古籍的功能,但數位化的後續,不僅要面對儲存媒體的更新、資料移轉及 軟體變更等問題,考驗著各典藏機構的應變措施。透過資料庫的建置,將各類主 題資源相互整合,提供專門平臺供學者研究使用。可惜,科技的進步永遠無法滿 足人的需求,透過書目資料的檢索,僅能查找古籍外在的資訊,內在的內容資訊 則無法獲得,為解決這問題,將古籍全文內容輸入至資料庫中,建立可供檢索的

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

14

詞彙,透過資料庫的檢索能瞭解所需資訊的位置,下段針對古籍全文資料庫的類 型進行分述說明。

貳、 古籍全文資料庫介紹

全文資料庫是以原件所含的文字內容為素材,以保存文字版面的方式,建置 而成的資料庫,將各種形式的文件,包含古籍、書籍、期刊、報紙等,建置成全 文資料庫供使用者檢索使用。藉由階層目錄的排列,將文件的章、節、段落、內 文等內容標誌(Markup),並保留文件的頁碼及行次,供使用者核對原件時能有 參考的依據(謝清俊、林晰,1997)。

全文資料庫的內容輸入,分成人工繕打及 OCR 辨識兩種,透過這兩種方式 將內容轉製成文字碼。以兩種輸入方式,區分全文資料庫的建置。人工逐字繕打 輸入的,以早期中央研究院的「漢籍電子文獻資料庫」為主;OCR 辨識方式輸 入的,包含中華電子佛典協會的「漢文電子大藏經」、香港迪志文化出版有限公 司的「文淵閣四庫全書電子版」及北京書同文公司的「四部叢刊電子全文檢索版」

全文資料庫的內容輸入,分成人工繕打及 OCR 辨識兩種,透過這兩種方式 將內容轉製成文字碼。以兩種輸入方式,區分全文資料庫的建置。人工逐字繕打 輸入的,以早期中央研究院的「漢籍電子文獻資料庫」為主;OCR 辨識方式輸 入的,包含中華電子佛典協會的「漢文電子大藏經」、香港迪志文化出版有限公 司的「文淵閣四庫全書電子版」及北京書同文公司的「四部叢刊電子全文檢索版」