• 沒有找到結果。

永樂大典數位化相關問題之探討

N/A
N/A
Protected

Academic year: 2021

Share "永樂大典數位化相關問題之探討"

Copied!
16
0
0

加載中.... (立即查看全文)

全文

(1)

永樂大典數位化相關問題之探討:

兼論資訊科技對古籍整理的影響

Exploration of the Relating Problems in Digitization of

Yung Lo Encyclopaedia:the Impact of Information

Technology to the Chinese Ancient Books

顧力仁

઼छဦ३ᐡপᖟ௡በᏭ!

Li-Jen Ku

Editor, Department of Special Collection, National Central Library

E-mail: [email protected]

關鍵詞(Keywords):古籍(Ancient books);古籍整理(Organization of Ancient books);

永樂大典(Yung Lo Encyclo-paedia);數位化(Digitization)

Īၡ!ࢋī!

Įϖሄ̂׏į

Ă૟Ķ३ݵͽֽགྷΫ̄ะѺछ̝३Ă

Ҍٺ͇͛ăгԠăౚวăᗁ˪ăဃ྽ăԫᘹ̝֏Ă

౯Ꮽࠎ˘३Ąķ३˲ 22,937 סĂВ 11,095 ΊĄ

Įϖ

ሄ̂׏į̝ᚷֶ࣒ܼፂځ͛அᅦᖟ३Ă׎̚ᛃӣ̣

΃ăȈ઼ăԇă᏶ăܛă̮ኜഈ௢ᖟ׏ᚱĂٙͽ͔

ϡధк๸ᚱ৪׏ĂĮαऱБ३įӈჍĶ̮ͽ݈ҷ͛

৪׏Ă͵̙ٙ็۰ĂᖼᏥ׎БొăБቔќˢĄķ߇

Įϖሄ̂׏į၆ٺޢ͵׍ѣᏭҷă७㙝ඈк͞ࢬ۞

ᆊࣃ̈́ᇆᜩĄ

ϤٺྤੈᇴҜ̼̈́შྮԫఙ۞ႊซĂֹܳᇴҜဦ

३ᐡ۞Ꮈ੓Ă˵Ϥٺۤົ̂ி၆̼͛̈́።Ϋྤய۞

ࢦෛĂဦ३ᐡࠡᖟ۞።Ϋ͛ᚥ྾јࠎᇴҜ̼۞ࢦࢋ

၆෪Ąᐌ඾ྤੈࡊԫ၆ဦ३ᐡүຽݭၗ۞ᇆᜩĂΟ

ᚱ۞ፋந˵੓˞࠹༊̂۞ត̼ĂᇴҜဦ३ᐡӀϡྤ

ੈࡊԫፋநΟᚱ۞͞ёΒ߁ޙϲᇆညྤफ़ऱăБ͛

ྤफ़ऱ̈́३ϫྤफ़ऱĄ

ώ͛ಶĮϖሄ̂׏įซҖᇴҜ̼ٙ஝ঘז۞࠹ᙯ

યᗟү˘ଣ੅Ăࣘኢྤੈࡊԫ၆Οᚱፋந۞ᇆᜩĂ

ࢵА̬௜ྤੈࡊԫ၆Οᚱፋந۞னڶ̈́׎ᇆᜩĂ׎

ѨГಶᇆညྤफ़ऱăБ͛ྤफ़ऱ̈́३ϫྤफ़ऱ۞ޙ

ϲଣ੅Įϖሄ̂׏į۞̰टᄃᇴҜ̼۞͞ёĂ౵ޢ

ᄲځĮϖሄ̂׏įᇴҜ̼۞ຍཌྷ̈́ड़ৈĄ

【Abstract】

Yung Lo Encyclopaedia is a collection all

clas-sical, historical, philosophical, and literary works

that ever published; covering subjects like

as-tronomy, geography, sciences, medicine, Buddhism,

Taoism, and arts. It was mainly compilation of

extracts that includes many complete works

which had been lost for years.

This paper explores the relating problems in

digitization of Yung Lo Encyclopaedia. The author

first introduces several database systems of the

Chinese ancient books for example to discuss

the impact of information technology to the Chinese

(2)

encountered in this process. In conclusion,

pos-sible future developments and benefits in

digiti-zation of Yung Lo Encyclopaedia are to be

dis-cussed further.

壹、前言

由於資訊數位化及網路技術的演進,促使數位圖書館 的興起,也由於社會大眾對文化及歷史資產的重視,圖 書館珍藏的歷史文獻遂成為數位化的重要對象。目前有 許多保護文化資產的計劃以及圖書館紛紛以珍藏文獻為 數位化的主題,例如:「聯合國世界文化遺產數位化計 劃(UNESCO Memory of the World)」、大英圖書館的「十 一世紀盎格魯—撒克遜史詩手稿(The Electronic Beowulf) 數位化計劃」、IBM 公司的「梵蒂岡圖書館計畫(The Vatican Library Project)」)…等等【1】。從資訊科技對 古籍整理的影響及其發展現況來看,可以預知資訊及網 路科技將提供《永樂大典》整理的新方向,也提供了對 《永樂大典》研究的新境界。 以下選擇中央研究院的「漢籍電子文獻資料庫」、上 海圖書館「中國古籍善本查閱系統」、臺灣地區「數位 典藏計畫」以及香港迪志文化出版有限公司的「文淵閣 四庫全書電子版」,分別介紹其概要及特色,藉以瞭解 資訊科技對古籍整理的影響及其發展現況。

一、中央研究院「漢籍電子文獻資料庫」

中央研究院所推動的漢學研究電子文獻包含全文資料 庫、研究參考工具資料庫、主題研究多媒體資料庫、書 目及關連式資料庫以及利用影像處理技術進行的檔案與 古文書光碟影像資料庫等五種。其中以「全文資料庫(現 稱漢籍電子文獻資料庫)」的規模最大,應用最廣。1984 年,中央研究院歷史語言研究所與計算中心,合作開發 廿五史(食貨志)全文資料庫,第二年起逐漸擴大到廿五 史全部,接者相繼輸入十三經、佛藏、醫書、政書等資 料,截至 1999 年 9 月底,已完成的漢籍電子文獻資料庫 累計達一億二千萬字,正在進行校對、標誌的資料約有 二億字,並以每年超過一千萬字的速度擴增,堪稱為全 球最大的中文文獻資料庫【4】。中央研究院於 1995 年 成立「漢籍電子文獻協調委員會」,未來計畫結合相關 學術研究機構,共同推動「新四庫全書資料庫」計畫, 以擴增全文資料庫的內容。中央研究院「漢籍電子文獻 資料庫」的網址為 http://www.sinica.edu.tw/ftms-bin/ftmsw3。 中央研究院「漢籍電子文獻資料庫」的特色包括【2】: 1.品質最佳:文獻失誤率低於千分之一。 2.規模最大:開發及完成的合計超過三億字,每年平 均以三千萬字建檔,校對完成者約一千萬字。 3.資料經過一定規模的組織。 4.軟體設計最佳。 圖 1 中央研究院「漢籍電子文獻資料庫」選例

二、上海圖書館「中國古籍善本查閱系統」

上海圖書館收藏古籍文獻 170 萬冊,包括善本書 25,000 餘種,17 萬冊。該館於 1966 年開發「中國古籍 善本查閱系統」,將古籍掃瞄錄入光碟,並提供古籍標 引、檢索及查閱等功能;此外,並將數位化館藏古籍善 本陸續分期放上網路,目前已上網善本 20 種 19,794 影 幅,包括宋刻本 17 種、元刻本 1 種、稿本 2 種,內容詳 見: http://www.libnet.sh.cn/digilib/gj/index.htm。 上海圖書館「中國古籍善本查閱系統」的特色包括 【3】: 分為兩個子系統:系統分為「製作標引」及「存儲查 詢」等兩個子系統,前者提供掃瞄、壓縮、編碼及燒錄 等功能;後者提供檢索及調閱影像等功能。 1.影像畫面:即古籍書頁原貌,每兩個半葉組成一個 畫面,黑白、彩色或兩者相間,凡彩色印本、彩色 批校、題跋或重要藏印皆為彩色畫面。 2.閱讀功能:可選擇全書,也可任選封面、扉頁、序、 跋、凡例、目錄、圖、附錄、添加頁或正文,其中 正文又可任選不同卷次。以上皆可隨意向後、向前 逐頁翻閱,也可指定其中一頁跳躍翻閱。可顯示全

(3)

書或某卷、某部份的總頁數,及正在閱讀的頁數。 閱讀時可隨意調整為全畫面或局部畫面,也可同時 顯示兩者。圖像可以任意作黑白反轉、正反反轉及 旋轉位置。貼有粘簽的古籍書頁,除可閱讀其有粘 簽的書頁外。也可使粘簽「飛去」,顯示其粘簽下 遮蓋的文字原貌。 3.檢索功能:檢索途徑包括分類、書名、著者、索書 號等項目。 4.光盤及網路併行。 圖 2 上海圖書館館藏古籍影像選例

三、臺灣地區「數位典藏計畫」

臺灣地區為建立重要文化資產的影像化,針對重要圖 書館及博物館所典藏的珍貴文物規劃「數位典藏計畫」, 其中已進行與古籍有關的包括國家圖書館所進行的「古 籍文獻典藏數位化:善本古籍典藏數位化子計畫」以及 中央研究院「歷史語言研究所珍藏文物數位典藏計畫: 史語所傅斯年圖書館藏善本圖籍」,簡介如下。 國家圖書館前於 1998 年曾選擇館藏明代前期作家詩 文 集 17 種 建 構 製 作 「 善 本 叢 刊 影 像 先 導 系 統 」 (http://www.ncl.edu.tw/flyweb/nclbook/index.htm),置於該 館區域網路,提供讀者使用,並擷取各書部份內容掛上 網際網路。「古籍文獻典藏數位化:善本古籍典藏數位 化子計畫」(http://rbook.hyweb.com.tw/store/frameset.htm) 數位化之方式和影像的規格包括: 1.影像由微縮資料轉製:由於國家圖書館已將館藏善 本古籍全數製作成微縮資料,為便利網路流通使 用,故本數位化作業逕由微縮資料轉製。 2.採黑白影像:為便利網路流通使用,影像為黑白, 若其中如有必要採用彩色者(如彩繪本、彩筆批校 本及鈐有藏印的書葉),擬於日後製作。 3.解析度:以光學解析度 300dpi 掃瞄。 4.儲存格式及載體:以 TIFF 標準格式存檔,影像存放 於 CD-ROM 及 DVD 兩種不同的載體。 圖 3 善本古籍典藏數位化計畫影像選例 中研院史語所傅斯年圖書館的珍貴典藏甚多,該館於 1988 年開始進行「善本書光碟影像計劃」,目前收錄善 本圖籍及俗文學資料影像近 125 萬頁,並提供「傅斯年 圖書館珍藏善本圖籍書目資料庫」,各界人士可以透過 網際網路(Internet)檢索已數位化的善本圖籍書目性資 料,也可以在該圖書館閱覽室內閱覽善本圖籍影像檔, 並可列印所需資料。中央研究院於 2000 年進行「中研院 史語所傅斯年圖書館藏善本圖籍數位典藏計畫」,採掃 瞄方式製作全彩影像,解析度為 600dpi,另建置 Metadata 書目資料庫及人名名稱權威資料庫【5】。 圖 4 傅斯年圖書館珍藏善本圖籍影像選例

(4)

一、古籍影像的輸入、品質及儲存

四、香港迪志文化公司「文淵閣四庫全書電子

版」

首先,就「影像輸入的方式」加以討論,歸納目前各 單位製作古籍影像資料庫所使用的方式及設備列表如 下: 香港迪志文化出版有限公司於 1998 年推出「文淵閣四 庫全書電子版」,四庫全書」原於清乾隆年間纂修,共 收圖書 3,469 多種,約七億字,36,000 餘冊,該公司以 掃瞄方式將原書圖像數位化,再用光學文字辨識技術, 將圖像轉為近七億的電腦編碼文字,並研究出多種檢索 功 能 , 「 文 淵 閣 四 庫 全 書 電 子 版 」 的 簡 介 網 址 為 http://www.sikuquanshu.com/。 上述輸入所使用的方式可分為「掃瞄器」、「數位相 機」及「底片掃瞄」等三種,選用「掃瞄器」以上海圖 書館為例,該館在使用掃瞄器的過程中有若干心得,包 括【7】: 1.經過多次測試證明,掃瞄後古籍的紙張溫度與掃瞄 前無甚變化; 「文淵閣四庫全書電子版」的製作包括了輸入、辨識、 校對及檢索等四項程序,其特色則包括【5】: 2.掃瞄器的缺點在於善本古籍在掃瞄時,與器材接觸 過近,仍避免不了紫外線的照射; 1.圖文並列:「電子版」分為「原文及標題檢索版」 及「原文及全文檢索版」,前者包含原書頁的圖像 及標題檢索,後者另增加全文檢索功能。 受到掃瞄器幅面的限制,A3 掃瞄器只能解決 90%古 籍的輸入,其他特殊規格的古籍(如特大開本或捲軸 裝),需通過其他技術處理後轉換掃瞄。 2.使用 Unicode 字集:於 Unicode 的基礎上,建立近 三萬中文字集。 選用「底片掃瞄」以京都大學附屬圖書館為例,所謂 「底片掃瞄」係將攝影底片透過底片掃瞄器的方式,取 得圖像資料。因為要先經過攝影手續,所以不是一種簡 便的方法,但是它和原件的直接接觸較少,不會有損傷 資料的顧慮,可說是在面對珍貴的畫像資料時最適當的 建檔方式。而且,現在有許多廠商承攬這項業務(如 Kodak 的 Photo-CD 等),廠商所用的掃瞄器是利用透過 光讀取的專用機器,精度高,因此品質十分良好。不過, 由於是間接透過底片所掃瞄的,在每件資料的細節部份 上,例如色相,往後不容易自行調整【8】。另國家圖書 館進行的「善本古籍典藏數位化」計畫係由縮影微捲直 接轉製為數位化影像。 3.跨平台:適用於臺灣(Big5)及大陸(GBK)中文視窗, 以及其他如英文及日文等語文平台。 其次,再談到有關「影像的顏色」,各單位製作的影 像色彩可分為以下兩種,包括: 1.全彩:國家圖書館的「善本叢刊影像先導系統」、 中研院史語所傅斯年圖書館的「傅斯年圖書館珍藏 善本圖籍書目資料庫」、臺灣大學圖書館、IBM 以 及大英圖書館皆採用全彩來製作古籍影像,元智大 學所製作北京大學所藏的「蒙古車王府曲本」也是 採用全彩。 圖 5 文淵閣四庫全書電子版選例(史部,別史類,東 都事略,卷一)

貳、古籍數位化的相關問題

3.黑白:國家圖書館目前進行的「善本古籍典藏數位 化」係採用黑白影像、早期中研院史語所傅斯年圖 書館採用黑白影像;上海圖書館則採用黑白、彩色 或兩者相間,凡彩色印本、彩色批校、題跋或重要 藏印皆為彩色。 透過以上幾個例子的說明,可以瞭解到資訊科技對古 籍整理的影響及其現況,也可以歸納出來古籍文獻數位 化的相關問題,作為日後《永樂大典》數位化的參考, 以下分就「影像」、「全文」及「書目」等三部分就古 籍數位化的相關問題加以探討。

(5)

表 1 各單位製作古籍影像資料庫使用方式及設備一覽表(表內*見註 6) 輸入 方式 掃 瞄 器 數位相機 底片掃瞄 (含微縮資料轉製) 單位 名稱 傅斯年 圖書館 台大 圖書館 上海 圖書館 IBM* 大英圖書館* 元智大學 國圖 京都大學 圖書館* 使用 設備 SC4000 A6-A3 A3 或 A4 A3 或 A4 Pro/3000 Roche/ Kontron PorgRes 3012

Kodak DC-120 Nikon AE-1 相機及 EpsonGT-9500 正片底片 掃瞄器 Canon MS800 微縮影片掃描器 W & W4001 自動掃描器 Kodak Photo-CD 古籍微縮資料轉製成黑白影像,雖可節省設備成本, 但早期所拍攝的微縮片,受限於當時的設備及拍攝條 件,以現今的標準來看,其效果仍有加強之處,且當時 的微縮片係拍成黑白雙色,以致古籍中的彩色印章以及 朱批、朱校,乃至彩繪本及套印本…等原書的色彩及紙 色都無法表達,在古籍的利用上不盡人意,所以國家圖 書館的「古籍文獻數位化計畫」為兼顧到「原微捲轉換 數位化的效率及成本」以及「避免因重複拍攝損及古籍 原件」雙重目的,擬一方面將舊有黑白雙色的古籍利用 原微捲轉換為數位化,另而一方面精選舊有的「彩繪或 套印之古籍」以及「宋、金、元本古籍」,另掃瞄為彩 色影像。 京都大學附屬圖書館認為特藏圖像資料庫應具備下列 條件:1.可辨別所有文字;2.可辨別文字、污損、蟲蛀之 處,原有的文字、後來添加的文字、紅筆修正之處可明 確辨別;3.展示圖畫的細部。若要符合上述條件,該館 建議採用彩色圖像建檔【9】。因為彩色影像的優點包括 【10】: 1.古籍影像化的目的係存真,以全彩更能逼近文獻的 原貌; 2.古籍中的彩色圖像、紅筆書寫的文字以及蟲蛀痕跡 都能清楚顯示; 3.圖像資料庫可以代替原件提供讀者使用,有保護原 件的作用。 綜上所述,「影像的顏色」以採用彩色為宜,但在現 階段網路頻寬不足,彩色圖檔不免影響網路傳輸,為有 待克服的缺點。 再者,有關「影像的品質及儲存」,需考量到「解析 度」、「儲存格式」以及「儲存媒體」等因素,列表如 下: 表 2 各單位製作古籍影像資料庫採用的解析度、儲存 格式以及儲存媒體一覽表 單位名稱 解析度 儲存格式 儲存媒體 國家 圖書館 彩色 72dpi 黑白 300dpi 彩色 JPEG 黑白 TIFF 光碟及 DVD 傅斯年 圖書館 彩色 300dpi 黑白 300-600dpi 彩色 TIFF 黑白 TIFF 光碟 上海 圖書館 彩色 100-150dpi 黑白 200-300dpi 彩色 JPEG 黑白 TIFF 光碟 IBM 彩色 1000x1000 JPEG 大英 圖書館 彩色 2000x3000 24-bit/pixel TIFF 光碟 此外,在「圖像的品質」方面,京都大學附屬圖書館 另提出「解析度」以及「精確度」這兩個條件。「解析 度」直接關係到文字辨識的清晰程度,所以應該考慮資 料中「一個文字應該有多少解析度」,一個文字最低限 度應該有 30x30dpi,最好能達到 60x60dpi。而「精確度」 則包含圖像的「像素」以及「色階」,彩色圖像要達到 高品質的要求,通常採用 1670 萬色(全彩,對應三原色 時每一色用 256 位元)來保存,在螢幕上呈現時應採用 5.6 萬色;色階至少應該有 64 位元,甚至到 256 位元比 較好【11】。

二、古籍全文的輸入、缺字造字及標誌語言

以下選擇若干「全文資料庫」探討相關問題,資料庫 包括「漢籍電子文獻資料庫(簡稱漢籍資料庫)」、「文 淵閣四庫全書電子版 (簡稱四庫電子版) 」、「漢文電 子大藏經(簡稱「大正藏」)」、「古籍無定型工整手寫

(6)

文字辨識、檢索與管理系統(因以「嘉興楞嚴寺方冊藏 經」為實驗樣本),簡稱「嘉興藏」。 上述各資料庫全文的「輸入方式」列表如下: 表 3 各全文資料庫輸入方式一覽表 書頁字體 輸入方式 辨識率 漢籍資料庫 印刷體 逐字輸入 四庫電子版 手寫楷體 光學辨識 92% 大正藏 印刷體 光學辨識 95% 嘉興藏 木刻本明體 光學辨識 94% 古籍全文資料庫的輸入方式包括「逐字輸入」(如「漢 籍資料庫」)以及「光學文字辨識」(如「四庫電子版」) 此兩種主要方式。比較兩種輸入方式,「逐字輸入」需 要耗費無數的人力、時間以及財力,即使「漢籍資料庫」 已經輸入了上億字的古籍,但在圖書館內仍有數以百萬 計的古籍有待製作,所以就成本效益的角度來看,「光 學文字辨識」應較「逐字輸入」為經濟可行之法。然而 光學辨識也有其侷限性。就目前的光學辨識軟體的辨識 率而言,以「四庫電子版」為例,其辨識率為 92%,辨 識不出來的文本仍要靠人力來校對及人工鍵入,所以目 前「光學辨識軟體」的「辨識技術」是一個技術瓶頸。 「辨識技術」的高低(亦即辨識率的百分比)牽涉到「辨 識對象」(鉛字、電腦印刷文字、刻板文字或手寫體…等) 以及「辨識方法」等問題。目前對於印刷書籍的辨識能 力雖然有效,然而由於雕版及手抄的古籍文本字型不規 範,而且書寫風格有相當大的差異,所以「雕版以及手 抄方式的古籍文本文字辨識技術」值得開發研究。 上述國家圖書館開發的「古籍無定型工整手寫文字辨 識、檢索與管理系統」,其作業程序包括【12】: 1.掃瞄、影像處理:針對典藏書籍紙質及文字特性, 設計合適的掃瞄及二色化或三色化方法。 2.文件分析:根據典藏書籍文字分佈的特性,設計合 適的文件分析及文字切割法。 3.文字識別:文字是別的步驟包括大部比對、文字大 分類及細部比對,並歸納文字特徵,調整分析方法。 另系統特色包括: 1.開發出新的文字辨識技術:本計畫利用已開發的「影 像文件辨識、檢索與管理系統」為架構,再進一步 分析、比對文字的特徵,歸納初期規律性,轉而提 昇上述文字辨識模組的辨識能力。 2.容錯檢索:該系統所利用的文字資訊不僅是文字檔 裡的文字,而且考慮到各種形狀相似的文字,所以 其檢索功能具有「容錯性」,且其正確率高於文字 的辨識率。 辨識需靠系統不斷地分析、辨識並且學習,「嘉興藏」 是針對木刻本的明體字來進行光學辨識,目前已超過 94 %的辨識率,將來會繼續不斷地提升。「文字辨識、檢 索與管理系統」」的網址為 http://192.83.186.77/legacyweb/ ,選例如附圖。 圖 6 古籍文字辨識、檢索與管理系統選例(系統辨 識結果的對照,左半部是辨識完的文字,右 半部是原文重現的部份) 上述各全文資料庫對「缺字及造字」的處理方式列表 如下: 表 4 各全文資料庫對「缺字及造字」處理方式一覽表 缺字表現及造字方式 中文字庫 漢籍資料庫 漢字組合法、組字規則 中文字形 資料庫 大正藏 漢字組合法、組字規則, 同時顯示該字的圖形檔 OPEN98 漢字庫 四庫電子版 國際碼(Unicode) 「漢籍資料庫」係使用漢字組合法及組字規則來表示 電子古籍中的缺字處理,並以網路上所建立的「中文字 形資料庫」提供給使用者使用【13】。「大正藏」採取 以下步驟來處理「缺字造字」,包括:1.臺灣網路界通 用的組字法做校對及普及版的發行,2.轉成 SGML 碼以 處理缺字問題,3.採用目前國際上造字最多的日本「今 昔文字竟」的字型檔以呈現所缺的字【14】。「四庫電 子版」則採用國際碼(Unicode),為了兼顧長遠字量增長 以及跨平台的需求,「四庫電子版」係從 GBK(CJK 字

(7)

彙)開始,再過渡到 Unicode/CJK+-為基礎的平台上, 如此大約多了一萬餘個字符,比較使用「CJK+」前後, 顯示缺字出現的頻率大幅降低(約 3 倍) 【15】。 全文資料庫不論是「檢索」或「顯示」,皆需要足夠 的漢字,類似「漢籍資料庫」所使用的專用字庫只是一 個暫時的權宜作法,而且僅能通用於臺灣地區,不利於 資料的交換。若為長遠計,應有一套既能適應各種平台、 又 可 作 為 國 際 通 用 的 字 集 , 目 前 國 際 所 頒 佈 的 ISO10646/Unicode,應為可以考慮的方案。 古籍若要維持原始文件的「版面訊息(如頁碼、行次)」 以及「文件結構(如標題、篇、章、節、小節、段落、註 解等等)」,則要考慮所謂的「標誌(Markup)工作」,而 標誌所採 用的 語言需符 合一 定的標準 格式 ,例如: SGML、XML…等。上述全文資料庫中只有「漢籍資料 庫」及「大正藏」採用「標誌」。「漢籍資料庫」係以 人工或程式自動進行描述性標誌(descriptive markup),再 轉換為 WWW 的 HTML。「大正藏」除了標誌「冊數」、 「經號」、「頁碼」、「欄」、「行」等資料外,並製 作經文的 XML 標誌,以下為「大正藏」經文 XML 標誌 的範例【16】。

三、古籍 Metadata 的製作及其交換

目 前 對 網 路 藏 品 資 料 屬 性 的 有 效 描 述 方 式 為 Metadata,即「詮釋資料」。Metadata 在資料的檢索上 提供以下助益,包括【17】: 1.幫助資料的管理者及使用者找尋資料更容易, 2.提高檢索的精確度, 3.提供有些並不存在藏品本身的資訊(例如:主題、稽 核資料、管理資訊等)。 < p >如是我聞< /p > < p type="inline" >一時。佛住舍衛國祇樹給孤獨園< /p > < p type="inline" >爾時。世尊告諸比丘。當觀色無常。如是觀者。則為正觀。正觀者。則生厭離。厭離者。喜貪盡。喜貪盡者。說心解脫 < /p > < p type="inline" >如是觀受.想.行.識無常。如是觀者。則為正觀。正觀者。則生厭離。厭離者。喜貪盡。喜貪盡者。說心解脫< /p > < p type="inline" >如是。比丘。心解脫者。若欲自證。則能自證。我生已盡。梵行已立。所作已作。自知不受後有。如觀無常。苦.空. 非我亦復如是< /p > < p type="inline" >時。諸比丘聞佛所說。歡喜奉行< /p >

OCLC 所發展的 Dublin Core 是一組簡單而好用的 Metadata,有助於資料的檢尋,並能多方面提供藏品訊 息,擴增檢索的資訊。國家圖書館曾收集國內所設計的 Metadata 格式,編印為「中文詮釋資料(Metadata)格 式彙編」,其中與古籍有關的包括: 1.籍善本詮釋資料及著錄範例(國家圖書館 Metadata 研究小組設計) 2.文獻 MICI-DC、DTD 及著錄範例(數位博物館計畫 故宮文物之美計畫研究小組設計) 3.傅斯年圖書館善本書明人文集詮釋資料及著錄範例 (中央研究院史語所傅斯年圖書館) 4.傅斯年圖書館善本書詮釋資料及著錄範例(中央研 究院史語所傅斯年圖書館) 國家圖書館在「古籍文獻典藏數位化計畫」中,以 Dublin Core 的 15 個欄位,編製出符合需要的古籍 Metadata , 並 且 由 館 藏 善 本 書 的 機 讀 書 目 轉 成 古 籍 Metadata,建置在系統上,以供查詢,選例如下: 書 號 11857 機讀格式 篇目資料 題 名 李氏居室記 卷 數 五卷 創作者 (明) 李濂 (撰) 篇目影像 正文前 卷之一 卷之二 卷之三 卷之四 卷之五 標 題 集部-別集類-明之屬 序跋者 (明) 李莘 (跋) 序 跋 序:「李氏居室記序 嘉靖癸卯嵩渚山人李濂 川父志」 跋:「書居室記後 嘉靖甲辰... 男莘叟頓首 識」 收藏印記 「吳興劉氏嘉/業堂藏書記」朱文長方印、 「國立中/央圖書/館考藏」朱文方印 版 本 明嘉靖甲辰(23 年;1544)大梁李氏家刊本 裝 訂 線裝 版式行款 9 行, 行 18 字. 單欄. 版心白口, 單白魚 尾, 上方記書名. 數 量 2 冊 高 廣 (匡 17.9x13.4 公分) 索書號 402.6 11857 限於篇幅,以上僅就古籍數位在影像、全文及書目等 方面化所涉及到的問題略加探討,以供瞭解【18】。

(8)

參、永樂大典的內容與數位化的方式

《永樂大典》內容浩繁,而書寫、繪圖又俱精美,值 得將存世藏本建立影像資料庫及全文資料庫;此外,《永 樂大典》分藏海內外各圖書館,匯集存本的書目資料及 相關研究成果也可提供尋檢並方便利用。以下就《永樂 大典》的內容與不同的數位化方式分別加以探討。

一、影像資料庫

《永樂大典》正本燬於明末,傳世副本與原本無異, 全書用上等白宣紙端楷精鈔,版匡朱色雙邊,每半葉八 行,朱色長格,每格內雙行小字,行二十八字,邊匡、 行線、中縫諸字、引用書名及斷句圈聲之小圓圈,皆為 朱筆,另諸字之有收錄篆文草體者,其標題「篆書」、 「隸書」、「真書」、「行書」、「草書」諸字亦用朱 筆,內文書寫體勢,筆力遒勁,清徐階譽稱「舊本繕寫 甚精,今要此等善書者,殊難多得。」 《永樂大典》若製作影像,在規格應注意下列各點: 1.影像製作規格至少為全彩 600DPI 的 TIFF 檔,若要 考量到「典藏」及「印刷」用途,需增至 600-1200DPI。 2.在原稿清楚的前提下,影像掃瞄品質必須清晰,不 可太濃、太淡、歪斜,掃瞄內容必須完整。 3.掃瞄後影像需進行品質校正,去除黑邊與影像之外 產生之污點,影像歪斜度以中心線為基準左右不超 過五度。 圖 7 國家圖書館藏《永樂大典》數位影像選例

二、全文資料庫

古籍內容透過「文字光學辨識技術」及「標誌語言」, 可以產生標誌過的古籍全文資料庫,具有以下兩項效益: 1.原來在紙本內容裡的編排格式,可以繼續保存在電 子檔中,便於電腦瞭解,以提供更多的訊息。 2.標誌過的古籍可轉成「超文件 Hypertext 全文資料 庫」,以利內容的檢索【19】。 由於編纂《永樂大典》曾匯集古今圖書達七、八千種, 所以對於後世具有輯佚、校讎等多方面的價值及影響。 楊家駱教授曾編製多種索引及書目,以進一步的瞭解和 利用《永樂大典》【20】,利用「文字光學辨識技術」 及「標誌語言」,所產生的《永樂大典》全文資料庫可 以分別製作多種索引,將《永樂大典》的內容分類整理、 分析及進一步的進行輯佚、校讎。

三、書目資料庫

《永樂大典》各卷冊分隸不同字韻,內容各異,又分 儲各地,宜建立一個完整的專科書目資料庫,除了提供 書目訊息外,尚可參考趙萬里先生所撰「永樂大典提 要」,以「書志體例」來編寫各卷冊內容大要;此外, 也可將研究主題及相關論述,設置「討論群」匯集在此 線上資料庫內,以便利查詢,擴展研究層面。 依據 Dublin Core 的 15 個欄位,可以編製出符合需要 的古籍 Metadata,國家圖書館已將館藏善本書的機讀書 目轉成古籍 Metadata,並建置在系統上,以供查詢;此 外,古籍 Metadata 的 DTD 以及 XML 也將陸續完成,日 後將有助於 Metadata 的分享、交換,以下是國家圖書館 古籍影像資料庫內《永樂大典》Metadata 的選例:

(9)

肆、結語

謝清俊教授認為電子化的古籍是使古籍活出最佳現代 風貌、也是唯一的選擇,因為【21】: 1.古籍的電子版本可無限地複製,是取之不盡、用之 不竭的資源,可供全民共享。 2.透過網路,電子古籍可以瞬息千里,沒有運輸和分 配的問題。 3.電子版本的古籍容易匯集,鉤稽參照後,能產生新 的訊息。 4.電子古籍好儲存,體積小,便於檢索、應用及處理。 圖書館古籍整理隨著資訊科技的影響,產生相當大的 變化,武亞民論及「數字圖書館與古籍整理的關係」中 認為【22】: 1.數字圖書館(即「數位圖書館」,另有譯成「數據圖 書館」)將各種不同類型的文獻信息有機地結合在一 起,因此古籍成為數字圖書館中不可缺少的信息源 之一; 2.中國的數字圖書館在建設的過程中必須考慮和首先 解決古籍的中國傳統文化特徵,這是具有中國特色 的數字圖書館的關鍵。 由此可知,未來圖書館要借諸現代化的手段來進行古 籍的整理、組織與利用,建立具有中國特色的數位化圖 書館,以謀民族文化的延續。 《永樂大典》成書於明永樂年間,以文獻的形式保存 明季以前社會、文化、經濟、科技…等各方面的發展, 是中世紀以前完整的中國百科紀錄;更由於其內容浩 博,後世從其中取得了無數的研究資料,顧頡剛先生認 為甲骨文字、銅器群、考古器物、西北文物及內閣大庫 等為民國以來所發現的五項新史料【23】, 若以《永樂 大典》對輯佚、校勘及在內容方面各類研究的重要性而 言,堪稱為民國以來所發現的另一項新史料。北京圖書 館所庋藏的《永樂大典》舉世最豐,曾先後兩次出版存 世《永樂大典》複製本,此次更照原式仿製出版北京圖 書館所藏《永樂大典》;此外,早期探討《永樂大典》 的諸位學者如趙萬里、王重民、袁同禮俱為北京圖書館 先進館員,凡此皆顯示北京圖書館在《永樂大典》的存 護、傳布及研究上貢獻良多。 臺灣地區所典藏的《永樂大典》存本僅次於大陸地區, 近年來臺灣地區積極推動「古籍文獻數位典藏」,藉助 資訊及網路的技術,致力於建立數位化古籍的影像資料 庫、全文資料庫及書目資料庫。值此紀念《永樂大典》 成編 600 年之際,若由北京圖書館邀集全球《永樂大典》 存本的典藏單位,擬訂合作計畫,共同完成《永樂大典》 的數位化工作,並建立專屬的網站,將數位化的《永樂 大典》存本及相關研究成果在網路上表達出來,不但有 助於傳統古籍文獻與現代資訊科技的整合,也能將民族 文化遺產無遠弗屆的傳遞到世界各地;而在建立資料庫 的過程中,經由古籍書目、字碼的整合以及檢索技術的 互通,必能提升兩岸圖書資訊的交流,以具體實現「中 文文獻資源共建共享」的合作目標及互惠遠景。 本文初稿發表於北京圖書館於 2002 年 4 月在北京所舉 行的「永樂大典編纂 600 年國際研討會」

附註

【1】 ( 1 ) 聯 合 國 世 界 文 化 遺 產 數 位 化 計 劃 (UNESCO Memory of the World)<http://www.unesco.org/webworld/ mdm/index.html>

(2)十一世紀盎格魯—撒克遜史詩手稿(The Elec-tronic Beowulf) 數位化計劃<http://www.uky.edu/ ArtsSciences/English/Beowulf/eBeowulf/guide.htm>

(3)梵蒂岡圖書館計畫(The Vatican Library Pro-ject) <http://www.software.ibm.com/is/dig-lib/vatican/vatican.ht ml> 【2】黃寬重、劉增貴(民 87),「中央研究院人文 計算的回顧與前瞻」,漢學研究通訊 17:2,頁 146。 【3】陳秉仁,(民 87)。「古籍善本數字化的嘗試— 中國古籍善本查閱系統述略」。現代圖書,1998 年 1 期, 頁 22-25,45。 【4】傅斯年圖書館珍藏善本圖籍書目資料庫 <http://localhost.ncl.edu.tw:888/fsndbc/ttsweb.exe> 【5】張軸材。《四庫全書》電子版工程與中文信息技 術。<http://www.sikuquanshu.com/> 【6】

(1)Kevin S.Kiernan,“Digital Prservation, Restora-tion,and Dissemination of Medieval Manuscripts."

http://www.uky.edu/ArtsSciences/English/Beowulf/welcom e-ld/1993.html

(2)山田周治、忽那一代,「京都大學附屬圖書館珍 藏文獻影像資料庫之製作與公開報告書」

(10)

<http://ddb.libnet.kulib.kyoto-u.ac.jp/exhibit/gtest/report.ht m> 【18】顧力仁(民 90),「資訊時代圖書館中國古籍 組織與利用之探討」。臺灣大學圖書資訊學系博士學位 論文。 (3)北京大學資訊服務處、元智大學圖書館,(民 87)。「善本書數位資料庫建置計畫」。該計畫迄未實 施。 【19】古籍全文資料庫雖然解決了篇章及字詞的檢索 問題,但對於古籍各版本之間的對應(如:存世「史記」 各種版本之間的關係)、注疏和正文間之間的參照(如: 「尚書」漢孔安國、唐陸德明等各家傳注與正文的關係) 仍無法處理,針對這一點,中央研究院已開發了「中文 文獻處理系統」,可以做「古籍超文件處理」,並且已 有若干先導實驗解決古籍各類資訊之多版本連結導行之 問題,詳見陳昭珍,「古籍超文件全文資料庫模式之探 討」(臺灣大學圖書館學研究所博士論文,民 83 年 12 月)。 【7】同註 3,頁 25。 【8】同註 6(2)。 【9】同上註。 【10】同上註。 【11】同上註。 【12】張復(研究計畫主持人)(民 89)「古籍無定 型工整手寫文字辨識、檢索與管理系統計畫執行構想報 告書。中央研究院資訊研究所文件分析與辨識實驗室, 頁 63-64。 【20】見顧力仁,「永樂大典及其輯佚書研究」(臺 北:東吳大學中國學術著作獎助委員會,民 74 年),頁 186-231。另欒貴明編有「永樂大典索引」(北京市 : 作 家出版社, 1997)、鄭福田等主編「永樂大典精華」(內 蒙古大學出版社,1998 年),有待從索引整理出引用書 全文。 【13】莊德明、謝清俊、林晰。中央研究院古籍全文 資料庫解決缺字問題的方法。 <http://www.sinica.edu.tw/~cdp/paper/1998/19990511_1.ht m> 【21】謝清俊、林晰(民 86),中央研究院古籍全文 資料庫的發展概要。頁 2。 <http://www.sinica.edu.tw/~cdp/paper/1997/19970301_1.ht m> 【14】杜正民(民 88)佛教藏經的文字問題與解決方 案,中央研究院漢籍電子文獻協調委員會,電子古籍中 的文字問題研討會[會議資料。(臺北市:中央研究院, 頁 43。 【22】武亞民(民 87)。數字圖書館與古籍整理,圖 書館學刊,1998 年 2 期,頁 25。 【15】同註 5。 【16】周邦信(民 89),標記語言的應用。佛教圖書 館館訊,24 期,頁 41。 http://www.gaya.org.tw/journal/m24/24-main5.htm 【23】顧頡剛(民 53)。當代中國史學(香港:龍門 書店。頁 44-82。 【17】陳雪華、陳昭珍(民 89),數位博物館資源組 織與管理。數位博物館專業訓練課程--緒論課程[講 義](臺北市:國立臺灣大學圖書館,頁 10。

(11)

附錄

一、永樂大典 cmarc 選例

001 100747479 010 0 $b 包背裝 010 1 $bwrapper 050 $a100747479$zRB87001285 100 $a19870414f15221572 a0chib09 e 101 0 $achi 102 $acw 105 $aa z 000yy 200 1 $a 永樂大典$p 存二卷$f(明)解 縉等撰 205 $a 明嘉靖隆慶間(1522-1572)內府重寫本 215 0 $a1 冊$d(全幅 35.3x24 公分) 215 1 $a1 v.$d(full 35.3 x 24 cm.) 300 $a 有微捲、有精裝本 304 $a 正文卷端題「永樂大典卷之四百八五」 305 $a8 行, 行 28 字. 雙欄. 版心黑口, 三魚尾. 305 $a 藏印: 「國立中央圖/書館收藏」朱文長方印、「周/暹」白文方印 316 $a 存卷四百八十五、卷四百八十六忠字 608 00 $a 寫本 608 10 $a 北京 608 11 $aPei-ching 608 20 $a 內府 608 21 $aNei fu 608 40 $a 明嘉靖 608 41 $aMing Chia-ching 608 50 $a 包背裝 608 40 $a 明隆慶 608 41 $aMing Lung-ch'ing 687 $a309$b07956$dRCC 700 1 $a 解$b 縉$s(明) $4 撰 770 1 $aHsieh,$bChin. 801 0 $acw$b 中圖$c19860404 801 1 $acw$b 中圖 801 2 $acw$b 中圖$c19930215

(12)

二、 永樂大典 metadata 選例

NO. 欄 位 Element 分 欄 Qualifier 著錄內容 Value 1 題名 Title 正題名 Main 永樂大典 2 其它題名 Alternative 3 拼音題名 Roman 4 創作者 Creator 姓名 Name 解縉 5 朝代 Dynasty 明 6 創作方式 撰 7 主題和關鍵詞 Subject 主要主題 Subject 古籍 8 技術種類 Category 9 四部類目 10 關鍵詞 Keywords 11 簡述 Description 入藏方式 12 入藏來源 13 序跋位置 Preface Locality 14 序跋者 Preface Writer 15 序跋

Preface & postscript 16 手書題記位置

About Manuscript Locality 17 手書題記者

About Manuscript Preface Writer 18 手書題記 Colophon 19 牌記 Public notice 20 收藏印記 Seal 「國立中央圖/書館收藏」朱文長方印、「周/暹」白文 方印 21 版本 Edition 明嘉靖隆慶間(1522-1572)內府重寫本 21-1 版本類型 Edition Type 寫本

(13)

NO. 欄 位 Element 分 欄 Qualifier 著錄內容 Value 22 裝訂 Binding 包背裝 23 裝潢 Mount 24 版式行款 8 行, 行 28 字. 雙欄. 版心黑口, 三魚尾. 25 刻工 Carver 26 避諱 Tabooed word 27 保存現況 Conditions 28 評等 Grade 存卷四百八十五、卷四百八十六忠字 29 附註項 Notes 有微捲、有精裝本 30 釋文 Transcription 31 篇目 32 出版 Publish 出版者 Publisher 內府 33 出版地 Published place 北京 明嘉靖 34 出版年(中曆)

Published Text Date 明隆慶 35 出版年(西曆)

Published Western Date

1522-1572 36 印刷時間(中曆)

Printed Text Date 37 印刷時間(西曆) Printed Western Date 38 其他貢獻者 Contributor 姓名 Name 39 朝代 Dynasty 40 著作方式 Role 41 姓名 Name 42 朝代 Dynasty 43 著作方式 Role 44 日期 Date 編目日期 Cataloging Date 1987.04.14 45 製作時間 Created 1522-1572

(14)

NO. 欄 位 Element 分 欄 Qualifier 著錄內容 Value 46 取得時間 Acquired 47 資源類型 Type 自訂藏品 善本書 48 原件與否 原件 49 資料格式 Format 數量 Quantity 1 冊 50 圖像 Decoration 51 高廣 Dimensions 全幅 35.3x24 公分 52 材質 Material 53 識別碼 Identifier 書號 07956 54 索書號 Call Number 309 07956 55 登錄號 Accession 56 來源 Source 57 語文 Language 編目語文 Cataloging Language 中文 58 作品語文 Item Language 漢文 59 關連 Relation 收藏著錄 合刊 60 時空涵概範圍 Coverage 61 權限管理 Rights 現藏者 Owner 國家圖書館特藏組 62 現藏者國家 Owner Country 中華民國

(15)

三、 永樂大典 xml 選例

<?xml version="1.0" encoding="Big5"?> <rarebook> <Title> <MainTitle>永樂大典</MainTitle> <AlternativeTitle/> <RomanTitle/> </Title> <Creator> <Name>解縉</Name> <Dynasty>明</Dynasty> <Role>撰</Role> </Creator> <Subject> <SubjectMatter>古籍</SubjectMatter> <Technique/> <Category/> <Keywords/> </Subject> <Description> <AcqMethod/> <AcqSource/> <PreLocality/> <PreWriter/> </PrePostscript> <ManuLocality/> <ManuPreWriter/> <Colophon/> <Publicnotice/> <Seal>「國立中央圖/書館收藏」朱文長方印、「周/暹」白文方印</Seal> <Edition>明嘉靖隆慶間(1522-1572)內府重寫本</Edition> <EditionType>寫本</EditionType> <Binding>包背裝</Binding> <Mount/> <StyleForm>8 行, 行 28 字. 雙欄. 版心黑口, 三魚尾.</StyleForm> <Carver/> <Tabooedword/> <Conditions/> <Grade/> <Notes>存卷四百八十五、卷四百八十六忠字</Notes> <Notes>有微捲、有精裝本</Notes> <Transcription/> <Outline>y</Outline> </Description>

(16)

<Publish> <Publisher>內府</Publisher> <PubPlace>北京</Publace> <PubTextDate>明隆慶</PubTextDate> <PubWesternDate>1522-1572</PubWesternDate> <PrintedTextDate/> <PrintedWesternDate/> </Publish> <Contributor> <Name/> <Dynasty/> <Role/> </Contributor> <Date> <CatDate>19870414</CatDate> <CreatedDate>1522-1572</CreateDate> <AcquiredDate/> </Date> <Type> <WorksType>善本書</WorksType> <OriginalSurrogate>原件</OriginalSurrogate> </Type> <Format> <Quantity>1 冊</Quantity> <Decoration/> <Dimensions>全幅 35.3x24 公分</Dimensions> <Material/> </Format> <Identifier> <BookNo>07956</BookNo> <CallNo>309 07956</CallNo> <AccessionNo/> </Identifier> <Language> <CatLang>中文</CatLang> <ItemLang>漢文</ItemLang> </Language> <Relation> <CollectionCat/> </Relation> <Rights> <OwnerName>國家圖書館特藏組</OwnerName> <OwnerCountry>中華民國</OwnerCountry> </Rights> </rarebook>

數據

表 1  各單位製作古籍影像資料庫使用方式及設備一覽表(表內*見註 6)  輸入 方式  掃  瞄  器  數位相機  底片掃瞄  (含微縮資料轉製)  單位 名稱  傅斯年 圖書館  台大  圖書館  上海  圖書館 IBM*  大英圖書館* 元智大學  國圖  京都大學 圖書館*  使用 設備  SC4000 A6-A3  A3 或 A4  A3 或A4  Pro/3000 Roche/  Kontron  PorgRes 3012

參考文獻

相關文件

zSELECT 欄位名稱1, 欄位名稱2, … FROM 資料表名稱 WHERE 條件式 ORDER BY 欄 位名稱 (字串需以單引號 '

以電腦輸入團員資料 (Excel 格式)

序號 編號 主持人 公文主旨 公文摘要 發文日期 的。 3.另,因案內發生多起試驗人員未依 CRF. complete guidance

下列哪一種記憶體屬於非揮發性記憶體, 不會因電源關閉而使其中的資料消 失, 但是可以透過電壓的方式重複抹除資料, 可用於基本輸入/ 輸出系統 (Basic Input / Output System,BIOS)

推理論證 批判思辨 探究能力-問題解決 分析與發現 4-3 分析文本、數據等資料以解決問題 探究能力-問題解決 分析與發現 4-4

Visual Basic提供了許多控制項介面來處理由鍵盤輸入

代碼 姓名 姓別 住址 電話 部門 部門 位置..

本彙集輯錄了多篇學校經驗分享的文章,闡述「管理與組織」範疇的各項全校 參與訓育及輔導工作模式的重點,請參閱教統局網頁,索引: 本局向學生及家 長提供的服務 &gt;