• 沒有找到結果。

1.1 引言

「類書」為中國古代具有特色的工具書之一,其成書方式係以將若干古籍中 有關事物的敍述或記載片段擷取采輯起來,再依照作者的分類規則編排成纂,以 方便讀者檢索。在大量的文獻基礎上,把龐雜的典籍內容篩選,以類相從,打破 所有文獻體例,重新組合成一個有機體,使讀者可以迅速掌握知識全貌[1]。所謂

「方以類聚,物以群分」、「事類相從,聚之義也」者是[2]。就性質來說,類書其 分類概念似於現今所謂的「百科全書」(Encyclopedia),但就實際內容來說卻是不 盡相同:百科全書會詳加闡述解釋所收錄的知識對象,而類書卻只是將擷取出的 資料抄撮成書,記載出處而卻不加以論述說明,足見兩者是有其差別的。以現代 比喻來說,百科全書如同辭典,類書則如同古代的 Google。

類書發源從三國時代魏文帝曹丕所纂之《皇覽》為始,按類分為四十餘部,

每部之下又分為數十篇不等。經過隋代的《北堂書鈔》,唐高祖時的《藝文類聚》, 唐太宗時的《文思博要》,武則天時的《海內珠英》等等,逐漸形成一個編纂類書 的傳統。至此,類書所收錄之資料範圍大多偏於狹窄,多是為某種單項的需要而 編纂[3]。宋代,宋太宗時的《太平御覽》以及宋真宗時的《冊府元龜》分類細密,

采輯內容擴大,所含文字量為百萬數量級,類書的發展更進一大步。明清時期,

明成祖時的《永樂大典》與清康熙雍正年間的《古今圖書集成》分類詳盡仔細,

收錄書籍包羅萬象,所含文字量更達到了億數量級,使得中國類書的發展達到巔 峰,前無古人且後無來者。

中國類書至今為止已發展了近兩千年,並且歷興不衰,無論是在中國的歷史、

政治、經濟、制度乃至於天文、醫學、地理、生命科學等研究中,皆佔有一席重 要之地,吸收了中國兩千年以來所有知識的精華。

1.2 研究動機與目的

因《永樂大典》幾已散佚銷毀,因此在類書中當以《古今圖書集成》(以下簡 稱同義於《集成》)為現存類書中規模最大、體例最完整的[4]。《集成》囊括約五 十萬餘頁、一億七千萬文字、一萬餘幅圖片,以及收錄自中國上古至清初之書目

達六千多種,並且詳細編排所收資料,成為一本完整的資料彙編專書。以學科分 類劃分,《集成》包括了中國古代的哲學、歷史、地理、經濟、政治、法律、外交、

軍事、文化、教育、語言、文學、藝術、宗教、數學、農業、醫學、藥物、天文、

體育、氣象、植物、動物、礦產、冶金、化工、工程、工藝、民族、風俗等方面 的豐富資料[5],在現代仍然是許多專門學術的參考書,其重要性可見一斑。

現今資訊技術的發達與普及,以至於可以利用在以往需要憑藉大量人力與時 間的人文研究,達到省時及省力的目的。《集成》所含的資料量如此龐大,如果僅 用人力方式持續翻閱書籍,尋找自身所需要的資料,無疑是日久月深。也因此現 存有關於《集成》的相關研究偏少,且研究範圍大多數都只有包含《集成》的一 小部分而已。若能將《集成》利用資訊技術數位化,對《集成》中的各類資料分 門別類,建立資料架構,且從中擷取一些重要的資訊作為參考,無疑是未來對於

《集成》的研究者或使用者的一大福音。

目前在線的《集成》資料庫中,諸如國立故宮博物院與東吳大學合作開發的

「數位古今圖書集成[6]」,廣西大學古籍所開發的「古今圖書集成索引&全書圖像 [7]」等,皆只有提供簡單的文字或圖像搜索功能,因此需要利用更完善的系統來 呈現此一鉅作。

又由於《集成》包含了大量從上古至清初的古籍,並將每本古籍中的內容依 照本身的分類方式分斷打散至各類之下,以類相從。換句話說,每一類會聚集許 多引用不同古籍,並且敍述之知識對象相似的文字段落。若能夠用資訊技術,將 每段文字的出處古籍資訊擷取出來,並且以出處為引,重組原古籍的內容,就可 與原書做比較,找出並研究《集成》沒有收錄或是修改過之文句篇章,甚至更可 重現現今已佚失之古籍,揭露其原始面貌。

本研究希望以資訊技術,將《集成》全文建立結構化的資料、擷取關鍵出處 資訊並以台灣歷史數位圖書館(Taiwan History Digital Library, THDL)[8]之系統模型 作呈現,另外也產生部分統計資料以供未來研究者及使用者參考使用。

1.3 論文架構

本論文第二章為「《古今圖書集成》介紹」,主要闡述《集成》的成書背景資 料以及全書編排方式和架構。第三章為「數位檔案處理方式與流程」,說明如何針

對《集成》全文結構運用資訊方法剖析並建置架構化之資料。第四章為「出處自 動化擷取與補正」,主要說明《集成》中各段文字出處的擷取方式以及如何自動化 修正及補齊出處的錯誤及不足之處。第五章為「THDL 系統呈現與相關統計數據」,

以 THDL 模型呈現架構化之資料並且提供一些從《集成》中產生出的統計數據及 相關資訊。第六章為「結論與未來發展」,總結整篇論文,並補充未來可能增加的 應用。

1.4 常用名詞定義

 目錄:在《集成》當中每一卷的開頭文字段落,說明此卷的內容架構。

 內容:緊接著目錄之後的文字段落,由若干段內文或條目群所組成。

 條目:在《集成》當中所呈現的基本文字字串單位。通常由「出處」以 及「內文」所組成。

 條目群:由許多不同的條目所組成的文字段落。

 (條目)出處:表示此條目的參考出處來源。《集成》中出處之標示可以是 在緯度的標題上,也可以是在內容文字段落開頭。另外可以分為「書目 篇章」以及「詩詞曲賦」兩種。

 (條目)內文:表示此條目所敘述知識對象的文字字串。

例號 部名 緯度一 緯度二 緯度三 條目

#1

天地

總部 總論 易經 豫卦

《豫卦》天地以順動,故日月不過,

而四時不忒。 (大全)厚齋馮氏曰:

日月之行,景長不過南陸,短不過北 陸。故分至啟閉,不差其序,以順陰

陽之氣而動也。

#2

陰陽

部 雜錄 - -

《汲冢周書‧大聚解》:王若欲求天 下民,先設其利,而民自至。譬之若 冬日之陽,夏日之陰,不召而民自

來,此謂歸德。

#3 月部 選句 - -

唐李白《春夜宴桃李園序》:開瓊筵

例號 出處 內文 出處種類

#1 易經/豫卦

天地以順動,故日月不過,而四時不忒。

(大全)厚齋馮氏曰:日月之行,景長不 過南陸,短不過北陸。故分至啟閉,不差

其序,以順陰陽之氣而動也。

書目篇章

#2

汲冢周書/大聚 解

王若欲求天下民,先設其利,而民自至。

譬之若冬日之陽,夏日之陰,不召而民自 來,此謂歸德。

書目篇章

#3 春夜宴桃李園序 開瓊筵以坐花飛,羽觴而醉月。 詩詞曲賦 Table 1-1 條目、條目出處與條目內文範例

 經(度):表示類書的垂直分類架構,層數愈大表示其分類愈細。《集成》

中含有彙編、典、部三層經度架構。

 緯(度):表示類書的水平分類架構,代表不同型式的收錄條目。《集成》

中含有八種不同緯度,各種緯度有一至三層之架構。

 實緯度層:表示在此層的緯度架構有實際的內文或條目群存在。

 虛緯度層:表示在此層的緯度架構沒有實際的內文或條目群存在,僅為 過渡之層。

相關文件