國立臺灣大學電機資訊學院資訊工程學系 碩士論文
Department of Computer Science and Information Engineering College of Electrical Engineering and Computer Science
National Taiwan University Master Thesis
《古今圖書集成》自動化內容建構與出處擷取 Automated Content Construction and Reference Retrieval
on the Completed Collection of Graphs and Writings of Ancient and Modern Times
林易徵 Yi-Cheng Lin
指導教授:項潔 教授 Advisor: Jieh Hsiang, Professor
中華民國 102 年 7 月
July, 2013
誌謝
時光荏苒,歲月如梭,如今畢業在即,在台大求學的最後一年也將畫下了休 止符。
首先感謝敝生的指導教授項潔老師。從研究上大方向的指點迷津,至論文上 小地方的潤稿修飾,老師皆適時地給予指導和協助,使得論文更臻完善;另外也 從老師身上學習掇拾甚多,不論是研究的方法與氣度、治學的嚴謹與精神等,皆 令敝生成長不少,謝謝老師。
感謝實驗室的大家長杜協昌博士。在資訊技術上所遇到的問題與瓶頸,杜博 士皆能給予解決的方案與建議,讓敝生在研究的這條道路上,能夠更加堅定邁步 向前,不至於徬徨失措,謝謝杜博士。
感謝實驗室中唯一的歷史學家稷安。任何有關於歷史及人文方面的問題,稷 安總是熱心地幫我們找尋資料及不吝提供相關知識,謝謝稷安。
感謝實驗室的同屆好夥伴們。維謙、嘉軒、乃華、凱勛、欣愷、瑞安,在實 驗室的這些日子裡,研究上互相討論與扶持,生活上互相分享與幫忙,一起努力 邁向終點,謝謝你們。
感謝實驗室的學弟妹,沛強、豐成、有為、偉儀、信廷、綱政與若桓,還有 大學長光哲,謝謝你們讓實驗室增添了幾分趣味與人情味。
最後感謝我的家人,一直支持我在這求學的道路上,以及感謝任何曾經幫助 過我的師長、前輩、後進、同儕、朋友等,謝謝你們。
林易徵 民國一○二年七月
中文摘要
類書是中國歷史上重要的工具類型之書,其將古籍中各個不同的知識敘述片 段擷取出來,並依照類書本身的分類方式及編排架構編纂而成,以類相從,以達 到整理經籍以及方便查閱的作用。自三國時代開始,類書在中國的發展已近兩千 年,收錄典籍愈多,分類方法愈詳細。目前現存以清代康熙、雍正時期所編纂的
《古今圖書集成》最為重要,其資料也最為豐富,於現代也仍舊是值得參考的工 具書。
《古今圖書集成》內含有約一億七千萬餘的文字量,並且收錄自上古至清初 約一萬餘本的古籍資料,又其收錄的知識類型包羅萬象、應有盡有。如此鉅作要 能方便地瀏覽查找其內含的豐富知識實屬不易,因此在本研究嘗試以資訊方法來 解決這些問題。
本研究主要分為三個部份,第一部份主要說明《古今圖書集成》的成書架構,
並依照其架構設計一套處理的流程將其所收錄的知識敘述文句段落切開為獨立條 目,並套入台灣歷史數位圖書館(Taiwan History Digital Library, THDL)模型以供使 用者方便查閱。第二部份主要針對各條目的古籍出處作整理,利用資訊方法將錯 誤或是缺失的出處資訊補正,以達到整理經籍,甚至輯佚的目的。第三部份則是 根據前兩部份的資料架構建置及出處整理結果,作交叉性的統計數據。
希望本研究也能夠對於未來類書或是《古今圖書集成》的研究者,達到前導 及縮短研究時間之目的。
關鍵字:古今圖書集成、類書、條目、條目出處、自動化、數位人文、台灣歷史 數位圖書館
ABSTRACT
Leishu(類書, categorically data-assembling book) is a type of reference books developed in ancient China. A leishu first develops a classification structure for the intended knowledge domain, then extracts segments from existing books and fits them into the proper categories so that they can be retrieved and used conveniently later.
Gujin Tushu Jicheng(古今圖書集成, Completed Collection of Graphs and Writings of Ancient and Modern Times), published in the 18th century during the Qing Dynasty, is the largest and most valuable leishu.
Gujin Tushu Jicheng contains approximate 170 million words, which were taken from over 10 thousand ancient classics and books. In this thesis, we develop information technologies to effectively harness this great book.
There are mainly three parts in this thesis. In the first part, we introduce the background and overall structure of Gujin Tushu Jicheng. We also design an automated procedure to identify and analyze the entries in the book. We then build a retrieval system by incorporating the restructured content into the THDL(Taiwan History Digital Library) shell. In the second part, we try to identify the sources of the entries automatically and systematically, fix the errors and patch the omissions. In the last part, we give some statistical data drawn from the analysis done in the first two parts of the thesis.
Keywords: Gujin Tushu Jicheng(Completed Collection of Graphs and Writings of
Ancient and Modern Times), leishu, entries, references of entries, automation,
digital humanities, Taiwan History Digital Library
CONTENTS
口試委員會審定書 ... #
誌謝 ...i
中文摘要 ... ii
ABSTRACT ... iii
CONTENTS ...iv
LIST OF FIGURES ...vi
LIST OF TABLES ... viii
Chapter 1
緒論... 11.1 引言 ... 1
1.2 研究動機與目的 ... 1
1.3 論文架構 ... 2
1.4 常用名詞定義 ... 3
Chapter 2
《古今圖書集成》介紹 ... 52.1 成書背景與概述 ... 5
2.2 全書之編排架構 ... 7
Chapter 3
數位檔案處理方式與流程 ... 133.1 數位檔案格式介紹與紙本比較 ... 13
3.2 數位檔案條目建構流程 ... 15
3.2.1 擷取經度及其他資訊 ... 16
3.2.2 擷取目錄並架構化 ... 16
3.2.3 切出獨立內文/條目群 ... 17
3.2.4 斷句回接處理 ... 18
3.2.5 校驗項目總數與偵錯 ... 19
3.2.6 自動與人工修正錯誤 ... 19
3.2.7 部分條目群分切各條目 ... 22
3.2.8 計算各條目之 ID ... 23
3.2.9 寫入資料庫及匯出 XML 檔 ... 24
Chapter 4
出處自動化擷取與補正 ... 294.1 原始出處格式與擷取 ... 29
4.2 擷取後出處處理流程及方法 ... 30
4.2.1 自動斷詞 ... 31
4.2.2 自動標籤 ... 32
4.2.3 補缺資訊 ... 34
4.2.4 Query 偵錯與修正 ... 35
4.3 新增出處資訊後之 XML 檔 ... 36
Chapter 5 THDL 系統呈現與相關統計數據 ... 37
5.1 THDL 系統介面與功能概述 ... 37
5.2 《集成》相關統計數據 ... 39
5.2.1 形式架構相關 ... 39
5.2.2 條目出處相關 ... 43
Chapter 6
結論與未來工作 ... 59REFERENCE ... 61
附錄一:部名總表 ... 63
附錄二:目錄存在但內容缺漏之項目列表 ... 83
附錄三:多重書目與單一篇章包含關係列表 ... 91
附錄四:出處資訊別名列表 ... 123
附錄五:書目與無書目包含篇章出處列表 ... 125
附錄六:詩詞曲賦出處作者列表 ... 489
LIST OF FIGURES
Fig. 2-1 文星書店版《集成》封面 ... 6
Fig. 2-2 文星書店版《集成》內頁 ... 6
Fig. 2-3 附編之地圖內頁 ... 7
Fig. 2-4 文星書店版紙本實例之一 ... 7
Fig. 2-5 文星書店版紙本實例之二 ... 8
Fig. 2-6 文星書店版紙本實例之三 ... 8
Fig. 2-7 《集成》全書經緯架構圖 ... 11
Fig. 3-1 數位檔案實例之一 ... 14
Fig. 3-2 數位檔案實例之二 ... 15
Fig. 3-3 數位檔案處理流程圖 ... 16
Fig. 3-4 目錄與其架構示意圖 ... 17
Fig. 3-5 實緯度層與虛緯度層範例 ... 18
Fig. 3-6 紙本與文字檔單行對照範例 ... 18
Fig. 3-7 目錄與內容項目不符實例(a) ... 20
Fig. 3-8 目錄與內容項目不符實例(b) ... 21
Fig. 3-9 目錄與內容項目不符實例(c) ... 22
Fig. 3-10 條目群分切後經緯架構圖 ... 23
Fig. 3-11 XML 檔範例 ... 26
Fig. 3-12 經濟彙編祥刑典盜賊部雜傳一紙本目錄 ... 27
Fig. 3-13 理學彙編學行典聖門諸賢部列傳一紙本目錄 ... 27
Fig. 3-14 明倫彙編官常典將帥部彙考五紙本目錄 ... 28
Fig. 4-1 選句條目出處文字檔實例 ... 30
Fig. 4-2 出處處理流程圖 ... 31
Fig. 5-1 《集成》之 THDL 系統介面圖 ... 37
Fig. 5-2 自訂文件集功能介面圖例 ... 38
Fig. 5-3 詮釋資料欄位圖例 ... 38
Fig. 5-4 進階檢索與綴詞分析圖例 ... 39
Fig. 5-5 綴詞分析結果以「典農」為例 ... 39
LIST OF TABLES
Table 1-1 條目、條目出處與條目內文範例 ... 4
Table 2-1 《集成》經度架構表 ... 10
Table 2-2 《集成》緯度各類別釋義表 ... 11
Table 4-1 緯度一條目出處顯示與出處種類整理表 ... 29
Table 4-2 出處種類與項目數關係之出處模式表 ... 32
Table 5-1 緯度一之數量統計表 ... 40
Table 5-2 各典部數與緯度一數量比例統計表 ... 42
Table 5-3 各分典條目數統計表 ... 42
Table 5-4 各分典字數統計表 ... 43
Table 5-5 書目篇章出處朝代與書目數、條目數、字數統計表 ... 45
Table 5-6 詩詞曲賦出處朝代與標題數、條目數、字數統計表 ... 46
Table 5-7 出處朝代與各分典條目數和字數統計表 ... 57
Chapter 1 緒論
1.1 引言
「類書」為中國古代具有特色的工具書之一,其成書方式係以將若干古籍中 有關事物的敍述或記載片段擷取采輯起來,再依照作者的分類規則編排成纂,以 方便讀者檢索。在大量的文獻基礎上,把龐雜的典籍內容篩選,以類相從,打破 所有文獻體例,重新組合成一個有機體,使讀者可以迅速掌握知識全貌[1]。所謂
「方以類聚,物以群分」、「事類相從,聚之義也」者是[2]。就性質來說,類書其 分類概念似於現今所謂的「百科全書」(Encyclopedia),但就實際內容來說卻是不 盡相同:百科全書會詳加闡述解釋所收錄的知識對象,而類書卻只是將擷取出的 資料抄撮成書,記載出處而卻不加以論述說明,足見兩者是有其差別的。以現代 比喻來說,百科全書如同辭典,類書則如同古代的 Google。
類書發源從三國時代魏文帝曹丕所纂之《皇覽》為始,按類分為四十餘部,
每部之下又分為數十篇不等。經過隋代的《北堂書鈔》,唐高祖時的《藝文類聚》, 唐太宗時的《文思博要》,武則天時的《海內珠英》等等,逐漸形成一個編纂類書 的傳統。至此,類書所收錄之資料範圍大多偏於狹窄,多是為某種單項的需要而 編纂[3]。宋代,宋太宗時的《太平御覽》以及宋真宗時的《冊府元龜》分類細密,
采輯內容擴大,所含文字量為百萬數量級,類書的發展更進一大步。明清時期,
明成祖時的《永樂大典》與清康熙雍正年間的《古今圖書集成》分類詳盡仔細,
收錄書籍包羅萬象,所含文字量更達到了億數量級,使得中國類書的發展達到巔 峰,前無古人且後無來者。
中國類書至今為止已發展了近兩千年,並且歷興不衰,無論是在中國的歷史、
政治、經濟、制度乃至於天文、醫學、地理、生命科學等研究中,皆佔有一席重 要之地,吸收了中國兩千年以來所有知識的精華。
1.2 研究動機與目的
因《永樂大典》幾已散佚銷毀,因此在類書中當以《古今圖書集成》(以下簡 稱同義於《集成》)為現存類書中規模最大、體例最完整的[4]。《集成》囊括約五 十萬餘頁、一億七千萬文字、一萬餘幅圖片,以及收錄自中國上古至清初之書目
達六千多種,並且詳細編排所收資料,成為一本完整的資料彙編專書。以學科分 類劃分,《集成》包括了中國古代的哲學、歷史、地理、經濟、政治、法律、外交、
軍事、文化、教育、語言、文學、藝術、宗教、數學、農業、醫學、藥物、天文、
體育、氣象、植物、動物、礦產、冶金、化工、工程、工藝、民族、風俗等方面 的豐富資料[5],在現代仍然是許多專門學術的參考書,其重要性可見一斑。
現今資訊技術的發達與普及,以至於可以利用在以往需要憑藉大量人力與時 間的人文研究,達到省時及省力的目的。《集成》所含的資料量如此龐大,如果僅 用人力方式持續翻閱書籍,尋找自身所需要的資料,無疑是日久月深。也因此現 存有關於《集成》的相關研究偏少,且研究範圍大多數都只有包含《集成》的一 小部分而已。若能將《集成》利用資訊技術數位化,對《集成》中的各類資料分 門別類,建立資料架構,且從中擷取一些重要的資訊作為參考,無疑是未來對於
《集成》的研究者或使用者的一大福音。
目前在線的《集成》資料庫中,諸如國立故宮博物院與東吳大學合作開發的
「數位古今圖書集成[6]」,廣西大學古籍所開發的「古今圖書集成索引&全書圖像 [7]」等,皆只有提供簡單的文字或圖像搜索功能,因此需要利用更完善的系統來 呈現此一鉅作。
又由於《集成》包含了大量從上古至清初的古籍,並將每本古籍中的內容依 照本身的分類方式分斷打散至各類之下,以類相從。換句話說,每一類會聚集許 多引用不同古籍,並且敍述之知識對象相似的文字段落。若能夠用資訊技術,將 每段文字的出處古籍資訊擷取出來,並且以出處為引,重組原古籍的內容,就可 與原書做比較,找出並研究《集成》沒有收錄或是修改過之文句篇章,甚至更可 重現現今已佚失之古籍,揭露其原始面貌。
本研究希望以資訊技術,將《集成》全文建立結構化的資料、擷取關鍵出處 資訊並以台灣歷史數位圖書館(Taiwan History Digital Library, THDL)[8]之系統模型 作呈現,另外也產生部分統計資料以供未來研究者及使用者參考使用。
1.3 論文架構
本論文第二章為「《古今圖書集成》介紹」,主要闡述《集成》的成書背景資 料以及全書編排方式和架構。第三章為「數位檔案處理方式與流程」,說明如何針
對《集成》全文結構運用資訊方法剖析並建置架構化之資料。第四章為「出處自 動化擷取與補正」,主要說明《集成》中各段文字出處的擷取方式以及如何自動化 修正及補齊出處的錯誤及不足之處。第五章為「THDL 系統呈現與相關統計數據」,
以 THDL 模型呈現架構化之資料並且提供一些從《集成》中產生出的統計數據及 相關資訊。第六章為「結論與未來發展」,總結整篇論文,並補充未來可能增加的 應用。
1.4 常用名詞定義
目錄:在《集成》當中每一卷的開頭文字段落,說明此卷的內容架構。
內容:緊接著目錄之後的文字段落,由若干段內文或條目群所組成。
條目:在《集成》當中所呈現的基本文字字串單位。通常由「出處」以 及「內文」所組成。
條目群:由許多不同的條目所組成的文字段落。
(條目)出處:表示此條目的參考出處來源。《集成》中出處之標示可以是 在緯度的標題上,也可以是在內容文字段落開頭。另外可以分為「書目 篇章」以及「詩詞曲賦」兩種。
(條目)內文:表示此條目所敘述知識對象的文字字串。
例號 部名 緯度一 緯度二 緯度三 條目
#1
天地
總部 總論 易經 豫卦
《豫卦》天地以順動,故日月不過,
而四時不忒。 (大全)厚齋馮氏曰:
日月之行,景長不過南陸,短不過北 陸。故分至啟閉,不差其序,以順陰
陽之氣而動也。
#2
陰陽
部 雜錄 - -
《汲冢周書‧大聚解》:王若欲求天 下民,先設其利,而民自至。譬之若 冬日之陽,夏日之陰,不召而民自
來,此謂歸德。
#3 月部 選句 - -
唐李白《春夜宴桃李園序》:開瓊筵
例號 出處 內文 出處種類
#1 易經/豫卦
天地以順動,故日月不過,而四時不忒。
(大全)厚齋馮氏曰:日月之行,景長不 過南陸,短不過北陸。故分至啟閉,不差
其序,以順陰陽之氣而動也。
書目篇章
#2
汲冢周書/大聚 解
王若欲求天下民,先設其利,而民自至。
譬之若冬日之陽,夏日之陰,不召而民自 來,此謂歸德。
書目篇章
#3 春夜宴桃李園序 開瓊筵以坐花飛,羽觴而醉月。 詩詞曲賦 Table 1-1 條目、條目出處與條目內文範例
經(度):表示類書的垂直分類架構,層數愈大表示其分類愈細。《集成》
中含有彙編、典、部三層經度架構。
緯(度):表示類書的水平分類架構,代表不同型式的收錄條目。《集成》
中含有八種不同緯度,各種緯度有一至三層之架構。
實緯度層:表示在此層的緯度架構有實際的內文或條目群存在。
虛緯度層:表示在此層的緯度架構沒有實際的內文或條目群存在,僅為 過渡之層。
Chapter 2 《古今圖書集成》介紹
2.1 成書背景與概述
《古今圖書集成》原名《彙編》,為清康熙朝時陳夢雷承命纂輯,由誠親王允 祉代進,欽定改名為《古今圖書集成》[9]。爾後於雍正朝時下諭旨命蔣廷錫為總 載重新校閱改正[10]。自康熙四十年(1701)起開始編纂至雍正三年(1725)書成告竣,
雍正六年(1728)印刷完成[11],編纂期間共計二十八年。
全書共計一萬卷,內含五十萬餘頁,一億七千萬多文字以及萬餘幅圖片。收 錄自中國上古至清初的文獻資料,引用書目達六千多種,是現存規模最大的類書。
清雍正重臣張廷玉曾評曰:「自有書契以來,以一書貫串古今,包羅萬有,未有如 我朝《古今圖書集成》者[12]。」。原編纂者陳夢雷亦稱曰:「凡在六合之內,巨細 畢舉;其在十三經、二十一史者,只字不遺;其在稗史子集者,十亦只刪一二。
較之前代《太平御覽》、《冊府元龜》,精詳何止十倍[13]!」。
《集成》自雍正時期以銅刻活字印刷問世之後,仍舊有許多再版印刷的版本 出現:
光緒十年至十四年(1884-1888)之美查版
光緒十六年至二十年(1890-1894)之同文版
民國二十三年(1934)之中華書局版
民國五十三年(1964)之文星書店版
民國六十六年(1977)之鼎文書局版
民國七十四年(1985)之中華巴蜀聯合版[14]
目前以民國五十三年台灣文星書店所出版的《古今圖書集成》最為常見,除 共計一萬卷的全文以外,另編纂前編之目錄以及附編之考證、索引與地圖,總計 一百零一冊。又出版《古今圖書集成索引》作為原書之索引參考。本論文以此版 本之《集成》作為參考對象。
Fig. 2-1 文星書店版《集成》封面
Fig. 2-2 文星書店版《集成》內頁
Fig. 2-3 附編之地圖內頁
2.2 全書之編排架構
全書以卷為單位,每一卷由目錄以及內容組成。目錄說明本卷內容的經緯架 構,內容則主要為若干段內文或條目群所組成。以下 Fig.2-4 至 Fig.2-6 為文星書店 版《集成》紙本實例。
Fig. 2-5 文星書店版紙本實例之二
Fig. 2-6 文星書店版紙本實例之三
全書編排架構為「三經八緯」。經度部分分為「彙編」、「典」、「部」共計三層。
彙編共分六大項:曆象彙編、方輿彙編、明倫彙編、博物彙編、理學彙編、經濟 彙編。彙編下各分若干典,共計三十二典。典下又分若干部,共計六千一百一十 七部。以往類書大多僅採用二級分類體系結構,而《集成》新創三級分類體系架 構[15]。詳細經度架構說明如以下 Table 2-1 所示。
彙編名 典名 所含部數 部名舉例
曆象彙編 乾象典 21 天地、日月、星辰、風、雲、雨、火等
曆法典 6 曆法、儀象、漏刻、測量、算法、數目等 庶徵典 51 天變、日異、風異、地異、雨災、豐歉等
方輿彙編
坤輿典 21 土、泥、石、水、泉、井、輿圖、建都等
職方典 223 京畿、清代各府建置沿革等
山川典 401 山、湖、海等
邊裔典 542 朝鮮、日本、于闐、天竺、琉球等
明倫彙編
皇極典 31 君臣、帝紀、用人、聽言等
宮闈典 15 後妃、宮女、公主、駙馬等
官常典 65 翰林院、宗人府、將帥、節使等
家範典 31 祖孫、父母、兄弟、姐妹、滕妾、奴婢等
交誼典 40 師友、師弟、朋友、請托、餞別等
氏族典 2696 常見姓每姓一部,少見姓多姓一部
人事典 97 耳、鼻、齒、手、歲數、稱號、喜怒等
閨媛典 17 閨節、閨恨等
博物彙編
藝術典 43 農醫、占卜、星相、畫、奕棋、幻術等
神異典 70 神、鬼、釋教、道教、異人、妖怪等
禽蟲典 317 鳥、獸、家畜、昆蟲等
草木典 700 草、木、花、五穀、藥材等
理學彙編
經籍典 66 經籍、史書、地志、諸子等
學行典 97 理數、義利、廉恥、學問、讀書等
文學典 49 文體、詩賦、文學家列傳等
字學典 24 音義、書法、文房四寶、雜器等
經濟彙編
選舉典 29 學校、科舉、出身、吏員等
銓衡典 12 官制、祿制、升遷、罷免等
食貨典 83 戶口、田制、賦役、貨幣、飲食、布帛等
禮儀典 70 禮樂、婚禮、喪葬、謚法等
樂律典 46 歌、舞、鐘、琴瑟等
戎政典 30 兵制、兵法、兵略及武器等
祥刑典 26 律令、審判、刑法、赦宥等 考工典 155 度量衡、城池、橋梁、宮殿、器物等
Table 2-1 《集成》經度架構表 詳細部名之總表請參照附錄一。
緯度部分,部下主要細分彙考、總論、列傳、藝文、選句、紀事、雜錄、外 編共計八類,且各種緯度也擁有本身的子架構,層級從一層至三層不等。另外無 法以文字表達者以圖、表類輔之。內容排序方面,依照經、史、子、集或是朝代 順序由遠至近排列。各類別所含意義如以下表 Table 2-2[16]解釋。
類別名 類別釋義
彙考
稽考某事物的發展演變。有年月可紀的事物,用編年體仿綱目詳錄史 書以及有關的古書,以説明其始末沿革;無年月可稽的事物,按先經 史、後子集的順序引證古籍,以考定其因革損益的源流、古今的名稱、
種類性能或製造方法。
總論
收錄歷代對該事物的評述。以古籍中「純正可行」的論述爲準,故主 要收錄經傳及「議論得當」的子集。史書已錄入「彙考」者,則不重 收。除全文照錄外,亦節選與該事物有關的片斷,以彙總各家之説。
列傳 凡在各部出現的名人,都載入列傳。主要是從史書、地方志中輯錄。
較之正史收録的人物傳記資料,要豐富得多。
藝文
收錄有關該事物的文學作品,包括詩文詞賦,「議論雖偏而詞藻可採 者」,均錄入。隋唐以前從詳,宋以後從略。篇幅多的擇其精要,篇
幅少的則瑕瑜不棄。
選句 摘錄有關該事物的名句佳對。凡對仗工穩的麗詞偶句,或詩詞中的警 句名言,或全篇雖無足觀而有單詞片語妙者,亦予收錄。
紀事
補充「彙考」,專錄瑣細而有可傳之處者。按時代順序,列正史於前,
同時代的稗史子集作爲附錄。後人雜記中追述往事者,不按著書年 代,而採列於前。
雜錄
補充「總論」以及「彙考」、「藝文」。凡經書中不是論某事而是旁 引曲喻偶爾涉及者,或集部中 「考究未真」、「議論偏駁」、「文
藻未工」者,統收入雜錄。
外編 凡諸子百家以及佛道書籍中「荒唐難信」、「寄寓譬託」、「臆造之 説」的材料,都錄爲外編,以供參考。
Table 2-2 《集成》緯度各類別釋義表
整體來說,《集成》的編排具有「經緯交織」的特點。彙編、典、部,是經綫 分類;每部又分彙考、總論、列傳、藝文、選句、紀事、雜錄、外編,是緯綫分 類。以經綫爲綱,緯綫爲目,綱舉目張,便於查找。以下 Fig. 2-7 便是《集成》全 書之經緯架構圖。
Fig. 2-7 《集成》全書經緯架構圖
Chapter 3 數位檔案處理方式與流程
3.1 數位檔案格式介紹與紙本比較
全書之文字部分皆已數位化並依照經度彙編及典之架構,以卷為單位,分別 儲存為.txt 之純文字檔。無論是目錄的格式、段落開頭的前置空白以及每一行之字 數等,數位化後的文字檔其儲存之格式與內容皆近乎忠於紙本原書,然而仍有不 同之處,如:
加註新式標點符號
原紙本的小字部分以小括號括住
以中括號加註此頁文字的紙本頁碼資訊
緯度二、緯度三以及緯度一的選句、紀事、雜錄、外編之標題部分會用
「※.」作為定界符(delimiter)
表示為書目篇章或是詩詞曲賦的文字以書名號括住
以下 Fig. 3-1、Fig. 3-2 為數位檔案的實例,並且對照第二章 Fig. 2-4 至 Fig. 2-6 的紙本實例。
Fig. 3-1 數位檔案實例之一
Fig. 3-2 數位檔案實例之二
3.2 數位檔案條目建構流程
由於條目為組成《集成》之基本單位,因此需要將各個獨立的條目切割出來,
並且擷取各條目附屬之經緯資訊等。以下是對於數位檔案處理的階段流程圖以及 各個階段的詳細說明。
Fig. 3-3 數位檔案處理流程圖
3.2.1 擷取經度及其他資訊
由於各個文字檔已經依照彙編及典之分類分別放在不同的資料夾當中,因此 可以輕易擷取。另外卷數以及紙本頁碼資訊部份也分別顯示在文字檔檔名以及文 字檔中的中括弧內,擷取並簡單處理即可。
3.2.2 擷取目錄並架構化
目錄在《集成》當中雖然不是條目的一部分,但是卻顯示出各卷之部與緯度 架構資訊,可以作為切割內文/條目群時偵錯之參照。
目錄之格式幾乎固定,通常前置空白為一個的行句代表部名和緯度一,前置 空白為兩個的行句則是代表緯度二,而後小括號內的文字為緯度三,括號內各項 目以空白分隔。
下圖 Fig. 3-4 為目錄與其架構之範例示意圖。
Fig. 3-4 目錄與其架構示意圖
3.2.3 切出獨立內文/條目群
文字檔中每段獨立的內文/條目群會以「※.」作為區隔,表示其段落之上下 界,因此程式處理時會以「※.」將各段段落依序擷取出來。然而在彙考、總論 以及列傳這三種緯度而言,因為其大都是三層緯度之架構,因此第三層才是實際 內文/條目群所存放的地方,為實緯度層,第二層則是虛緯度層,僅存放該層緯度 之名稱。程式擷取時會一併標示擷取出的段落為實緯度層或是虛緯度層。下圖 Fig.
3-5 為實緯度層與虛緯度層之範例。
Fig. 3-5 實緯度層與虛緯度層範例
3.2.4 斷句回接處理
由於文字檔忠於紙本原書的關係,因此每一行除去標點符號之後,再加上前 置空白以及一半小括弧之內的文字,共計最多二十字,造成段落被切斷成若干句,
因此需要用程式處理將其重新接回一完整段落。
斷句回接與否的準則判斷主要順序為以下幾點:
若此句僅含有單一左括號時則回接以下若干句直到某句含有其缺失的右 括號為止
若此句含有之字數在原書排版上未滿 20 字時則表示此句為段落句末不回 接下句
若此句之前置空白數與下句不同時則不回接下句
若此句最後一字非句號、問號、驚嘆號或右括號時則回接下句
另外在「擷取目錄並架構化」此階段中,由於少部份的句子也需要作回接,
因此需先作斷句回接處理後再進行架構化。
3.2.5 校驗項目總數與偵錯
由於目錄是代表此卷內容的經緯架構,因此將在「擷取目錄並架構化」此階 段所得出的架構化項目總數與在「切出獨立內文/條目群」此階段所切出的段落總 數相比,如果相同表示所切出之內文/條目群與目錄所示相符無誤,若不同則表示 可能有誤,俟下一階段「自動與人工修正錯誤」解決。
另外文字檔部分也可能會有其他種錯誤,諸如:
僅存在單一的左括號或右括號
代表頁碼資訊的中括號內之文字格式不同
目錄某行的前置空白不符合原格式
存在準則判斷以外的斷句造成斷句回接錯誤
以上都需要用程式進行偵錯後再至下一階段「自動與人工修正錯誤」予以修 正。
3.2.6 自動與人工修正錯誤
在上一階段「校驗項目總數與偵錯」所偵測之錯誤會在此階段解決。在項目 總數不合部分,主要的錯誤可以歸納為以下三項:
(a) 目錄當中有些項目在內容中未出現:目錄當中存在某些項目並沒有內文/
條目群解釋,也就是說在目錄的項目總數大於在內容中的內文/條目群總 數。
(b) 內容當中缺漏一段連續性文字:發生原因是原紙本有漏頁,或是缺漏待 考證,導致文字檔缺漏一段該頁的文字,進而造成項目數不符。
(c) 內容完整但排版順序錯誤:發生原因是原紙本有錯頁裝訂之情形,前後 頁顛倒,導致文字檔也發生如此狀況,項目總數也不符。
以下是針對以上各類錯誤的範例說明及解決辦法:
(a) 範例:目錄含 A、B、C、D 四項,但內容僅含 A、C、D 三項。
修正:增設一個空的項目 B 並依原目錄順序補回內容中。
實例:經濟彙編/樂律典/卷 128。
Fig. 3-7 目錄與內容項目不符實例(a)
(b) 範例:目錄含 A、B、C、D 四項,但內容僅含 A 的前半段、C 的後半段 以及完整的 D 三項。
修正:與(a)之修正一樣,增設一個空項目 B,其餘缺失的文字段落因無 可考就保持原狀。
實例:博物彙編/藝術典/卷 231。
Fig. 3-8 目錄與內容項目不符實例(b)
(c) 範例:目錄含 A、B、C、D 四項,但內容之項目順序為 A、B 之前半段、
C 之後半段、D 之前半段、B 之後半段、C 之前半段、D 之後半段。
修正:明顯是 B 與 C 之頁面與 C 與 D 之頁面錯頁倒置之原因,將這兩段 的文字順序交換修正即可。
實例:博物彙編/草木典/卷 229。
Fig. 3-9 目錄與內容項目不符實例(c)
關於目錄項目存在但內容遺漏在《集成》中共有 140 處,詳細列表請參照附 錄二。
另外在其他種錯誤而言如括號缺失、前置空白格式錯誤等,因為錯誤形式多 變,因此採用人工修正為主。
錯誤修正後,內文/條目群之項目數共計有 339966 個。
3.2.7 部分條目群分切各條目
內容可以分為由內文組成及由條目群組成。緯度一為彙考、總論及藝文之內 容由內文組成(因為其出處已顯示在緯度二及緯度三的標題上),而緯度一為列傳、
選句、紀事、雜錄及外編之內容由條目群組成。由於彙考、總論之內容多為文章 形式,藝文之內容多為單篇詩詞曲賦,雖有分段但前後關連,所以視為單一條目 不切開;而列傳、選句、紀事、雜錄及外編多為由不同古籍抽出之文句所組成,
每段文句包含出處及內文,因此需用程式將其分切成不同之獨立條目。下圖 Fig.
3-10 為條目群分切後之經緯架構圖。
Fig. 3-10 條目群分切後經緯架構圖
條目群分切後,條目之項目總數共計 476115 個,較原先增加了 136149 個項 目。
3.2.8 計算各條目之 ID
分切好之條目在存入資料庫之前,需要對於每個條目給予其獨立的 ID 編號,
以方便搜尋及顯示各條目之獨特性,因此以各條目的經緯架構作為主要設計 ID 編 號的準則。
ID 編號主要以五種編碼組合而成,格式為:
以下是各部份編碼的說明:
(a) GJTSJC:表示為《古今圖書集成》之條目。
(b) X:表示經度編碼
i. X1:代表經度一(彙編)。曆象彙編為 0001、方輿彙編為 0002、明倫 彙編為 0003、博物彙編為 0004、理學彙編為 0005、經濟彙編為 0006。
ii. X2:代表經度二(典)。依照《集成》之順序,首典之乾象典為 0001,
末典之考工典為 0032。
iii. X3:代表經度三(部)。以典為單位,在同一典之下的部依照順序逐 次遞增,至次一典時重新計算遞增。以四位數字編碼,起始編碼為 0001。
(c) Y:表示緯度編碼
i. Y1:代表緯度一。彙考為 0001、總論為 0002、列傳為 0003、藝文為 0004、選句為 0005、紀事為 0006、雜錄為 0007、外編為 0008。
ii. Y2:代表緯度二。以緯度一為單位,在同緯度一之下的緯度二依照 順序逐次遞增,至次緯度一時重新計算遞增。以四位數字編碼,起 始編碼為 0001。未使用之緯度二預設為 9999。
iii. Y3:代表緯度三。以緯度二為單位,在同緯度二之下的緯度三依照 順序逐次遞增,至次緯度二時重新計算遞增。以四位數字編碼,起 始編碼為 0001。未使用之緯度三預設為 9999。
iv. 緯度後綴:後接於 Y1、Y2、Y3,有 a、b 兩種後綴,以三位數字編碼
a:代表緯度編號。例如總論三在 Y1的表示法為 0002a003。
b:代表條目群分切後之編號。以最末緯度為單位,依照分切後 條目順序,後綴於最末緯度。例如在雜錄二第五條條目的 Y1表 示法為 0007a002b005。
(d) Z:預備編碼位置,目前未使用,預設為 9999。
(e) V:表示卷數號碼,以四位數字編碼。
3.2.9 寫入資料庫及匯出 XML 檔
將上述階段所切割出的條目以及附屬的經緯資訊等一併送入 MySQL 資料庫
中儲存,而後再從資料庫中擷取所需資料製作匯出成 XML 檔以供利用。
在資料庫中共有 546642 筆資料,資料庫之主要欄位屬性說明如下:
cid:條目流水號,從 1 編號至 546642
id:具有經緯架構意義之 ID(參照 3.2.8 節),每個條目皆不同
collection:彙編名
canon:典名
section:部名
latitude_i:緯度一名
latitude_i_order:緯度一編號
latitude_ii:緯度二名
latitude_ii_order:緯度二編號
latitude_iii:緯度三名
content_type:儲存資料類型,分為目錄與內容兩類
content:實際儲存資料字串
volume:卷號
page_info_from:資料在紙本出現的開始頁
page_info_to:資料在紙本出現的結束頁
real_content:是否為實際條目。目錄及虛緯度層的資料為"False",實緯度 層的資料為"True",為實際條目,在實緯度層但無任何內容的條目為"True but dummy"(參照附錄二)
XML(eXtensible Markup Language)為一種標記式語言,利用標記後之標籤設計 傳送及攜帶結構化的資料訊息,透過此種標記,可以使電腦處理包含各種訊息之 資料。在 XML 檔各個標籤的說明如下:
<Doc>:表示為一個完整條目,內含<Content>及<DocMetadata>兩個子標 籤
<Content>:表示條目之實際內容
<DocMetadata>:表示條目之附屬資訊,並含有以下子標籤:
<Filename>:表示條目之 ID
<Corpus>:表示為《集成》之條目
<Volume>:表示卷號
<Title>:表示分類架構,以經度一、經度二、經度三和緯度一組成
<Index1>、<Index2>、<Index3>:分別表示經度一、經度二、經度三 之名稱
<Latitude1>、<Latitude2>、<Latitude3>:分別表示緯度一、緯度二、
緯度三之名稱。其中<Latitude1>、<Latitude2>分別含有以下子標籤:
<Latitude1_name>、<Latitude2_name>:表示緯度名
<Latitude1_branch>、<Latitude2_branch>:表示緯度編號
<Real_Content>:表示是否為實際條目(參照上述資料庫欄位屬性之 real_content)
Fig. 3-11 XML 檔範例
匯出 XML 檔後,便可以 THDL 模型系統呈現各條目架構化後之資料,詳細 THDL 介面與功能請參照第五章。
3.3 例外處理與其他觀察
除了在 3.2.6 節目錄內容項目不符的例外以外,以下列舉其他發現到的例外與 觀察:
緯度一的最高編號為五百,發現於博物彙編/藝術典/醫部彙考,可見醫 學長久以來在中國的重要性及資料的豐富性。
緯度一不止有彙考、總論等八種,另外發現了其他緯度名稱:
別傳:發現於理學彙編/經籍典/易經部易學
雜傳:發現於經濟彙編/祥刑典/盜賊部
表:發現於經濟彙編/選舉典/科舉部
在別傳及表的例外處理部份,ID 之 Y1分別新增編碼為 0009 與 0010;雜 傳由於盜賊部的緯度一缺少列傳,且雜傳的格式相似於列傳,因此設 Y1
編碼同列傳為 0003。
Fig. 3-12 經濟彙編祥刑典盜賊部雜傳一紙本目錄
有些應為三層緯度架構的條目實際只有兩層架構,舉例如下:
理學彙編/學行典/聖門諸賢部列傳一:缺少第二層
Fig. 3-13 理學彙編學行典聖門諸賢部列傳一紙本目錄
明倫彙編/官常典/將帥部彙考五:缺少第三層
Fig. 3-14 明倫彙編官常典將帥部彙考五紙本目錄
由於僅有兩層架構,因此將 ID 之 Y3設定為未使用的 9999,其餘編碼規 則不變。
在總論與列傳的子緯度(緯度二)之朝代列表整理如下:上古、陶唐氏、
有虞氏、夏后氏、夏、殷、商、周、秦、漢、後漢、魏、吳、晉、宋、
齊、南齊、梁、陳、北魏、後魏、北齊、北周、隋、唐、五代、後梁、
後唐、後晉、後周、南唐、遼、金、元、明、皇清(註:《集成》中所提 及的「後漢」幾乎都為現今所稱之「東漢」)。
Chapter 4 出處自動化擷取與補正
4.1 原始出處格式與擷取
在《集成》中條目的出處有「書目篇章」與「詩詞曲賦」兩種,緯度一為彙 考、總論、列傳、紀事、雜錄、外編所收編的條目出處為書目篇章,而藝文和選 句之條目出處則為詩詞曲賦。在出處的顯示部分,彙考、總論及藝文收編條目出 處顯示於其子緯度上(緯度二及緯度三),而列傳、選句、紀事、雜錄及外編之條 目出處則顯示於各條目的開頭處(文字檔中為冒號之前書名號內的文字)。下表 Table 4-1 為上述之緯度一條目出處整理。
出處顯示\出處種類 書目篇章 詩詞曲賦
子緯度 (a)彙考、總論 (b)藝文
條目開頭 (c)列傳、紀事、雜錄、外
編 (d)選句
Table 4-1 緯度一條目出處顯示與出處種類整理表
以下針對上表緯度一出處顯示與出處種類的各項組合作出處格式以及擷取方 法之說明:
(a) 出處於緯度二及緯度三中顯示,緯度二為書目名,緯度三為緯度二書目 的篇章名稱。擷取時直接取緯度二及緯度三的名稱,中間並以連字號「-」
分開。
(b) 出處於緯度二中顯示,格式為詩詞曲賦的標題加上朝代、作者,中間以 空白隔開。擷取時分別取朝代作者及標題的字串,中間並以等號「=」區 隔分開。
(c) 出處於文字檔中條目開頭冒號以前的書名號內顯示,擷取時直取書名號 內字串。字串含有多種格式,於下一節說明處理流程與方法。
(d) 出處於文字檔中條目開頭冒號之前的字串,有以下兩種格式:
i. 含書名號:書名號內為詩詞曲賦選句的標題,書名號前常有朝代及 作者名。擷取時分別取朝代作者及標題的字串,中間並以等號「=」
區隔分開。
ii. 不含書名號:冒號前僅有朝代及作者名,並再加上「詩」一字,不
含標題。擷取時取去掉「詩」字後的朝代作者字串,並於最後加上 等號「=」。由於無標題名稱,因此等號後面之字串為空。
Fig. 4-1 選句條目出處文字檔實例
4.2 擷取後出處處理流程及方法
擷取原始出處以後,尤其如條目開頭的出處,因為其格式多變,並且不只是 標題,有些也含有朝代、作者等資訊,因此需要以程式自動化方式處理乾淨,且 其朝代、作者與標題的關係也能一併呈現。以下是文字檔中出處種類為書目篇章 於條目開頭顯示之原始出處格式舉例:
明‧王肯堂‧證治準繩
魏張揖廣雅
宋‧范成大桂‧海金石志
地理通釋‧歷代戶口
小雅正月篇
楊儀傳
本草綱目
如以上所示,有些出處會以「‧」區隔朝代、作者、書目及篇章,然而有些
「‧」所在位置卻是錯的。有些出處沒有區隔,朝代、作者、書目、篇章相連一 起。更總的來說,每個出處並不一定含有完整的朝代、作者、書目等資訊,有些 缺少朝代,有些缺少作者,更有些是缺少書目,只存在篇章名稱。為了將出處格 式統一化與補正錯誤及缺漏,於本節介紹一套設計之出處處理的流程,並分項說 明各階段方法。下圖 Fig. 4-2 為出處處理的流程圖。
Fig. 4-2 出處處理流程圖
4.2.1 自動斷詞
由於有許多出處的朝代、作者、書名篇章等字串相連一起,因此需要將它們 分開成各個獨立的項目,也利於後續自動標籤的進行。《集成》因為是現今所存最 大的類書,所以在此階段將以《集成》所收錄的所有出處作為斷詞之參考來源。
在程式的處理上,首先分別為書目篇章以及詩詞曲賦的出處各建立資料庫並 存入原始出處,書目篇章總計有 66411 個不同出處,而詩詞曲賦總計有 68900 個 不同出處。之後將「‧」去除並分別執行自動斷詞的程式,程式之 pesudocode 如 以下所示:
function autoBreak(DB $source_db)
sort by .length for each $target_source in $source_db DESC // (a) for each $target_source in $source_db
for each $compared_source in $source_db
if $compared_source is substring of $target_source // (b) add "[ ]" on substring in $target_source
end if end for end for end function
(b) 如果$compared_source 是$target_source 的子字串,就在$target_source 中 出現的子字串用括號夾住。
以下是實際出處自動斷詞的範例:
→ 董仲舒春秋繁露竹林篇(原始書目篇章出處)
→ [董仲舒春秋繁露]竹林篇(有另一出處為「董仲舒春秋繁露」)
→ [董仲舒[春秋繁露]]竹林篇(有另一出處為「春秋繁露」)
→ 董仲舒#春秋繁露#竹林篇(斷詞完成,共計三個獨立項目)
由於書目篇章出處長度在三字以內的容易造成錯誤斷詞,如「春秋#四傳」及
「後#漢書」,因此不放入自動斷詞程式處理,另參照原始出處的「‧」斷開。
4.2.2 自動標籤
在上個階段所自動斷出的獨立項目必須加上標籤,方可得知每個項目究竟是 朝代、作者、書目還是篇章。就出處種類來說,書目篇章和詩詞曲目各有其不同 的項目組合模式,觀察得到後如下表 Table 4-2:
項目數 書目篇章之出處 詩詞曲賦之出處 備註
> 6 - -
D:朝代(Dynasty) A:作者(Author) T:標題(Title) C:篇章(Chapter)
6 DATCCC -
5 DATCC、ATCCC -
4 DATC、ATCC、TCCC - 3 DAT、DTC、ATC、TCC DAT 2 DT、AT、TC、CC DT、AT
1 T、C A、T
Table 4-2 出處種類與項目數關係之出處模式表
另外也使用百家姓以及在 3.3 節所整理出的朝代列表作標籤的判斷。以下為自 動標籤程式的 pesudocode:
function autoLabel(DB $source_db)
sort by .items for each $target_source in $source_db DESC // (a) for each $target_source in $source_db
check DYNASTY_LIST, SURNAME_LIST // (b)
check PATTERN_TABLE and label($target_source) else
for each $compared_source in $source_db check $compared_source.labeled // (c) end for
if(check)
label($target_source) else
label($target_source, default) // (d) end if
end if end for end function
(a) 對於每個出處項目數排序,項目多的優先排序。
(b) 用朝代列表或百家姓列表檢查第一個項目是否為朝代或作者。
(c) 用已標籤的出處檢查是否存在相同名稱之項目。
(d) 如果皆不存在,則用預設的出處模式標籤。
以下是實際出處自動標籤的範例:
範例一:
→ 元#陶宗儀#輟耕錄#書畫褾軸(自動斷詞結果)
→ D:元、A:陶宗儀、T:輟耕錄、C1:書畫褾軸
(判斷第一項目為朝代,出處模式為項目數 4 的"DATC")
範例二:
→ 輟耕錄#綠石頭(自動斷詞結果)
→ T:輟耕錄、C1:綠石頭
(判斷第一項目,因前例已將「輟耕錄」標籤為"T",因此出處模式為項目 數 2 的"TC")
另外在標籤的過程之中,因用百家姓判別的緣故,有些書目及篇章名會與作 者名稱混淆,例如「唐會要」、「吳志注」等,另外以列表判斷處理。
4.2.3 補缺資訊
如上小節範例,可以得知範例二中《輟耕錄》其實應該就是元朝的陶宗儀所 著,但是原始出處卻未提供此種資訊。出處資料庫中存在著許多類似這樣缺少部 分資訊,並且可以由其他地方將缺漏的部分補完之出處,因此需要以程式來達到 自動補缺資訊的需求。程式在比對出處的時候,以標題名稱為主,篇章名稱為輔。
以下是補缺資訊程式的 pesudocode:
function autoPatch(DB $source_db) for each $target_source in $source_db
if $target_source.T is not NULL
if $target_source.D or $target_source.A is NULL for each $compared_source in $source_db
if ($target_source.T = $compared_source.T) and ($compared_source.D or $compared_source.A is not NULL) // (a)
patch($target_source) end if
end for end if else
if $target_source.C is not NULL // (b)
for each $compared_source in $source_db
if ($target_source.C = $compared_source.C) and ($compared_source.D or $compared_source.A or
$compared_source.T is not NULL) // (c) patch($target_source)
end if end for end if end if end for end function
(b) 此段程式碼於詩詞曲賦之出處不用執行(因無篇章之結構)。
(c) 若比對後篇章相同,則補上缺失的朝代、作者或標題。
以下是實際出處補缺資訊的範例:
範例一:
→ T:金匱要略(自動標籤結果)
→ D:漢、A:張機、T:金匱要略
(有另一出處為 D:漢、A:張機、T:金匱要略)
範例二:
→ C1:蔡徵傳(自動標籤結果)
→ T:陳書、C1:蔡徵傳
(有另一出處為 T:陳書、C1:蔡徵傳)
有些篇章名稱可能被若干本不同的書目所包含。例如在出處資料庫中《漢書》、
《後漢書》、《前漢書》、《演繁露》、《丹鉛總錄》這五本書目同樣地含有〈王莽傳〉
此一篇章,因此在補缺書目資訊時並無法確定應該補上之書目,需要參照原始條 目內文並以第三方古籍作內容比對。目前作法為註記此類情形於資料庫中,而此 類出處情形目前計有 1504 筆,詳細列表請參照附錄三。另外也存在有些篇章在原 始出處書目中找不到有任何包含關係,暫以篇章名視為書目名來處理這類情況。
4.2.4 Query 偵錯與修正
前三階段執行完畢後,隨機從資料庫中抽樣檢查,約有六至七成整理後的出 處資訊是正確的,而剩下之三至四成其錯誤原因大致可歸類為以下幾點:
經典緯書:如《春秋元命苞》、《尚書璇璣鈐》等,在上述階段執行完畢 後分別被處理成 T:春秋、C1:元命苞以及 T:尚書、C1:璇璣鈐。
後人於原古籍之編修:如《玉堂閒話補闕》、《資治通鑑綱目考證》等,
會分別被處理成 T:玉堂閒話、C1:補闕以及 T:資治通鑑、C1:綱目、
C2:考證。
罕見姓氏作者:如稅與權所著之《易學啟蒙小傳》會被標籤為 T:稅與權、
C1:易學啟蒙小傳。
原文字檔錯誤:標示出處的書名號所括文字有誤,如「《徐光啟農政全書
曰》」與「《孔子家》」,前者多括一「曰」字,後者少括一「語」字。
為了提升出處處理品質,此一階段會在資料庫中執行多數之偵錯 query,並將 有錯誤疑慮的出處取出,再以其他權威資料佐證並修正錯誤。所用的權威資料大 部分為:
《古今圖書集成》原書
中國基本古籍庫[17]
國家圖書館[18]、國立臺灣大學圖書館[19]
漢籍電子文獻資料庫[20]
中央研究院數位文化中心[21]
中國哲學書電子化計劃[22]
在修正錯誤的同時也一併整理了別名列表,目前有 86 筆別名資料對,詳細列 表請參照附錄四。
4.3 新增出處資訊後之 XML 檔
出處整理完畢以後,存回原條目資料庫,並匯出新版之 XML 檔以供 THDL 系統呈現。以下是在 XML 檔中,新增標籤之說明:
<Source>:表示出處資訊,內含<Type>、<D>、<A>、<T>、<T_branch>、
<C1>、<C2>、<C3>
<Type>:表示出處之種類,"B"表示為書目(book),"V"表示為詩詞曲賦 (verse)
<D>:表示朝代名
<A>:表示作者名
<T>:表示標題名
<T_branch>:表示書目之分冊數目號。如《朱子全書二》的「二」、《非 國語下》的「下」
<C1>、<C2>、<C3>:表示篇章名,架構由大至小依序為<C1>、<C2>、
<C3>
Chapter 5 THDL 系統呈現與相關統計數據
5.1 THDL 系統介面與功能概述
當各個條目切割完成、錯誤修正並且建立 XML 檔後,便可以用 THDL 模型導 入,以方便使用者與研究者查詢、觀察及作進一步研究。
Fig. 5-1 《集成》之 THDL 系統介面圖
原先 THDL 系統是設計給「明清臺灣行政檔案」與「古契書」兩個文獻集,
然而在系統的設計上本身就有一定彈性,可以兼容其他新的文本,因此以《集成》
匯入,並繼承原系統的功能,給予使用者與研究者搜索及整理資料的方便性,也 給予其不同的研究脈絡。以下就針對幾個重要的系統功能作簡述:
自訂文件集:系統可以將使用者感到興趣的文件集合成為一個資料夾,
方便未來整理及研究。除了方便歸納之外,也具有儲存功能,當使用者 下次再登入系統時,這些整理過的文件仍然存在,而不需要重新查找。
Fig. 5-2 自訂文件集功能介面圖例
詮釋資料欄位:系統於左方整理呈現各種不同詮釋資料的文件集合,以 方便使用者查詢同一詮釋資料的文件。目前《集成》含有朝代、彙編/典、
典/部、出處、緯度、作者六種詮釋資料。
Fig. 5-3 詮釋資料欄位圖例
據不同的詮釋資料之進階檢索功能。另外也提供綴詞分析工具,可以擷 取出相同綴詞之下前後所有不同的詞組。
Fig. 5-4 進階檢索與綴詞分析圖例
Fig. 5-5 綴詞分析結果以「典農」為例
5.2 《集成》相關統計數據
本節主要提供一些在《集成》當中關於成書形式架構以及條目出處的相關統 計資料與數據。
5.2.1 形式架構相關
下表為分典與第一級緯度之數量統計表(註:經濟彙編/祥刑典/盜賊部緯度一 之雜傳視為列傳):
彙編 典 彙考 總論 列傳 藝文 選句 紀事 雜錄 外編
曆象 彙編
乾象典 21 20 0 21 19 21 21 19 歲功典 43 12 0 43 30 43 43 38
曆法典 6 5 0 5 3 5 4 0
庶徵典 51 25 0 43 8 51 34 11 方輿
彙編
坤輿典 21 5 0 18 0 21 21 17 職方典 221 13 0 200 1 199 161 124
山川典 382 34 0 332 43 276 204 155 邊裔典 541 12 0 35 1 40 16 9
明倫 彙編
皇極典 14 25 0 30 0 25 28 1 宮闈典 15 10 8 15 0 15 14 5 官常典 61 32 57 61 0 65 59 4 家範典 27 30 0 31 0 31 27 17 交誼典 14 36 0 37 24 40 38 14 氏族典 2,052 1 2,501 76 19 140 55 3 人事典 58 40 0 67 1 96 73 23 閨媛典 4 1 14 17 1 17 15 13
博物 彙編
藝術典 36 13 15 37 11 41 41 18 神異典 62 34 7 66 31 64 55 49 禽蟲典 317 4 0 185 33 223 204 119 草木典 699 0 0 318 238 317 284 118
理學 彙編
經籍典 66 58 1 56 1 64 60 7 學行典 1 97 6 93 9 85 88 9 文學典 26 45 1 43 8 48 46 5 字學典 24 12 1 20 13 23 22 11
經濟 彙編
選舉典 27 19 0 28 11 29 28 6 銓衡典 12 9 0 12 0 12 12 2 食貨典 83 19 0 64 65 82 81 51 禮儀典 70 50 0 64 19 63 61 14 樂律典 46 8 0 36 29 43 41 21 戎政典 29 16 1 28 6 30 21 1 祥刑典 26 19 1 18 1 25 23 16 考工典 153 13 1 134 36 150 133 85 總計 5,208 717 2,614 2,233 661 2,384 2,013 985
Table 5-1 緯度一之數量統計表
彙編 典 部數 彙考 總論 列傳 藝文 選句 紀事 雜錄 外編
曆象 彙編
乾象典 21 100.0% 95.2% 0.0% 100.0% 90.5% 100.0% 100.0% 90.5%
歲功典 43 100.0% 27.9% 0.0% 100.0% 69.8% 100.0% 100.0% 88.4%
曆法典 6 100.0% 83.3% 0.0% 83.3% 50.0% 83.3% 66.7% 0.0%
庶徵典 51 100.0% 49.0% 0.0% 84.3% 15.7% 100.0% 66.7% 21.6%
方輿 彙編
坤輿典 21 100.0% 23.8% 0.0% 85.7% 0.0% 100.0% 100.0% 81.0%
職方典 223 99.1% 5.8% 0.0% 89.7% 0.4% 89.2% 72.2% 55.6%
山川典 401 95.3% 8.5% 0.0% 82.8% 10.7% 68.8% 50.9% 38.7%
邊裔典 542 99.8% 2.2% 0.0% 6.5% 0.2% 7.4% 3.0% 1.7%
明倫 彙編
皇極典 31 45.2% 80.6% 0.0% 96.8% 0.0% 80.6% 90.3% 3.2%
宮闈典 15 100.0% 66.7% 53.3% 100.0% 0.0% 100.0% 93.3% 33.3%
官常典 65 93.8% 49.2% 87.7% 93.8% 0.0% 100.0% 90.8% 6.2%
家範典 31 87.1% 96.8% 0.0% 100.0% 0.0% 100.0% 87.1% 54.8%
交誼典 40 35.0% 90.0% 0.0% 92.5% 60.0% 100.0% 95.0% 35.0%
氏族典 2,696 76.1% 0.0% 92.8% 2.8% 0.7% 5.2% 2.0% 0.1%
人事典 97 59.8% 41.2% 0.0% 69.1% 1.0% 99.0% 75.3% 23.7%
閨媛典 17 23.5% 5.9% 82.4% 100.0% 5.9% 100.0% 88.2% 76.5%
博物 彙編
藝術典 43 83.7% 30.2% 34.9% 86.0% 25.6% 95.3% 95.3% 41.9%
神異典 70 88.6% 48.6% 10.0% 94.3% 44.3% 91.4% 78.6% 70.0%
禽蟲典 317 100.0% 1.3% 0.0% 58.4% 10.4% 70.3% 64.4% 37.5%
草木典 700 99.9% 0.0% 0.0% 45.4% 34.0% 45.3% 40.6% 16.9%
理學 彙編
經籍典 66 100.0% 87.9% 1.5% 84.8% 1.5% 97.0% 90.9% 10.6%
學行典 97 1.0% 100.0% 6.2% 95.9% 9.3% 87.6% 90.7% 9.3%
文學典 49 53.1% 91.8% 2.0% 87.8% 16.3% 98.0% 93.9% 10.2%
字學典 24 100.0% 50.0% 4.2% 83.3% 54.2% 95.8% 91.7% 45.8%
經濟 彙編
選舉典 29 93.1% 65.5% 0.0% 96.6% 37.9% 100.0% 96.6% 20.7%
銓衡典 12 100.0% 75.0% 0.0% 100.0% 0.0% 100.0% 100.0% 16.7%
食貨典 83 100.0% 22.9% 0.0% 77.1% 78.3% 98.8% 97.6% 61.4%
禮儀典 70 100.0% 71.4% 0.0% 91.4% 27.1% 90.0% 87.1% 20.0%
樂律典 46 100.0% 17.4% 0.0% 78.3% 63.0% 93.5% 89.1% 45.7%
戎政典 30 96.7% 53.3% 3.3% 93.3% 20.0% 100.0% 70.0% 3.3%
祥刑典 26 100.0% 73.1% 3.8% 69.2% 3.8% 96.2% 88.5% 61.5%
考工典 155 98.7% 8.4% 0.6% 86.5% 23.2% 96.8% 85.8% 54.8%
比例總計 6,117 85.1% 11.7% 42.7% 36.5% 10.8% 39.0% 32.9% 16.1%
Table 5-2 各典部數與緯度一數量比例統計表 下表為各分典之條目數統計表:
彙編(條目數) 典 條目數 彙編(條目數) 典 條目數
曆象彙編 (35,457)
乾象典 8,052
博物彙編 (102,596)
藝術典 39,692
歲功典 14,912 神異典 15,951
曆法典 922 禽蟲典 19,772
庶徵典 11,571 草木典 27,181
方輿彙編 (45,653)
坤輿典 4,880
理學彙編 (60,607)
經籍典 16,507
職方典 22,545 學行典 16,886
山川典 14,209 文學典 13,023
邊裔典 4,019 字學典 14,191
明倫彙編 (163,406)
皇極典 5,221
經濟彙編 (68,396)
選舉典 6,703
宮闈典 5,585 銓衡典 2,476
官常典 24,631 食貨典 15,683
家範典 10,283 禮儀典 10,901
交誼典 10,487 樂律典 5,623
氏族典 56,410 戎政典 5,577
人事典 11,044 祥刑典 4,862
閨媛典 39,745 考工典 16,571
條目總數:476,115 Table 5-3 各分典條目數統計表
下表為各分典之字數統計表(註:不包含紙本中圖、表內之文字):
彙編(字數) 典 字數 彙編(字數) 典 字數
曆象彙編 (6,372,012)
乾象典 1,083,409
博物彙編 (19,231,673)
藝術典 10,017,509 歲功典 1,322,100 神異典 4,222,614 曆法典 1,575,104 禽蟲典 2,004,722 庶徵典 2,391,399 草木典 2,986,828
方輿彙編 (22,191,733)
坤輿典 1,622,209
理學彙編 (14,652,652)
經籍典 6,362,483 職方典 15,178,542 學行典 3,391,551 山川典 3,617,087 文學典 3,367,483 邊裔典 1,773,895 字學典 1,531,135
明倫彙編 (29,549,753)
皇極典 4,368,390
經濟彙編 (22,334,704)
選舉典 1,740,487 宮闈典 1,864,536 銓衡典 1,486,432 官常典 10,559,618 食貨典 4,471,090 家範典 1,615,006 禮儀典 4,193,690 交誼典 1,552,021 樂律典 1,523,368 氏族典 5,055,290 戎政典 3,820,916 人事典 1,520,549 祥刑典 2,424,603 閨媛典 3,014,343 考工典 2,674,118
總字數:114,332,527 Table 5-4 各分典字數統計表
從《集成》統計出來的字數大約一億一千多萬,與一般所宣稱的一億七千萬 有些許落差,可能原因為圖表中的文字無法一併計算造成數量落差、原始《集成》
的版本與現今文星書局版不同,內容有增刪之情況,抑或是在當時字數統計之方 法不夠精確所致。
5.2.2 條目出處相關
下表為書目篇章出處朝代與書目總數、條目總數、總字數統計表(註:在 3.3 節所發現有別於正常八種緯度一的條目計入書目篇章之出處):
朝代 書目總數 條目總數 總字數
上古 0 3 3,739
周 31 12,264 2,235,087
秦 2 457 47,414
漢 74 8,243 1,609,007
後漢 64 8,374 1,728,704
三國 7 2,723 484,207
魏 12 298 72,946
蜀漢 1 2 1,128
吳 4 144 38,787
晉 78 4,027 509,749
北魏 11 1,464 251,033
後魏 1 75 15,989
北齊 3 189 61,112
北周 1 4 439
南宋 5 1,117 106,470
齊 1 18 2,350
南齊 3 53 13,990
梁 24 3,958 978,291
隋 9 190 16,648
唐 165 16,114 3,034,981
五代 5 734 114,478
後晉 1 1,049 215,314
南唐 1 25 3,059
宋 483 27,152 5,935,976
金 5 229 91,520
元 94 22,949 4,776,312
明 439 45,546 8,809,665
清 24 11,345 2,844,428
(朝代待考證) (註:含有無書目包
含關係之篇章名)
15,740 227,021 61,758,125
總計: 17,287 395,767 95,760,948 Table 5-5 書目篇章出處朝代與書目數、條目數、字數統計表
詳細書目與未包含書目之篇章出處目前共計有 17427 種。以條目數來看,前 三名分別是《元史》的 15428 條、凌迪知《萬姓統譜》的 13122 條以及《唐書》
的 9705 條;以總字數來看,前三名分別是《宋史》的 3301492 字、《明外史》的 2050680 字以及《唐書》的 1654266 字。其餘詳細列表請參照附錄五。
下表為詩詞曲賦出處朝代與詩詞曲賦標題總數、條目總數、總字數統計表:
朝代 詩詞曲賦標題總數 條目總數 總字數
周 122 188 42,961
秦 7 8 1,699
漢 540 815 211,300
後漢 197 205 66,070
魏 470 718 116,538
吳 34 35 10,104
晉 1,345 1,989 329,629
北魏 86 94 28,575
後魏 2 2 416
北齊 106 124 20,548
北周 300 414 58,502
南宋 1 1 121
齊 236 298 35,755
南齊 46 50 12,217
梁 1,811 2,551 321,931
陳 391 516 67,586
隋 372 472 80,585