Chapter 2 清實錄條目切割
2.4 條目切割
「首卷類型文件」,整篇黏合起來就是一篇完整的序、凡例或修纂官資料,不 需要做額外的切割,因此這部分主要討論針對「一般紀錄文件」的處理。在說明 切割方法以前,必須先說明切割結構。先看圖2-8 的中間
清實錄會於一天的開始宣告這天的開始。這篇是「高宗實錄卷五百零三,乾隆二 十年十二月己未日」,其事件內容為「己未。大學士管陝甘總督黃廷桂奏、陜、甘、
兩省各營。購補摘缺馬匹。奉旨令將軍、提、鎮、每月一次奏聞。原欲其及時購 備。惟是驛站馬匹。紛紜馳遞。過費馬力。恐於要務有誤。請嗣後各將軍、提、
鎮、每月買補馬數。近陜省者。令其報知陜撫。近甘省者。即令報臣。每月俱由 督撫覈實詳奏。得旨、是。如所議速行。」。在接下來「以中允裘曰修、為吏部右 侍郎。」代表此為這天第二件事,同樣的「以參革廣西太平府屬思陵土知州韋日 昱子璋、襲職。」代表為此天第三件事情。一直到圖2-9 出現本日第五件事情、第 六件、第七件事情。直到「庚申。上詣皇太后宮問安。」為止,代表更換一日。
我們將這些一則紀錄,稱為「條目」。
圖 2-8 清實錄正文結構圖例(一)
圖 2-9 清實錄正文結構圖例(二)
2.4.1 條目斷點切割
根據上表圖例中,我們知道清實錄原文中,利用「○」做為不同條目切割 的依據。因此我們將合併過得一般紀錄文件依照「○」斷開。將一般類型文件 切開以後,切成正文文件315757 筆,卷首文件 4438 筆,卷尾文件 3759 筆。首 卷文件則有68 筆。
2.4.2 出處斷點切割
然而,研究過程中仍然發現部分問題,如同上述講述標點符號的意義,發 現於光緒時期,於德宗實錄中,會標示該篇文字出處。但因為印刷問題,或書 寫習慣問題。於當時數位化過程中並未輸入「○」,如以下所示
圖 2-10 出處斷點實例
以上述這篇文字來說,我們可以看到上篇文件其實是由三則事件組成,分 別是
乙巳。遣官祭先蠶之神。★典例☆
陝西巡撫譚鍾麟奏遵查記名提督譚仁芳堪任專閫。報聞。★摺包☆
丙午。以節逾清明農田待澤尤殷。上復詣大高殿祈禱行禮。★現月
☆
同時也知道「★典例☆」「★摺包☆」「★現月☆」是文件出處,亦同時表示 此出處是條目切割的地方。因此儘管數位化清實錄資料未將○寫入其中,然而我 們仍然可以將其斷開。
為了成功斷開,先將清實錄中所有屬於出處的文字找尋出來。將★☆中包含 十個字以內,且屬於「一般紀錄類型」的文件取出,並經過人工觀察篩選錯誤。
透過篩選以後,共留下 346 個不同的文件出處。如下表所示,僅先列其中幾筆,
大部分列於本篇論文附錄。以出處為切割標準,共額外切出1057 篇事件。共切出 316062 件。
表 1. 出處表(附錄)
由上面也可以觀察到,其最後一則條目與卷尾黏合在一起,也因此必須將其
經過翻閱過清實錄,此全形空格在清實錄中確實為條目斷點。然而全形空格 於數位化打字中共用了兩三萬次,其中可能是代表換行、挪抬、換頁、空一行等 各種不同狀況。我們無法單純以看見「全形空格」就是事件斷點做處理。
因此將目前所切割完成的條目,取出每篇前兩個字,然後進行統計。最後將 三十萬餘筆中出現一百次以上的首二字詞彙,並要求其前方必須有一全形空白,
或一句點如「 又諭」或「。又諭」。或著為天干地支,如「 己亥」或「。己亥」,
若為日期則不要求前方必須要有全形空白或句點,皆使用人工翻閱校正。此首二 字列表將列於附錄二。將標示的文件,翻閱紙本清實錄對照,額外斷出三百六十 六件。
如此一來,經過這層層分工和校正錯誤處理,清實錄的切割精確許多。也因 為切割完整,才能夠處理下一個步驟。於每則條目標示時間。按照上述步驟,共 切割出325895 條,首卷:68 條,正文條目:317,673 條,卷首:4438 條,卷尾:
3759 條。