• 沒有找到結果。

Chapter 2 清實錄條目切割

2.4 條目切割

「首卷類型文件」,整篇黏合起來就是一篇完整的序、凡例或修纂官資料,不 需要做額外的切割,因此這部分主要討論針對「一般紀錄文件」的處理。在說明 切割方法以前,必須先說明切割結構。先看圖2-8 的中間

清實錄會於一天的開始宣告這天的開始。這篇是「高宗實錄卷五百零三,乾隆二 十年十二月己未日」,其事件內容為「己未。大學士管陝甘總督黃廷桂奏、陜、甘、

兩省各營。購補摘缺馬匹。奉旨令將軍、提、鎮、每月一次奏聞。原欲其及時購 備。惟是驛站馬匹。紛紜馳遞。過費馬力。恐於要務有誤。請嗣後各將軍、提、

鎮、每月買補馬數。近陜省者。令其報知陜撫。近甘省者。即令報臣。每月俱由 督撫覈實詳奏。得旨、是。如所議速行。」。在接下來「以中允裘曰修、為吏部右 侍郎。」代表此為這天第二件事,同樣的「以參革廣西太平府屬思陵土知州韋日 昱子璋、襲職。」代表為此天第三件事情。一直到圖2-9 出現本日第五件事情、第 六件、第七件事情。直到「庚申。上詣皇太后宮問安。」為止,代表更換一日。

我們將這些一則紀錄,稱為「條目」。

圖 2-8 清實錄正文結構圖例(一)

圖 2-9 清實錄正文結構圖例(二)

2.4.1 條目斷點切割

根據上表圖例中,我們知道清實錄原文中,利用「○」做為不同條目切割 的依據。因此我們將合併過得一般紀錄文件依照「○」斷開。將一般類型文件 切開以後,切成正文文件315757 筆,卷首文件 4438 筆,卷尾文件 3759 筆。首 卷文件則有68 筆。

2.4.2 出處斷點切割

然而,研究過程中仍然發現部分問題,如同上述講述標點符號的意義,發 現於光緒時期,於德宗實錄中,會標示該篇文字出處。但因為印刷問題,或書 寫習慣問題。於當時數位化過程中並未輸入「○」,如以下所示

圖 2-10 出處斷點實例

以上述這篇文字來說,我們可以看到上篇文件其實是由三則事件組成,分 別是

„ 乙巳。遣官祭先蠶之神。★典例☆

„ 陝西巡撫譚鍾麟奏遵查記名提督譚仁芳堪任專閫。報聞。★摺包☆

„ 丙午。以節逾清明農田待澤尤殷。上復詣大高殿祈禱行禮。★現月

同時也知道「★典例☆」「★摺包☆」「★現月☆」是文件出處,亦同時表示 此出處是條目切割的地方。因此儘管數位化清實錄資料未將○寫入其中,然而我 們仍然可以將其斷開。

為了成功斷開,先將清實錄中所有屬於出處的文字找尋出來。將★☆中包含 十個字以內,且屬於「一般紀錄類型」的文件取出,並經過人工觀察篩選錯誤。

透過篩選以後,共留下 346 個不同的文件出處。如下表所示,僅先列其中幾筆,

大部分列於本篇論文附錄。以出處為切割標準,共額外切出1057 篇事件。共切出 316062 件。

表 1. 出處表(附錄)

由上面也可以觀察到,其最後一則條目與卷尾黏合在一起,也因此必須將其

經過翻閱過清實錄,此全形空格在清實錄中確實為條目斷點。然而全形空格 於數位化打字中共用了兩三萬次,其中可能是代表換行、挪抬、換頁、空一行等 各種不同狀況。我們無法單純以看見「全形空格」就是事件斷點做處理。

因此將目前所切割完成的條目,取出每篇前兩個字,然後進行統計。最後將 三十萬餘筆中出現一百次以上的首二字詞彙,並要求其前方必須有一全形空白,

或一句點如「 又諭」或「。又諭」。或著為天干地支,如「 己亥」或「。己亥」,

若為日期則不要求前方必須要有全形空白或句點,皆使用人工翻閱校正。此首二 字列表將列於附錄二。將標示的文件,翻閱紙本清實錄對照,額外斷出三百六十 六件。

如此一來,經過這層層分工和校正錯誤處理,清實錄的切割精確許多。也因 為切割完整,才能夠處理下一個步驟。於每則條目標示時間。按照上述步驟,共 切割出325895 條,首卷:68 條,正文條目:317,673 條,卷首:4438 條,卷尾:

3759 條。

相關文件