• 沒有找到結果。

案例分享

在文檔中 資訊技術與歷史文獻分析 (頁 89-108)

第五章 文件集的特徵量分析

5.2 案例分享

本節我們將上述模型中的方法實際運用在『明清臺灣行政檔案』與『古契 約文書』兩文獻集上。這兩個文獻集都具備套用此方法的條件:文獻集內的史 料是在一致的背景下產生、史料單位一致、文獻集整體具有一定程度的完整性。

首先,THDL 的「年代分布圖」是針對目前使用者關心的檢索結果文件集 D 中的所有文件,累積每一件所貢獻的「成文日期西元年份」特徵值而得來的。

例如圖 45 是『明清臺灣行政檔案』中所有文件的年代分佈圖,用我們的模型來 解釋的話,這張圖正是利用維度dimension(‘成文日期西曆年’)中的每個特徵 f 在 整個文獻集 中的support 數量 — 即 Df = support( f |

D

) — 各當做一個資料 點而繪出的,譬如 (‘成文日期西曆年’, ‘1786’) 在 中的support 量是 200,(‘成 文日期西曆年’, ‘1787’) 在 中的support 量是 2000。

當然我們也可以對關心的檢索結果繪製年代分布圖,例如我們令檢索條件 為「出自《清實錄台灣資料選輯》的文件」,則繪出的年代分布圖便如圖 46。

 45    『明清臺灣行政檔案』所有文件的年代分布圖  

對『明清臺灣行政檔案』所有文件繪製年代分布圖,能讓歷史研究者快速 觀察到這三萬七千件史料的成文時間分佈情況,若沒有電腦的輔助,這會是需 要耗費極高的人力與時間成本才能觀察到的現象。然而,這現象仍須靠歷史研 究者的詮釋才能賦予其意義,譬如:既然『明清臺灣行政檔案』是從龐大的明 清行政檔案中抽取出與臺灣相關的文書形成的,代表著明清官方角度下的台灣 歷史,從這個觀點來看,圖 45 中的幾個高峰應該代表著明清官方角度下、台灣 發生的重要事件。圖 45 的最高峰是 1787(乾隆五十二年)前後,熟悉台灣史 的人會立刻猜到是因為清代臺灣最大的民亂林爽文事件,導致這麼多的行政文

D

D

D

書產生;次高峰的 1884(光緒十年),則是中法戰爭進行到基隆、淡水的年代;

第三個高峰,則是 1894-1985 年甲午戰爭爆發和馬關條約的簽訂。其次的幾個 高峰,則包括了1874(同治十三)年的牡丹社事件、1806 (嘉慶十一)年的蔡 牽事件。1833(道光十三)年的張丙事件等。

圖 46 『明清臺灣行政檔案』中出自《清實錄台灣資料選輯》的年代分布圖

如果說『明清臺灣行政檔案』能勾勒出明清官方角度下的台灣歷史,那麼 從清朝官方史書《清實錄》中挑選與臺灣相關者、集結成的《清實錄台灣資料 選輯》,也應具有相同的效果。圖 46 正是《清實錄台灣資料選輯》一書中文件 的年代分布圖,與圖 45 兩相比較之下會發現,《清實錄台灣資料選輯》中林爽 文事件同樣是最高峰,但圖 45 中 1870-1900 的幾個高峰,在圖 46 中的數量已 經遠遠不及林爽文事件了,尤其 1874 年的牡丹社事件,數量變得很少,甚至 不能構成一個高峰了,「為何會出現這樣的差異」是這兩張年代分布圖透過西元 年份特徵的分布,立即能讓使用者觀察到的、引發的問題,但其原因需要史家 的進一步研究與詮釋。

『古契約文書』中也可進行同樣的觀察,並且,因為這個文獻集當中,來 自《總督府抄錄契約文書》的資料佔了將近一半,有一萬六千件,而其他各地 館藏與出版的資料,則佔了另外一半,有一萬八千件。如果我們將兩者分開觀 察,也會浮現一些有趣的問題。圖 47是所有『古契約文書』的年代分布圖;圖 48 是所有《總督府抄錄契約文書》的年代分佈圖;圖 49 則是「非」《總督府抄 錄契約文書》的年代分佈圖。將三張圖互相比較,會發現圖 47 與圖 48 的高峰 都很一致,但將圖 47的契書數量析分成圖 48、圖 49 兩部分後,原來兩個 sub-collections 的年代分布差異非常明顯,圖 48 中的高峰,集中在二十世紀的土地

調查事業,圖 49 則出現比較多的高低起伏,這些現象都能引發進一步的問題—

為什麼會有如此的現象?讓人快速觀察到大量資料的分佈狀況,是靠人力需花 很多時間才能做到的觀察。

而對特定的契書類型觀察其年代分布圖,也可能具有意義。例如圖 50 是針 對「契書類型為開墾契」的檢索結果 D 繪出的年代分布圖,希望它能反映台灣 開墾史的大致時程。

 47    『古契約文書』所有文件的年代分布圖

 48    《總督府抄錄契約文書》所有文件的年代分布圖

 49    『古契約文書』中,非《總督府抄錄契約文書》的年代分布圖

 50    『古契約文書』中「開墾契」的年代分布圖

以上都是運用「年代分布圖」來觀察 sub-collection。但除了運用「成文日 期西元年」的維度做觀察,也可以運用不同的維度做觀察,應能彰顯出不同的 意思。THDL 的「檢索後分類」工具中,提供了「年代」、「出處」、「作者」、

「分類」四種維度供歷史研究者選擇,正是從 sub-collection D 中總計具有的特 徵集合 features(D),挑選出四種重要的維度,分別排比特徵 f 在 D 中的特徵量

support( f | D) ,呈現的結果具有組織、能讓人容易理解,如圖 51 所示。

而「詞頻分析」工具也類似(見圖 52,是將全文出現的詞彙分成人名、地 名、與其他專有名詞,分別排比特徵 f 的特徵量 support( f | D)(即圖 52 的 df 一欄),以及特徵量佔 的比例 support( f | D) Df (即圖 52 的 tàq 一欄),後 者的數字越接近 1,就代表該特徵 f 越依附於檢索結果 D 出現,因此能提示研 究者發現與檢索高度相關的詞彙,例如圖 52 地名中的「大里杙」,高達 0.816。

 51    THDL 檢索後分類,排比四種維度下特徵、以及其在檢索結果 D 中的特徵量

Df

圖  52    THDL 詞頻分析,詞彙的 df 即 f 在檢索結果中的特徵量,tàq 即特徵量佔 Df的比例

運用 THDL 的檢索能力,與 metadata、全文中的資訊,以及我們運用資訊 技術進行整理、補足的特徵資訊,便能取得具有特定特徵的文件,例如 THDL query syntax 中{TP:上諭|廷寄}代表的是文書類型為「上諭」或「廷寄」的文書,

也就是指「諭旨類」的文書,用我們的模型表示,就是令q=(‘文書類型’, ‘上諭’) (‘文書類型’, ‘廷寄’) ;而 {TP:奏摺|附片|清單|題本|揭帖|疏} 是泛指「奏事類」

的文書。

我們可以將這兩個 queries 所得的 sub-collections 同時繪製在一張年代分布 圖上,在視覺上更方便比較「諭旨類」與「奏事類」文書的年代分布差異,如 圖 53 所示。從圖中可以發現,與台灣有關的奏事類文書從 1720 年後每年已有 穩定的數量,但諭旨類文書則在 1771 年左右才有第一次的密集出現。透過圖 54 的呈現方式,我們能將各年份的文書數量看的更清楚,圖 54 列出 1723 到 1795(乾隆年間)的諭旨文書、奏事文書年代分布的對比,圖中清楚顯示諭旨 文書(圖左側)的第一次高峰應在 1769 年(乾隆年),使用者可以直接利用 THDL 的檢索後分類(同時具有 faceted search 功能)取出這批文書閱讀,以了 解這個年份諭旨文書的書寫原因;接下來諭旨文書在 1787-88 年有非常多的數 量,似乎反應出乾隆皇帝相當急於要解決林爽文事件。

 53 『明清臺灣行政檔案』諭旨文書與奏事文書的年代分布圖比較

 54    『明清臺灣行政檔案』諭旨文書與奏事文書的年代分布橫條圖

上述的方法可以套用在任何歷史研究者有興趣的 sub-collection 底下、運用

任何已經整理的維度特徵來觀察,因此可以有許多的變化。以下我們再舉一些 有趣的例子:例如在「廷寄」類的諭旨中,我們可以比較:全文含有「六百里」、

「五百里」、「四百里」、「三百里」的廷寄的年代分布,選擇這樣的特徵是因為,

廷寄這種形式的諭旨會在內文中指定要以「日行多少里」的速度傳遞,因此透 過這四個特徵的比較,可以讓我們觀察「何時廷寄會以高速傳遞」。從圖 55 我 們可以看到,「六百里廷寄」的高峰出現在 1787-88 年,也就是林爽文事件時,

有300 件左右,但除此之外,只有在 1863 年前後有較多的使用。而整體看各種 速度的廷寄,其實並不頻繁,僅有少數幾次的高峰,且數量都少於100 件。

 55 在「廷寄」類文書中觀察全文含有「三~六百里」特徵的文書年代分布

另一個例子是以乾隆 51-53 年間的明清臺灣行政檔案作為觀察對象,也就 是林爽文事件發生的年代。我們以「成文日期在乾隆 51-53 年之間」作為檢索 條件,取出對應的檢索結果文件集 D,進行特徵分析。這一次我們想觀察「上 奏者」,因此我們先從 THDL 的「作者後分類」與「人名分析」中觀察到常出 現的人名與職銜(圖 56),我們選擇觀察:(‘作者’, ‘常青’)、(‘作者’, ‘福康安’)、

(‘作者’, ‘李侍堯’)、(‘作者’, ‘柴大紀’)、(‘作者’, ‘黃仕簡’)、(‘作者’, ‘普吉保’) 六 項特徵在年代分布上的比對,得到圖 57。可以看到,前期最多的上奏者是常青,

中期最多是李侍堯,中後期開始則是福康安,似乎正反映了不同時期負責處理 林爽文事件的官員,需頻於回報台灣的情況給乾隆知道(註:由於這段期間機 關往來文書的數量僅有133 件,因此可以假設作者若為官員便是上奏)。但除了 用「人名」觀察,我們也注意到「作者」欄位有官員職銜的資訊,因此圖 58~

圖 60 是分別用作者的職銜類型(總督、巡撫、將軍、總兵、提督、大學士、吏

部、戶部、刑部、工部)、各地總督(閩浙總督、兩廣總督、湖廣總督、陝甘總 督等)、與各省巡撫(福建巡撫、浙江巡撫、江西巡撫、廣東巡撫等)來進行分 析觀察。圖 58 中,總督職位官員的上奏次數遠大於其他官職,甚至是巡撫;而 常出現的上奏職銜除了地方的文武官員(總督、巡撫、將軍、總兵、提督),竟 然也有 215 件是大學士上奏,以及吏部、戶部、刑部、工部各上奏數十件。圖 59 中,上奏最多的閩浙總督(當時是李侍堯)是負責台灣的直屬官員,因此並 不意外,但兩廣總督在這段期間也都有上奏關於台灣的事務,令人好奇是為了 什麼樣的事情;而陝甘總督在 1787 年 12 到隔年 1 月突然出現,應該有特殊的 原因。

 56    利用 THDL 中「檢索後分類:作者」與「詞頻分析:人名」觀察 到乾隆51-53 年明清臺灣行政檔案中常出現的作者與人名

 57 比較「常青、福康安、李侍堯、柴大紀、黃仕簡、普吉保」六位作者

 57 比較「常青、福康安、李侍堯、柴大紀、黃仕簡、普吉保」六位作者

在文檔中 資訊技術與歷史文獻分析 (頁 89-108)