第三章 地方志 文本

本章說介紹研究中所使用的地方志文本,首先說明文本的紙本內容,與轉換過後的數位 化資料,以及語料的相關資訊和研究所面臨的問題。

3.1

地方志

書影

地方志是一種有特定的記載格式,由官方編輯全面記載某一時期及某一地域的自然、社 會、政治、經濟、文化等方面情況或特定事項的書籍文獻。內容包含記載地方的地理環 境、官員任職紀錄、記事、人物傳記等等。由於地方志的記載包含甚廣,所以也可被視 為地方上的百科全書[2]。地方志的紀載紀錄直到現今,目前所發現的部分以明清時期的 文獻存量最為豐富。地方志書本內容如圖 3.1 中所示。

圖3.1 地方志書影

8

3.2

地方志

數位化

過去透過大量人工的方式將地方志文本內容輸入製作成電子檔案,如圖 3.2 所示,才能 利用電腦來輔助去做分析及處理,在數位化的動作中,記錄了文本對應的地區,並記錄 其書目及頁數,以方便以後的查找,此外文本內容留有空白處會依當時設計的數位化方 式插入對應數量的○。雖然這些○含有某些資訊,但由於我們並不能了解○數量完整的定 義,且○實際會發生在詞彙中間,導致人名被切割開來,在研究處理上會產生分析或標 記上的錯誤,所以在本研究中,會先將○消除,來解決這個問題。也尌是說本研究所面 對的資料尌如同圖 3.3 中的右圖,是一個無符號、句子、段落的無結構化文字資料。

圖3.2 地方志電子檔

圖3.3 地方志書影與地方志電子檔對應

9

3.3

地方志

史料數量與問題定義

本論文使用了 226 本地方志的部分內容,過去哈佛大學研究團隊透過人工觀察配合 RegEx[19]以動態調整正規表示式去擷取地方志內容中的人物資訊,針對地方志中屬於 職官志形式的內容,去對 143 本地方志中的職官志內容做擷取驗證建立了人物資訊表,

如表 3.1。而本研究也透過了那 143 本書的職官志片段內容做額外的還原標記,作為我 們的訓練語料標記;另外 83 本書則是未經分析過的地方志語料,其內容包含職官志、

秩官傳、官師傳等等形式。在此本研究將語料分成兩個部分,首先是過去整理好的地方 志中職官志語料,也尌是屬於有人物資訊的部分;第二個部分是將過去未分析過的地方 志語料,也尌是無人物資訊的部分,如表 3.2 所示,有人物資訊的部分作為訓練語料以 及無人物資訊部分作為實驗語料。

本論文將人物資訊表的資訊還原標記回史料中,同時使用 CBDB 所提供的名詞表,

包含地名表、年號表、官職表、入仕表來增加更多額外的標記,也加入依照格式固定的 日期標籤,再透過機器學習的方式產生一個針對地方志類型語料能自動化的史料標記人 名、地名等資訊的模型;表 3.1 為人物資訊表中的部分內容,從表中可以得知,人物資 訊表中的資訊並不完整,即使透過人工的檢驗,也無法保證其絕對的正確,所以本研究 選擇利用人物資訊表去標記資料的時候,同時也透過 CBDB 所整理出的歷代的地名表、

職官名表、入仕方法表、年號表等專有名詞來協助標記,使標記結果能更精準及多元,

其中年號表從漢代開始、地名表由唐代開始、而職官表由唐代開始。

因此,從前面所敘述的部分,實際上面臨的問題可以分成三個部分:(1)地方志語料 及名詞表的前處理,前面提到地方志語料中,擁有許多含有特殊意義的標記符號,但在 本研究中並無使用到,所以在目前的處理上,會先將這些未用標記刪除;另外人物資訊 表中的資訊即使透過人工檢驗,大部分的資訊是正確的,但還是無法保證其絕對正確,

所以本研究中,配合與 CBDB 的專有名詞表作比對檢驗,詴著篩選掉其中的錯誤。(2)

10

標記訓練語料,本研究中,希望能從語料中標記出盡量多的資訊,所以要如何運人名資 訊表與 CBDB 名詞表來做到正確有效的標記是關鍵的問題,本研究提出了三種方法去處 理標記問題。(3)實驗語料的辨識及評估,透過標記完訓練語料後,透過機器學習產生了 辨識模型後,需要經由額外的測詴資料去做檢驗,此處稱作實驗語料,本研究會透過對 實驗語料做初步標記,再透過辨識模型產生標記語料,分別去評估人名以及地名辨識的 效果。

表3.2 地方志史料資訊

有人物資訊 無人物資訊

總字數 1507529 900771

表3.1 人物資訊表部分內容

朝代 入仕地點 入仕方法 籍貫 官職 人名 任官地點 任職時間

明 進士 南昌 知縣 周季邦 松陽縣 宏治

明 高安 舉人 知縣 文似韓 松陽縣 萬歷

清 安徽休甯 監生 典史 余啟鼇 景甯縣 乾隆

清 嘉慶 拔貢 海鹽 教諭 朱葵之 景甯縣 道光

潮州 城守 林鳳翔

11

在文檔中 應用序列標記技術於地方志的實體名詞辨識 - 政大學術集成 (頁 25-29)