職官bi-gram資料庫建置 - 以資料探勘識別擔任職官之候選人名

第三章從史料中產生職官任職資訊

3.2 以資料探勘識別擔任職官之候選人名

3.2.1 職官bi-gram資料庫建置

國

立政治大學

‧

Na tiona

l Ch engchi University

度門檻值，所以項目集<{A},{B}>即為交易資料庫當中的頻繁項目集，代表 A 和 B 兩項物品時常被一起購買。

然而，除了職官名稱與人名時常伴隨出現之外，史料中一些寫作常見詞彙也有可能伴隨著出現，那麼是否也能夠藉由這類常見詞彙，來進行職官年表產生的過程呢?根據故宮清代檔案數位典藏計劃中，提到在宮中檔案奏摺裡常見的職官進退描述詞，舉例來說，像是陞、升、擢、拔、授、遷、晉、襲、轉、署、降、調、調補、降調、黜、貶、

護理、起、復、攝、封、贈，或者以……用、以……補用、儘先……補用、儘先……推補、儘先……選用、以……委用等。

此類關於職官進退時所使用的描述詞彙，雖然可以幫助我們在內文解讀方面更加容易瞭解職官的情況，但是用詞的種類相當繁多，而且這些詞彙有可能因為不同的時期或者修纂官執筆風格之差異，導致即使描述同樣的事件卻是使用不同的詞彙，例如記載升官時可能是採用陞、遷或拔等用詞，其變化性相當大，有時甚至要依賴於對前後文的進一步求證才能夠正確的判斷。換句話說，若要於史料中判斷職官擔任的官員時，無法僅僅根據這些史料中的描述詞彙來進行判斷，透過職官名稱作為媒介較為適合，因此欲產生職官年表以及建立完整的職官履歷，對於歷史工作者而言是相當大的挑戰，而本研究提供一種自動產生職官年表的方法，希望替史學研究者帶來更大的便利。

3.2.1 職官 bi-gram 資料庫建置

1 A,B,C 2 A,B,D 3 E,F 4 A,B,G

圖 3.4：頻繁項目集探勘範例-交易資料庫8

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

本研究為了從史料中探勘頻繁伴隨職官名稱出現的名詞及其任期，透過資訊擷取的方式將史料文本中包含特定職官名稱的所有句子擷取出來，建置成屬於該職官的資料庫，做為探勘的資料來源，再從職官資料庫進行區間頻繁項目集之探勘。

研究文本《清實錄》是經過整理編纂而成的現存清史原始史料文獻，所收錄的諭旨、

奏疏皆以時間為軸來紀載史事，文本中包含小句號「。」和頓號「、」用以文意已完足的句子之末或是同位詞的區隔，此外在文本中間置以「○」間隔，該圈形符號為《清實錄》中固有的符號，通常位於不同的事件 (Event)之間，用以區隔出史料中各別史事，

同時代表文本之中的斷句符號。

如圖 3.5 中的文句所示，出自於《聖祖仁皇帝實錄》卷之二百九十九，三個「○」

符號分別區隔出史料中三件不同的事件，舉例來說，第一個「○」符號右邊為派遣官員祭拜歷代帝王的事件，第二個「○」符號右邊為派遣官員祭拜城隍神的事件，第三個「○」

符號右邊為皇帝后妃外出到熱河行宮的事件。透過文本中固有的「○」符號，可以幫助我們對於文本之中不同事件的判斷，換句話說，可以利用文本中固有的「○」區隔符號來做為斷句的判斷條件之一。

關於擷取史料記載職官事件的方法，主要是利用《清聖祖實錄》中的「○」符號與小句號「。」進行擷取，因為「○」通常代表別不同的事件之間的區隔符號，所以採用上述兩種符號進行斷句的判斷輔助。史料記載職官事件的擷取方法，是以職官名稱的出現位置為基準點，並擷取左右兩邊的句子，各自句子的長度不超過十六個字，其中關於史料記載事件之句子長度，其平均長度範圍約從十幾個字到三十幾個字不等，所以我們擷取的句子最長為三十二個字，擷取的句子長度基本上較史料句子平均長度要長，並不

…○甲申。遣官祭。歷代帝王。○遣官祭城隍之神。○上還至熱河行宮駐蹕…

圖 3.5：史料中「○」符號區隔不同事件9

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

會發生擷取句子過短導致重要資訊遺漏。

長度的考量是因為一般情況之下人名與擔任的職官名稱應該相距不遠，因此，若有上述兩種符號出現則表示擷取的斷句處，主要原因是為了確保擷取出來的句子與職官名稱是同一事件。換句話說，擷取同一事件的名詞之目的在於避免擷取到多餘的非事件相關名詞，對未來步驟產生多餘的 bi-gram 造成之後探勘效率上的影響。

完成包含職官名稱的所有句子擷取之後，再將每一句進行 bi-gram 的切割，即每兩個字就視為一組 bi-gram，將句子以兩個字一組的方式進行切割，切割的過程中如遇見史料中的頓號「、」則跳過該符號，繼續從同句子中的下一個字處理，若是遇見該職官名稱亦然，如此一來在切割後的 bi-gram 當中便不會包含有標點符號以及該職官名稱的 bi-gram，減少 bi-gram 的數量以利探勘的執行效率。

根據上述 bi-gram 切割方法，上面例句為湖廣總督於史料中所擷取的一事件句子，

我們以此例句進行說明，從該職官名稱湖廣總督左右兩邊句子，兩個字為一組 bi-gram 來切割，左邊句子首先為綏遠，再來依序是遠將、將軍、軍雲、雲南、南貴、…、蔡毓和毓榮等，接著遇到頓號則跳過該頓號，繼續切割得到題參並完成左邊句子的部分，遇到該職官名稱湖廣總督則略過不切割；右邊句子以此類推，最終可得到「綏遠,遠將,將軍,軍雲,雲南,南貴,貴州,州總,總督,督蔡,蔡毓,毓榮,題參,董衛,衛國,不聽,聽調,調度,任意,意抗,抗違,貽悞」共 22 個 bi-grams。

我們藉由史料為編年體具有時間先後順序關係之特性，從史料文本的最前面開始，

根據特定職官名稱進行包含該職官名稱之所有句子的擷取，並且替該職官名稱建立起可存放擷取出來之句子的資料庫。擷取方法係利用先前提到的「○」與「。」符號來輔助斷句，確保擷取該句子內容為描述同一事件，而非混雜著其他與該句子不相干之事件，

綏遠將軍雲南貴州總督蔡毓榮、題參湖廣總督董衛國、不聽調度、任意抗違、貽悞

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

避免包含到與該事件非相關之多餘字句，另外並考量句子長度之因素，一來擔任職官的人名不會離職官名稱太遠，再者《清聖祖實錄》裡有些記載事件的句子當中，會沒有註記上標點符號，因此限制擷取的左、右句子長度不超過十六個字，總句子長度不超過三十二個字，以減少句子中包含其他非相關事件之內容，維持擷取句子所記載事件為相同者，且擔任該職官的人名也會被保留下來。所有包含指定職官名稱的句子從史料文本中擷取完畢之後，接著便針對擷取的每一句子進行 bi-gram 切割，將句子轉變成 bi-gram 集合的形態，可得到一資料庫裡面存放數筆的 bi-gram 集合，最後建置成屬於該職官的 bi-gram 資料庫做為我們探勘的資料來源。

在文檔中由史料中探勘職官年表：以康熙時期為例 - 政大學術集成 (頁 36-39)

職官bi-gram資料庫建置

第三章 從史料中產生職官任職資訊

3.2 以資料探勘識別擔任職官之候選人名

3.2.1 職官bi-gram資料庫建置

國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

第三章從史料中產生職官任職資訊

立政治大學

立政治大學

立政治大學

立政治大學