• 沒有找到結果。

任期時間判斷與職官年表產生

第三章 從史料中產生職官任職資訊

3.4 人名識別與任期判斷

3.4.2 任期時間判斷與職官年表產生

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

那麼排名較低的候選人名便沒有機會作為該職官所擔任的官員,透過排名制度以及填入 任期的機制使擔任的官員人名與任期更接近真實情況,所以我們採用以候選人名之任期 範圍填入職官任期時間軸的方式來產生職官年表。

依照優先權填入該職官的時間軸,其時間軸是以月份為基本單位,並且根據我們採 用的文本範圍做為時間軸的總長度,《清聖祖實錄》內容時間範圍從順治十八年元月到 康熙六十一年十一月,總共有七百六十六個月,在處理填任期時按照任職的月份依序 填入。另外在填任期的過程當中,需考慮到是否允許任期重疊(Overlap)的情況發生,

在我們的填入任期方法當中採用允許任期重疊的機制,並且額外考慮與多少不同候選 人名有任期的重疊,我們允許該候選人名和 3 個以內相異的後選人名任期有重疊,該 候選人名才能夠擁有填入任期的資格,換句話說,先去檢查每個候選人名會與其他多 少個候選人名有任期上的重疊,僅保留和 3 個以內候選人名有任期重疊者。理論上若 先前步驟的任期判斷為準確之情況下,人名任期重疊到其他候選人名的數量不會太 多,而非人名因為無固定任期,因此重疊的候選人名數量相較人名來得多,藉由此方 式屏除部分非人名填入時間軸的資格。

符合與其他候選人名任期重疊的標準之後,便有資格依照先前四項指標排名的順序 進行任期填入的動作,該月份已有候選人名填入之後便無法再填入,此時候選人名填 入任期時便遇到重疊之情況,因此我們加入允許任期重疊次數的門檻值,設定任期重 疊月份不超過 5 個月,符合門檻值的候選人名才有資格可以繼續在時間軸上尋找下一 個空的月份填入任期,否則若任期重疊次數超過 5 次,代表已經有超過 5 個月以上的 任期和其他候選人名有所重疊,便不再替該候選人名填入任期。所以在先前排名機制 將非人名排到較後面的順位,是希望利用區隔開的人名與非人名進行任期填入的動 作,再透過上述兩種門檻值降低非人名填入任期的可能,最後將各個已經填入時間軸 的候選人名,根據所佔據之時間視為真正的任期,並且產生職官年表。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

另外值得一提的是以任期填入時間軸的方法,若該職官本身被裁缺或者合併等沿革 的情況,在這時間軸的這部份理應為空,也就是不該存在任何的人員在此段期間任職,

然而我們作法是利用候選人名本身的頻繁區間做為任期的依據,若此段期間該職官裁 缺,理論上人名的頻繁區間不會出現於職官被裁缺的部份,但是,此種情況對於非人名 卻是最容易填入任期的時機,導致非人名因為時間上出現空格便趁機而入,因此才會考 慮和多少候選人名有任期的重疊,與愈多其他候選人名有任期重疊者理論上不為人名,

不給予填入任期的機會,減少被非人名趁機填入的問題。

歷任官員 上任時間 卸任時間 A 1 5 B 6 10 C 11 16 D 21 23 E 17 20 F 24 28

圖 3.11:職官年表態樣範例15

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

第四章 實驗評估與結果

4.1 實驗資料來源

本章節將介紹我們的實驗設計以及實驗結果。本研究採用《清實錄》當中的《清聖祖實 錄》作為實驗文本,共計三百卷,每卷通常記錄二至四個月份的內容,但也有極少數例 外是一卷紀錄一個月份或者七個月份,文本時間範圍從順治十八年一月份開始直到康熙 六十一年十一月份,總共為七百六十六個月。而電子資料庫的部份則是使用中央研究院 建置的「漢籍電子文獻資料庫」,利用 curl 將網頁擷取成約 6.33MB 大小的史料文本 txt 檔案,以一個中文字 2 Byte 來計算大約是 3 百多萬字的史料文本。在實驗執行的硬體設 備方面,使用 1.87GHz 的雙核心中央處理器,以及 2.75GB 的實體記憶體空間。

本研究中採用清朝康熙期間,也就是《清聖祖實錄》做為研究文本的範圍,由於在 史料文本的選取主要考量到清代距離現今年代較近,所保留的歷史古籍也較豐富且完 整,以及現今已有錢實甫的《清代職官年表》可做為我們實驗的標準答案,同時康熙是 清朝歷史上在位時間最長的皇帝,也是中國歷史上在位時間最長的皇帝,在《清聖祖實 錄》中所記載的資訊較為完整。同時,在康熙期間的官員人名中,包含有我們習慣而且 常見的漢族姓名用字,例如余國柱、范承勳、郭琇…等,除此之外,尚有較為罕見且不 易直覺判斷的非漢族之姓名,例如索額圖、班布爾善、圖海…等,後者類型的人名在字 數上除了較常見的三字人名之外,還包括二字以及四字甚至更多字的情況,然而,更重 要的是在人名的用字上較為特殊而且罕見的,相較於前者來說,在這部份的識別可能還 需要額外的考量來完成,也比較不那麼直觀的可以判斷出是否為人名。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

由於在康熙時期的文本當中,同時俱有這兩種類型的人名,所以若利用百家姓或常 見姓名的規則方式來從史料中進行人名識別,那麼對於比較特殊罕見或者是不容易直觀 察覺之人名,針對這些類型的人名在判斷上將會是影響人名識別準確率的原因之一,造 成可能無法正確地找出這類型的人名,也是一般傳統人名識別中時常面臨的問題。所以 針對上述提到的兩點主要原因,一者是清代古籍保留較豐富完整,再者是人名具有多樣 性,因此我們選用《清聖祖實錄》做為本研究的史料文本。

標準答案是採用錢實甫的《清代職官年表》做為評估,是專門提供清代各職官的年 表,包括歷任官員姓名、任期時間、人事變化的原因、以及各職官的沿革情況,內容主 要是參考《清實錄》為主之史料,並且再根據其他相關書籍的輔助,例如清史稿列傳的 部份或清史列傳等,以人工方式所編制完成,提供清代若干重要職官的資訊,以當代政 治或社會上較具影響力的職官為主,包括大學士、侍郎、總督、巡撫…等,共計四十八 種職官,職官表內容為歷任官員之姓名、上任時間、卸任時間以及該職官沿革情況。而 本研究實驗當中的職官種類以總督、巡撫和布政使三種職官為主,職官可再依省籍劃分 為數個職官,例如直隸總督、湖廣總督、直隸巡撫等,因此實驗部份我們採用二品裡面 的部份職官做為範例,詳細清單請見附錄一。

本研究以清朝康熙時期的部份二品職官為例產生其職官年表,並且採用人工的方式 進行職官名稱的搜集接著再建立職官清單,根據清單中的職官名稱各別擷取史料中包含 該職官的句子,並建置其職官的 bi-gram 資料庫做為探勘的資料來源。在職官清單建立 的部份,主要採用維基百科網站所記載的清朝職官表 (http://zh.wikipedia.org/)以及《清 代職官年表》上所記載的職官名稱做為本研究的職官清單,其中由於清代康熙時期的職 官並非在這六十一年之間皆為相同固定的名稱,同一個職官名稱會因當時的政策而有所 異動,包括職官的合併、裁免與復設,舉例來說,康熙元年稱為江南總督,然而同一時 間也存在另一個職官為江西總督,但是在康熙四年的時候江南總督改稱為江南江西總 督,並且裁免江西總督一職。因此在職官清單建置上也會考量到職官沿革的情況因素,

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

將職官沿革的名稱一併列入建立職官清單,之後再根據這些職官建立職官資料庫。

若職官同一時間有多位官員擔任,現階段暫不考慮產生此種職官的年表,僅先針對 同一時間只有一人擔任之任官情況,以二品部份職官為例,包括總督、巡撫以及布政使,

實驗的職官數量總共為六十一個職官。《清聖祖實錄》中對於較低品位之職官記載較少,

因為較低品位的職官與朝廷之間奏折往返的機會不多,間接導致這些較低品位之職官在 史料中出現或者被提到的次數也較少,在資訊較不足的情況下對於任職官員的判斷上也 較為不易,同時史料文本對於品等較高的職官記載也比較完整,因此本研究對於較低品 位之職官並不列入考慮。另外,一品職官與從一品職官當中較多是虛銜,如太師、少保、

太子太師或將軍等,多為兼任、加封、贈官等情況,以及某些職官如正一品的領侍衛內 大臣與當代實際政治並無直接關係,換句話說,名義上虛榮的職官在人事變化的部份也 比較大。此外清代習慣重文輕武,例如從一品的提督在政治或社會地位上較不如正二品 的巡撫,所以武官官職在《清代職官年表》中的年表極少,考慮到正確答案判定上無所 依據便不列入考量。基於以上種種因素,因此本研究以二品的部份職官為例產生職官年 表。

4.2 實驗評估方法

關於本研究產生的職官年表評估標準,是以錢實甫的《清代職官年表》做為標準答案,

將產生的職官年表與正確答案中該職官的歷任官員進行比較。本實驗以時間軸方式來計 算準確率以及召回率,換句話說,評估產生的職官年表依照時間軸角度來看,根據職官 每個月份所擔任的官員是否判斷正確做為評估的基準,若該月份標準答案的人名與我們

將產生的職官年表與正確答案中該職官的歷任官員進行比較。本實驗以時間軸方式來計 算準確率以及召回率,換句話說,評估產生的職官年表依照時間軸角度來看,根據職官 每個月份所擔任的官員是否判斷正確做為評估的基準,若該月份標準答案的人名與我們