造成誤差之因素

第四章實驗評估與結果

4.3 實驗結果

4.3.2 造成誤差之因素

國

立政治大學

‧

Na tiona

l Ch engchi University

上述職官不予考量，可得到總督之召回率與準確率分別為 0.7 和 0.72，巡撫之召回率與準確率為 0.66 和 0.83，布政使之召回率與準確率為 0.23 和 0.43。

其中，關於布政使在實驗數據上相對較差之情況，我們進一步觀察瞭解到，除了職官在史料當中出現次數的多寡會影響探勘之外，尚有另一影響探勘的重要因素，也就是同一個人名在職官資料庫當中出現的頻繁程度，舉例來說，若職官在史料中出現次數相當多，使得該職官資料庫的資料筆數較多，直覺上對於探勘是有利的條件，但是其中同一個人名若不夠頻繁伴隨職官名稱，甚至在出現的每一筆資料當中所伴隨職官名稱的人名皆不同，會造成無法探勘出頻繁伴隨著職官名稱的人名。

史料裡面某些職官在記載時，每位官員的名稱僅和該職官伴隨出現一次，換句話說，藉由該職官所能瞭解的資訊除了每位官員的一筆記錄之外，沒有再額外記載每位官員於任期內之各項事件，然而，布政使在史料當中的記載方式便屬於此種情形，同一個人名伴隨職官出現的次數太過少次，即使各布政使於史料裡出現至少有 15 次以上，表示職官資料庫至少有 15 筆以上的資料可以探勘，但同一個人名卻僅出現 1 至 2 次，較難構成頻繁的條件而被探勘出來。此種情形除了布政使較為明顯之外，在總督和巡撫也有部份職官有此情況，是影響召回率與準確率重要因素之一，此因素導致實驗部份結果不彰，屬於史料文本本身記載上的局限。從圖 4.2 至圖 4.7 實驗結果當中，在職官名稱於史料中出現次數較多，以及同一個人名常伴隨職官名稱一起出現之兩條件皆成立之下，例如廣東廣西總督、四川陝西總督、直隸巡撫、山西巡撫、江蘇巡撫、安徽布政使…

等，可以得到 0.7 至 0.9 的召回率與準確率。

4.3.2 造成誤差之因素

在處理史料的過程中發現之所以探勘出非人名，以及經由過濾與排名的機制之後，所自動產生的職官年表準確率無法達到百分之百，事實上與史料文本也有關聯，我們分析結果如以下所示：

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

1. 文本中的錯字影響探勘

史料文本裡面記載訛誤，使得產生的 bi-gram 不正確，連帶導致探勘時計算支持度有所影響。以直隸巡撫的職官資料庫為例，如圖 4.9 所示。

其中因一筆資料中記載為“何”道總督，明顯為史料中的錯別字，導致 bi-gram 切割出{何道,道總,總督}，若無此錯誤，原本 bi-gram 處理時可略過職官名稱的部份。由於文本錯字造成的情況，是我們無法避免的不可抗因素，對於探勘所造成的影響為多了不相干的 bi-gram，可能導致各項目集在支持度計算上的錯誤，甚至間接使得頻繁區間判斷錯誤也是有可能的。

2. 人名用字稱呼不一

常發生在滿族譯名的情況，舉例來說，費揚古在滿族俚語是"老生子"的意思，文獻中提到也可譯成費揚武，所以在史料當中兩種稱呼皆有，造成會影響項目集在支持度計算的部份，費揚武、費揚古以及費揚三者的支持度會以費揚最高，因此取封閉區間頻繁項目集之後，三個候選人名皆會被探勘出來，實際上只需要取前兩者即可，但因為人名用字稱呼不一而造成多餘的候選人名，以及在 3.4 節提到利用排名結果與子字串或者包含自己的字串互相取代，會造成到最後只剩下費揚，費揚武和費揚古皆被視為人名銜接非人名的情況而取代了。

除此之外，有時會以伯費揚武來稱呼，伯指爵位，為了表示尊敬，因此在名字前面冠以伯字，所以因譯名或者其他尊稱而導致用字不一的情況，對於候選人名結果也會有所影響。

命原任“何”道總督于成龍、以總督管直隸巡撫…

原任河道總督王新命、直隸巡撫李光地、來朝…

圖 4.9：文本中的錯字-以直隸巡撫為例24

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

3. 同一職官中姓名相似的官員

於同一個職官當中存在姓名相似的官員，例如福建總督之中先後有郎廷相與郎廷佐擔任過，現階段在我們處理過程中，會產生郎廷佐、郎廷相和郎廷三個候選名詞，和 3.1.2 中提到之特例 2 是相似的情形，經由子字串取代的動作同樣只剩下郎廷一個候選名詞，

造成最後職官年表當中擔任職官的人名判斷有誤。

4. 任期時間無明確記載

經由實驗結果發現在職官年表任期時間的部份會有所誤差，除了跟探勘時頻繁區間的判斷有關之外，另外很重要的一點是史料文本本身，其中並無記載該官員任職或者卸任該職官的正確時間點，而造成所產生之職官年表在任期判斷上的誤差。

5. 同一個人名並無頻繁伴隨職官

在實驗的過程當中，觀察到召回率與準確率偏低的原因之一，除了該職官本身於史料當中出現次數較少之外，另一方面是因為同一個人名在該職官資料庫當中，實際上沒有頻繁地伴隨職官名稱一同出現，可能僅伴隨出現一至二次，根據頻繁程度進行探勘的方式之下，這些人名因無法構成頻繁的情況下便難以確實被找出。

6. 各家史料記載有異

由於實驗的標準答案是採用錢實甫的《清代職官年表》一書，然而透過實驗結果再返回觀察得知，曾發生我們所採用文本所記載的職官人員，與《清代職官年表》一書所記載的答案有所差異，因此在這樣的情況下，也會造成在評估召回率與準確率的影響。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

第五章結論與未來研究

5.1 結論

歷史研究導引相關的資訊技術創新，而資訊技術的創新輔助歷史研究，結合資訊科學與歷史學的跨領域研究，最主要之目的在於協助歷史學者，而不是使資訊科學技術取代歷史學者的工作，換句話說，也就是探討資訊科技能幫人文社會領域做些什麼樣的改進或者成為有用的輔助工具。然而，資料探勘的精神便在於從數量龐大的資料當中，挖掘出有意義而且不易被察覺的資訊與訊息，透過資訊科學的技術從歷史中進行探勘，希望能幫助史學分析與觀察，成為歷史學者檢校、查考、補註或是訂正的輔助工具，能夠使他們在龐大的歷史資料中獲得更多的幫助。

本研究在中研院已經建置漢籍電子文獻資料庫的前提之下，以觀察得知的史料寫作特性為本研究的出發點，提出以此特性為基本精神並且利用 Twain 演算法進行與職官相關之人名探勘，並且將探勘結果所取得之候選名詞，進行候選名詞的組合與配對，其中組合出來的可能人名集合當中仍夾雜著非人名，例如職官名詞、地名、史料寫作常用詞…

等，所以接著再採取兩階段過濾機制，第一階段是候選名詞與職官名稱在該職官資料庫所有句子當中的距離取平均，保留其與職官名稱之平均距離不超過設定門檻值的候選名詞，再將這些符合門檻值的候選名詞丟回到史料文本當中，進行第二階段的過濾機制，

其主要是考慮四項指標分別為平均任期、職官品位變化幅度、職官變化率和史料中與職官的平均距離，並且以合理性為出發點做為判斷人名之評估標準，最終再產生職官的職官年表資訊。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

而經由實驗結果所得知的，本研究自動產生之職官年表當中存在錯誤部分，我們進一步去觀察並分析了以下幾種原因，包括因史料中人名的誤繕、本身含有錯別字或是人名用字稱呼不一，而造成在計算後選名詞之支持度有所影響，並且也間接影響到候選名詞組合以及頻繁區間的判斷。另外針對任期準確率的部份，也會因為史料的寫作關係而造成影響，例如裁撤該職官時若沒有記載當時擔任的人名，則會在該人名任期的結束部份造成判斷錯誤，以及沒記載上任時間的情況亦然。由於史料文本的關係導致的影響，

是目前我們所無法克服的天然影響因素，在未來也許可以再針對這些地方提出改進的規則或機制。

我們提出基於歷史文本的特性，以資料探勘的方式識別擔任職官的官員人名，並且自動產生職官年表的資訊，同時充分的使用數位化的史料，使得數位化的史料內容除了提供搜尋或者全文檢索之外，也可以從中進行探勘與分析並且能夠自動產生職官年表。

目前我們僅針對清代的康熙時期，爾後希望能藉由此方法更進一步產生整個清朝時期的職官年表，甚至套用在其他同樣為編年體之史料產生更多朝代的職官年表，省去人工編輯過程中所耗費的龐大時間與心力，換句話說，取得更多對歷史學者研究有幫助的資訊，除了已經證實的史觀之外，或許也能夠找出隱含的資訊，讓史學研究者能夠透過更多資訊技術，提供成為協助他們研究過程中的輔助工具。

5.2 未來研究

關於未來研究的部份，除了針對史料中人名識別效果的改進之外，可以考慮利用已擷取出來的人名，結合其他史料中的資訊擷取，進行更多有意義的史料分析，例如透過人名以及該人名所擔任的職官名稱，進一步去觀察其中的變化，例如升遷或者貶官等資訊，找出歷史學者研究中較為感興趣的細節或者現象。

除此之外，其他考慮的議題像是針對史料文本裡職官名稱當中出現的地名，可以對

在文檔中由史料中探勘職官年表：以康熙時期為例 - 政大學術集成 (頁 71-0)

第四章 實驗評估與結果

4.3 實驗結果

4.3.2 造成誤差之因素

國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

第五章 結論與未來研究

‧ 國

立 政 治 大 學

‧

第四章實驗評估與結果

立政治大學

立政治大學

立政治大學

立政治大學

第五章結論與未來研究

立政治大學