第四章 實驗評估與結果
4.3 實驗結果
4.3.2 造成誤差之因素
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
上述職官不予考量,可得到總督之召回率與準確率分別為 0.7 和 0.72,巡撫之召回率與 準確率為 0.66 和 0.83,布政使之召回率與準確率為 0.23 和 0.43。
其中,關於布政使在實驗數據上相對較差之情況,我們進一步觀察瞭解到,除了職 官在史料當中出現次數的多寡會影響探勘之外,尚有另一影響探勘的重要因素,也就是 同一個人名在職官資料庫當中出現的頻繁程度,舉例來說,若職官在史料中出現次數相 當多,使得該職官資料庫的資料筆數較多,直覺上對於探勘是有利的條件,但是其中同 一個人名若不夠頻繁伴隨職官名稱,甚至在出現的每一筆資料當中所伴隨職官名稱的人 名皆不同,會造成無法探勘出頻繁伴隨著職官名稱的人名。
史料裡面某些職官在記載時,每位官員的名稱僅和該職官伴隨出現一次,換句話 說,藉由該職官所能瞭解的資訊除了每位官員的一筆記錄之外,沒有再額外記載每位官 員於任期內之各項事件,然而,布政使在史料當中的記載方式便屬於此種情形,同一個 人名伴隨職官出現的次數太過少次,即使各布政使於史料裡出現至少有 15 次以上,表 示職官資料庫至少有 15 筆以上的資料可以探勘,但同一個人名卻僅出現 1 至 2 次,較 難構成頻繁的條件而被探勘出來。此種情形除了布政使較為明顯之外,在總督和巡撫也 有部份職官有此情況,是影響召回率與準確率重要因素之一,此因素導致實驗部份結果 不彰,屬於史料文本本身記載上的局限。從圖 4.2 至圖 4.7 實驗結果當中,在職官名稱 於史料中出現次數較多,以及同一個人名常伴隨職官名稱一起出現之兩條件皆成立之 下,例如廣東廣西總督、四川陝西總督、直隸巡撫、山西巡撫、江蘇巡撫、安徽布政使…
等,可以得到 0.7 至 0.9 的召回率與準確率。
4.3.2 造成誤差之因素
在處理史料的過程中發現之所以探勘出非人名,以及經由過濾與排名的機制之後,所自 動產生的職官年表準確率無法達到百分之百,事實上與史料文本也有關聯,我們分析結 果如以下所示:
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
1. 文本中的錯字影響探勘
史料文本裡面記載訛誤,使得產生的 bi-gram 不正確,連帶導致探勘時計算支持度 有所影響。以直隸巡撫的職官資料庫為例,如圖 4.9 所示。
其中因一筆資料中記載為“何”道總督,明顯為史料中的錯別字,導致 bi-gram 切 割出{何道,道總,總督},若無此錯誤,原本 bi-gram 處理時可略過職官名稱的部份。由於 文本錯字造成的情況,是我們無法避免的不可抗因素,對於探勘所造成的影響為多了不 相干的 bi-gram,可能導致各項目集在支持度計算上的錯誤,甚至間接使得頻繁區間判斷 錯誤也是有可能的。
2. 人名用字稱呼不一
常發生在滿族譯名的情況,舉例來說,費揚古在滿族俚語是"老生子"的意思,文獻 中提到也可譯成費揚武,所以在史料當中兩種稱呼皆有,造成會影響項目集在支持度計 算的部份,費揚武、費揚古以及費揚三者的支持度會以費揚最高,因此取封閉區間頻繁 項目集之後,三個候選人名皆會被探勘出來,實際上只需要取前兩者即可,但因為人名 用字稱呼不一而造成多餘的候選人名,以及在 3.4 節提到利用排名結果與子字串或者包 含自己的字串互相取代,會造成到最後只剩下費揚,費揚武和費揚古皆被視為人名銜接 非人名的情況而取代了。
除此之外,有時會以伯費揚武來稱呼,伯指爵位,為了表示尊敬,因此在名字前面 冠以伯字,所以因譯名或者其他尊稱而導致用字不一的情況,對於候選人名結果也會有 所影響。
命原任“何”道總督于成龍、以總督管直隸巡撫…
原任河道總督王新命、直隸巡撫李光地、來朝…
圖 4.9:文本中的錯字-以直隸巡撫為例24
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
3. 同一職官中姓名相似的官員
於同一個職官當中存在姓名相似的官員,例如福建總督之中先後有郎廷相與郎廷佐 擔任過,現階段在我們處理過程中,會產生郎廷佐、郎廷相和郎廷三個候選名詞,和 3.1.2 中提到之特例 2 是相似的情形,經由子字串取代的動作同樣只剩下郎廷一個候選名詞,
造成最後職官年表當中擔任職官的人名判斷有誤。
4. 任期時間無明確記載
經由實驗結果發現在職官年表任期時間的部份會有所誤差,除了跟探勘時頻繁區間 的判斷有關之外,另外很重要的一點是史料文本本身,其中並無記載該官員任職或者卸 任該職官的正確時間點,而造成所產生之職官年表在任期判斷上的誤差。
5. 同一個人名並無頻繁伴隨職官
在實驗的過程當中,觀察到召回率與準確率偏低的原因之一,除了該職官本身於史 料當中出現次數較少之外,另一方面是因為同一個人名在該職官資料庫當中,實際上沒 有頻繁地伴隨職官名稱一同出現,可能僅伴隨出現一至二次,根據頻繁程度進行探勘的 方式之下,這些人名因無法構成頻繁的情況下便難以確實被找出。
6. 各家史料記載有異
由於實驗的標準答案是採用錢實甫的《清代職官年表》一書,然而透過實驗結果再 返回觀察得知,曾發生我們所採用文本所記載的職官人員,與《清代職官年表》一書所 記載的答案有所差異,因此在這樣的情況下,也會造成在評估召回率與準確率的影響。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
第五章 結論與未來研究
5.1 結論
歷史研究導引相關的資訊技術創新,而資訊技術的創新輔助歷史研究,結合資訊科學與 歷史學的跨領域研究,最主要之目的在於協助歷史學者,而不是使資訊科學技術取代歷 史學者的工作,換句話說,也就是探討資訊科技能幫人文社會領域做些什麼樣的改進或 者成為有用的輔助工具。然而,資料探勘的精神便在於從數量龐大的資料當中,挖掘出 有意義而且不易被察覺的資訊與訊息,透過資訊科學的技術從歷史中進行探勘,希望能 幫助史學分析與觀察,成為歷史學者檢校、查考、補註或是訂正的輔助工具,能夠使他 們在龐大的歷史資料中獲得更多的幫助。
本研究在中研院已經建置漢籍電子文獻資料庫的前提之下,以觀察得知的史料寫作 特性為本研究的出發點,提出以此特性為基本精神並且利用 Twain 演算法進行與職官相 關之人名探勘,並且將探勘結果所取得之候選名詞,進行候選名詞的組合與配對,其中 組合出來的可能人名集合當中仍夾雜著非人名,例如職官名詞、地名、史料寫作常用詞…
等,所以接著再採取兩階段過濾機制,第一階段是候選名詞與職官名稱在該職官資料庫 所有句子當中的距離取平均,保留其與職官名稱之平均距離不超過設定門檻值的候選名 詞,再將這些符合門檻值的候選名詞丟回到史料文本當中,進行第二階段的過濾機制,
其主要是考慮四項指標分別為平均任期、職官品位變化幅度、職官變化率和史料中與職 官的平均距離,並且以合理性為出發點做為判斷人名之評估標準,最終再產生職官的職 官年表資訊。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
而經由實驗結果所得知的,本研究自動產生之職官年表當中存在錯誤部分,我們進 一步去觀察並分析了以下幾種原因,包括因史料中人名的誤繕、本身含有錯別字或是人 名用字稱呼不一,而造成在計算後選名詞之支持度有所影響,並且也間接影響到候選名 詞組合以及頻繁區間的判斷。另外針對任期準確率的部份,也會因為史料的寫作關係而 造成影響,例如裁撤該職官時若沒有記載當時擔任的人名,則會在該人名任期的結束部 份造成判斷錯誤,以及沒記載上任時間的情況亦然。由於史料文本的關係導致的影響,
是目前我們所無法克服的天然影響因素,在未來也許可以再針對這些地方提出改進的規 則或機制。
我們提出基於歷史文本的特性,以資料探勘的方式識別擔任職官的官員人名,並且 自動產生職官年表的資訊,同時充分的使用數位化的史料,使得數位化的史料內容除了 提供搜尋或者全文檢索之外,也可以從中進行探勘與分析並且能夠自動產生職官年表。
目前我們僅針對清代的康熙時期,爾後希望能藉由此方法更進一步產生整個清朝時期的 職官年表,甚至套用在其他同樣為編年體之史料產生更多朝代的職官年表,省去人工編 輯過程中所耗費的龐大時間與心力,換句話說,取得更多對歷史學者研究有幫助的資 訊,除了已經證實的史觀之外,或許也能夠找出隱含的資訊,讓史學研究者能夠透過更 多資訊技術,提供成為協助他們研究過程中的輔助工具。
5.2 未來研究
關於未來研究的部份,除了針對史料中人名識別效果的改進之外,可以考慮利用已 擷取出來的人名,結合其他史料中的資訊擷取,進行更多有意義的史料分析,例如透過 人名以及該人名所擔任的職官名稱,進一步去觀察其中的變化,例如升遷或者貶官等資 訊,找出歷史學者研究中較為感興趣的細節或者現象。
除此之外,其他考慮的議題像是針對史料文本裡職官名稱當中出現的地名,可以對