實驗參數 - 實驗結果 - 實驗評估與結果 - 由史料中探勘職官年表：以康熙時期為例

第四章實驗評估與結果

4.3 實驗結果

4.3.1 實驗參數

國

立政治大學

‧

Na tiona

l Ch engchi University

範例中準確率的部份為找出的 720 個月份當中，有多少為判斷正確的月份；而範例中召回率的部份為該職官實際於歷史上總共出現 715 個月份中，有多少個月份是為判斷正確者。本研究於實驗部分便藉由上述方法進行準確率以及召回率之評估。

4.3 實驗結果

4.3.1 實驗參數

關於實驗參數的部份，共有四個參數以及其預設值如下表 4.1 所示，α為探勘區間頻繁項目集的最小支持度，預設為 60%；β為候選人名在實驗當中與職官名稱的平均距離，

預設為 6，代表距離超過 6 個字以上則視為該過濾掉的非人名；γ為填入任期時允許任期重疊的月數，預設為 5，代表門檻值定為允許最多 5 個月的任期重疊；δ為候選人名與多少其他候選人名有重疊，預設為 3，代表僅保留和 3 個以內候選人名有任期重疊者。

由於本研究方法主要為進行探勘以及填入任期兩大部分，因此影響因素的參數為α和 γ，在實驗的部分將針對上述兩參數進一步分析與觀察，而參數β與δ是對於過濾非人名以及候選人名的部分，在此便不針對此部分做實驗分析。

表 4.1：參數說明參數名稱數值目的

α 60% 探勘時的最小支持度 β 6 與職官名稱的平均距離 γ 5 最多允許任期重疊的月數

δ 3 最多允許與多少候選人名任期重疊

最小支持度α的設定將影響探勘時的頻繁區間判斷，當α愈高則頻繁區間愈不容易

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

延續，代表頻繁項目集之頻繁區間判斷的愈嚴格，換句話說，候選人名之任期時間有可能被切得更短。圖 4.2、圖 4.3 和圖 4.4 分別是針對探勘時的最小支持度α根據 30%、50%

與 70%三種值產生的實驗結果數據，其餘參數部份則保持表 4.1 中的預設值，以總督的結果為例，觀察最小支持度值α變化帶來的影響。實驗結果得知最小支持度α為 30%時的召回率為 0.56，準確率為 0.52；最小支持度α為 50%時的召回率為 0.69，準確率為 0.60；最小支持度α為 70%時的召回率為 0.62，準確率為 0.66。明顯可看出當最小支持度α從 30%至 50%時，其召回率和準確率皆有所提升，而當最小支持度α從 50%升為 70%時，召回率下降了約 0.07 左右，準確率的部份則提升 0.06 左右。由此可知，將最小支持度α設定較低時會使得頻繁區間判斷條件較為寬鬆，可能造成部份候選人名之任期範圍隨之變大，導致填入任期時的重疊情況較嚴重，且隨著最小支持度α值的提升準確率也跟著提升，因此相對較高的最小支持度可得到較佳的準確率。

其中，圖 4.4 最小支持度α為 70%時，山西總督的召回率和準確率皆變為 0，但α 為 30%和 50%時卻無此情形，主要原因為當α較小時，頻繁區間的判斷相較α高時寬鬆，因此原先α為 30%和 50%時可以找出的人名白秉真，在α為 70%時則無法符合最小支持度。而山西總督在整個史料中僅出現 5 句，能找出的正確人名只有白秉真，所以便造成最小支持度α為 70%時，山西總督找不出任何正確的人名，使召回率和準確率皆變為 0 的情況。另外，圖 4.2、圖 4.3 和圖 4.4 的雲南總督其召回率與準確率皆為 0，表示不論範圍在職官的任期或者本方法所判斷出的任期之內，皆完全沒有判斷正確的月份。

針對此項結果，根據進一步的追蹤發現在史料文本《清聖祖實錄》當中，記載擔任雲南總督為趙廷臣與鄂善兩人，而錢實甫的《清代職官年表》中是記載卞三元為雲南總督，

換句話說，我們所採用文本所記載的官員與《清代職官年表》一書所記載的答案有所差異，因此在這樣的情況下，使得雲南總督的召回率與準確率皆為 0。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

0 0.2 0.4 0.6 0.8 1

Precision Recall

圖 4.2：α = 30%的實驗結果17

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Precision Recall

圖 4.3：α = 50%的實驗結果18

‧

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Precision Recall

圖 4.7：γ = 7 的實驗結果22

圖 4.8：預設參數之實驗結果23

針對職官為總督、巡撫以及布政使的實驗結果，如圖 4.8 所示，這裡將一些因參數的改變造成數據極端的變化，或採用之史料與標準答案記載相異而造成影響等因素之職官排除在外，像是上述提及的山西總督或雲南總督等，以得到較平均的實驗結果。若將

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

上述職官不予考量，可得到總督之召回率與準確率分別為 0.7 和 0.72，巡撫之召回率與準確率為 0.66 和 0.83，布政使之召回率與準確率為 0.23 和 0.43。

其中，關於布政使在實驗數據上相對較差之情況，我們進一步觀察瞭解到，除了職官在史料當中出現次數的多寡會影響探勘之外，尚有另一影響探勘的重要因素，也就是同一個人名在職官資料庫當中出現的頻繁程度，舉例來說，若職官在史料中出現次數相當多，使得該職官資料庫的資料筆數較多，直覺上對於探勘是有利的條件，但是其中同一個人名若不夠頻繁伴隨職官名稱，甚至在出現的每一筆資料當中所伴隨職官名稱的人名皆不同，會造成無法探勘出頻繁伴隨著職官名稱的人名。

史料裡面某些職官在記載時，每位官員的名稱僅和該職官伴隨出現一次，換句話說，藉由該職官所能瞭解的資訊除了每位官員的一筆記錄之外，沒有再額外記載每位官員於任期內之各項事件，然而，布政使在史料當中的記載方式便屬於此種情形，同一個人名伴隨職官出現的次數太過少次，即使各布政使於史料裡出現至少有 15 次以上，表示職官資料庫至少有 15 筆以上的資料可以探勘，但同一個人名卻僅出現 1 至 2 次，較難構成頻繁的條件而被探勘出來。此種情形除了布政使較為明顯之外，在總督和巡撫也有部份職官有此情況，是影響召回率與準確率重要因素之一，此因素導致實驗部份結果不彰，屬於史料文本本身記載上的局限。從圖 4.2 至圖 4.7 實驗結果當中，在職官名稱於史料中出現次數較多，以及同一個人名常伴隨職官名稱一起出現之兩條件皆成立之下，例如廣東廣西總督、四川陝西總督、直隸巡撫、山西巡撫、江蘇巡撫、安徽布政使…

等，可以得到 0.7 至 0.9 的召回率與準確率。

在文檔中由史料中探勘職官年表：以康熙時期為例 - 政大學術集成 (頁 65-71)

實驗參數

第四章 實驗評估與結果

4.3 實驗結果

4.3.1 實驗參數

國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

第四章實驗評估與結果

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學