第四章 實驗評估與結果
4.3 實驗結果
4.3.1 實驗參數
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
範例中準確率的部份為找出的 720 個月份當中,有多少為判斷正確的月份;而範例中召 回率的部份為該職官實際於歷史上總共出現 715 個月份中,有多少個月份是為判斷正確 者。本研究於實驗部分便藉由上述方法進行準確率以及召回率之評估。
4.3 實驗結果
4.3.1 實驗參數
關於實驗參數的部份,共有四個參數以及其預設值如下表 4.1 所示,α為探勘區間頻繁 項目集的最小支持度,預設為 60%;β為候選人名在實驗當中與職官名稱的平均距離,
預設為 6,代表距離超過 6 個字以上則視為該過濾掉的非人名;γ為填入任期時允許任 期重疊的月數,預設為 5,代表門檻值定為允許最多 5 個月的任期重疊;δ為候選人名 與多少其他候選人名有重疊,預設為 3,代表 僅保留和 3 個以內候選人名有任期重疊者。
由於本研究方法主要為進行探勘以及填入任期兩大部分,因此影響因素的參數為α和 γ,在實驗的部分將針對上述兩參數進一步分析與觀察,而參數β與δ是對於過濾非人 名以及候選人名的部分,在此便不針對此部分做實驗分析。
表 4.1:參數說明 參數名稱 數值 目的
α 60% 探勘時的最小支持度 β 6 與職官名稱的平均距離 γ 5 最多允許任期重疊的月數
δ 3 最多允許與多少候選人名任期重疊
最小支持度α的設定將影響探勘時的頻繁區間判斷,當α愈高則頻繁區間愈不容易
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
延續,代表頻繁項目集之頻繁區間判斷的愈嚴格,換句話說,候選人名之任期時間有可 能被切得更短。圖 4.2、圖 4.3 和圖 4.4 分別是針對探勘時的最小支持度α根據 30%、50%
與 70%三種值產生的實驗結果數據,其餘參數部份則保持表 4.1 中的預設值,以總督的 結果為例,觀察最小支持度值α變化帶來的影響。實驗結果得知最小支持度α為 30%時 的召回率為 0.56,準確率為 0.52;最小支持度α為 50%時的召回率為 0.69,準確率為 0.60;最小支持度α為 70%時的召回率為 0.62,準確率為 0.66。明顯可看出當最小支持 度α從 30%至 50%時,其召回率和準確率皆有所提升,而當最小支持度α從 50%升為 70%時,召回率下降了約 0.07 左右,準確率的部份則提升 0.06 左右。由此可知,將最 小支持度α設定較低時會使得頻繁區間判斷條件較為寬鬆,可能造成部份候選人名之任 期範圍隨之變大,導致填入任期時的重疊情況較嚴重,且隨著最小支持度α值的提升準 確率也跟著提升,因此相對較高的最小支持度可得到較佳的準確率。
其中,圖 4.4 最小支持度α為 70%時,山西總督的召回率和準確率皆變為 0,但α 為 30%和 50%時卻無此情形,主要原因為當α較小時,頻繁區間的判斷相較α高時寬 鬆,因此原先α為 30%和 50%時可以找出的人名白秉真,在α為 70%時則無法符合最小 支持度。而山西總督在整個史料中僅出現 5 句,能找出的正確人名只有白秉真,所以便 造成最小支持度α為 70%時,山西總督找不出任何正確的人名,使召回率和準確率皆變 為 0 的情況。另外,圖 4.2、圖 4.3 和圖 4.4 的雲南總督其召回率與準確率皆為 0,表示 不論範圍在職官的任期或者本方法所判斷出的任期之內,皆完全沒有判斷正確的月份。
針對此項結果,根據進一步的追蹤發現在史料文本《清聖祖實錄》當中,記載擔任雲南 總督為趙廷臣與鄂善兩人,而錢實甫的《清代職官年表》中是記載卞三元為雲南總督,
換句話說,我們所採用文本所記載的官員與《清代職官年表》一書所記載的答案有所差 異,因此在這樣的情況下,使得雲南總督的召回率與準確率皆為 0。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
0 0.2 0.4 0.6 0.8 1
Precision Recall
圖 4.2:α = 30%的實驗結果17
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Precision Recall
圖 4.3:α = 50%的實驗結果18
‧
‧
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Precision Recall
圖 4.7:γ = 7 的實驗結果22
圖 4.8:預設參數之實驗結果23
針對職官為總督、巡撫以及布政使的實驗結果,如圖 4.8 所示,這裡將一些因參數 的改變造成數據極端的變化,或採用之史料與標準答案記載相異而造成影響等因素之職 官排除在外,像是上述提及的山西總督或雲南總督等,以得到較平均的實驗結果。若將
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
上述職官不予考量,可得到總督之召回率與準確率分別為 0.7 和 0.72,巡撫之召回率與 準確率為 0.66 和 0.83,布政使之召回率與準確率為 0.23 和 0.43。
其中,關於布政使在實驗數據上相對較差之情況,我們進一步觀察瞭解到,除了職 官在史料當中出現次數的多寡會影響探勘之外,尚有另一影響探勘的重要因素,也就是 同一個人名在職官資料庫當中出現的頻繁程度,舉例來說,若職官在史料中出現次數相 當多,使得該職官資料庫的資料筆數較多,直覺上對於探勘是有利的條件,但是其中同 一個人名若不夠頻繁伴隨職官名稱,甚至在出現的每一筆資料當中所伴隨職官名稱的人 名皆不同,會造成無法探勘出頻繁伴隨著職官名稱的人名。
史料裡面某些職官在記載時,每位官員的名稱僅和該職官伴隨出現一次,換句話 說,藉由該職官所能瞭解的資訊除了每位官員的一筆記錄之外,沒有再額外記載每位官 員於任期內之各項事件,然而,布政使在史料當中的記載方式便屬於此種情形,同一個 人名伴隨職官出現的次數太過少次,即使各布政使於史料裡出現至少有 15 次以上,表 示職官資料庫至少有 15 筆以上的資料可以探勘,但同一個人名卻僅出現 1 至 2 次,較 難構成頻繁的條件而被探勘出來。此種情形除了布政使較為明顯之外,在總督和巡撫也 有部份職官有此情況,是影響召回率與準確率重要因素之一,此因素導致實驗部份結果 不彰,屬於史料文本本身記載上的局限。從圖 4.2 至圖 4.7 實驗結果當中,在職官名稱 於史料中出現次數較多,以及同一個人名常伴隨職官名稱一起出現之兩條件皆成立之 下,例如廣東廣西總督、四川陝西總督、直隸巡撫、山西巡撫、江蘇巡撫、安徽布政使…
等,可以得到 0.7 至 0.9 的召回率與準確率。