第六章 明清臺灣行政檔案引用關係之建構
6.2 引用關係的建構
6.2.2 實驗與結果
我們將上述方法用在「明清臺灣行政檔案」文獻集共 37,817 件行政文書上,
希望能找出藏於這批史料之中的引用關係。以下詳細說明實驗進行的步驟、參 數的設定,以及得到的結果。
(一)實驗步驟
(1)建構「奏引諭」引用關係
我們取出「明清臺灣行政檔案」中分類為「奏事文書」的 18,620 件文書
(奏摺、附片、題本、揭帖、清單、疏這六個細類),對它們擷取 signatures,
擷取到12,011 組<d, signature>,接著將它們與 5,749 件諭旨文書進行 ED1 比對,
得到7,125 組<d, signature, candidate>(在原本 12,011 組<d, signature>中有 3,211 組得到符合的candidate);經過篩選得到 5,768 組<d, signature, candidate>,總計 最終得到 4,009 對相異的<d, candidate>(不計兩檔間符合的 signatures 數量),
也就是建構出了4,009 對「奏引諭」的引用關係(請參見圖 71)。
圖 71 「奏引諭」的實驗步驟與數據
(2)建構「諭引奏」引用關係
我們取出「明清臺灣行政檔案」分類為「諭旨文書」的共 5,749 件文書
(上諭、廷寄、敕諭這三個細類),分成兩種方法對它們擷取 signatures(請參 見圖 72):以單邊 anchors 的擷取方法共擷取到 11,154 組<d, signature>,以雙邊 anchors「.{0,8}奏」與「。」共擷取到 9,917 組<d, signature>。接著將單邊 anchors 擷取到的 11,154 組<d, signature>與 18,620 件奏事文書進行 ED1 比對,
得到4,184 組<d, signature, candidate>(在原本 4,346 組<d, signature>中有 2,335 組得到符合的 candidate);而以雙邊 anchors 擷取到的 9,917 組<d, signature>則 同樣與 18,620 件奏事文書進行 bigram-ratio 比對,我們將 bigram-ratio 高於 0.3 的組合都先保留下來,共有 173,530 組<d, signature, candidate>,留待篩選階段 調整出適當的門檻值t。ED1 比對得到 4,184 組<d, signature, candidate>再經過篩 選,留下1,270 組<d, signature, candidate>,也就是 1,016 對相異的<d, candidate>
(不計兩檔間符合的 signatures 數量);而 bigram-ratio 比對得到的 173,530 組
<d, signature, candidate>,經過篩選、搭配調整門檻值 t=0.6,最終得到 1,769 組
<d, signature, candidate>,也就是 1,701 對相異的<d, candidate>(不計兩檔間符 合的 signatures 數量)。將兩種方法得到的結果取聯集,總計得到 2,224 對的相 異的<d, candidate>(兩方法結果的交集為 493 對),也就是建構出了 2,224 對
「諭引奏」引用關係。
圖 72 「諭引奏」的實驗步驟與數據
(二)人工驗證結果
(1)「奏引諭」
表 21 的 A、B 兩欄就是圖 71 步驟建構的 4,009 對「奏引諭」引用關係經 人工檢驗的結果,有 3,559 對<d, candidate>經專家判斷為正確的引用關係,也 就是此實驗的precision 為 88.8%。在剩餘的 450 對中,d 與 candidate 兩檔完全 無關 (N) 的情況有 268 對,僅佔 450 的 60%,其他的情況還有:「不能確定是否 引用」(not sure) 有 89 對、「兩檔內容部分相同」(partial) 63 對、「引用方向相反」
(reverse) 14 對、「兩檔引用相同文書」(co-cite) 14 對、以及「兩檔內容相同」
(same) 2 對。
表 21 本方法建構之「奏引諭」引用關係的人工驗證結果 (A)
<d, candidate>
found
(B) A 之比例
(C) 放 寬 類 型 限 制
<d, candidate>
found
(D) C 之比例
(E) C - A
Total 4,009 6,490 +2,481 放寬,第一,是將擷取 signatures 的集合由原本的「奏事文書」18620 件放寬為
「非諭旨文書」—即全部文書 37,817 件扣除「諭旨文書」5,749 件後,所得到 precision 也從原本的 88.8%降低為 74.8%,從表中也可以看出,造成 precision 下降的主因,並非 N 的比例提高(僅提高 1.2%),而是增加了許多 same, partial, co-cite 的<d, candidate> pairs(三者比例合計超過 14%)。
史料 8 乾隆 34 年 2 月 16 日,咨呈
【封面】:咨呈。
兵部侍郎兼都察院右副都御史巡撫福建等處地方提督軍務革職留任鄂奏,為欽 奉上諭事。
乾隆參拾肆年正月貳拾參日,火票遞到兵部咨職方司案呈,乾隆參拾肆年正月 初柒日內閣奉上諭:「據鄂寧參奏,臺灣鎮總兵王巍,於賊匪黃教豎旗焚殺一 案,措置乖張,畏葸退縮,且心存諱飾,屢次捏報,僅將守備劉國樑揭參,希 圖卸罪,請旨拿解質審。」等語。王巍前已降旨革職,著即拿解來京,交軍機 大臣嚴審,定擬具奏。守備劉國樑等,有應行質訊之處,並著鄂寧遴委妥員,
一並押解來京,聽候審訊。欽此。相應知照該撫可也。等因。
又於正月貳拾玖日,准刑部咨同前因。到本部院。准此,除臺灣鎮參革總兵王 巍,差委文武員弁赴臺,守提到日另解外,所有參革臺灣城守營左軍守備劉國 樑,並把總董得龍,相應派委署晉江縣石獅縣丞甘運隆,並福州城守營左軍把 總林奇領解,前赴刑部衙門投收外,相應咨呈,為此,咨呈軍機處,察照施 行。須至咨呈者。
右咨呈軍機處
乾隆參拾肆年貳月十六日 欽奉上諭事
史料 9 乾隆 34 年 1 月 9 日,兵部移會上諭一道
【封面】:臺灣總兵王巍於賊匪黃教豎旗焚殺等由。
兵部為移會事,職方司案呈,內閣抄出奉漢字上諭一道,除行文各該處外,相 應抄單移會貴處,查照銷案可也。須至移會者。
計粘單壹紙 右移會稽察房
乾隆三十四年正月初九日
【附單】:乾隆三十四年正月初七日內閣抄出奉上諭:「據鄂寧奏,臺灣總兵王 anchors 擷取 signatures,再以 ED1 比對方法找出 candidates;第二類則以雙邊 anchors「.{0,8}奏 」 與 「 。 」 擷 取 signatures, 再 以 bigram-ratio 比 對 找 出 candidates。兩邊各自經過篩選,以下顯示兩邊進行人工驗證的結果,如表 22 所示。
第一類方法找到了1016 對<d, candidate>引用關係,其中有 919 對被專家判 定為正確,precision 為 90.5%;非「正確」(Y)的情況僅有 97 對,其中的 49 對 被專家判定為「兩檔完全無關」(N),而 paritial 跟 reverse 各有 16 及 15 對,還 有少量的co-cite 與 notsure,沒有「兩檔內容相同」(same)的情形。
第二類方法找到了 1701 對引用關係,比第一類方法多找了 67%,其中有 1294 對被專家判定為正確,比第一類方法被判定為正確的多了 40%,但 precision 僅 76%,並且非「正確」(Y)的情況集中在「兩檔完全無關」(N),有 335 對,而 paritial 跟 reverse 各有 16 及 15 對,還有少量的 co-cite 與 notsure, 檔引用相同文書」(co-cite) 11 對,兩者均沒有「兩檔內容相同」(same)的情形。
表 22 「諭引奏」兩種建構方法的人工驗證結果 Anchors 擷取 signature
+ED1 比對
「 奏…。」擷取 signatures +bigram-ratio 比對
<d, candidate> 比 例 <d, candidate> 比 例
<d, candidate>
found
(B) A 之比例
(C) 放 寬 類 型 限 制
<d, candidate>
found
引用關係從原本的1745 對增加到 1891 對,增加了 8%,而同時 precision 從原 本的78.5%降低為 75.5%,略降 3%,N 的情況僅略微上升 0.2%,顯示造成 precision 降低的主因是增加了 same 跟 partial 的<d, candidate> pairs。
(三)結果成效評估
(1) Precision 評估
對引用關係建構結果 precision 的評估,也就是評估此方法的有效性,是否 能在一群行政文書中,有效找出具引用關係的文書。
從人工驗證的結果來看,「奏引諭」放鬆類型限制之前的正確率是 88.8%,
N 的狀況是 6.7%,放鬆類型限制之後的正確率降到是 74.8%,N 的狀況則提高 到7.9%。人工驗證為 N 的情況主要是:signature 雖然並非普遍使用的語句,但 與引文相同的語句並不單只出現過一次,也曾在別的文書中出現過,因此即使 signature 具有足夠的鑑別力,但仍無法從含有 signature 的幾件文書中 identify 真正的引文出處。
另外一類常出現的錯誤是人員的任命、補授,例如:「...欽奉上諭:福建台 灣道員缺緊要,著該督、撫於通省道員內揀選一員調補,所遺員缺,著史譜補 授。欽此。...」,因為差異的人名較短,可能正好通過比對,因此 candidate 找到 的是補授相同官位、卻不同人的諭旨。
還有一類情況是發生在戰事進行間,皇帝對於類似的事情連續發出了好幾 件諭旨,因此諭旨中也提了前一件諭旨的部分內容,正好被擷取為signature。
反觀「諭引奏」中的錯誤,大多數是因為擷取的引文不夠長(「奏」開頭至
「一摺、一折、等語」結尾),又恰好當中含有常用詞彙,使得比對結果命中了 無關的檔案。例如:「臺灣軍務情形」、「剿辦臺北內山番社情形」、「南路剿番攻 克各社情形」、「查明臺灣出力員弁義勇請旨加恩」。
(2)Recall 的評估
對於引用關係建構結果 recall 的評估,也就是此方法的回收率,可能遺漏
了哪類型的引用關係、未能找出。
在此方法中,遺漏可能發生在:擷取 signature 的步驟、比對的步驟、或是 篩選的步驟。
在擷取 signature 的步驟中,遺漏的狀況可能是引文未能被我們蒐集的 anchors 所涵蓋,這種情況可以繼續觀察引文的前後文、增加更多有效 anchors 來提升 recall;又或者引文已被我們蒐集的 anchors 定位到,但因擷取到的 signature 短於我們所定義的最短長度(6 與 8 個字)因而被丟棄,不繼續比對。
在比對的步驟中,我們採取了兩種比對方法:ED1 與 bigram-ratio,遺漏的 狀況常肇因於ED1 太過嚴謹,只允許與 signature 間有一字以內的差異,雖然這 提昇結果的 precision,但也因此跳過了一些真正的引文出處文書。我們建議 ED1 的方法應要放寬,允許與 signature 間有稍大一些的差異,或許使用 bigram-ratio 比對法,調整門檻值 t 為較高的 0.8,再於篩選階段將錯誤者排除。
另,也可以藉由調整擷取 signature 方法中的 offset,重複擷取同一文書中不同 位置的signatures 進行比對,如此應能再減少一些遺漏。
除了此方法可能發生的遺漏之外,遺漏也有可能是因為「明清臺灣行政檔 案」文獻集中並未收錄到引文出處的文書所致。