• 沒有找到結果。

第四章 實驗結果與討論

4.2 討論

4.2.1 正確率討論

從實驗結果可以看到,自動重建契書關係會有許多判斷錯誤的情況,還需要 再經過人工的檢查確認,我們分析之後歸納出三點造成契書關係判斷錯誤的主要 原因,分別是:(1)人工建立的詮釋資料或全文有錯誤、(2)特徵使用模糊比對及篩 選條件寬鬆、(3)連續三張以上的上下手契找到跨契的關係。

(1) 人工建立的詮釋資料或全文有錯誤

例如電腦找出一對上下手契關係為

(cca100003-od-ta_05581_000485-0001-u.xml,

cca100003-od-ta_05724_000095-0001-u.xml)

,實際看過全文發現其實這兩件契書是鬮 分契多份的關係,但因為契書cca100003-od-ta_05581_000485-0001-u.xml 的全文中 立契時間有錯誤而和契書cca100003-od-ta_05724_000095-0001-u.xml 不相同,無法 被判斷成鬮分契多份(鬮分契多份的其中一個特徵條件為立契時間須相同),而因為

關係人與地名的對應且有土地四至的相同被歸為上下手契關係。另外也發現像是 詮釋資料與全文立契時間不相符、詮釋資料關係人角色不完全或有錯誤、全文有 缺漏而無法擷取到正確的契書特徵等情況,都會造成找到錯誤的契書關係。不過 這些都可經由人工檢查契書關係之後發現並加以修正,改進資料的正確性。

(2) 特徵使用模糊比對及篩選條件寬鬆

由於契書中同樣的人名、地名會有不同的寫法,因此在重建方法中對於人名、

地名的比對是使用模糊比對,但也因此會找到很多錯誤的契書對,例如契書對

(cca100003-od-ta_05569_000115-0001-u.xml, cca100003-od-ta_05569_000131-0001-u.xml)

由 自動方法找到具有上下手契關係,檢查全文與詮釋資料後發現是因為契書

cca100003-od-ta_05569_000115-0001-u.xml 的買方為“陳金洪”,契書

cca100003-od-ta_05569_000131-0001-u.xml 的賣方為“陳金華”,符合人名的模糊比 對(只有一個字不同且在相同位置),但實際上並不是同一個人,且這兩件契書又剛 好符合來源人字串的篩選條件而被找到。

另外,目前的方法不管是上下手契、原契與契尾、契書內容相同的篩選條件,

都只須滿足其中一項特徵條件即可,這樣的限制是比較寬鬆的,例如契書對

(cca100003-od-ta_05568_000007-0001-u.xml, cca100003-od-ta_05568_000009-0001-u.xml)

滿 足檔名接近而找到上下手契關係但實際上並不是,契書

cca100003-od-ta_05568_000007-0001-u.xml 為兩個合股買地的人分管土地,

cca100003-od-ta_05568_000009-0001-u.xml 則為合股中的其中一人杜賣另一塊附近 的土地,因而對應到相同的關係人及地名。雖然篩選條件只須滿足一項會較寬鬆,

但若限制要滿足兩項、甚至三項的話會讓找到的契書關係變少很多。

不管是模糊比對或者篩選條件寬鬆,都是配合契書的特性,希望能找到較多 可能的契書關係,主要都是為了提高回收率而犧牲一些正確率。在模糊比對與特 徵條件的篩選方法上或許可以再作調整,或進一步分析在什麼情況下能以犧牲最

少的正確率換取可接受的回收率。

(3) 連續三張以上的上下手契找到跨契的關係

如圖 4.9 所示,契書 cca100003-od-ta_01516_000096-0001-u.xml 的內容是林元 朋賣地給鍾盛傳、鍾盛連、鍾盛來三人,總督府所給的地號為桃澗堡銅鑼圈庄九 六五之三、九七五之一,接著鍾盛傳、鍾盛連、鍾盛來三人在

cca100003-od-ta_01516_000097-0001-u.xml 及

cca100003-od-ta_01516_000098-0001-u.xml 這兩張鬮分契中將向林元朋買來的地鬮 分,在契書cca100003-od-ta_01516_000099-0001-u.xml 裡鍾盛連將鬮分而得的地歸 管給鍾盛傳,原本正確的上下手契關係應為契書對

(cca100003-od-ta_01516_000096-0001-u.xml, cca100003-od-ta_01516_000097-0001-u.xml)

(cca100003-od-ta_01516_000096-0001-u.xml, cca100003-od-ta_01516_000098-0001-u.xml)

(cca100003-od-ta_01516_000097-0001-u.xml, cca100003-od-ta_01516_000099-0001-u.xml)

(cca100003-od-ta_01516_000098-0001-u.xml, cca100003-od-ta_01516_000099-0001-u.xml)

但 由於契書對

(cca100003-od-ta_01516_000096-0001-u.xml,

cca100003-od-ta_01516_000099-0001-u.xml)

在關係人、地名、時間上也都會符合且地 號集合也會有交集,而也會被找出上下手契關係。

另一個例子如圖 4.10,潘烏目毛格在契書

ntul-od-bk_isbn9789860011760_0032200322.txt 將一塊地典給林逢春,接著在契書 ntul-od-bk_isbn9789860011760_0018600186.txt 裡將地再杜賣給林逢春,並在契書 ntul-od-bk_isbn9789860011760_0039200392.txt 向林逢春找洗,原本正確的上下手契 關係應為

(ntul-od-bk_isbn9789860011760_0032200322.txt,

ntul-od-bk_isbn9789860011760_0018600186.txt)

(ntul-od-bk_isbn9789860011760_0018600186.txt,

ntul-od-bk_isbn9789860011760_0039200392.txt)

,但契書對

ntul-od-bk_isbn9789860011760_0039200392.txt)

由於關係人、地名、時間都符合且四至 1760_0018600186.txt 潘烏目毛格賣地給林逢春 ntul-od-bk_isbn978986001

1760_0032200322.txt 潘烏目毛格典地給林逢春

ntul-od-bk_isbn978986001 1760_0039200392.txt 潘烏目毛格向林逢春找洗 cca100003-od-ta_01516_

000096-0001-u.xml 林元朋賣地給鍾盛傳、

000097-0001-u.xml 鍾盛傳、鍾盛連與鍾盛 來鬮分買到的地 桃澗堡銅鑼圈庄 九六五之三(盛來)

cca100003-od-ta_01516_

000098-0001-u.xml 鍾盛傳、鍾盛連與鍾盛 來鬮分買到的地 桃澗堡銅鑼圈庄 九七五之一(盛傳,盛連)

cca100003-od-ta_01516_

000099-0001-u.xml 鍾盛連將地歸管給鍾盛

桃澗堡銅鑼圈庄 九七五之一