• 沒有找到結果。

特徵模糊比對

第三章 研究方法

3.4 契書特徵比對方法

3.4.2 特徵模糊比對

因為古契書容易出現指涉相同的關係人或地名但寫法各異的情況,且立契時 間資訊完整程度不一,所以對於上一小節特徵條件中關係人、地名、時間的相等 與否都是使用模糊比對,以下將一一說明,另外對於特徵條件中檔案名稱的比對 也定義了何謂檔名接近與檔名相隔較遠。

人名模糊比對

給定人名 a 及人名 b,若滿足下列任一條件,則人名 a = 人名 b︰

(1) 完全相同

(2) 短的人名是長的人名的一部份,且長的人名只比短的人名多一個字 (3) 兩個人名只有一個字不同,且不同的字要在相同位置

例 1:人名 a = “阿龍”,人名 b = “李阿龍”,則滿足條件(2) ,因此人名 a = 人 名b。

例 2:人名 a = “楊鋒山”,人名 b = “楊峯山”,則滿足條件(3) ,因此人名 a = 人 名b。

例 3:人名 a =“黃來丁”,人名 b =“黃昌來”,則不滿足任一條件,因此人名 a ≠ 人名b。

地名模糊比對

給定地名 a 及地名 b,首先將地名字串去掉上層地名樣式如竹北一堡|竹北二堡

|石碇堡|文山堡|三貂堡|桃澗堡|鳳山縣|新竹縣|苗栗縣|彰化縣|……,再去掉地名階層 樣式[廳縣鎮市堡保庄莊社街里],所得到的字串至少兩個字相同且順序一致則視為 相等(即地名 a = 地名 b)。

例 1:若地名 a = “三乂港莊”,地名 b = “三叉港莊”,去掉上層地名及地名階 層後,地名a’ = “三乂港”,地名 b’ = “三叉港”,兩個字串有兩個字相同(“三”及“港”) 且順序一致(“港”在“三”之後),因此地名 a = 地名 b。

例 2:若地名 a = “新埔前田心庄車路下”,地名 b = “新路坑庄福德爺前”,去 掉上層地名及地名階層後,地名a’ = “新埔前田心車路下”,地名 b’ = “新路坑福德 爺前”,兩個字串雖有三個字相同(“新”、“前”、“路”)但順序不一致,因此地名 a ≠ 地 名b。

例 3:若地名 a = “竹北二堡楊梅壢庄”,地名 b = “竹北二堡大牛欄庄”,去掉 上層地名及地名階層後,地名a’ = “楊梅壢”,地名 b’ = “大牛欄”,兩個字串並沒有 相同的地方,因此地名a ≠ 地名 b。

時間模糊比對

立契時間會有不同的詳細程度,有些契書會有完整的年月日資訊,有些契書 只有記錄到月份或年份,甚至有些契書因為難以辨識而只有帝號(如同治、光緒) 的資訊,因此本研究將時間分成四個時間層級(timelevel),由粗略到詳細分別是「帝 號」(dynasty)、「年份」(year)、「月份」(month)、「日期」(day),它們都是立契時 間特徵的屬性,當兩件契書在做時間的比較,會取兩者當中較粗略的時間資訊來 做比較。

例如時間 a = “光緒十年三月”,時間層級為「月份」,時間 b = “光緒十年”,時 間層級為「年份」,則當我們在比較時間a 及時間 b 時,會取兩者間較粗略的時間 資訊也就是「年份」來比較,因此得到時間a = 時間 b。

相同文件集檔案名稱比對

我們在這裡定義了何謂“檔名接近”與“檔名相隔較遠”,“檔名接近”是用在上下 手契及原契與契尾的篩選條件中,“檔名相隔較遠”則是為了區隔出哪些是屬於人力 不易發現的契書關係。

契書在原始來源的順序,例如在一本書籍出現的順序,或者總督府抄錄的順 序,可能帶有上下手契或原契與契尾的資訊(例如當初整理時就把上下手契放在一 起),因此本研究也把契書的檔名接近,也就是在原始來源這兩件契書是有前後順 序關係的,做為其中一個特徵篩選條件。

由於各單位在數位化時對於契書的檔名有各自的規格,因此契書的檔名接近 有不同的比較方式。基本上是以「對於相同文件集的兩件契書的檔案名稱,以“_”

或“-”所區隔出的區塊中,從左到右找到第一個不相等的區塊,比較區塊內所包含 的數字若相差在2 以內則視為檔名接近」,因為通常相同文件集的檔案名稱,第一 個不相等的區塊就是書本的頁數或者在原始來源的流水號順序。

例如檔案名稱 a = “cca100003-od-376610000a_0517_01-0001-u.xml”及檔案名 稱b = “cca100003-od-376610000a_0518_01-0001-u.xml”,檔案名稱 a 以“_”或“-”所 區隔出的區塊從左到右依序是“cca100003”、“od”、“ 376610000a”、“0517”、“01”、

“0001”、“u.xml”,檔案名稱 b 以“_”或“-”所區隔出的區塊從左到右依序是

“cca100003”、“od”、“376610000a”、“ 0518”、“01”、“0001”、“u.xml”,可看出第 一個不相等的區塊是“0517”及“0518”,區塊內所包含的數字分別是 517 及 518,相 差為1,因此檔案名稱 a 和檔案名稱 b 是檔名接近的。

有些來源為書本的文件集,例如「大臺北古契字集」,其檔案名稱中的頁碼部 分會有起始頁跟中止頁,我們會只取出起始頁來比較,例如檔案名稱a =

“ntul-od-bk_isbn9789570131352_0037900379.txt”,檔案名稱 b =

“ntul-od-bk_isbn9789570131352_0038000380.txt”,第一個不相等的區塊是

“0037900379”及“0038000380”,取出起始頁的部份為 379 及 380,相差為 1,因此

檔案名稱a 和檔案名稱 b 是檔名接近的。

不過會有一些例外像是「國中圖 92」、「國中圖 93」裡的總督府抄錄契約文書 及「臺灣公私藏古文書」中第一個遇到不相等的數字部份可能是冊號,如果是冊 號不同就不算是檔名接近,例如在總督府抄錄契約文書中的檔案名稱a =

“cca100003-od-ta_05561_000272-0001-u.xml”,檔案名稱 b =

“cca100003-od-ta_05562_000272-0001-u.xml”,第一個不相同的區塊為“05561”及

“05562”,但這是屬於冊號的部份,因此檔案名稱 a 與檔案名稱 b 不是檔名接近。

相對於檔名接近是要不同的區塊數字差距在 2 以內,當數字差距在 20 以上則 視為檔名相隔較遠。而在臺灣總督府抄錄契約文書及「臺灣公私藏古文書」當中,

不同輯或不同冊就算是相隔較遠。

例如檔案名稱 a = “cca100003-od-ta_02028_010132-0001-u.xml”,檔案名稱 b =

“cca100003-od-ta_02028_010171-0001-u.xml”,第一個不相等的區塊是“010132”及

“010171”,區塊內所包含的數字分別是 10132 及 10171,相差為 29,因此檔案名稱 a 和檔案名稱 b 視為檔名相隔較遠。又例如「臺灣公私藏古文書」內的檔案名稱 a =

“FSN01-02-016.txt”,檔案名稱 b = “FSN01-03-067.txt”,第一個不相同的區塊為“02”

及“03”,這是屬於冊號的部份,因此檔案名稱 a 與檔案名稱 b 視為檔名相隔較遠。