• 沒有找到結果。

全文特徵擷取與處理

第三章 研究方法

3.2 全文特徵擷取與處理

我們在上一節中已從詮釋資料得到契書的檔案名稱、文件集、契書標題、契 書分類、關係人、地名、立契時間這些基本的契書特徵,接下來這一節我們再利

兩方角色

單一角色

用契書數位化的全文來擷取其他可以輔助比對的契書特徵,並與詮釋資料一樣存 成xml 檔案格式。這些特徵包括(括弧內為對應的 xml 欄位名稱):來源人字串 (Srcword)、契書編號(Deednum)、價錢(Price)、租谷(Rice)、土地四至(Edge_E、

Edge_W、Edge_S、Edge_N)、土地面積(Size)、地號(Placenum)、來源時間(Srctime)。

另外由於原先詮釋資料裡有許多契書沒有地名資訊,所以我們也從全文中擷取地 名來作為補充,以下對每種契書特徵的擷取方式分別做說明:

來源人字串

有些契書中會提及上手契來源人的姓氏或姓名,例如“明買得賴士創山田物 業”、“買過蔡家田園”、“併繳承買劉家契字”,本研究抓出這些可能出現上手契來 源人的字串,以作為檢查上下手契關係時的依據。

樣式:[買置承典向賣](.{8})以及(.{8})契

我們在全文中抓取出現在“買”、“置”、“承”等字後面的字串八個字以及“契”字 前面的字串八個字,並將所有抓到的字串以“;”連結成一個來源人字串。可以看到 來源人字串的樣式其實非常寬鬆,很容易抓到雜訊,但只要其中含有來源人即可,

抓到的雜訊並不影響比對。

契書編號

在官府發給的文書像是契尾或丈單中會有這份文書的編號,例如“宜字第柒拾 號”、“布字第一萬六千九百六十三號”,這些編號也可能會在原來文書的下手契中 提到,並可能提到一個或多個。

樣式:字第([$numchars]+)號

其中$numchars 代表所有數字的字元,樣式為“○Oo01234567890123456 789O零元ㄧ一壹壱弌二貳弍貮三參参叁叄弎四肆五伍六陸七柒八捌九玖十拾 廿廾卅百佰千仟萬万”,以下論文中提到的$numchars 都是指同樣的樣式。抓到契 書編號字串後再將字串轉成數字以方便比對,例如將“柒拾”轉成 70。

價錢

契書中提及所交易土地的價錢或者所繳納的錢糧銀等有關價錢的資訊,可能 提到一個或多個。

樣式:[銀金價額費]([兩錢分厘毫絲忽微大元員圓円角半辦瓣尖周末皮

$numchars]+)

抓到每個價錢字串後將價錢轉成數字,如果價錢字串使用兩、錢、分、厘等 為單位,則一兩為1、一錢為 0.1、一分為 0.01、一厘為 0.001、ㄧ毫為 0.0001、一 絲為0.00001、一忽為 0.000001、一微為 0.0000001,例如“陸兩貳錢壹分”可轉換為 6.21。如果價錢字串使用元、角、半、尖等為單位,則一元為 1、一角為 0.1、一 半為0.01、一尖為 0.001、ㄧ周為 0.0001、一末 0.00001、一皮 0.000001,例如“叁 元壹角貳瓣五尖”可轉換為 3.125,若為其他的換算方式則以單位中最大的為準,

例如“參圓貳錢五厘”跟前面兩種換算方式皆不相同,則以單位中最大的“圓”(即

“元”)為準,當作元、角、半、尖的換算方式轉換為 3。

租谷

契書中提及所交易土地須繳納給業主的租谷,可能提到一個或多個。

樣式:[納粟谷穀榖租供共栳]([石碩斗升合勺$numchars]+)

抓到租谷字串後一樣將字串轉成數字以方便比對,以一石為 1、一斗為 0.1、

一升為0.01、一合為 0.001、一勺為 0.0001,例如“壹石貳斗叁升”可轉換為 1.23。

土地四至

在契書中提到所交易土地的東至、西至、南至、北至四至界址,可能提到一 個或多個,另外因為每張契書對於相同四至可能會有不同寫法,比對完整的字串 容易出現四至相同卻比對不到的情況,我們對於四至都只取出前兩個字作比對。

樣式:東至(.{2})以及西至(.{2})以及南至(.{2})以及北至(.{2})

土地面積

契書中提及所交易土地的面積,可能提到一個或多個。

樣式:(丈明|丈名|計|丈|共|段|荒地|敷地|犁份|受種子|受種|面積|甲聲|甲數|原野|

山林|池沼|畑|烟|[^每][田園]|埔|坵|([上中下]則))(([$numchars]*[甲分厘釐毫毛絲糸系 忽微])+)

抓到土地面積字串後將字串轉成數字以方便比對,以一甲為 1、一分為 0.1、

一厘為0.01、一毫為 0.001、一絲為 0.0001、一忽為 0.00001、一微為 0.000001,

例如“玖分肆厘玖毫貳絲”可轉換為 0.9492。

地號

臺灣在日本統治時期,為了管理土地方便,會為土地調查時的每筆土地編上 號碼稱為地號,此地號可視為土地的一個識別號,總督府在抄錄契書時也會將契 書所屬土地的地號寫在契書上[17],可能提到一個或多個。

樣式:[$numchars]+番[地田畑]?([之|│∣︱︳ノ丿-

─—\-–—][$numchars]{1,2})?以及[$numchars]+[之|│∣︱︳ノ丿-

─—\-–—][$numchars]{1,2}

抓到地號字串後將字串中的中文數字統一例如“貳”及“弍”全部換成“二”。

來源時間

在契書中賣方提及上手契的立契時間,可能提到一個或多個。

樣式:(康熙|雍正|乾隆|嘉慶|道光|咸豐|同治|光緒|明治|大正)[$numchars]+年 抓到時間字串後將抓到的字串轉換成西元的年份,例如“光緒十三年”轉成 1887,且只留下早於契書立契時間的時間字串作為來源時間。

在刪除日文、無全文及分類不符後得到的 19374 件契書中,各有多少契書擷

取到以上8 種契書特徵見表 3.16。

表 3.16:各特徵的契書件數

契書特徵 有擷取到此特徵的契書件數 來源人字串 18512

契書編號 580

價錢 14451

租谷 6264

土地四至 13704 土地面積 4807

地號 11402

來源時間 2339

以下就上述 8 種特徵的擷取舉例說明,如圖 3.6 為一張丈單,為光緒年間劉銘 傳治理臺灣的時候,清丈土地確認賦稅所發給業主的憑據。從此張丈單中可擷取 到契書編號為“字第貳拾壹號”轉成 21 及“字第柒拾號”轉成 70。

其他契書特徵擷取見圖 3.7 的契書,可抓取到來源人字串為“水田山園茶欉果 子;先祖父遺下應得于;過何景奇等山業厝;先問房親人等不欲;受外托中引就與李;買 同堂議定時值盡;價銀捌百貳拾大員;主前去掌管收租納;終休寸土無留來及;先祖父 自置遺下應;掛他人財物與及來;主之事此乃明買明;二比甘愿並非迫勒;買印契連司 單壹紙;茶欉果子竹木屋宇;因乏銀別用愿將此”、價錢為錢糧銀“參圓貳錢五厘”轉成 3 以及杜賣價“捌百貳拾大員”轉成 820、租谷為“肆斗捌升參合”轉成 0.483、東至為

“聖人”、西至為“崙脊”、北至為“余家”、土地面積為“玖分肆厘玖毫貳絲”轉成 0.9492、地號為“四六O之一”、來源時間為“同治八年”轉成西元年 1869。其中可以 看到前面提到來源人字串由於樣式寬鬆會抓到許多雜訊,但只要裡面確實含有來 源人即可。擷取出這些契書特徵後,將這些特徵資訊存成xml 檔案格式如圖 3.8。

圖 3.6:全文中契書編號的擷取範例

3.7:全文中其他特徵擷取範例

cca100003-od-ta_01831_000203-0001-u.xml 員山堡三鬮庄土名四湖一之一

丈單

臺灣布政使司為摯給丈單事,照得全臺田園奉爵撫部院劉奏明清丈陞,今宜蘭縣丈報大字第貳拾壹號業、

田、番田主曾滿即紅日、火松、溪獅,坐落員山里堡大三鬮庄,中則田貳甲柒分伍厘壹毫柒絲陸忽,至並 賦則,由縣編造圖冊外,合行摯給丈單,永遠管業。嗣後倘有典賣,應將丈單隨契,流交推收過割須單。

右給宜蘭縣田主曾滿即紅日、火松、溪獅收執 東至溝

西至三十號楊士芳 南至路三鬮二圳 北至路

光緒拾肆年正月 七日給 臺灣布政使司 宜字第柒拾號

cca100003-od-ta_05716_000115-0001-u.xml 芝蘭一堡 雙溪庄 土名內雙溪 四六0|一

立盡根杜賣水田山園茶欉果子竹木屋宇契人何長來有承先祖父遺下應得于同治八年間用先祖何色名號明買 過何景奇等山業厝壹所後用工本開築成田坵數不計址在芝蘭一堡土名雙溪內鵝尾山庄東至聖人亭埒崁為界 西至崙脊與林家徐家山毗連為界南上至施家下至林家山毗連為界北至余家山毗連為界四至界址明白原帶溪 泉圳水通流到田灌溉充足前經憲丈下則田玖分肆厘玖毫貳絲年配納錢糧銀參圓貳錢五厘又年應納何業主六 成大租谷肆斗捌升參合正歷管無異今因乏銀別用愿將此契業盡行出賣先問房親人等不欲承受外托中引就與 李崑岡出首承買同堂議定時值盡根杜賣價銀捌百貳拾大員正即日仝中如數交來親收足訖隨即仝中踏明界址 并帶等項一概交付買主前去掌管收租納課永為己業自此一賣終休寸土無留來及日後子孫永不敢言及找贖諸 事保此水田山園茶欉果子竹木屋宇等項係來承先祖父自置遺下應得之業與別房親疏人等無干亦無重張典掛 他人財物與及來歷交加不明為礙如有此情來應出首一力抵當不干買主之事此乃明買明賣二比甘愿並非迫勒 各毋反悔今欲

有憑立盡根杜賣水田山園茶欉果子竹木屋宇契壹紙并繳承買印契連司單壹紙丈單壹紙合共參紙付執為照 即日仝中來親收過盡根杜賣水田山園茶欉果子竹木屋宇契內佛銀捌佰貳拾大員正完足再照

業主 印 代筆人楊錫侯 印 為中人何炳奎 印 場見人堂伯 天生 印

明治三十一年一月三日立盡根杜賣水田山園茶欉果子竹木屋宇契人何長來

圖 3.8:全文特徵擷取結果範例

地名特徵擷取

除了使用詮釋資料已有的地名之外,本研究也嘗試從全文中抓取契書地名資 訊,分成三種方法:

(1) 前後文

在張尚斌的論文中提到利用詞夾子來抓取人名、地名的方法[18],本研究同樣 利用詮釋資料的原有地名在全文中抓取出前後文(即詞夾子)如土名……東至、址 在……東至、坐落……其田等,並使用出現次數在兩次以上的前後文在全文中抓 取地名。

(2) 契書所登記的地名

在總督府抄錄契約文書中的契書,有一部份會在契書的開頭註明堡名、土名 及地號[17],於是我們抓取契書開頭的堡名及土名為契書的地名資訊。

(3) 地名列表

將上述方法(1)(2)抓到的地名,加上詮釋資料的地名,合成一份地名列表,對 於剩下沒有抓到地名的契書,在全文中檢查是否有出現地名列表中的地名,若有 則擷取出當作契書的地名資訊。

<document>

<Filename>cca100003-od-ta_05716_000115-0001-u.xml</Filename>

<Srcword>水田山園茶欉果子;先祖父遺下應得于;過何景奇等山業厝;先問房親人等不欲;受外托中引就與 李;買同堂議定時值盡;價銀捌百貳拾大員;主前去掌管收租納;終休寸土無留來及;先祖父自置遺下應;掛他人 財物與及來;主之事此乃明買明;二比甘愿並非迫勒;買印契連司單壹紙;茶欉果子竹木屋宇;因乏銀別用愿將此

<Srcword>水田山園茶欉果子;先祖父遺下應得于;過何景奇等山業厝;先問房親人等不欲;受外托中引就與 李;買同堂議定時值盡;價銀捌百貳拾大員;主前去掌管收租納;終休寸土無留來及;先祖父自置遺下應;掛他人 財物與及來;主之事此乃明買明;二比甘愿並非迫勒;買印契連司單壹紙;茶欉果子竹木屋宇;因乏銀別用愿將此