第三章 研究方法
3.3 契書特徵總結
綜合上述對詮釋資料及全文擷取出的資訊,最後我們所使用的契書特徵有:
檔案名稱(Filename)、文件集(Compilation)、契書分類(Title_class)、契書角色類型 (Transtype)、賣方集合(FromPerson)、買方集合(ToPerson)、地名(Place)、立契時間 (Time)、來源人字串(Srcword) 、契書編號集合(Deednum)、價錢集合(Price)、租谷 集合(Rice)、東至集合(Edge_E)、西至集合(Edge_W)、南至集合(Edge_S)、北至集 合(Edge_N)、土地面積集合(Size)、地號集合(Placenum)、立契時間集合(Srctime)
刪除無人名地 名契書 特徵擷取
刪除分類不符 的契書
契書分類與關 係人角色修正 契書分類與關
係人角色對應 刪除日文及無
全文契書 欄位擷取
原始詮釋資料 xml 檔案
資料庫全文
共19 個特徵,並將詮釋資料與全文特徵擷取的結果合成一個 xml 檔案,xml 範例 見圖3.10,在 xml 中集合的各元素皆以“;”隔開。
有些特徵只有單一的值如檔案名稱、文件集,有些特徵是含有一個以上的值 的集合,如土地面積、地號,為了易於區分說明,以下論文中在允許多個值的特 徵中文名稱後加上“集合”兩字,未加“集合”兩字則表示是單一的值。另外有些特徵 必須有值,有些特徵則不一定,有些特徵為數字,有些特徵為字串,關於各特徵 的性質整理如表3.17,其中特徵來源 M 代表詮釋資料,T 代表全文,MT 代表結 合兩個來源的資訊。
表 3.17:契書特徵性質說明
特徵中文名稱 xml 欄位 特徵 來源
說明
檔案名稱 Filename M 單一字串,不允許空值(即空字串“”) 文件集 Compilation M 單一字串,不允許空值
分類 Title_class MT 單一字串,不允許空值
契書角色類型 Transtype M 單一字串,不允許空值,且只有“兩方角色”
及“單一角色”兩種值
賣方集合 FromPerson M 字串集合,與買方集合至少其中之一不為 空集合
買方集合 ToPerson M 字串集合,與賣方集合至少其中之一不為 空集合
地名 Place MT 單一字串,不允許空值
立契時間 Time M 單一字串,允許空值,含有五個屬性:
timelevel、day、month、year、dynasty 來源人字串 Srcword T 單一字串,允許空值
契書編號集合 Deednum T 數字集合,允許空集合
價錢集合 Price T 數字集合,允許空集合 租谷集合 Rice T 數字集合,允許空集合 東至集合 Edge_E T 字串集合,允許空集合 西至集合 Edge_W T 字串集合,允許空集合 南至集合 Edge_S T 字串集合,允許空集合 北至集合 Edge_N T 字串集合,允許空集合 土地面積集合 Size T 數字集合,允許空集合 地號集合 Placenum T 字串集合,允許空集合 來源時間集合 Srctime T 數字集合,允許空集合
圖 3.10:契書詮釋資料及全文特徵擷取結果合併範例
<document>
<Filename>cca100003-od-ta_05716_000115-0001-u.xml</Filename>
<Compilation>臺灣總督府檔案抄錄契約文書‧15 年保存公文類纂(國中圖 92)</Compilation>
<Transtype>兩方角色</Transtype>
<Title_class>杜賣契</Title_class>
<FromPerson>何長來</FromPerson>
<ToPerson>李崑岡</ToPerson>
<Place>雙溪內鵝尾山</Place>
<Time day="18980101" month="189801" year="1898" dynasty="1868" timelevel="year">明治三十一年</Time>
<Srcword>水田山園茶欉果子;先祖父遺下應得于;過何景奇等山業厝;先問房親人等不欲;受外托中引就與李;
買同堂議定時值盡;價銀捌百貳拾大員;主前去掌管收租納;終休寸土無留來及;先祖父自置遺下應;掛他人財物與及 來;主之事此乃明買明;二比甘愿並非迫勒;買印契連司單壹紙;茶欉果子竹木屋宇;因乏銀別用愿將此</Srcword>
<Deednum></Deednum>
<Price>3;820</Price>
<Rice>0.483</Rice>
<Edge_E>聖人</Edge_E>
<Edge_W>崙脊</Edge_W>
<Edge_S></Edge_S>
<Edge_N>余家</Edge_N>
<Size>0.9492</Size>
<Placenum>四六O之一</Placenum>
<Srctime>1869</Srctime>
</document>
以下論文以 A、B、C、……來代表不同的契書,並以特徵中文名稱契書來表示