• 沒有找到結果。

日治法院檔案系統及其後分類呈現

N/A
N/A
Protected

Academic year: 2022

Share "日治法院檔案系統及其後分類呈現"

Copied!
74
0
0

加載中.... (立即查看全文)

全文

(1)

國立臺灣大學電機資訊學院資訊網路與多媒體研究所 碩士論文

Graduate Institute of Networking and Multimedia College of Electrical Engineering and Computer Science

National Taiwan University Master Thesis

日治法院檔案系統及其後分類呈現

On the Design and Implementation of a Faceted Retrieval System for the Taiwan Judicial Court Archives

from 1895 to1945

蕭屹灵 Hsiao I-Ling

指導教授:項潔 博士 Advisor: Jieh Hsiang , Ph.D.

中華民國 97 年 6 月

June, 2008

(2)

誌謝

研究所放榜的那個早晨,我仍依稀記得外頭下著綿綿細雨,轉眼間一千多個 日子飛逝,在整個研究所的生涯中受到了老師、學長姐、同學、學弟妹許許多多 的照顧,無論是在課業上、生活上,感謝你們的支持這本論文才得以順利完成。

首先感謝法律學院王泰升教授,在『日治法院檔案』建置過程中的指導,並 引領著我們向前邁進。感謝法律系阿亮學長期的照顧,並為我解答資料的疑惑。

特別感謝台大圖書館特藏組的嘉文學姐與邱主任,在整個日治法院檔案的製作過 程中,你們是背後最大的推手,從檔案的檢查、整理、與法學院的溝通等等大小 事情一手包辦,讓我能心無旁鶩的專注於系統的建置,沒有你們就不會有今天的 成果。

感謝項老師的教誨,在老師的帶領下我體會到作學問的真諦,學會如何認清 問題的本質,並教導我們正確的觀念,再感謝老師於整個論文過程中給予我的指 導與支持,讓我能順利的完成學業。感謝詩沛學姐與浩洋學長在我求學期間不斷 的鼓勵與指點,無論我做的如何,學姐與學長從不責備並提點我該如何做的更 好,給我許多信心與勇氣。感謝杜老大認真開導,無論對於我的論文、課業或系 統都提供我許多建議,帶領我們正確的思考並改正我們走偏的方向,令我得到莫 大的幫助。感謝筱盈學姐的細心與孜孜不倦的提醒,幫助我找到盲點讓我能順 利的通過考驗。

感謝元哥、代昕學長與已畢業的萬慶、開昱、尚斌、宗和、榮佐學長們,你 們的熱情相待,讓我很快的融入了新的環境,迎接新的挑戰。感謝同屆的國延、

鈞韜、永倫、譽仁,研究所的路上有你們的陪伴,我才得以不會感到孤單。感謝 家慶、承恩、思靜不嫌棄我這散漫的學長,受到學弟妹們的照顧令我十分慚愧並 萬分幸運與感恩。感謝于鳴、小玉、嘉翔、儁凡對實驗室的付出,未來實驗室就 拜託你們了。最後感謝父母無條件的支持讓我毫無後顧之憂,我的朋友們時常陪 伴情義相挺,再多的言語都不足以形容對大家的感謝,僅將這篇論文獻給大家。

(3)

中文摘要

『日治法院檔案』為台灣高等法院與王泰升教授於西元 2000 年所發現整理並 數位化之台灣日治時期司法相關文件的總集,自台北、新竹、台中、嘉義四個地 方法院以及司訓所藏台中法院檔案,共 5640 冊。其內容包含民事與刑事案件判 決檔案、公正證書、各類行政文書、工商名冊登記簿等法律相關文件,尤其以記 錄詳細司法案件審理內容之民事、刑事判決原本與公正證書原本三類檔案所佔數 量最多,共 3049 冊,因此我們除了為每冊檔案建制詮釋資料外,亦針對民事、

刑事判決原本與公正證書原本三類檔案,為其書冊內各案件建制詮釋資料。

法 院檔案記錄深刻影響台灣人生活的法院各種作為,記載了一段台灣人民 與日本人民的共同歷史經驗,是了解台灣在日治五十年間,經濟、社會、文化等 等各方面朝向 近代化演進的第一手史料;而其描述台灣殖民法制之運作,在日 本近代法史的研究中亦具有非常重要的地位。因此對於不同領域的研究人員都可 從『日治法院檔案中』 找到所關心的材料。

為了使得典藏檢索系統能發揮檔案的價值,我們使用『屬性標籤』的資料結 構整合詮釋資料,並引入了多維度的後分類導覽方式;更在此基礎下,進一步為 系統加入檢 索詞組控制介面,發展出擁有檢索詞組控制與後分類架構的整合式 檢索介面系統之模型,以解決一般檢索系統之缺點,達成連貫檢索流程的目的。

利用此模型,依據檢索前後兩階段之目的,1.檢索詞組建議與組合、2.檢索 詞組調整與篩選,實做『日治法院檔案』之二階段檢索詞組控制檢索系統,希望 藉由系統的協助下,使用者能夠迅速掌握檢索資源,並擁有可彈性調整檢索策略 的檢索操作模式,以達成完善的檢索目標。

(4)

英文摘要

In 2000, the Taiwan High Court and Professor Tay-Sheng Wang of the Department of Law of the National Taiwan University re-discovered the archive of judicial court records of the judicial courts of Taipei, Taichung, Jiayi and Hsinchu during the Japanese colonial occupation of Taiwan from 1895 to 1945. Digitization of the findings was carried out under the direction of Professor Wang with help from the National Taiwan University Library. After several years of work, the digitization effort is now near its completion. This thesis describes the design and

implementation of the TCCRA, the Taiwan Colonial Court Record Archives.

The court cases, 5640 volumes in total, gave a vivid account of the economic, cultural, and societal evolution of Taiwan during the Japanese colonization. It is not only invaluable for anyone interested in the development of Taiwan, but also for researchers of Japanese colonial laws. The digitization effort includes producing all the images (through digital camera) and metadata of each court case. Because of the sheer volume of the data, it is important to design a system that allows the users not only find what they want but also helps them discover the meaning and conduct further exploration. We start by utilizing an "Attributive tag" data format to integrate the metadata and to provide the backbone of faceted browsing of query results. A sophisticated yet easy to use query interface is then designed to guide the user to refine queries and to classify query results in different ways.

Our faceted retrieval system has two main additional features: query term suggestion and combination, and query adjustment and document selection. Our features enable the user to analyze query results as a collection and refine them easily.

(5)

目錄

誌謝...i

中文摘要 ...ii

英文摘要 ... iii

目錄...iv

第一章 緒論 ...1

1.1 研究背景...1

1.2 研究動機...1

1.2.1 『日治法院檔案』之重要性...1

1.2.2 一般典藏檢索系統之缺點...2

1.3 研究目的...4

1.4 研究對象...6

1.4.1 『日治法院檔案』資料來源...6

1.4.2 『日治法院檔案』內容與檔案架構...7

1.4.3 『日治法院檔案』之案件類型資料...8

1.4.4 『日治法院檔案』之數位化...9

1.5 論文架構...12

1.6 範圍限制...12

第二章 相關技術討論 ...14

2.1 資訊索引型式...14

2.1.1 多維度導覽之後分類資訊檢索系統...14

2.1.2 標籤樹資訊呈現架構...15

2.2 系統引用概念...17

2.2.1 XML 標籤架構...17

2.2.2 協助檢索...18

2.2.3 影像圖層概念...20

第三章 日治法院檔案檢索系統之資料架構、系統模型、與特徵介紹 ...21

3.1 屬性標籤的資料架構...21

3.1.1 Meta-Data Format & Attribute Tag Format...21

3.2 檢索介面三元素...23

3.2.1 檢索詞組控制之檢索系統...24

3.2.2 兩階段檢索詞組控制系統...28

第四章 日治法院檔案系統實做 ...33

4.1 系統概述...33

4.1.1 系統模型...33

4.1.2 系統環境...34

4.2 系統資料準備 – 屬性標籤樣式...35

(6)

4.3 系統實做...38

4.3.1 Agent - 檢索程序資料處理流程...38

4.3.2 UI Stage 1 – 檢索建議與組合介面 ...48

4.3.3 UI Stage 2 – 檢索檢視與篩選介面 ...54

第五章 系統簡介、實例分析與討論 ...61

5.1『辜顯榮』研究範例...61

第六章 結論與未來工作 ...65

6.1 結論...65

6.2 未來工作...66

參考文獻 ...67

(7)

第一章 緒論

1.1 研究背景

西元 2000 年 7 月間,經由台灣高等法院以及其所屬各地方法院,與台灣 大學法律學院王泰升教授等人員努力搜尋下,發現新竹、台中、嘉義等三個地 方法院尚保存台灣在日治時期法院相關各卷宗,再加上原本已知之台灣高等法 院檔案,將這四法院總合稱為『日治法院檔案』。

在以『先使學術界能利用此檔案』為努力的目標下,自 2002 年起以王泰 升教授以申請國科會研究計畫之方式整理這批『日治法院檔案』,而後台灣大 學圖書館亦參與整理工作;希望透過原件之翻拍、複製典藏以及目錄的編制,

提供學術界得以一窺日治時期台灣司法體制運作的概貌。

1.2 研究動機

1.2.1 『日治法院檔案』之重要性

『日治法院檔案』為集結台灣日治時期司法相關文書之大成,其內容記錄台 灣本地人民與近代的法律的第一次接觸,法院檔案文書內深刻的記錄著當時法 院如何地影響當時台灣人的生活。這些日治法院司法文書的內容,為了解台灣 在日本統治五十年間,於經濟、社會、文化等等各方面近代化過程變遷的第一 手史料,甚至對日本史的研究,亦不可或缺。

在王泰升教授於『台灣總督府法院文書目錄編纂』內所述[王 02],『日治法 院檔案』在學術上能提供各方面研究領域資源,除了法律史,還包括社會、經 濟史等領域。在法律的規範上,可探究法院如何透過判決,從台灣在清治時期 民間習慣,轉化為日治時期的近代國家法規範。從法院使用者的身份、性別、

(8)

有無訴訟代理人、紛爭類型等,可觀察當時一般人民與法院之間的關係與當時 社會概況。在訴訟案件或執行程序的卷宗中,可發現各種社會生活事實,例如 一般人使用哪一些傢具,價格如何。而眾多公證書內所附的契約內容,更足以 全面地了解當時人民的財產交易模式。各種登記簿內有關土地和產業事項的記 載,尤其是經濟史研究不可或缺的素材。乃至行政卷內有關人事或建築等資 料,也可用來做人物、建築史的參考。對於日治時期各方面的研究者,都可由

『日治法院檔案』的史料中,尋得自身領域中所關心的資料。因此,將『日治 法院檔案』完整並有效的呈現給所有的使用者即為我們最重要的任務。

1.2.2 一般典藏檢索系統之缺點

在『數位典藏國家型科技計畫』下,許多的珍貴資源紛紛數位化並建立典 藏檢索系統,以便於保存資源並進而推廣使用,『日治法院檔案』亦屬於其中 之一。實體資源在完善的數位化的過程中,往往須匯集大量的金錢與人力,也 因此更顯得數位資料的可貴。然而因為歷史文件的特性,使得典藏資料在數位 化流程中必須仰賴大量的人力支援,但人本身就是變動的因子,在這樣的先天 條件下,常常使得最終完成的數位資料存在期望上的落差。當我們在進行數位 典藏資料系統製作的時候,應仔細思考如何降低因資料的不完善所產生的使用 障礙,並更進一步對資料作更深入並有效的運用。

我們觀察到目前大多數的數位典藏檢索系統中,普遍存在一些缺點:

第一、在非複合資源的典藏資料庫下,資料庫的內的文件通常具有內容特徵的 性質,舉例來說,司法的資料庫通常會有人名、案件名稱等詞彙;生物相關資 料庫通常會有生物學名、色彩、形狀相關描述。在資源推廣的意義下,當非專 門使用者來使用資料庫時,系統應盡可能提供資料庫內相關的檢索資源,在檢 索的期間予以協助,而不是僅僅告知使用者,查無您所要的資訊。

(9)

第二、大部分的典藏檢索系統通常都以直線性的檢索流程來製作,缺乏彈 性的檢索調整機制,因此當使用者在檢索的歷程中,無法中途根據檢索結果改 變或替換檢索詞彙,以至於當使用者希望調整檢索策略的時候,整個檢索歷程 就必須重頭來過。在資料數量龐大但可運用的檢索資源卻相對短缺時,無法提 供足夠的文件辨識資訊的檔案資料,一次又一次的重複檢索,將造成使用者檢 索上的困擾;『日治法院檔案』就符合此特性。

第三、目前多數檢索系統對於檢索結果的處理方式,通常是利用檢索欄位 排序控制結果的呈現,但是除了日期、數量等數字概念的資料外,在中文為基 礎的數位資料下,文字的排序往往無法突顯檢索結果的特徵;除此之外,當符 合檢索條件的文件資料高達很大的數量,欄位排序的方式通常無法有效協助使 用者進行資料的篩選。

第四、雖然典藏資源數位化的工作通常都有訂定的程序與規格,然而在許 多因素影響下最後所得到的數位化資料仍無法避免出現內容的差異,在本論文 中所使用的資料 -『日治法院檔案』就是這樣的例子。如下《表 1-1》所顯示,

資料類型 欄位名稱

民事判決 - 台中法院

民事判決

- 台北,新竹,嘉義法院

公證書 - ALL

刑事判決 - ALL

出處 ◎ ◎ ◎ ◎

案件編號 ◎ ◎ ◎ ◎

書類名稱 ◎ ◎

案件事由 ◎ ◎ ◎ ◎

關係人 ◎

原告 ◎ ◎

被告 ◎ ◎ ◎

檢察官 ◎

原告代理人 ◎

被告代理人 ◎ ◎

法官 ◎ ◎

(10)

書記官 ◎ ◎

判決日期 ◎ ◎ ◎ ◎

是否上訴 ◎ ◎

所在法院 ◎ ◎

備註 ◎ ◎ ◎ ◎

《表 1-1》『日治法院檔案』Metadata 欄位對照表

由於不同類型的司法文件擁有不同的特性與內容,因此在詮釋資料(Metadata)

的建構上就出現了欄位名稱無法統一的狀況。除此之外,因各法院資料數位化 的時間與人員單位的不同,導致檔案內 Metadata 所規定註錄的欄位也不一致,

造成『台中地方法院』相較於其他法院的欄位更為精簡。這些不一致的資料狀 況將造成系統實做的障礙,假使沒有仔細思考如何統整各項資料,完善解決詮 釋資料差異的問題,最後所製作的系統將不利於檢索使用,如此不僅浪費了數 位化的成本,亦將遮蔽典藏資料價值的光輝。

1.3 研究目的

為了建立『日治法院檔案』之檢索系統,並解決上述所觀察到的四點檢索 系統製作上的問題,資料庫檢索系統除了提供使用者符合檢索條件的資料文件 外,對於檢索結果文件的特徵應加以組織與呈現,提供使用者所有符合檢索條 件文件之重點或概觀的描述,以減輕使用者在檢索篩選上的工作。因此在本篇 論文中,我們將引入『屬性標籤』的資料架構,解決在『日治法院檔案』中不 同類型案件資料詮釋差異的問題以及增加資料操作彈性。除此之外,更援引過 去本實驗室在檢索資訊系統中所發展出的『檢索後分類』資訊整合模式,以及 階層展示的『屬性標籤樹』架構等兩項資訊索引方案於『日治法院檔案』系統 中,並在此基礎下,更進一步的將資訊索引轉化為檢索的新動力。

一般典藏數位化中資料通常以 Metadata 格式為註錄基礎,然而在檢索系

(11)

統中,以描述與保存為目的的 Metadata 欄位架構缺乏系統操作的彈性,因此 我們利用屬性標籤(Tag)的概念,將 Metadata 中賦有檢索意義的欄位在系統 內轉化為屬性標籤架構,並將整個檢索流程分為二階段:第一階段為檢索前期 的詞彙探測與關聯標籤擴展,將與檢索目標存在相依關聯的詞彙提供給使用 者,做檢索條件的組合、篩選等檢索策略運用,進而形成一到數個預備檢索詞 組。第二階段為檢索期間對各檢索詞組內的標籤元素進行增、刪、遮蔽的操作,

透過即時檢索結果後分類與階層展示的文件特徵呈現,進而調整檢索詞組的組 成結構,以及篩選檢索結果的文件,並予以命名後形成最後的文件集;而後可 更進一步的將文件集合作為進階服務的依據,針對各檢索詞組或個別文件集間 進行詞頻統計與分析、標籤與標籤的間接關聯等協助,挖掘潛藏在深層的相關 資訊,提供與使用者做檢索的分析參考。

透過屬性標籤架構概念以及二階段檢索詞組操作的設計,以期望協助使用 者能夠迅速掌握檢索資源,依據階段性檢索結果概觀描述,形成可彈性調整檢 索策略的檢索循環模式。利用改良式檢索架構,為『日治法院檔案』建立完善 的檢索系統,希望透過系統將『日治法院檔案』資料推廣,以提供日治時期臺 灣之社會經濟等各領域的相關研究資源。

(12)

1.4 研究對象

1.4.1 『日治法院檔案』資料來源

『日治法院檔案』的內容橫跨四個法院,六個資料群,為日治時期臺灣司 法文件的大集合,經過統計目前一共包含書目 5916 冊,如下《表 1-2》所示,

資料數位化進度

檔案典藏單位 冊數 已匯入資料庫

影像拍攝完成 Meta 建制完成

台北地方法院 2418 冊 1516 冊 2418 冊 1516 冊

新竹地方法院 258 冊 258 冊 258 冊 258 冊

台中地方法院 1635 冊 290 冊 1635 冊 290 冊

台中地方法院刑事檔案 95 冊 0 95 冊 0

司訓所藏台中地方法院 刑事檔案

371 冊 0 371 冊 0

嘉義地方法院 863 冊 863 冊 863 冊 863 冊

總計 5640 冊 2927 冊 5640 冊 2927 冊

《表 1-2》『日治法院檔案』內容統計

新竹、嘉義兩個地方法院的資料已全數建置完成,台北地方法院尚有 900 餘冊 之 Metadata 仍在建制當中;而台中地方法院由於是整個計畫中第一個製作的 法院,在不熟悉的狀況下因此資料的品質較差,詮釋資料的建置也比後來所製 作的法院檔案少了部份欄位,例外處理也出現了不一致的狀況,因此台中地方 法院的資料雖已建置完畢,仍需要經過詳細的檢查才能納入資料庫當中。

『日治法院檔案』的原始資料分別存放在五個地方法院之倉庫,如下頁《圖 1-1》所展示,在檔案資料的數位化處理上存在一些限制,1.資料不可搬離倉庫、

2.書冊不可拆裝、3.檔案年代久遠紙質脆弱、4.檔案數量眾多。因此最後決定 以數位相機拍攝的方式作為『日治法院檔案』的數位化方案。將拍攝完成的影 像最後再帶回台北作進一步的查驗與詮釋資料編目。

(13)

台中地院刑事檔案:

司訓所 371冊

嘉義地院檔案:

台北地院檔案:

土城庫房 2418冊

新竹地院檔案:

竹東簡易庭 258冊

台中地院檔案:

沙鹿庫房1730冊

新檔案室863冊

《圖 1-1》『日治法院檔案』原始資料分佈圖

1.4.2 『日治法院檔案』內容與檔案架構

『日治法院檔案』的內容包括了所有當時經由法院處理的相關文件,除了 民事與刑事的案件資料外,也包含了許多行政文書、表格名冊、登記簿等等法 律相關文件,如右《圖 1-2》所示,『以嘉義地方

法院』為例,除了『民事裁判』的案件資料外,

還包含了『民事程序』、『登記類』、『公證書』等 民事資料,在司法行政文書下亦包括『文書紀錄 管理』、『法院人事』、『法院庶務』等等文書資料,

內容包羅萬象十分豐富。因此在檔案建置的過程 中,我們將『日治法院檔案』所有資料依據資料 的性質概分為『條』、『項』、『款』、『目』四個階

《圖 1-2》嘉義地方法院檔案類型

(14)

層,如下頁《表 1-3》所示,『此為台中地方法院』

1 民事類 1.1 民事裁判書類 1.1.1 民事判決原本 1.1.1.1 獨民判決原本

1.1.1.2 合民判決原本

1.1.2 民事事件簿 1.1.3 訴訟當事者名簿 1.1.4 民事事件擔當簿 1.1.5 上訴始末簿 1.1.6 其他裁判書類 1.2 民事程序書類

2 刑事類

1.3 非訟事件類 1.4 公證類 1.5 登記類 1.6 民事其他類

3 司法行政文書類 4 其他類

1.1.1.3 其他判決原本

《表 1-3》『日治法院檔案』台中地方法院檔案架構圖(暫)

之檔案架構,系統也依據此架構建立瀏覽機制,讓使用者能夠快速的了解整個

『日治法院檔案』的概貌。然而並非所有的檔案都擁有四項階層,其內容架構 在各地方法院也不盡相同,因此《表 1-3》為目前暫定的架構,未來將根據所 有法院建置完成後的資料,進行整體的修正。

1.4.3 『日治法院檔案』之案件類型資料

『案件』類型資料為各地方法院紀錄其法院所經手 的司法案件,其內容記載案件的相關人員、案件原委、

審理過程以及判決結果等資料,每年依據案件編號排 序,集結成冊以資保存。案件類型資料共有三種:『民

(15)

事判決原本』、『公正證書原本』與『刑事判決原本』,案件類型資料在『日治 法院檔案』各類型的法院資料中所佔的比例最多,如下《表 1-4》所示,除了

『嘉義地方法院』外,其餘地方法院所收藏案件資料

法院 台北地方法院 新竹地方法院 臺中地方法院 嘉義地方法院 司訓所藏台中地

方法院刑事檔案

民事判決原本 377 冊 99 冊 419 冊 181 冊 -

刑事判決原本 - - 95 冊 - 371 冊

公正證書原本 1139 冊 18 冊 272 冊 78 冊 -

小計 1516 冊 117 冊 786 冊 259 冊 371 冊

法院檔案總數 2418 冊 258 冊 1730 冊 863 冊 371 冊

比例 (案件冊數/總冊數)

62.7% 45.3% 45.4% 30% 100%

《表 1-4》『日治法院檔案』案件類型資料書冊統計

都佔有相當高的比例,因此在 Metadata 的建制上,除了為每冊『日治法院檔 案』書目建制書目 Metadata 外,我們將更進一步為案件類型資料建制案件 Metadata。

1.4.4 『日治法院檔案』之數位化

『日治法院檔案』數位化的重點在於所有法院檔案文件影像翻拍,並輔以 Metadata 建置,目前在資料庫內已收納的 2927 冊的檔案資料,一共擁有 1,457,447 個影像檔案,如下《表 1-5》所示,每張影像大小為 300Kbytes 不等,

檔案典藏單位 已匯入資料庫 影像檔案 容量

台北地方法院 1516 冊 951,943 227.0GB

新竹地方法院 258 冊 84,058 23.0GB

台中地方法院 290 冊 115,025 43.2GB

台中地方法院刑事檔案 0 0 0

司訓所藏台中地方法院刑事檔案 0 0 0

嘉義地方法院 863 冊 306,421 85.2GB

總計 2927 冊 1,457,447 380GB

《表 1-5》『日治法院檔案』影像統計

(16)

目前系統內共 380GBytes,未來將持續的增加。

在 metadata 的建置方面,『日治法院檔案』將 metadata 分為兩個種類,一、

是以『冊』為單位建置 metadata,二、再由冊中,將『民事判決原本』、『刑事 判決原本』與『公證書』三種案件類型的檔案更進一步為其書冊的內容,為每 一個案件製作『案件』的 Metadata。

《表 1-6》『日治法院檔案』Metadata 建置對照表

『冊』與『案件』的 Metadata 所註錄的內容如下《表 1-7》所示。『冊』

的 Metadata 一共有四個欄位,『案件』Metadata 比較詳細,為 15 個欄位,

『冊』Metadata 1.分類層次(條項款目) 2.冊名

3.內容與年代 4.書籍冊次

『案件』Metadata 1.冊名

2.事件號 3.判決標題 4.原告 民事訴訟事件簿

民事判決原本 刑事判決原本 訴訟當事者名簿

公證書 支付命令原本

督促事件簿 etc…

以「冊」編 以「案件」編

民事判決原本 刑事判決原本

公證書

(17)

5.原告訴訟代理人 6.被告

7.被告訴訟代理人 8.事件名稱 9.判決日期 10.法院 11.法官姓名 12.書記官姓名 13.上訴及上訴人姓名 14.影像位置

15.備註

(以台北地方法院民事判決原本為例) 《表 1-7》『日治法院檔案』Metadata 欄位對照表

因此目前系統內的 Metadata 資料統計如下《表 1-8》所示,書冊 Metadata 共 2927 筆,案件 Metadata 共 157,300 筆,未來依據其他法院的進度資料將會隨 之增加。

案件 Metadata 書冊 Metadata

民事判決原

公正證書原

總計

台北地方法院 1,516 筆 48,355 筆 55,886 筆 104,241 筆 新竹地方法院 258 筆 12,022 筆 1,004 筆 13,026 筆 台中地方法院 290 筆 9,590 筆 8,950 筆 18,540 筆 嘉義地方法院 863 筆 18,520 筆 2,973 筆 21,493 筆

總計 2927 筆 88,487 筆 68,813 筆 157,300 筆

《表 1-8》『日治法院檔案』Metadata 資料統計

(18)

1.5 論文架構

本篇論文分為六個章節,第一章主要闡述本論文系統緣起的背景,以及經 由當前數位典藏資訊檢索系統,觀察到多數系統對於數位資料運用過於單純,

並在檢索系統的製作上存有可改進的地方;以及因應『日治法院檔案』的資料 缺陷,進而提出利用屬性標籤架構的資料運作方式,配合資訊後分類處理與呈 現,發展出檢索詞組控制的整合檢索介面。

第二章將說明論文中所引入的技術與概念,首先介紹本系統在建置上所利 用的資訊索引基礎 -『後分類』與『標籤樹』兩項資訊索引與呈現模式。再來 介紹系統中引用的相關技術,由介紹標籤系統的與應用方式,進而提及系統在 發想時引入的概念。

第三章為介紹系統建置上所應用概念、方法與模型。首先介紹為了系統運 作而準備的屬性標籤資料架構;而後經由描述一般檢索流程的缺點,為了讓系 統加入後分類架構與增進檢索流程彈性的目的,我們為『日治法院檔案』系統 的設計了新的系統模型。最後我們運用新的模型提出了兩階段的檢索流程,並 針對各階段進行介紹。

第四章為系統實做,針對檢索系統的模型,根據各檢索階段的架構元件進 行仔細的描述,並依據在系統實做上所遇到的問題給予解決的方案。

第五章為系統應用實例分析與討論,以實例來展示檢索系統建置的成果以 及分析討論是否達到本論文目的。

第六章為結論與未來工作,作為本篇論文的研究總結,並提出一些應改進 以及可增進、深入發展之處,引領未來努力方向。

1.6 範圍限制

本論文索引用的資料為具有詮釋資料的典藏資源,根據詮釋資料的架構進 行整合分析,在系統運作階段將具有檢索參考價值的詮釋資料轉換成屬性標籤 的資料架構。因此對於沒有詮釋資料的數位資源,或是詮釋資料內建構的內容

(19)

不具有檢索價值,將不囊括在本論文所論述的範圍內。

本系統所援用的資料為單一來源,針對於複合資源資料庫的系統設計與考 量將更形複雜,依據資料庫的規模以及內容來源的數量,在整合資源儲存架構 規範的訂定與系統運算分散處理的設置都必須納入系統建置的考量,此部份亦 不再論文的討論範圍之內;然而無論是單一資源或是複合資源的系統,本章第 三節內所論述的檢索的問題依然會存在,本論文亦可作為系統建置的參考方 向。

(20)

第二章 相關技術討論

2.1 資訊索引型式

為了增進檢索的效率,並有效的彰顯資料的價值與意義,我們為『日治法 院檔案』引入了兩項互動式資訊檢索模式,1.多維度導覽之後分類資訊檢索系 統 2.標籤樹資訊呈現架構,以下兩小節將分別概述之。

2.1.1 多維度導覽之後分類資訊檢索系統

(Post-Query Multi-Dimensional Navigation System)(Faceted Browsing)

多維度導覽之後分類資訊檢索系統為杜協昌博士在 1999 年所提出的『互 動式網際網路檢索』模型[Tu99],在資訊檢索系統中,將 Metadata 中特定之欄 位視為描述資料的獨立維度(dimensions),如『年代』、『作者』等,使用者可 利用維度進行檢索,例如『年代:昭和 15 年』,當系統將符合檢索條件之文件,

依據各個維度進行分類與排序的功能,例如將搜尋的結果依『年代』、『出處』、

『作者』等分別列出維度下的分類,提供給使用者進行下一步的檢索動作。

《圖 2-1》台灣歷史數位圖書館資訊檢索系統

(21)

如《圖 2-1》所展示,此系統為『台灣歷史數位圖書館資訊檢索系統』,在 圖中我們以『明清檔案』資料庫作為系統範例。『明清檔案』為明清時期與台 灣相關的奏摺、行政文書等文件蒐集而成的資料庫。當我們用『林爽文』作為 查詢的關鍵字進行系統查詢後,在圖上紅色箭頭所指示的地方,系統將所有符 合的文件,依據『年代』、『出處』、『作者』三項維度對檢索結果進行各別的分 類,藉由這樣的機制,我們將可以很容易的利用後分類資訊,掌握檢索結果文 件的概況,並更容易進行下一步的檢索。在例子中我們可以藉由文件的統計,

發現與『林爽文』相關的文件在『乾隆』51-53 年間大幅度的增加,這樣的統 計資料極具意義,配合資料的特性,使用者從後分類的機制中立刻就可以知道

『林爽文』在這段時間於台灣發生緊密的關聯,這樣的結果是很難由文件排序 中顯現出來。

因此運用多維度的後分類資訊索引系統,將更容易彰顯資料本身的意義,

並利用簡單的屬性運算增進檢索效率,並提供使用者有效的檢索資源,達成檢 索目標。

2.1.2 標籤樹資訊呈現架構

(Presentation of Query Result Using Tag Trees)

在後分類的資訊索引下,標籤樹透過樹狀的結構與屬性組織檢索結果的 特徵,為一種屬性標籤的階層架構分類及整合呈現的方式[莊 06 ]。標籤樹組 織文件中屬性明確的關鍵詞,如『人名』、『地名』。使用者透過標籤樹的資訊 呈現架構,能夠簡單直覺的判別出檢索結果中的重點,並依據不同主軸的觀 察,如以『人名』為主軸、以『時間』為主軸,了解重要特徵的關聯性。並透 過可直接點選的方式,能夠方便的縮小文件範圍,修正檢索結果。

下圖《圖 2-2》為 THDL Prototype System V0.83,使用『古契書』文件集,

(22)

以『金廣成』為關鍵字檢索後,系統所顯示的標籤樹呈現介面。在本例子當中,

由時間的主軸下,我們可以觀察到系統將詞彙標籤,依據在文件中出現的次 數,利用字型的大小以及顏色排序與呈現。

《圖 2-2》標籤樹 - 階層式呈現架構

『金廣成』為墾號之名,是由一群人以此名稱向政府租地,再分租給其他 人的組織。由標籤樹的階層式呈現介面我們可以觀察到,第一階層的時間主軸 由『清光緒十三年』開始,表示與『金廣成』相關的契書文件從此年才開始再 資料庫內出現,而由第二階層的地名資訊中我們也可以發現,『竹北二堡』與

『十寮庄』兩個地名在『清光緒十三年』的 13 件文件中,就各都出現了 11 次,

『清光緒十五年』的 15 件文件中,就各出現了 13 次與 14 次,顯然的可以推 論出『金廣成』與這兩個地方有著高度的相關性,而從文件的全文中,也證實 了這個推論。

在後分類的檢索系統下,運用階層式資訊整合的標籤樹呈現架構,將檢索 結果作多主軸的方式呈現,以提供使用者在一次檢索下能夠得到更完整的文件 的資訊,這將提供無全文檢索的系統另一種資訊索引的幫助。

(23)

<root >

<name attribute

</root>

2.2 系統引用概念

『日治法院檔案』系統的製作上,為了解決系統的問題,以及配合系統的 設計方向,我們參考了當前資訊系統的特色,並引用資訊架構處理系統所面臨 到的問題,以下將分別為『日治法院檔案』內所運用到的資訊系統概念作簡要 的介紹。

2.2.1 XML 標籤架構

XML 原文為 Extensible Markup Language,又稱『可擴展標記語言』,簡 稱 XML,意即電腦所能解讀的標記符號並可自由擴充[W3C]。XML 是從標準 通用標記語言(SGML)中簡化修改而成,自 IBM 從 1960 年代就開始發展的 GML(Generalized Markup Language)標準化後的名稱。其中 GML 有兩點重 要的概念,1.文件中能夠明確的將標示與內容區隔、2.所有文件的標注方式必 須統一,這兩項特色後來也成為 XML 的特性。XML 被廣泛用來作為跨平台 間資訊交換的型式,而根據 XML 的內容,透過不同的格式化描述(XSLT,CSS 等)將可以成為最後的資料呈現樣式(HTML,PDF 或者其他的文件格式)。

XML對資料的描述結構為樹狀的屬性標籤樣式,其撰寫的樣式必須遵循 一定的規則,在此不對XML的文件格式加以詳述,僅以例子描述紀錄內容的 標籤樣式。以下為一組XML的文件標記樣式,Tag『name』隸屬於Tag『root』,

而『name』中含有屬性標示『attribute="value"』作為這筆資料的特性註記。運 用XML可自訂架構的特徵,可以用來補足因資料整合而產生的資訊誤差,使 得系統能夠同時保有建置的彈性以及原資料的完整性。

="value">Content</name>

(24)

2.2.2 協助檢索

許多資訊檢索系統中,依據不同的目的,系統都會利用所擁有的資源製作 協助檢索的工具,在操作檢索系統的過程中提供給使用者作為檢索的建議。以 下提出兩種目前資訊檢索系統中,協助檢索的實做範例以供參考。

1.在網路搜尋引擎方面,除了在搜尋介面上列舉出近來常被檢索的熱門關 鍵字,近年來 Google 與 Yahoo 分別都利用 ajax 的技術製作搜尋關鍵詞建議的 功能,如下圖《圖 2-3》所示,當使用者在填寫檢索詞彙的過程中,利用目前

《圖 2-3》Google Suggest System

輸入的片段的資訊,運用演算法猜測使用者可能的檢索詞彙,並將可能性最高 的資料提供給使用者作參考。除了提供相關的字彙以供使用者以選擇代替輸 入,這樣的方式還可以幫助使用者,從建議的詞彙中檢驗自己所下的關鍵字是 否正確。

2.在商業網站中,常利用一件商品關聯到其他可能相關的商品上,以增加商品 的曝光度,下《圖 2-4》是在 amazon.com 的網站上經由搜尋系統所找到的一 本書,當使用者點選之後系統除了提供此書的相關內容,並利用商品特價資訊 或其他人相關的購買行為,如圖中紅色箭頭所指的地方,將其他關聯商品一併 提供給使用者作為選擇的建議。

(25)

《圖 2-4》amazon.com 購買系統

商業網站提供檢索建議是為了增加自身的經營績效,而數位典藏系統雖然 不以營利為目的,但對於提供完善的資訊服務應是所有資訊檢索系統一致的目 標。目前大多數的數位典藏系統中卻鮮少含有檢索建議的功能,典藏資源通常 不屬於一般人的知識領域中,因此在系統的使用上除了利用瀏覽的機制,檢索 的方式常常會導致使用者毫無頭緒的窘境,以至於檢索品質下降。然而在數位 典藏系統中製作檢索建議也必須做好考量,以專家的方式建立輔助資料會耗費 大量的資源並不符合效益,而利用資訊計算的方式自動產生的輔助資訊雖然比 較經濟與快速,但仍存在準確率的問題,假使系統提供了錯誤的意見將會造成 使用者對系統的信心下降,因此如何拿捏系統輔助尺度將是系統製作者的考 驗。

(26)

2.2.3 影像圖層概念

在影像處理的技術中存在一種元素,稱之為『圖層』(Layer),圖層的作 用在於可以層疊於另外一張影像上,使得原來的影像經由層疊後含有更多的元 素。許多的影像製作軟體都具有圖層操作的功能,其操作圖層系統具有三種特 性,1.圖層具有可重疊性,可以在一張影像上層疊一到數個圖層。2.圖層有次 序性,上方的圖層將會遮蔽下方的圖層。3.圖層具有可隱藏性,可以將某一層 圖層暫時的隱藏,除去其圖層對於影像的影響。如下圖《圖 2-5》箭頭所指示 的地方,即為影像處理軟體的圖層操作介面。

《圖 2-5》影像處理軟體 – 操作圖層

圖層層疊操作的特性,啟發我們對於檢索詞組的處理的作法,一張影像可由多個 圖層所堆疊構成,而檢索結果也視為由數項檢索條件所交集而成,由此將引發我 們之後對於檢索介面設計的概念。

(27)

第三章 日治法院檔案檢索系統之資料架構、系 統模型、與特徵介紹

3.1 屬性標籤的資料架構

3.1.1 Meta-Data Format & Attribute Tag Format

在數位典藏各計畫中,通常採用 Metadata 的欄位架構來建置典藏資源的 描述,以都柏林核心集(Dublin Code)為基礎[國家文化資料庫],依據各種不同 的主題或形式再加以延伸。然而欄位形式的詮釋資料屬於制式化的架構,其格 式、內容的建置都必須遵循規定,這項特性卻在資訊檢索系統中侷限了資料操 作的彈性,因此為了在檢索系統中,發揮資料的關聯特性,我們將欄位架構的 詮釋資料,在檢索期間轉換成屬性標籤架構,兩種資料描述架構範例如下《圖 3-1》所示:

Meta-Data Format:

Data1

Identifier 案號 事由 原告 被告 判決日期

D1 單民第 2 號 土地引渡並不當利得請求事件 謝阿雨 謝大双 T08/11/28

Attribute Tag Format:

Data1 {

<Identifier>D1</Identifier>

<案號>單民第 2 號</案號>

<事由>土地引渡並不當利得請求事件</事由>

<相關人 value=’原告’>謝阿雨</相關人>

<相關人 value=’被告’>謝大双</相關人>

<判決日期>T08/11/28</判決日期>

}

《圖 3-1》Metadata & Attribute Tag Format

(28)

『Meta-Data Format』與『Attribute Tag Format』之差別在於以下三點:

一、在觀察角度上,『Meta-Data Format』的建構方式為依據範例中”Data1”

此資料的特徵,根據所規定的六個欄位填入對應的內容,建構方向為『單向』

的由資料到欄位,描述方向則反之。而『Attribute Tag Format』的方式則為 符合 Data1 資料的形容標籤,方向為『雙向』的互相索引,並且因為雙向的特 性,標籤與標籤藉由 D1 的中介而互相產生關聯。

二、資料擴充性上,『Meta-Data Format』在規定上無法隨意新增欄位或 填入資料,但『Attribute Tag Format』卻沒有這限制,舉例來說,我們可以 在《圖 3-1》的『Attribute Tag Format』中增加<事由>土地引渡</事由>、<事由>

不當利得</事由>兩個形容標籤,既不會破壞對原始資料的描述與格式,反而增 加資料關聯的描述性;而這兩項標籤可經由自動化的方式產生,例如:斷詞系 統,亦不會增加數位資料建置的成本。

三、在資料的操作性上,由於雙向關聯的特性,『Attribute Tag Format』

在檢索建議系統的操作上能有更好的表現,可藉由使用者的所輸入的檢索詞 彙,進而由此詞彙擴展出與其有關聯的標籤,予以使用者作為檢索策略建議。

在檢索期間的詞彙組合操作、檢索結果後分類與標籤樹的呈現上,以及更進一 步的關聯文件詞頻分析等協助工具,『Attribute Tag Format』都能提供更大的 資料操作彈性給予系統製作者,藉由標籤運算彰顯資料本身資料價值。

(29)

3.2 檢索介面三元素

在資訊檢索系統後分類架構中,我們將符合檢索結果的文件,依據限定 屬性的標籤或是欄位,進行資訊的統合整理,以提供使用者目前檢索結果的 概觀資訊。而標籤樹則是立基於檢索後分類的架構上,更進一步將結果資訊,

依據不同的主軸面向,以樹狀的階層式架構,提供文件中重要特徵關聯性;

然而本論文所提出的檢索詞組操作,即在這兩項研究成果中,更進一步所衍 生出的檢索介面。我們將一般檢索系統中瀏覽檢視檢索結果的地方,加入了 後分類系統以及檢索詞組的操作,再加上原本系統中所必須的檢索結果呈 現,藉由三方面的互相交流影響,我們建立的一個交互檢索的機制,如下《圖 3-2》所示,

檢索詞組

檢索結果 檢索後分類

《圖 3-2》新檢索介面三元素

當使用者能在檢索中改變檢索詞組的組成,將立即影響檢索結果的內容,而 利用檢索結果文件內的標籤資訊,經由統計整理產生檢索結果後分類,使用 者藉此觀察檢索結果的變化,並了解符合檢索條件的文件內容特徵,進而由 後分類中選擇標籤詞彙加入檢索詞組,亦或調整檢索詞組的內容而改變檢索 結果。如此,三方面交互影響,形成循環不息的檢索流程,以解決研究動機 中所提及的檢索歷程中斷之缺失。將資料作簡單的運算即可提供使用者更方 便的參考資訊,提供簡易的操作功能讓使用者能方便運用資訊,發揮系統檢 索力量。

(30)

3.2.1 檢索詞組控制之檢索系統

首先我們會先概述一般檢索系統的檢索流程,根據『日治法院檔案』系 統中我們所必須面臨的改變而新增檢索流程的元件,整合成一新的檢索系統 模型,並詳細敘述新的模型中增加元件的來由以及因應改變之處,以作為未 來系統製作參考的資源。

3.2.1.1 一般檢索系統模型

目前大多數的典藏資訊檢索系統所使用的概略檢索流程模型如《圖 3-3》,

由《圖 3-2》所示,使用者經由檢索系統輸入介面 - I1 所制定的檢索輸入架構 填寫檢索詞彙或詞組,檢索詞組由檢索轉譯程式 - A1 轉譯成資料庫查詢語彙

(Database SQL),轉譯完成後傳遞給資料庫仲介程式 - A2 與資料庫 - D1 溝 通,取得在資料庫中,符合使用者檢索條件的相關資料;最後由資訊彙整程式 - A3 統整所取得的資料,進行分頁、標注與排序等後續工作後組成查詢結果 XML,讓資料呈現介面 – I2 將最後的檢索結果輸出呈現。使用者可利用系統 所提供的資料輸出方式,例如:欄位排序,重新調整檢索結果的輸出(在此各 階段模組為一概略的分切,某些系統可能因不同實做方法,資料流程或工作模

I1 檢索輸入

I2 資料呈現 A1

查詢轉譯

A2 資料溝通

A3 資訊彙整

UI Agent Database Data flow

《圖 3-3》一般檢索系統模型

D1 典藏資料庫

(31)

組會在此模型中產生誤差,但並不影響此檢索流程的結構,在此於以註明)。

由《圖 3-3》中我們觀察到兩個問題,第一、一般典藏資訊系統的檢索模 組為直線性的檢索流程,也就是說,當使用者在檢索過程中,依據系統回傳的 檢索結果希望調整或者更換檢索策略時,通常必須回到 I1 重新進行整個檢索 流程。第二、在檢索的過程中,系統與資料的交流上僅僅只限於使用者檢索條 件的搜尋比對,或是檢索結果的呈現的排序,然而在某些情況下,檢索結果排 序並無法提昇檢索效率或解決使用者的檢索需求。系統對於資料的運用過於單 純,以至於資料使用的效率不彰,將導致增加使用者在資料篩選的工作負擔。

3.2.1.2 檢索詞組控制之整合介面檢索系統模型

承上 3.2.1.1 節,依據一般資訊檢索系統的檢索流程所提出的兩個問題,

首先我們先在系統內加入過去本實驗室所發展的『後分類』資訊整合索引與『標 籤樹』的階層顯示的架構,以提高系統對於資源運用的效能。更在此條件下,

重新提出一個能即時調控的互動式檢索詞組操作介面,整合整個檢索流程,修 正後的新式檢索流程如下圖《圖 3-4》所示。

(32)

I’1 檢索輸入 D’1 標籤化法院檔案

A1 查詢轉譯

A2 資料溝通

A3 資訊彙整 A5

詞組重整

A4 檢索詞組解析

A6 資訊後處理

I’2 資料呈現 I’4 資訊索引

I’3 檢索詞組 A7

輸出配置 I’5 檢索儲存

Post-Ouery XML Query Result XML

Query Set XML

Query Set String

UI Agent Database Data flow

《圖 3-4》日治法院檔案檢索系統模型

在使用者介面上,我們將一般檢索流程上的兩個使用者介面 I1、I2 變更 為模組化元件 I’1、I’2,並加入屬性階層顯示的後分類資訊索引架構的『資訊 索引』介面模組 - I’4。以及即時顯示目前檢索結果的成因,匯集檢索詞組的 內容來源,以及提供檢索操作的目標的『檢索詞組控制』介面模組 - I’3。用 以暫存使用者建構的檢索詞組,以及作為文件篩選後的文件集儲存索引的『檢 索儲存』面介面模組模組 - I’5。以此五項介面模組整合成新的使用者綜合檢 索介面,而檢索詞彙的建構來源則由 I’1 的使用者輸入、I’2 的文件篩選、I’4 屬性標籤選擇,以及 I’5 的過去檢索儲存,四種方式,並由 I’3 彙整檢索條件 並傳遞給系統進行檢索流程。

(33)

由於新的使用者檢索介面產生,在檢索流程上發生了兩項改變,第一、檢 索詞彙的來源不在只限於使用者輸入。第二、由於檢索詞組操作介面的產生,

系統所必須解譯的查詢指令也不再僅止於不同檢索詞彙的組合,更增加了檢索 詞組的串連結構變化,因此原 A1 查詢轉譯的工作必然無法因應需求;而新增 的後分類資訊整合索引以及詞組儲存與操作介面,也將導致原流程 A3 所輸出 的資訊彙整結果,不足以供應整合介面的資訊顯示需求。因此在處理資料流的 Agent 架構上,我們在一般檢索流程 Agent A1、A2、A3 的前後各新增兩個分 析處理應用程式,串接原檢索架構。

我們在檢索流程中,檢索詞組輸出的地方增加一個可偵測檢索詞組變化的

『檢索詞組解析』程式 – A4,針對檢索詞組內的檢索詞彙標籤組合的任何改 變進行相對應的處理動作,其工作有二:1.取得檢索詞組改變訊息,並啟動檢 索程序。2.取得檢索詞組的內容『Query Set XML』,並傳遞給下一個處理程序。

而後『檢索詞組重整』程式 – A5 進行檢索語句的轉換,將標籤型式的檢索詞 組組合轉變成符合原系統查詢轉譯的詞組規則『Query Set String』。而後經由 原一般檢索系統的 A1、A2、A3 流程,得到所有符合檢索條件查詢結果『Query Result XML』後,令『資訊後處理』程式 – A6 針對文件的各種維度進行後分 類資訊統計整理,並將所得到的結果『Post-Query XML』。最後由『輸出配置』

程式 – A7 根據介面組合形式,將所有系統產出的 XML 內容分別配置到因應 的位置,顯示檢索結果。

經由上段所概述的第一輪檢索流程結束後,使用者可以依據系統所提供的 資訊,藉由點選的方式改變 I’3 介面內檢索詞組的內容,而 A4 將會收到 I’3 內容改變訊息,重新啟動下一輪的檢索流程。經由介面的統整,使得系統中檢 索與檢視兩種需求介面合而為一,介面與介面間交互影響並即時顯示,而達成 檢索歷程操作的一貫性。在檢索詞組操作介面的輔助下,可以依據各種不同的

(34)

資料與系統特性,利用複合式的介面模組自由調整使用者介面,並依循相同的 檢索流程模式,產生不同的檢索系統功能,以達成檢索各階段不同的目的。

3.2.2 兩階段檢索詞組控制系統

在一般的檢索系統中,我們可以將使用者的檢索行為概分為兩個階段,第 一階段為檢索詞彙建立,對應到一般檢索系統即為一般或進階檢索;第二階段 則為檢索結果的檢視,而其中兩階段的分界點以使用者點選『進行檢索』的按 鈕為依據。在資訊檢索系統中加入檢索後分類的架構後,大幅度的增進第二階 段檢索結果檢視的功能性;然而在檢索建議功能的啟發下,後分類的資訊索引 架構亦可對使用者於檢索第一階段產生協助功能,藉由關聯標籤的牽引,可以 檢視檢索目標的正確性以及相關欄位的關聯詞彙擴張,加上檢索詞組介面的統 整與輔助,更能彈性的訂定檢索策略,以複數檢索組合進行檢索操作,以達到 更完善的檢索目標。因此我們可以經由《圖 3-4》的檢索模型中,配合兩階段 的檢索,衍生出新的系統模型架構,如圖《圖 3-5》,以下兩小節分別介紹各階 段檢索之特色。

User Interface For Stage1

Data in Tag Format

Agent User Interface For Stage2 P2

P1 P1 P2

P1 : Query Set XML P2 : Query Result XML

《圖 3-5》兩階段檢索詞組控制系統模型

Stage2.

檢索詞組調整與文件篩選階段 Stage1.

檢索詞組建議與擴張階段

(35)

3.2.2.1 檢索詞組建議與擴張階段

檢索擴張意即檢索策略中 - 引用文獻滾雪球法 (Citation Pearl

Growing)[Citation Pearl Growing]與後分類資訊索引架構的綜合應用。當使用 者在建立檢索條件的階段,對使用者當前所提供的檢索目標(root)進行資料 庫系統的檢索前探測,在標籤架構下將關聯詞彙依屬性統計整理後,提供給使 用者作為檢索詞彙修正建議,或是檢索條件組合運用。在檢索擴張階段有兩個 主要概念:a.檢索建議、b.檢索組合。

a.檢索建議:

檢索建議系統與後分類的演算法相同,將原本由檢索結果的詞彙統計與屬 性分類的特性,在檢索策略形成期間即提供給使用者,除了給予使用者欲檢索 目標在系統內的概略描述外,也鼓勵使用者根據系統整理的資料庫內容,修正 檢索目標的文字詞彙,亦或進而讓使用者以選擇替代輸入,減低因文意用詞的 誤差而發生檢索結果不完全、甚至失敗的情況。以『日治法院檔案』系統為例:

當使用者希望查詢日治時期台灣在土地抵押借貸方面的司法程序,可以藉由

『土地』的關鍵字,從系統提供『相關事由』排序,如下圖《圖 3-6》中紅色 虛線內所示,發現『賃貸』這同意詞彙,將之加入檢索詞彙組合的策略之中,

抑或是直接挑選系統建議作為檢索目標,以達到最小的檢索失誤。

《圖 3-6》系統檢索建議介面以『土地』為例

(36)

b.檢索組合:

檢索組合的概念系由標籤樹的階層式資訊整合架構衍生而來,標籤樹的階 層架構中,將文件由屬性

標籤自樹根(root)一層層 解析到樹葉節點,整個解 析路徑所通過的節點,可 視為一連串的標籤詞彙組 合。在後分類的架構上,

標籤樹的目的為聚焦特定 屬性特徵的文件群;然而

此處檢索組合的目的則為使用者保存多面向彈性的檢索策略,我們提供簡易的 邏輯中介『AND』、『OR』、『NOT』,由使用者自行輸入、從檢索建議中選擇欲 使用的詞彙增加檢索條件,利用邏輯中介將標籤組合成檢索詞組,如上《圖 3-7》

所示,以供使用者為之後第二階段檢索結果篩選與調整作準備,也可成為使用 者未來檢視檢索結果的入口,並在檢索結果篩選調整後成為檢索儲存的標示與 未來個人文件的索引。在檢索組合形成階段,檢索建議會依據目前已被挑選的 詞彙組成,即時調整檢索建議的內容。

《圖 3-7》系統檢索建議介面詞組組合

3.2.2.2 檢索詞組調整與文件篩選階段

當資料庫使用者決定檢索策略後,無論是利用簡單的單一關鍵字,或是一 到數個檢索詞組查詢,開始進行檢索後,系統將會自資料庫內取出符合檢索條 件的所有文件,並依據資料的各屬性標籤作後分類資訊整合處理。經由後分類 的統整,使用者將不必瀏覽所有系統列出的資料,即能概略了解檢索策略是否 正確,使用者可選擇所關注的資訊,利用後分類作為進一步的查詢索引。

在後分類的基礎上,檢索結果除了顯示符合的文件,我們也將上一階段『檢

(37)

索擴張』所得到的檢索詞組一併加入資訊呈現的介面中,並賦予即時操作的特 性,讓使用者在檢索過程中能夠方便的調整檢索詞組內元素的組合,觀察檢索 結果的變化,分析比較並得到所需要的資訊。在此階段內包含兩特性:a.圖層 式檢索操作、b.檢索需求整合。

a. 圖層式檢索操作:

在一般的檢索系統中,檢索歷程(歷史)為許多檢索系統的基本功能之一,

其主要的目的在於紀錄使用者所使用過的檢索詞彙,提供使用者作為檢索結果 的索引或調整檢索的參考。然而在後分類系統的幫助下,使用者增加檢索詞彙 的方式不再限於自行輸入關鍵詞,自後分類的項目中選取檢索詞彙則更加簡 單、直覺並快速,因此我們調整過去的作法,將以紀錄的目的檢索歷程,轉換 成可操作的檢索詞組。

圖層的概念來自於影像層疊的技術,在本論文 2.2.3 中有簡單的介紹,在 一般系統的檢索過程中,文件篩選的作法通常是利用增加條件詞彙來限縮檢 索結果,當所使用的條件越多,在交集的運作下,所得到的結果將越精確,

資料數量也隨之降低。當我們將一個個的檢索條件詞彙以條列式的方式呈現 時,這樣的格式剛好與影像處理軟體中,對圖層的操作樣式相仿,也由此提 供我們對於檢索詞組操作設計的靈感。因此我們在檢索條件詞彙組合的地 方,加入『新增』、『刪除』、『遮蔽』三種操作方式予以使用者,使用者可以 利用這三種方式來調整檢索詞彙組合,並觀察檢索結果。

《圖 3-8》系統檢索詞組操作介面

(38)

b. 檢索需求整合:

使用者增加檢索條件的方式除了藉由後分類系統,迅速的選擇所需要的 詞彙標籤加入目前檢索詞組外,還可利用手動增加檢索詞彙以及篩選符合條 件之文件。在此階段,檢索詞組控制介面將接收所有的檢索需求,成為介面 中所有使用者動作的匯集地,並成為啟動系統檢索機制之鑰。藉由此即時的 調整機制,當使用者在操作檢索詞組的時候,能夠立刻的根據後分類的整合 資訊,了解檢索結果的變化,而不再如同過去訂定檢索組合後,一次又一次 的從頭開始瀏覽檢索結果,並判斷是否存在符合檢索目的的資訊。而系統中 新式的檢索詞彙操作,將為後分類帶來新的延伸應用,讓後分類系統除了反 應檢索結果的文件,亦幫助詮釋檢索詞組的意義。

(39)

第四章 日治法院檔案系統實做

4.1 系統概述

本章我們將利用第三章所論述的『二階段檢索詞組控制』系統模型,再加 上標籤資料轉換程序,我們得到了一個以檢索三元素為基礎的完整系統模型架 構,我們將依據此模型的各元素進行系統實做,並考量實際資料的問題,建構 網頁模式的『日治法院檔案』資料庫檢索系統;時間範圍在台灣日治時期,自 明治 28 年(西元 1895 年)到昭和 20 年(西元 1945 年)間,台灣四個地方法 院的相關司法文件,詳細資料將在下一節介紹。

4.1.1 系統模型

在日治法院檔案系統整體規劃架構為三部份 UI(user interface)、AG(agent) 與 RS(repository system),如 《圖 4-1》所示。

User Interface For Stage1

Data in Tag Format

Agent User Interface For Stage2 P2

P1 P1 P2

P1 : Query Set XML P2 : Query Result XML

《圖 4-1》日治法院檔案系統模型

Original Data

Original Data System

Working Data System

P3 : Query Set in SQL

P4 : Query Result in Tag Format Data Transfer

Repository System

P3 P4

(40)

1.UI 的部份負責系統與使用者之間的溝通,接受使用者所輸入的檢索詞 彙,並呈現系統查詢結果以及檢索結果後處理的相關資料給與使用者。依據檢 索階段的不同分為兩部份,檢索詞組操作與輔助工具的呈現也在此處呈現。

2.Agent 負責取得使用者的檢索條件組合,並轉譯使用者的檢索詞彙成為 資料庫檢索語言(SQL)的樣式;與資料庫溝通並組織查詢結果、進行屬性標 籤後分類整理,將最的後整合資料以 XML 資料格式回傳,並依據 UI 的顯示 模組予以適當的資料進行呈現。

3.Repository system 儲存系統將用到的各種資料,其中又包含了

WDS(working data system) 與 ODS(original data system)兩項系統。ODS 存放各 地方法院的原始 metadata,WDS 則做為 ODS 與 Agent 之間的橋樑,以標籤的 形式轉換詮釋資料並儲存起來,在取得符合檢索條件的資料後,提供給 AG 作 進一步的系統運算,以及顯示時的屬性判別。

4.1.2 系統環境

以下是我們系統建置與運作的環境 z Apache Web Server Version 2.2.4 z PHP Script Language Version 5.2.3 z MySQL Database Version 5.0.45

z phpMyAdmin Database Manager Version 2.10.2

測試瀏覽器:

z Internet Explorer Version 6.0.2900.2180 z Mozila Firefox Version 2.0.0.14

(41)

4.2 系統資料準備 – 屬性標籤樣式

在『日治法院檔案』的詮釋資料分為兩種:

一、為以書冊為單位的 metadata,主要描述書籍的資料,內容一共有五個欄位,

如下表《表 4-1》所示。

《表 4-1》法院檔案 - 書籍 Metadata 格式

欄位代號 代表意義 範例

ID 書籍序號 Cu0001

Class 書籍層次類別 新竹地院

民事類

民事判決書類 民事判決原本

Title 書籍封面提名 大正 8 年判決原本第 1 冊

Content 書籍封面內容 第 1-200 號

Volume 上冊或下冊 A

二、以案件為單位的 metadata。在日治法院檔案的檔案架構中,隸屬於民 事判決、刑事判決、公證書三類的司法文件,有另外為書籍中的每件案件建立 各別的 Metadata。也就是說,在此三類的書籍中,除了建置了書籍的 Metadata,

其書冊內的案件亦一併額外建置案件 Metadata。

然而整個法院檔案進行數位化的時間橫跨數年之久,因各階段數位化的策 略不同,導致各法院的案件資料在建構 Metadata 時出現部份差異;除此之外,

由於不同類型的司法案件,其所紀錄的內容亦有其個別特徵;舉例來說,民事 判決的法律文件內的相關人員,有『原告』與『被告』兩種不同的身份,但是 在公證書中的相關人員則無上述的兩個身份,並且紀錄的關係人也不一定為兩 灶雙方。以下《表 4-2》就各種類型案件 Metadata 作欄位比較,並在最後作統 一欄位的歸納設計。

(42)

《表 4-2》各類型案件 Metadata 欄位差異比較表

資料類型

欄位名稱

民事判決 - 台中法院

民事判決

- 台北,新竹,嘉義法院

公證書 - ALL

刑事判決 - ALL

出處 ◎ ◎ ◎ ◎

案件編號 ◎ ◎ ◎ ◎

書類名稱 ◎ ◎

案件事由 ◎ ◎ ◎ ◎

關係人 ◎

原告 ◎ ◎

被告 ◎ ◎ ◎

檢察官 ◎

原告代理人 ◎

被告代理人 ◎ ◎

法官 ◎ ◎

書記官 ◎ ◎

判決日期 ◎ ◎ ◎ ◎

是否上訴 ◎ ◎

所在法院 ◎ ◎

備註 ◎ ◎ ◎ ◎

由上表可得知各案件內容差異最大的地方,在於案件相關人員紀錄的內 容,也就是表《4-2》以桃紅色所標示的部份,而其中以台北、新竹、嘉義三 個地方法院的『民事判決』類型的案件 Metadata 欄位最為完整,因此我們以 此類案件的欄位型式作為『日治法院檔案』系統中的案件資料 WDS 的欄位架 構基礎,並利用屬性標籤的架構紀錄各案件中差異的部份。我們將案件人員分 成三種,『主動關係人』、『被動關係人』與『其他相關人員』三種,並分別將 各類型案件內容的關係人以標籤型式個別對應到這三種欄位中,並在標籤的名 稱屬性上註明其原始的欄位名稱。以下的對應表《表 4-3》則為我們最後的案 件資料在 WDS 內 Metadata 格式與內容,並以實例註明其紀錄型式。

(43)

《表 4-3》法院檔案 – 案件 Metadata 格式

欄位代號 代表意義 各類案件相

關欄位對應

ODS WDS

Identifier 案件序號 Ntu_cu10101000000 1

Class 所屬類別 cu10101 <Class value=’cu10101’>

新竹地方法院

</Class>

BookId 所屬書籍編號 Cu0001 <Book id=’ Cu0001’>

大正 8 年判決原本 1 冊

</Book>

TccNum 案件編號 大正 8 年單民第 2 號 <Tccnum>

大正 8 年單民第 2 號

</Tccnum>

Title 書類名稱 判決 <Title>判決</Title>

Content

案件事由 土地引渡並不當利

得請求事件

<Content>

土地引渡並不當利得 請求事件

</Content>

Date

判決日期 大正 08/11/28 <Date num=’19191128’>

大正 08/11/28

</Date>

PersonM

主動關係人 關係人

原告 檢察官

謝阿 X <PersonM value=’原告’>

謝阿 X

</PersonM>

PersonB

被動關係人 關係人

被告

謝 X 雙 <PersonB value=’被告’>

謝 X 雙

</PersonB>

PersonO

其他關係人 原告代理人

被告代理人 法官 書記官

謝 X 泉

篠崎 X 太郎

<PersonO value=’原告代 理人’>

謝 X 泉

</ PersonO >

< PersonO value=’法官’>

篠崎 X 太郎

</ PersonO >

Appeal 是否上訴

Location 所在法院 臺北地方法院新竹 <Location>

(44)

出張所 臺北地方法院新竹出張 所</Location>

ImgSite 影像位置 9-14

Temp 備註

4.3 系統實做

系統的實做上,主要分為三部份依序討論。第一部份為檢索程序資料處理 Agent 建構,針對資料在各階段的 Agent 的 I/O 格式與運作方式作詳細的描述。

第二部份為二階段檢索操作之檢索建議與組合 UI 的建置,以及根據其所必須 的檢索建議與詞組組合所作的介面設計與調整。第三部份為二階段檢索操作的 檢索檢視與篩選 UI 建置,並依據其所需要的特性,檢索詞組操作與後分類階 層資訊索引,以及差異性資料架構顯示作設計與調整。

4.3.1 Agent - 檢索程序資料處理流程

Repository System

User Interface For Stage1

Data in Tag Format

Agent User Interface For Stage2 P2

P1 P1 P2

P1 : Query Set XML P3 : Query Set in SQL Original Data

Data Transfer

P3 P4

Working Data System Original Data System

P4 : Query Result in Tag Format P2 : Query Result XML

(45)

A3 查詢轉譯

A4 資料溝通 A5

資訊彙整 A6

資訊後處理 A7 輸出配置

A2 詞組重整 A1

檢索差異解析

P2

Post-Query XML

Query Result XML

P1

《圖 4-2》檢索程序資料處理流程

《圖 4-2》檢索程序資料處理流程

在上《圖 4-2》所示,檢索程序資料處理的 Agent 依共有 7 個元件,以下 依據每個 Agent 的起動因素(Start up)、資料輸入格式(Data Input)、資料輸 出格式(Data Output)、運作方式(Function)四項分別描述之:

在上《圖 4-2》所示,檢索程序資料處理的 Agent 依共有 7 個元件,以下 依據每個 Agent 的起動因素(Start up)、資料輸入格式(Data Input)、資料輸 出格式(Data Output)、運作方式(Function)四項分別描述之:

A1:檢索差異解析 A1:檢索差異解析

Start up:接收到 Query Set XML file name Start up:接收到 Query Set XML file name Data Input:Query Set XML

Data Input:Query Set XML

Input 的 Query Set XML 格式範例如下,

Input 的 Query Set XML 格式範例如下,

Ex:

Ex:

<Query name=’ QSxml’ count=’3’>

<Query name=’ QSxml’ count=’3’>

<Term Tid=’t1’ Field=’F1’ Not=’0’ Hidden=’0’>V1</ Term>

<Term Tid=’t1’ Field=’F1’ Not=’0’ Hidden=’0’>V1</ Term>

<Term Tid=’t2’ Field=’F2’ Not=’0’ Hidden=’0’>V2</ Term>

<Term Tid=’t2’ Field=’F2’ Not=’0’ Hidden=’0’>V2</ Term>

<Term Tid=’t3’ Field=’F2’ Not=’1’ Hidden=’0’>V3</ Term>

<Term Tid=’t3’ Field=’F2’ Not=’1’ Hidden=’0’>V3</ Term>

<Combine> t1+t2|t3</Combine>

<Combine> t1+t2|t3</Combine>

</Query>

</Query>

檢索詞組以 XML 中<Query>標籤所群集,其屬性有兩項:

檢索詞組以 XML 中<Query>標籤所群集,其屬性有兩項:

參考文獻

相關文件

1.10.1989, salary conversion for serving GMs with different types of academic qualifications should follow the appropriate conversion tables at Aided Schools General Circular

The basic ranks of teachers in aided secondary schools are Certificated Master/Mistress (CM) for non-graduate teachers and Graduate Master/Mistress (GM) for

Teaching experience overseas and in Others (e.g. recognised local tertiary institutions and registered Day Schools offering formal curriculum courses to own

Recycling Techniques are Available to Address Specific Pavement Distress and/or Pavement Structural Requirement.. Introduction to Asphalt Introduction

APSM is the basic rank of the Primary School Master/Mistress (PSM) grade that has been created in aided primary schools with effect from the 1994/95 school year.

Starting from the 2012/13 school year, schools may use the surplus of the EOEBG for the payment of statutory holidays/annual leave arising from the following types of specific

Like regular full-time teachers, regular part-time teachers within the approved teaching establishment are subject to the provisions under the Code of Aid for Aided Schools,

This kind of algorithm has also been a powerful tool for solving many other optimization problems, including symmetric cone complementarity problems [15, 16, 20–22], symmetric