自從電腦的發明以來,人類文明歷經了大型電腦 (mainframe)、個人電腦 (personal computers)、World Wide Web 等重要的資訊科技發展階段,至今電腦 已經普及於一般人的日常生活當中,許多原本在實體環境下做的事,都已逐漸 開始的人文計算領域 (humanities computing),利用電腦來協助產生文本中所有 字的 concordance,以及延續此方法、在文學語言學分析中熱烈發展的文本分析
件翻閱,數位化史料的使用卻完全得仰賴資訊系統,因此系統提供的功能多寡
而近幾年興起的「數位人文」領域 (digital humanities),正是嘗試要為人文 學者提供更多資訊科技的服務,不僅僅是為人文學者找尋有價值的資料進行數 位化、建置資訊系統提供研究者取用數位物件,更是要在人文研究的過程中提 供更多資訊技術上的協助,例如:開發各領域人文學者都會使用到的 citation tools、annotation tools 等資訊工具,此外也有一些數位人文研究是針對特定一 批史料特性、開發corpus-dependent 資訊工具,來回答特定的研究議題。
本論文欲解答的問題是:在大量的數位化史料下「資訊科技能提供什麼幫 History Digital Library,簡稱 THDL) 的基礎下開展的。「臺灣史料集成」是一項 大規模蒐集臺灣史料、進行整理、數位化、出版的文化建設基礎工程[1],在
「集成」的推動下蒐集了兩批臺灣史料:『明清臺灣行政檔案』與『古契約文 書』,各累積了 37,836 與 35,451 件的數位化全文史料,前者全文總計有三千三 百萬字、後者有兩千一百萬字,並且兩者都已是目前同類史料集中最大量的,
這兩批資料收錄在台灣歷史數位圖書館 THDL 中,提供檢索使用。THDL 是一 個以檢索為主的資訊系統[2],它彈性的檢索功能可允許使用者對檢索結果文件 集進行操作,調整成完全符合使用者需求的文件集;並為了讓使用者能發掘檢 索結果文件之間隱含的關連性,THDL 也發展出“regard query returns as a sub-collection”的觀念 — 將檢索結果文件集視為有意義的整體,提供檢索後分類、
詞頻分析等為使用者分析檢索結果的工具[3]。
本論文的章節安排如下:第二章會探討針對「資訊科技如何輔助人文研究」
的相關研究,包括人文計算、計量歷史學、數位典藏與數位圖書館、歷史資料 庫、以及新興的數位人文領域。第三章則介紹本論文用到的歷史資料,即收錄 於 THDL 的『明清臺灣行政檔案』與『古契約文書』兩文獻集。第四章介紹 THDL 系統,我們將著重在其彈性的檢索功能,以及檢索後分類、詞頻分析等 分析工具上。第五章開始則進入論文方法的部份,首先講述的是「文件集的特 徵觀察」方法,我們除了提出其數學模型,也會實際運用兩類文獻上,舉出一 些有趣的觀察。第六章則以「明清行政檔案引用關係」為例,介紹一個實際在 大量史料間建構史料關係的資訊方法。第七章則再舉出兩個史料關係建構的例 子作為佐證,它們是「契書關係」與「內容相似關係」。最後於第八章我們做出 總結與討論。