本文目標文本為歷史文本,故使用的地理資料將以歷史地名為主,而使用的 地圖則為 Google Map 所提供的世界道路圖、地形圖、衛星圖做為呈現的底圖。除 此之外,為了建立自動地名標註亦需要使用實際的歷史文本作為實驗文本,以下 將介紹本文所使用的空間資料、實驗文本、以及建立使用者介面的 GIS 工具。
2.1 中華文明之時空基礎架構
網址:http://ccts.sinica.edu.tw/
Fig. 2-1 中華文明之時空基礎架構
中華文明之時空基礎架構(CCTS)由中央研究院 GIS 中心所執行,期望建構以 中國為空間範圍,並以原始社會迄今的中國歷史為時間縱深,以中國文明為內涵 的整合性資訊應用環境。主要對象除以學術研究與教育為主的學者、專家、與教 師外,亦希望能兼顧一般性的,以時間及空間為主的資訊管理、分析、整合與呈 現等應用[8]。
CCTS 的基本空間圖資以譚其驤先生主編之《中國歷史地圖集》為主要的基礎,
提供上古至清代,上下逾二千年的中國歷代基本底圖,並輔之以持續整理蒐集之 各類歷史地圖、遙測影像等基礎圖資。《中國歷史地圖集》共有八冊,內容主要是
9
中國歷史上各時期中某個特定年份的一級及二級政區圖,而幾乎沒有對歷史事件 的反映。共有圖 304 幅。以清代為例,有嘉慶二十五年(1820)及光緒三十四年(1908) 兩幅地圖。
Fig. 2-2 《中國歷史地圖集》1820 年清代地圖
本文採用 CCTS 歷代地名圖層,內容為西漢至清代的基本空間圖資,共 38545 筆資料,各朝圖資採用年代如 Table 2-1 所述,本次實驗使用清代 1820 年之點坐標 資料,每筆資料包括地名名稱,朝代時間帶,國家行政區,以及點坐標資料如 Fig.2-3 所示。坐標系統採用 WGS84,適用於常見的地圖系統,不需再行轉換。
本研究自中央研究院申請到此基本圖資之 Excel 檔案,透過程式將每筆資料匯 入至 MySQL 資料庫做為本研究之空間資料庫,使用者將透過用戶端之 UI(User Interface)傳送要求至伺服器端程式,伺服器端再從空間資料庫中取得資料回傳至用 戶端 Google Map API 呈現。
10
朝代 圖層時間(西元年)
西漢 西元前 7 年
東漢 140
三國 262
西晉 281
東晉 382
南北朝 497
隋 612
唐 741
五代十國 943
北宋 1111
南宋 1208
元 1330
明 1582
清 1820
Table 2-1 CCTS 歷代地名圖層年代對照
Fig. 2-3 空間資料庫資料範例
11
2.2 使用史料-《清實錄》
《清實錄》為清朝歷代皇帝統治時期之大事紀,紀錄了清代政治、經濟、文 化、軍事、外交等各方面內容。
本論文針對歷史文件地名做自動化標註,採用《清實錄》做為所採用的實驗 文本,其原因在於:第一,《清實錄》共 3647 萬 5317 字,數量龐大且完整,涵蓋 清太祖至宣統三年,首尾完整;第二,此文本為官方紀錄,結構嚴謹,撰寫規則 明確,內文編寫方式有一定結構,變異性不大。此二特性對於本研究的實驗較為 適合,故採用《清實錄》作為實驗文本。
資料內容為台大數位典藏與自動推論實驗室所建構之「清實錄資料庫」,此資 料庫之全文內容來源為中央研究院歷史語言所之「漢籍電子文獻資料庫」,自其中 擷取內文及詮釋資料,資料庫以每日的個別事件定義為一條目,共有 325941 條。
本研究取此資料庫「康熙朝」33100 條、「乾隆朝」88777 條之日期、標題、內文 等三個欄位匯出成文字檔案,用於系統之實驗及訓練。
Fig. 2-4 漢籍電子文獻資料庫《清實錄》數位化全文
12
Fig. 2-5 《清實錄》資料庫條目內容
2.3 系統建構工具-Timemap
此工具為一 Javascript library,用來幫助建構使用網路地圖,整合 SIMILE Timeline 時間軸工具及 Google Map、Openlayers、Bing 等地圖服務,能讓使用者讀 取 JSON、KML 或 GeoRSS 資料並同步顯示於時間軸及地圖上,將時間軸可視範 圍內的條目呈現於地圖上。本研究採用此工具來建立使用者介面,原因在於其提 供了許多方便的函式讀取資料與操作地圖,且具有高度的彈性使開發者能輕易加 入其他功能。其整合時間軸與地圖呈現的能力,與本研究結合歷史文件與地理資 訊之特性相符。本系統將 HTML、AJAX、PHP 等技術結合此工具用來建構整個用 戶端的系統。
Fig. 2-6 應用 Timemap 建立 WebGIS 之範例
13