• 沒有找到結果。

第四章 《全唐詩》多版本比對、檢索

4.1 各版本的《全唐詩》語料前處理

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第四章 《全唐詩》多版本比對、檢索

本章一共分為三個節次,將於 4.1 節介紹我們四個《全唐詩》版本的語料前處理,於 4.2 節介紹我們如何進行四個版本的比對,4.3 節介紹我們如何建立《全唐詩》的檢索系統。

4.1 各版本的《全唐詩》語料前處理

數位人文的研究中,首先的難題是取得語料,再來是對各種語料進行前處理,本研究我 們取得的四個版本的《全唐詩》語料,四個版本的原始格式都不同,也存在很多細節上 的問題,因此我們再進行各版本的版本比對工作前,先將各版本的《全唐詩》進行前處 理,且前處理後的內容儲存成相同的格式和相同的編排方式。在本研究中我們規定前處 理後的語料格式為一列包含卷次、詩名和作者,接著下一列則是這首詩的內文。如表 4.1 所示,第一列資訊為卷一第 88 首詩歌作品;詩名為句;作者為李世民,下一列則是這 首詩的內文。接著我們將介紹語料的前處理,將分為兩個節次。4.1.1 節介紹《御定全唐 詩》和「寒泉」版本的前處理,4.1.2 節介紹「中國哲學書電子化計畫」和「文學 100」

的前處理。

表 4.1 前處理後的儲存格式 卷 1_88 【句】李世民

雪恥酬百王,除凶報千古。昔乘匹馬去,今驅萬乘來。近日毛雖暖,聞弦心已驚。

12

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4.1.1

《御定全唐詩》和「寒泉」前處理

在 3.2 節我們提到《御定全唐詩》和「寒泉」語料,處理過程中發現兩者須做前處理的 部分相似,因此放在同一小節中討論。《御定全唐詩》版本是由大量的人力閱讀四庫全 書影像檔,再由人工的方式輸入成文字檔。原始的檔案中我們發現到不同段落有不同的 格式,原因可能是由不同的人做紀錄所導致,因此《御定全唐詩》版本的內容存在多種 格式的狀況,我們須以程式自動化的方式將格式不同的部分轉換成簡單的單一格式。如 圖 4. 1 為《御定全唐詩》語料的真實樣子,紅色字在語料中通常代表詩名,但語料中很 多時候詩名未必是標註成紅色,亦或是紅色字未必是詩名。所以我們必須能夠找出語料 中所有詩歌的詩名以及與其相對應的內文,儲存成我們規定的格式。這部分的工作是由 程式找出正確的部分後,再加上人工輔助找出錯誤的格式內容逐一校正。

《御定全唐詩》和「寒泉」二個版本的內容都夾雜著個別研究者對於詩歌作品的注 釋,前處理時我們將不會用到的注釋刪除,只保留對於詩歌內文有不同說法的部分,這 一部分的注釋在內容會使用「一作」,說明一首唐詩中某些句子或某些字有兩種或者兩 種以上的流傳版本,表 4.2 為《御定全唐詩》的內容注釋範例。我們將「一作」的部分 保存成另外的檔案,在之後的比對工作中,若是不同版本中有異同處發生時,仍會參考 此異同處在《御定全唐詩》和「寒泉」是否有「一作」的注釋,若有此注釋則會加入一 起考慮。

圖 4. 1 《御定全唐詩》真實語料內容

13