國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
1
第一章 緒論
研究背景與動機
在非資訊的各個領域中,數位科技的跨領域應用漸趨普遍,如:電腦輔助教 學、電腦答題、機器翻譯、檢索系統、數位內容、數位典藏、數位人文(digital humanities)等。今日,文化保存也借助數位科技的力量,這項技術被稱為數位典 藏。
數位典藏的範疇廣闊,包含了建築、考古器物、書畫影音、漢籍…等等。舉 例來說,如:故宮博物院的典藏資料庫系統1,其中橫跨了器物、書畫、先秦銅 器紋飾、清代宮中檔奏摺及軍機處檔摺件全文影像等典藏資料,或如中國歷代人 物傳記資料庫(China biographical database)2,收錄七世紀至十九世紀中國歷史 上重要人物的傳記資料,並持續擴增資料。中國歷史文獻的數位化,如中國哲學 書電子化計畫3,部分運用了 OCR(optical character recognition)技術,加速文獻 數位化的速度,或如維基文庫4等等,皆是文獻數位化的成果,這些數位典藏成 果除可供保存及複製流傳外,亦可作為研究、教育或產業應用之用。
現今流通於網路上的數位典藏資源,即使屏除了付費以及限制使用的部分,
種類及數量依然十分驚人,如劉錚雲等人[45],說明了中研院史語所「漢籍電子 文獻資料庫」的建置規則、程式、目前五億餘字的典藏成果,以及漢籍資料庫每 年新增兩千萬字規模的成長速度,可以見得在目前能夠取得的數位化文獻眾多。
1 國立故宮博物院典藏資料庫,http://www.npm.gov.tw/zh-TW/Article.aspx?sNo=02000021
2 中國歷代人物傳記資料庫(CBDB),http://projects.iq.harvard.edu/chinesecbdb/home
3 中國哲學書電子化計畫,http://ctext.org/zh
4 維基文庫,https://zh.wikisource.org/zh-hant/
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
2
雖然網路上的數位資源眾多,但仍存在一些問題,因為目前網路上有許多文 本資料分散不同的企業或是機構之間,而且也不容易確認語料的來源,在 Peter Bol[1],所提出的 cyber infrastructure 的概念,希望能夠建立一個公開的數位人文 基礎架構和服務,使文本資料庫能夠互相建立連結,進而可以提供可驗證的公開 語料庫。
又即使有了這些豐富的數位資源,如果沒有後續的研究分析,那麼這些數位 化的資源也只能流於保存。然而,由於數位科技應用廣及各個不同領域的趨勢,
在人文研究方面也不例外,又在數位典藏多個面相和範疇中,發現某些典藏成果,
正是過去人文研究所使用的資料,因此有某些人文研究,也開始運用數位的力量 或方法,分析及整理這些數位化的文獻。
何謂數位人文呢?統整第六屆數位典藏與數位人文國際研討會官方網站5上 的定義:「人文研究藉助數位資源及資訊科技,尤其是傳統方法無從觀察到的現 象,或無法想像的議題,或難以進行的研究,如擴展更大地理範圍,或如延伸更 長歷史縱深,需數位科技彌補的人文研究。」
可見數位人文的範疇十分廣泛,其中的一個面向便是以少量的時間,幫人們 快速完成大量數位資源內容的分析工作,包含了一些單憑傳統人工方法難以進行,
或是重複枯燥的工作,如:詞頻統計、共現詞彙統計、時序分析、跨區域的地理 空間分析。除此之外,數位人文還能幫助我們什麼?首先,先從數位人文的發展 淵源開始討論,綜觀數位人文之前,什麼樣的原因催使這一個新領域的誕生?相 較於前數位時代,現在的我們,所能接觸的資料量是前所未有的,再加上資訊技 術提供了處理大量資料的服務,而更大量資料的分析,或許能找到過去未能發現 的新意義。為了找到過去未能發現的新意義,數位分析的方法,也從過去「文學 與語言學計算」演變成今日的「數位人文」[17]。與「人文計算」(humanities computing)相比,「數位人文」特點有:「更低進入此領域的門檻、更開放、更
5 第六屆數位典藏與數位人文國際研討會,http://www.dadh.digital.ntu.edu.tw/
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
3
龐大的資料、因為計算不能解答所有人文問題,所以不只強調計算[39]」,這幾 點可以說是數位人文的概念與精神。
舉網路檢索巨擘Google6為例,現在仍持續進行的計畫Google books7,目標 是將人類有史以來出版過的印刷書籍全數收入其中,並且上網,此計畫結合「數 位典藏」的概念及「資訊流通」的精神。此外,這個計畫下亦有Google books N-gram8,其目的是透過圖表,讓人們可以快速檢視哪些詞彙在歷史的時間軸上 最常被熱烈討論及關注。從觀察巨量資料,解決人們想知道的問題,這樣的研究 主軸符合「數位人文」的特點。
近年來使用數位方法輔助人文研究已經越來越普及,數位技術對大量資料作 各種分析、資料整合,研究者透過觀察到的現象,再進一步進行人文研究。數位 人文最大的價值,在於從大量資料發掘出另一層新意義,或許可以彌補傳統人文 研究上的不足,企圖用新的方法,解決過去難以解決的問題,或者更進一步發現 新的現象、提出新的問題。
數位人文的重要性日益增加,從過去數位技術僅僅是幫助人文學者從大量的 資料中檢索出有興趣的內容,後來發展到詞彙計數和統計,現在更發展到自動標 記系統,或是社會網絡分析(social network analysis)、地理資訊系統(geographic information systems)等等不同的研究方向,如:MARKUS9能自動標記出古典中文 的人名、地名、官職名等,Maximilian Schich 等[16]運用地理資訊系統以及社會 網絡分析,分析人類出生、死亡及移居,研究地理上的文化中心網絡、文化吸引 力的動態及發現人類移動模式。未來數位人文也希望能以嚴謹的分析方法,提供 研究者觀看資料蘊含意義的面向。現今人文研究紛紛看上數位人文的各種優勢,
6 Google, https://www.google.com
7 Google books, https://books.google.com/books
8 Google Books N-gram, https://books.google.com/ngrams
9 MARKUS, http://dh.chinese-empires.eu/beta/
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
4
在這種趨勢的推波助瀾下,根據不同內容及目的發展的數位人文工具,如雨後春 筍般出現。
在眾多數位典藏以及人文研究的成果中,我們選擇古典中文的詩歌作品為研 究範疇。主因是詩歌能夠取得公開的數位典藏資料,而且歷史上關於詩歌的人文 研究眾多,而且到了近代,詩歌仍是一個熱門的研究領域,如:羅鳳珠[53][55]
等,開發「倚聲填詞格律自動檢測索引教學系統」。或如高旖璐[32]有關《全唐 詩》中「禽鳥入詩」之硏究。或如李劍亮[27],根據唐宋詩詞探討唐朝、宋朝的 歌妓制度。或如吳榮富[25]研究唐詩人李商隱詩的用典,在各首詩中的詮釋問題。
又由於唐代政治人物,有些同時也是唐詩人,如:元稹。孫琴安[31]所著之《唐 詩與政治》,考察了唐詩與唐代政治之間的關係。另外,再加上資訊技術興起後,
古典詩歌的數位人文研究、或是做為輔助教學的資訊系統,等等不少研究先例或 是實際應用,能夠做為本研究的參考或是論述基礎。此外,關於詩歌的數位人文 研究,還有許多值得我們探索的議題,或者是還有許多數位的研究方法,尚未應 用在詩歌的研究上。
因此,本研究希望能夠開發一個針對古典中文詩歌的數位分析工具,降低傳 統人文研究的人力成本,並透過自動化的方法增進研究效率;另一方面,也嘗試 應用一些數位技術,初步判斷及篩選出有趣或者重要的資訊,從而進行不同面向 的議題探討。
研究目的
本研究希望能針對中國古典詩歌類型的語料,藉由字面上的比對,設計一套 分析工具,探討詩歌之間的關聯性,而因為計算詞彙語意而衍生的詞彙擷取功能,
也進一步提供詩歌詞彙的初步分析,觀察詞彙的分佈狀態,幫助使用者找出潛在 的關鍵詞彙。最後統整不同時間、不同作者之間的關聯性。希望透過上述數位分 析方法以及結果,輔助相關領域的人文研究。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
5
說到中國文學上的詩詞藝術,不得不提到唐代和宋代,而其中宋詞更是「上 承唐詩,下啟元曲」的重要文學詩歌。而一般的學者認為,詩經是中國的詩歌文 學的濫觴[24]。目前本研究以《詩經》、《楚辭》、《全唐詩》、《全宋詩》及《全宋 詞》語料為基礎,進行以下幾種層面的分析:一、「字面」為主的語料比對,其 中又分為「詩歌」、「語句」兩種比對單位,在比對之後判定結果是否具有對應的 可能,以及可能的對應類別;二、透過資訊科學的技術對詩歌進行詞彙擷取,並 初步分析詩歌的詞彙;三、計算詩歌詞彙的語意,希望作為未來開發詩歌語意比 對工具的依據。
主要貢獻
本研究主要提供一個詩歌語料的分析工具,目標著重於減少面對大量語料時,
人工細部比對語料的工作負擔,協助找出詩歌之間「字面」的對應。其中「字面」
層次的比對,記錄了細部的比對特徵,能夠提供微觀的觀察面向,以及做為使用 者篩選特定比對結果的一種參考。本研究亦嘗試運用不同的方法,找出詩歌間可 能的「詞彙」對應。
關於字面比對方面,若是只單用作品為比對單位,在大量的比對資料中,會 比較難發現兩作品只有少許的字相同,但是卻有語句對應的狀況,所以本研究 3.2 節提供了以語句為單位比對的功能,希望能夠在詩歌中找出更多可能的對應,
而且減少人工篩選所需的時間,在這裡所提到的語句,是指作品中每一個用標點 符號斷開的字串。另外,本研究也判斷兩作品字面相同的地方,是否將字的順序 改變了,作為字面對應的一種判斷特徵。
在 3.3 節的詩歌斷詞器設計上,結合了兩種前人的詞彙擷取研究,在不具有 已知的詞彙資料,不需要設定門檻值(threshold)的情況下,也能進行斷詞。初步 分析詩歌詞彙的共用,除了可以提供詞彙的分佈觀察外,也能夠在有許多未知詞
在 3.3 節的詩歌斷詞器設計上,結合了兩種前人的詞彙擷取研究,在不具有 已知的詞彙資料,不需要設定門檻值(threshold)的情況下,也能進行斷詞。初步 分析詩歌詞彙的共用,除了可以提供詞彙的分佈觀察外,也能夠在有許多未知詞