國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
第一章 緒論
1.1 研究背景與目的
現今資訊數位化快速發展的時代,在各個領域中許多的資訊皆由電腦的輔助予以數位化。
數位人文是這幾年數位科技應用的重要趨勢之一,數位人文是藉由資訊科學的技術與結 合大量的人文語料。曾有數位人文的研究是對於《全唐詩》語料進行各種特徵分析,例 如:詞彙頻率、共現詞彙、空間、時間、詞彙間相互關係等。藉由多種的特徵分析,讓 做唐代文學相關的研究學者能夠做進一步的研究,以彌補在過去利用人工難以逐一比對 或無法觀察到的現象。數位人文的發展並不只侷限於某個國家或地區,目前全球不同國 家對於數位人文皆有其重視的研究面向,例如Digital Humanities研討會[27]以及台灣主 辦的國際研討會 Digital Archives and Digital Humanities (DADH)[33],都是目前數位人文 領域很好的研討會。另一方面世界上的前幾名的大學許多都有設立專門研究數位人文的 單位,例如 Stanford Humanities Center 和 Digital Arts & Humanities at Harvard University,
因此我們可以得知數位人文的發展,是逐漸受到重視且是一個趨勢。
數位人文的發展主要圍繞在以下幾個概念與精神:一、必須建構在大量的數位資料 上;二、不完全仰賴資訊科學的技術;三、分享並開放資料是大重點,以求降低使用者 的進入門檻。而本研究希望透過數位人文的方式,研究中國歷史上重要的文化遺產《全 唐詩》[22]。
因目前網路上有許多版本不一的《全唐詩》數位化版本,對於數位人文的研究者而 言,使用的語料不同會影響研究的結果。在此之前人文學者大多是使用人工比對的方式,
發現多個版本間的《全唐詩》內容存在不同寫法,而本研究希望透過程式比對的方式對
1
‧
‧
統使用 Elasticsearch[28]作為搜尋核心,檢索的介面提供作者、卷次、詩名和內容的欄位 搜尋,使用者可以依自己想搜尋的內容輸入文字,最後輸出版本的比對結果,比對結果 CBDB)[19]所記錄的詩人別名,但 CBDB 的資料並非是每位詩人都有被紀錄。在搜尋完 交往詩後,除了全唐的社群網絡分析外,另外一方面則以四個唐朝時期的劃分做社群網 絡分析[18]和詞彙分析,四個唐朝時期的二字詞變化、社群網絡關係的群體對常用詞彙 的 TF-IDF[16]值以及社群網絡的視覺化。以上是以詩人與詩人之間互相提到的關係作為 社群網絡的基礎。另一個面向是詞彙衍生的社群網絡,我們透過每首唐詩與唐詩做比對,
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
我們的後續分析和研究,是基於多個版本進行版本比對後所產生之《全唐詩》整合 版本。首先是利用我們的搜尋方法找出《全唐詩》有收錄的作品裡,詩名以及內文有提 到其他詩人的作品,並且產生一個交往詩檔案。我們透過找出來的交往詩檔案,繪製出 詩人的社群網絡,能讓人文學者快速了解詩人與詩人的交往關係。且我們提出一個社群 詩人的詞彙分析工具,使用者能夠輸入存在社群網絡中且自己有興趣的詩人,此工具能 幫助研究者找出此詩人跟其有交往關係的詩人共同常用的詞彙以及找出和其他詩人的 共同詞彙作品。
最後我們提出詞彙史想法與工具,此工具能夠給予詞彙標記時間,研究者能根據自 己的需求,觀察語料中自己有興趣的詞彙。我們藉由 CBDB 資料庫所取出的歷代人物資 料,再給予一個詞彙集合,語料中的詞彙標記上這首作品其作者的生卒年,最後會將詞 彙標記後的結果繪圖成時間序列圖。此工具能夠讓研究者了解詞彙在自己的語料中,是 由哪些人再使用,以及詞彙在時間軸的使用程度變化。
1.4 論文架構
本論文共分為七章,第一章為緒論,介紹我們的研究背景與動機、研究方法、主要貢獻;
在第二章會回顧版本比對、唐詩詞彙的相關研究以及社群網絡分析之相關研究;第三章 介紹我們的系統架構和我們的語料如何取得;第四章則是《全唐詩》的多版本比對和檢 索;第五章介紹我們如何利用《全唐詩》整合版本建構社群網絡和後續的詞彙分析;第 六章介紹我們的實驗結果;第七章則是結論與未來展望。
4