文獻探討

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章文獻探討

本章分為兩部份進行討論，在 2.1 節回顧數位人文相關研究；2.2 節介紹有關中國古典詩歌的相關研究，其中包含數位以及傳統人文的詩歌研究。

數位人文相關研究

有了數位典藏的成果之後，如何有效分析數位化的資料成為一項重要的議題，

首先，要如何在大量的資料中去蕪存菁，找到真正有用的部分？

網際網路的搜尋引擎，從蒐集網頁資料、建立索引，到提供查詢服務，使用資訊科學領域的資訊檢索(information retrieval)[13]技術，這項技術也廣泛運用在獨立資料庫的檢索系統，資料庫當中也包含數位典藏資料庫。資訊檢索中特別是文字資訊的檢索，常使用關鍵詞(term)權重來評估文件的內容和查詢的相關度，

TF-IDF（term frequency-inverse document frequency）是計算關鍵詞權重的其中一種常見的方法。而要知道文檔和文檔的相關度，其中一種方法便是向量空間模型

（vector space model，簡稱 VSM）[4]，是將文件表達成空間中的向量，再計算文件和文件的相關程度，而評價資訊系統的效能，則常用準確率(precision)和召回率(recall)為評價指標。

也因為自然語言處理(natural language processing)[14]的發展，能將人類的自然語言轉化為更易於電腦理解處理的形式，文字資訊的數位人文研究，也因此較為發展快速。

劉昭麟等[43]將自然語言處理技術應用於中文史學文獻分析，估算歷史文獻和研究議題的相關程度，而金觀濤等 [29] 運用共現詞彙分析 (co-occurrence analysis)觀察「華人」觀念起源。陳建良等[3]觀察主觀性詞彙，並加入文章主題、

詞彙詞性、句法和語意等特徵，探索美國財務報表與盈餘的關聯性。林書佑利用

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

潛在語意分析(latent semantic analysis)以及隱含狄利克雷分佈 (latent dirichlet allocation)作為主題分析的方法，或是詞彙的共現距離，運用統計的方法，計算關鍵詞彙之間的關聯度，提供人文學者分析《人民日報》及《新青年》觀念的轉變，以上皆有運用詞彙作為觀察語料的線索。

目前運用詞彙為基礎觀察文本的工具甚多，如：臺灣數位人文小小讚[10]，

但是文言文的詞彙抽取仍然不容易，彭維謙等[36]，嘗試以 PMI(pointwise mutual information)將《資治通鑑》斷詞，參考《資治通鑑大辭典》作為判斷依據，自動擷取中文典籍中人名。然而詞彙僅僅展示了文本的其中一個面相，還有許多脈絡 [37]，隱藏在電子文獻之中。

序列比對[5]是另一個觀察語料的線索，目前序列比對也廣泛應用在分子生物領域[18]，鍾嘉軒[52]用字串比對的方式，自動化比對《藝文類聚》與《太平禦覽》引書條目，使用最長共同子序列(longest common subsequence)演算法，分析不同文獻共同擁有的知識引文。此外，視覺化的呈現方法也是數位人文研究中熱門的研究領域，如鍾嘉軒[52]的研究，就設計了視覺化的觀察介面，呈現《藝文類聚》與《太平禦覽》的引書結構。

詩歌相關研究

古典詩歌是中國文學藝術的精華，亦是古典韻文中的經典，其中有許多作品仍傳頌至今。這些詩詞不僅在過去，是文人雅士、文學家的研究對象，加上數位化的文字典藏成果、數位人文的研究方法，目前已有一部分古典詩歌的人文研究，

有數位技術的介入。有關中國古詩詞的數位人文研究，或是電腦輔助教學系統，

有以下這些實例：

電腦作為古文研究的輔助，如劉岩斌[42]等，在北京大學計算語言學研究所，

自 1993 年開始，就將電腦作為中國古代詩詞研究的輔助，研究開發的「中國古代詩詞電腦輔助研究系統」。穗志方[50]等，則根據郭錫良先生的《漢字古音手

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

冊》、《佩文詩韻》結合北京大學計算語言學研究所所開發的現代漢語注音字典，

作為判斷注音的依據，開發宋代名家詩選自動注音系統。

其中關於詞彙抽取以及斷詞研究面向，許薰尹[34]用規則式(rule-based) 的方法嘗試進行宋詞斷詞，胡俊峰及俞士汶[30]，以 PMI 以及自創的結合強度統計方法提取唐宋詩中的詞彙，並基於詞彙觀察唐詩間的相似程度。

以前人的研究作為依據，進行電腦輔助教學，則如羅鳳珠[53][55]等，開發

「倚聲填詞格律自動檢測索引教學系統」，藉助電腦快速的檢索功能，並以龍榆生先生的研究──《唐宋詞格律》[49] 作為格律、詞韻的依據，輔助使用者依照詞牌、格律填詞，另也提供檢索例詞、例句的服務，作為填詞的參考。羅鳳珠[54]

也提出運用詩詞句法規律，擷取詩詞中的詞彙。張如瑩及黃居仁[6]基於本體論 (ontology)建置唐詩三百首知識本體。另一例則如楊哲青等[40]提出的近體詩專家系統，根據近體詩的詩譜格律，判斷使用者所創作的詩句，是否合乎近體詩的格律或規則。

關於電腦作為詩風探勘的工具，蔣紹愚[42]等藉助北京大學中文系的「全唐詩檢索系統」，研究唐代詩詞作品，篩選出李白和杜甫「月」及「風」的詩歌作品，探究兩位唐詩人風格的差異。劉昭麟[11][9][44]等，更近一步以統計的方法分析了唐詩中關於「月」及「風」的詞彙，另外也採取共現詞彙的分析方法，觀察中唐詩歌中的顏色詞彙，分析作者風格以及詩歌內容，而且也更進一步分析《全唐詩》共現、搭配、對仗關係，發展出對聯系統。劉昭麟[12]等，也以唐代的交往詩，探勘唐代文人的社會網絡，運用 CBDB 作者生卒年，將唐詩宋詞中的詞彙進行不同作者的時序分析，也將唐詩宋詞以作品為單位進行比對，找出兩作品間相似的狀況。

王廼仁[21]則擷取詩中名詞，先將名詞歸納成不同概念的階層式分類，並依據詩作中名詞概念所屬之分類，將詩作分群，研究詩詞作品的名詞和詩詞風格的關係，另外也分析詩人生平，如：年代、生活地區、任官、貶官，並運用 Apriori

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

演算法，來探勘詩人平仄用韻慣用的關聯規則(association rule)，以單一人物為研究主軸，探究蘇軾的詩作慣用規則，以及潛在風格。

許嘉妮[33]運用專有名詞、領字、節奏等，將宋詞斷詞，再依據建議上層共用知識本體 (suggested upper merged ontology，SUMO)[15]、《同義詞詞林》等具有階層化結構的知識庫，運用本體論(Ontology)的方法，將詞彙依據概念分類，

最後依照詞彙的分類判斷詞的風格以及情境。不過此研究的斷詞模組依然需要設定門檻值(threshold)，可能因為不同門檻值而有不同的斷詞結果。而李威延[26]

也運用本體論及分類演算法，建構一套唐詩推薦系統。

易勇[19]等則運用機器學習(machine learning)的技術，企圖分析宋詞作品的風格，使用了基因演算法(genetic algorithm)篩選出十個主要影響宋詞風格的特徵文字群集，風格分類則運用單純貝氏分類器(naive Bayes classifier) ，區分中國傳統詩詞的「豪放」、「婉約」兩種風格，但此研究以單字詞作為分析的基礎，放棄了詩詞中隱含多字詞的可能性。

鄭永曉[48]則嘗試運用情感計算分析古典詩詞所表達情感的可能性。另外，

亦有以數位人文技術對非傳統詩歌的研究，如 Kaplan[7]等，以語意、寫作習慣等等特徵，分析美國詩的風格。

對應相關研究

而關於詩詞對應的人文研究方面，如王偉勇[22]《宋詞與唐詩之對應研究》

一書，則就人文學者的角度，分析唐詩和宋詞間的字面、句意、甚至是故實的對應情況，進而研究宋詞借鑒唐詩的各項技巧以及實例，研究中提到有很多具有字面相似、或是使用典故相同的狀況。過去有人文研究發現，宋代作品取材自唐詩，

或是借鑒唐詩創作經驗的狀況非常常見。

特別是有一些宋詞人喜歡取材唐詩，就像朱自力[23]的研究就發現，「融詩入詞」是宋詞人周邦彥的特色，而其中又說道「張炎〈詞源〉云：『美成詞渾厚

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

和雅，善於融化詩句。』又云：『採唐詩，融化如自己者，乃其所長。』」，所以不論是現代的研究，或是宋代的詞論專書〈詞源〉，都肯定了宋詞作品借鑒前人作品的可能性。亦或如裴普賢[41]的集句詩研究，發現在古代的一些作品，會將前人的文句彙集成一首作品，這作品稱之為集句詩，而這樣的風氣至宋代漸漸盛行，在加上王安石的提倡，成為宋代一種流行的詩體，甚至至元代依然流行。

陳金現[35]所著《宋詩與白居易的互文性研究》一書，研究白居易與宋詩的互文，發現白居易是除了杜甫、韓愈之外，另一位深深影響宋詩的唐代詩人，舉凡宋詩人周必大、王宇偁、魏了翁、陳師道等人，都受其影響，其中受到影響最多的宋詩人是黃庭堅。此研究中互文的詩詞，除了字面相同的狀況外，亦有用字完全不相同，但語意上類似的狀況。我們舉一個書上的例子，恰巧具有上面這兩種狀況：「王維點化李嘉佑的一作品片段：『水田飛白鷺，夏木囀黃鸝』成：『漠漠水田飛白鷺，陰陰夏木囀黃鸝』，王維的此一作品片段，又被杜甫點化成『江天漠漠鳥飛去，風雨時時龍一吟』」。

亦有何志華等人所著之《先秦兩漢典籍引〈詩經〉資料彙編》¹⁰，基於香港中文大學的「漢達中國古代傳世文獻電腦化資料庫」，嘗試以資訊檢索的技術，

輔助人文學者找出古籍所引之經文。其中「明引」的部分，指的是直接引錄經文，

可以使用檢索系統將其找出；而「暗引」的部分，則需研究者翻檢古籍，找出古籍內容暗合之處。在之後亦有如《先秦兩漢典籍引《周易》、《論語》、《孟子》資料彙編》¹¹等對應資料出版，提供給各方研究者從事更深入的研究工作。

10 見何志華、陳雄根編著，《先秦兩漢典籍引〈詩經〉資料彙編》，香港：香港中文大學出版社，

2004 年。

11 見何志華、陳雄根編著，《先秦兩漢典籍引《周易》、《論語》、《孟子》資料彙編》，香港：香港中文大學出版社，2007 年 12 月。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

另外，在唐詩宋詞等語料中，常會有內容相似或相同的詩重複出現，王兆鵬 [20]所著之《唐宋詞史的還原與建構》，則也有討論詩歌典籍可能誤收詩歌作品的現象，並對其加以考辨。

小結

本研究統一選用「對應」一詞，定義為詩歌作品字面或是語意相似狀態的術語。詩詞對應這個課題，可為詩歌和詩歌字面上的對應，或為詩歌和詩歌語意上

在文檔中中國古典詩歌對應探勘及詞彙分析工具 - 政大學術集成 (頁 18-24)

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章 文獻探討

數位人文相關研究

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

詩歌相關研究

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

對應相關研究

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

小結

立政治大學

第二章文獻探討

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學