• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

7

第二章 文獻探討

本章分為兩部份進行討論,在 2.1 節回顧數位人文相關研究;2.2 節介紹有 關中國古典詩歌的相關研究,其中包含數位以及傳統人文的詩歌研究。

數位人文相關研究

有了數位典藏的成果之後,如何有效分析數位化的資料成為一項重要的議題,

首先,要如何在大量的資料中去蕪存菁,找到真正有用的部分?

網際網路的搜尋引擎,從蒐集網頁資料、建立索引,到提供查詢服務,使用 資訊科學領域的資訊檢索(information retrieval)[13]技術,這項技術也廣泛運用在 獨立資料庫的檢索系統,資料庫當中也包含數位典藏資料庫。資訊檢索中特別是 文字資訊的檢索,常使用關鍵詞(term)權重來評估文件的內容和查詢的相關度,

TF-IDF(term frequency-inverse document frequency)是計算關鍵詞權重的其中一 種常見的方法。而要知道文檔和文檔的相關度,其中一種方法便是向量空間模型

(vector space model,簡稱 VSM)[4],是將文件表達成空間中的向量,再計算 文件和文件的相關程度,而評價資訊系統的效能,則常用準確率(precision)和召 回率(recall)為評價指標。

也因為自然語言處理(natural language processing)[14]的發展,能將人類的自 然語言轉化為更易於電腦理解處理的形式,文字資訊的數位人文研究,也因此較 為發展快速。

劉昭麟等[43]將自然語言處理技術應用於中文史學文獻分析,估算歷史文獻 和 研 究 議 題 的 相 關 程 度 , 而 金 觀 濤 等 [29] 運 用 共 現 詞 彙 分 析 (co-occurrence analysis)觀察「華人」觀念起源。陳建良等[3]觀察主觀性詞彙,並加入文章主題、

詞彙詞性、句法和語意等特徵,探索美國財務報表與盈餘的關聯性。林書佑利用

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

8

潛在語意分析(latent semantic analysis)以及隱含狄利克雷分佈 (latent dirichlet allocation)作為主題分析的方法,或是詞彙的共現距離,運用統計的方法,計算 關鍵詞彙之間的關聯度,提供人文學者分析《人民日報》及《新青年》觀念的轉 變,以上皆有運用詞彙作為觀察語料的線索。

目前運用詞彙為基礎觀察文本的工具甚多,如:臺灣數位人文小小讚[10],

但是文言文的詞彙抽取仍然不容易,彭維謙等[36],嘗試以 PMI(pointwise mutual information)將《資治通鑑》斷詞,參考《資治通鑑大辭典》作為判斷依據,自動 擷取中文典籍中人名。然而詞彙僅僅展示了文本的其中一個面相,還有許多脈絡 [37],隱藏在電子文獻之中。

序列比對[5]是另一個觀察語料的線索,目前序列比對也廣泛應用在分子生 物領域[18],鍾嘉軒[52]用字串比對的方式,自動化比對《藝文類聚》與《太平 禦覽》引書條目,使用最長共同子序列(longest common subsequence)演算法,分 析不同文獻共同擁有的知識引文。此外,視覺化的呈現方法也是數位人文研究中 熱門的研究領域,如鍾嘉軒[52]的研究,就設計了視覺化的觀察介面,呈現《藝 文類聚》與《太平禦覽》的引書結構。

詩歌相關研究

古典詩歌是中國文學藝術的精華,亦是古典韻文中的經典,其中有許多作品 仍傳頌至今。這些詩詞不僅在過去,是文人雅士、文學家的研究對象,加上數位 化的文字典藏成果、數位人文的研究方法,目前已有一部分古典詩歌的人文研究,

有數位技術的介入。有關中國古詩詞的數位人文研究,或是電腦輔助教學系統,

有以下這些實例:

電腦作為古文研究的輔助,如劉岩斌[42]等,在北京大學計算語言學研究所,

自 1993 年開始,就將電腦作為中國古代詩詞研究的輔助,研究開發的「中國古 代詩詞電腦輔助研究系統」。穗志方[50]等,則根據郭錫良先生的《漢字古音手

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

9

冊》、《佩文詩韻》結合北京大學計算語言學研究所所開發的現代漢語注音字典,

作為判斷注音的依據,開發宋代名家詩選自動注音系統。

其中關於詞彙抽取以及斷詞研究面向,許薰尹[34]用規則式(rule-based) 的方 法嘗試進行宋詞斷詞,胡俊峰及俞士汶[30],以 PMI 以及自創的結合強度統計方 法提取唐宋詩中的詞彙,並基於詞彙觀察唐詩間的相似程度。

以前人的研究作為依據,進行電腦輔助教學,則如羅鳳珠[53][55]等,開發

「倚聲填詞格律自動檢測索引教學系統」,藉助電腦快速的檢索功能,並以龍榆 生先生的研究──《唐宋詞格律》[49] 作為格律、詞韻的依據,輔助使用者依照 詞牌、格律填詞,另也提供檢索例詞、例句的服務,作為填詞的參考。羅鳳珠[54]

也提出運用詩詞句法規律,擷取詩詞中的詞彙。張如瑩及黃居仁[6]基於本體論 (ontology)建置唐詩三百首知識本體。另一例則如楊哲青等[40]提出的近體詩專家 系統,根據近體詩的詩譜格律,判斷使用者所創作的詩句,是否合乎近體詩的格 律或規則。

關於電腦作為詩風探勘的工具,蔣紹愚[42]等藉助北京大學中文系的「全唐 詩檢索系統」,研究唐代詩詞作品,篩選出李白和杜甫「月」及「風」的詩歌作 品,探究兩位唐詩人風格的差異。劉昭麟[11][9][44]等,更近一步以統計的方法 分析了唐詩中關於「月」及「風」的詞彙,另外也採取共現詞彙的分析方法,觀 察中唐詩歌中的顏色詞彙,分析作者風格以及詩歌內容,而且也更進一步分析《全 唐詩》共現、搭配、對仗關係,發展出對聯系統。劉昭麟[12]等,也以唐代的交 往詩,探勘唐代文人的社會網絡,運用 CBDB 作者生卒年,將唐詩宋詞中的詞 彙進行不同作者的時序分析,也將唐詩宋詞以作品為單位進行比對,找出兩作品 間相似的狀況。

王廼仁[21]則擷取詩中名詞,先將名詞歸納成不同概念的階層式分類,並依 據詩作中名詞概念所屬之分類,將詩作分群,研究詩詞作品的名詞和詩詞風格的 關係,另外也分析詩人生平,如:年代、生活地區、任官、貶官,並運用 Apriori

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

10

演算法,來探勘詩人平仄用韻慣用的關聯規則(association rule),以單一人物為研 究主軸,探究蘇軾的詩作慣用規則,以及潛在風格。

許嘉妮[33]運用專有名詞、領字、節奏等,將宋詞斷詞,再依據建議上層共 用知識本體 (suggested upper merged ontology,SUMO)[15]、《同義詞詞林》等具 有階層化結構的知識庫,運用本體論(Ontology)的方法,將詞彙依據概念分類,

最後依照詞彙的分類判斷詞的風格以及情境。不過此研究的斷詞模組依然需要設 定門檻值(threshold),可能因為不同門檻值而有不同的斷詞結果。而李威延[26]

也運用本體論及分類演算法,建構一套唐詩推薦系統。

易勇[19]等則運用機器學習(machine learning)的技術,企圖分析宋詞作品的 風格,使用了基因演算法(genetic algorithm)篩選出十個主要影響宋詞風格的特徵 文字群集,風格分類則運用單純貝氏分類器(naive Bayes classifier) ,區分中國傳 統詩詞的「豪放」、「婉約」兩種風格,但此研究以單字詞作為分析的基礎,放棄 了詩詞中隱含多字詞的可能性。

鄭永曉[48]則嘗試運用情感計算分析古典詩詞所表達情感的可能性。另外,

亦有以數位人文技術對非傳統詩歌的研究,如 Kaplan[7]等,以語意、寫作習慣 等等特徵,分析美國詩的風格。

對應相關研究

而關於詩詞對應的人文研究方面,如王偉勇[22]《宋詞與唐詩之對應研究》

一書,則就人文學者的角度,分析唐詩和宋詞間的字面、句意、甚至是故實的對 應情況,進而研究宋詞借鑒唐詩的各項技巧以及實例,研究中提到有很多具有字 面相似、或是使用典故相同的狀況。過去有人文研究發現,宋代作品取材自唐詩,

或是借鑒唐詩創作經驗的狀況非常常見。

特別是有一些宋詞人喜歡取材唐詩,就像朱自力[23]的研究就發現,「融詩 入詞」是宋詞人周邦彥的特色,而其中又說道「張炎〈詞源〉云:『美成詞渾厚

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

11

和雅,善於融化詩句。』又云:『採唐詩,融化如自己者,乃其所長。』」,所以 不論是現代的研究,或是宋代的詞論專書〈詞源〉,都肯定了宋詞作品借鑒前人 作品的可能性。亦或如裴普賢[41]的集句詩研究,發現在古代的一些作品,會將 前人的文句彙集成一首作品,這作品稱之為集句詩,而這樣的風氣至宋代漸漸盛 行,在加上王安石的提倡,成為宋代一種流行的詩體,甚至至元代依然流行。

陳金現[35]所著《宋詩與白居易的互文性研究》一書,研究白居易與宋詩的 互文,發現白居易是除了杜甫、韓愈之外,另一位深深影響宋詩的唐代詩人,舉 凡宋詩人周必大、王宇偁、魏了翁、陳師道等人,都受其影響,其中受到影響最 多的宋詩人是黃庭堅。此研究中互文的詩詞,除了字面相同的狀況外,亦有用字 完全不相同,但語意上類似的狀況。我們舉一個書上的例子,恰巧具有上面這兩 種狀況:「王維點化李嘉佑的一作品片段:『水田飛白鷺,夏木囀黃鸝』成:『漠 漠水田飛白鷺,陰陰夏木囀黃鸝』,王維的此一作品片段,又被杜甫點化成『江 天漠漠鳥飛去,風雨時時龍一吟』」。

亦有何志華等人所著之《先秦兩漢典籍引〈詩經〉資料彙編》10,基於香港 中文大學的「漢達中國古代傳世文獻電腦化資料庫」,嘗試以資訊檢索的技術,

輔助人文學者找出古籍所引之經文。其中「明引」的部分,指的是直接引錄經文,

可以使用檢索系統將其找出;而「暗引」的部分,則需研究者翻檢古籍,找出古 籍內容暗合之處。在之後亦有如《先秦兩漢典籍引《周易》、《論語》、《孟子》資 料彙編》11等對應資料出版,提供給各方研究者從事更深入的研究工作。

10 見何志華、陳雄根編著,《先秦兩漢典籍引〈詩經〉資料彙編》,香港:香港中文大學出版社,

2004 年。

11 見何志華、陳雄根編著,《先秦兩漢典籍引《周易》、《論語》、《孟子》資料彙編》,香港:香 港中文大學出版社,2007 年 12 月。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

12

另外,在唐詩宋詞等語料中,常會有內容相似或相同的詩重複出現,王兆鵬 [20]所著之《唐宋詞史的還原與建構》,則也有討論詩歌典籍可能誤收詩歌作品 的現象,並對其加以考辨。

小結

本研究統一選用「對應」一詞,定義為詩歌作品字面或是語意相似狀態的術 語。詩詞對應這個課題,可為詩歌和詩歌字面上的對應,或為詩歌和詩歌語意上

本研究統一選用「對應」一詞,定義為詩歌作品字面或是語意相似狀態的術 語。詩詞對應這個課題,可為詩歌和詩歌字面上的對應,或為詩歌和詩歌語意上