研究背景 - 唐詩之詩風探勘

針對唐朝詩作進行風格探勘，必須具備古漢語的知識，且應用本體論來表示字詞的詞義，進而探討詩作用詞的關聯性。在本章中介紹詩的結構與特性、本體論及前人對詩詞文字和風格的相關研究。

2.1 唐詩格律與詩風簡介

中國詩詞是中國文學最具特色的創作，不僅文字優美，也講究語言音律。韻文是使用韻語的文學作品，而韻語是在文字用詞上使用音素相近的語詞，雖然文字聲調高低長短不同，但因具備相同或相近語音的語詞，連綴起來便會產生音韻諧和且令人深感共鳴。詩是韻文的一種，其中包含詩經、五言詩、七言詩、樂府、

漢詩、律詩、絕句等形式。詩中文字多用是古漢語，漢語文字都是單音詞，但到了唐朝，詩作所用的文字詩大量使用雙音詞（雙字詞），故稱為近代漢語與古代漢語區隔，而現今所使用的白話文，則稱為現代漢語。[1]

千百年來，中國詩詞經古文人不斷地研發及創作，不僅在文字用詞上的考究，

更要求能有音韻上的變化及整首詩在吟唱時格律的合諧，這些音韻與格式上的要求，稱為格律。以絕句詩的格律規則為例來說明：

(1) 字數及句數：每首絕句詩的句數為四句；若為八句，則稱為律詩；若是八句以上且每兩句排排對仗，則稱為排律或長律。

(2) 字詞的音韻：每一句末字稱為韻腳，而押韻是指韻腳所用的韻要相同。第二、四句一定要押韻，一韻到底，不能換韻。第一句押韻者，稱為入韻；

不押韻者，稱為不入韻。且每首詩的韻腳不能重複。

(3) 平仄的安排：要求單一詩句文字音韻平仄交錯，第一、二句與第三、四句對句音韻平仄對立，第二、三句鄰句音韻平仄相黏。

所以，只要知道第一句第二字的平仄，依據以上格律規則分析就可以知道這

一首絕句詩的格律。若第一句的第二字為平，則這首詩是「平起」的格律；若第

使得詩句音韻多了變化。

腦快速準確的檢索功能，將每一詞牌的格律輸入電腦，再輔以詞韻之韻字，各韻

2.3 詞彙分析和檢索

俞士汶與胡俊峰[10]利用統計的方法對唐宋詩語料進行詞彙擷取，應用「共現度」、「結合強度」等統計參數的計算方法，並與傳統的「互信息」方法進行了比較。詞彙的提取與分析當然離不開對詞義的理解，領域專家對詞義的理解自有優勢。但是，許多現代漢語中的詞（如：可以、上學等）在古詩詞中還不是詞，而古詩中的一些詞（如：弱冠、小槽等）由於社會環境的變化，在現代漢語中已經很少這樣使用。僅僅依靠領域專家是很難進行大規模調查與分析的。統計手段的引入，就能夠有一個相對客觀的標準來判定古漢語中的詞。也提出詩人在創作時的用詞特徵是詩人風格分析的重要參考。

綜上所述，利用統計方法可以快速且大量分析詩詞文字的組合，得出古漢語的詞彙，但詩詞字詞因字數受限，文字簡明而意涵豐富，不能只用統計方法來提升字詞分析的準確性。應結合詩詞專家的知識，輔以字詞分析的技術，才能建立詞義明確標示的詞彙庫。

2.4 本體論(ontology)

本體論(ontology)為用來描述與定義各種知識的語言，以便達到知識分享共用的目的，以語言資訊轉換、概念階層的連結、詞義的區分與詞義關係的連結等技術為主要核心技術，讓文字的處理不只提供查詢，也紀錄下更多文字內容細節及結構。SUMO (Suggested Upper Merged Ontology, 建議上層共用知識本體)[11]是結合英文 WordNet 架構所建置的本體論上層架構，中文化的部份是由中央研究院歷史語言研究所維護，加上台灣地區的語言使用的經驗，參考其 SUMO 概念架構，

結合不同領域的知識本體，提供跨領域的資訊檢索，並可衍生出其他特殊領域的知識本體。但 SUMO 把概念視為節點，概念架構分類極為詳細，概念與概念間不單是上下隸屬的階層關係，也可以相互參考引用，在詞語的分類上沒有明確的界定，部份詞語間無法區隔及歸類，使得資料探勘上不易處理使用。

同義詞詞林[12]主要選收現代漢語詞彙，也收錄部份常見的古語詞，根據漢語的特點與實用的原則，依詞義歸類詞彙，並考慮詞類，共分成 12 大類，94 個中類，

1428 個小類，小類之下再劃分成 3925 個詞群。其中前四大類（A、B、C、D）多屬名詞，第五大類（E）屬形容詞，第六至第十大類（F、G、H、I、J）多屬動詞，

陳書磊[13]藉著觀察詩中文字組合的必然性，定義部份字詞使用及字組合成詞聯規則探勘(association rule mining)、分類與預測(classification and prediction)及分群分析(clustering analysis)。

其中，關聯規則探勘可從資料屬性的數量關係上，找出重複機率較高的組合

confidence(A⇒B)=P(B|A) (1) support(A⇒ B)=P(A B) (2) ∪

關聯規則探勘最著名的演算法為 Apriori 演算法，這個演算法可分成兩個步驟：第一步驟是找出頻繁項目集(frequent itemset)，其次數不低於所訂定之最低支持度(minimum support)；第二步驟是從頻繁項目集中，找出不低於所訂定之最低可信度(minimum confidence)的關聯規則。[14,15]

分群分析可從大量資料中，藉著資料間屬性的相似性(similarity)或差異性 (dissimilarity)，整合成相似資料群集。較著名的分群演算法是 k 均值法(k-means)，

可依資料屬性的差異性來分群，在第三章中將會有針對詩作差異性分群的詳細討

影響宋詞風格的主要特徵文字群集，再運用 Naïve Bayesian 分類法建立宋詞風格分類的模式。但詩詞常引用典故或使用多字詞，且詞義與其組合的單一文字不同，

若能考慮詞彙的使用，更能建立精確的分類模式。

王迺仁[17]等人在文學與資訊國際會議曾提出近體詩階層式概念，將詞義相同或近似的詞彙歸為同一類，使概念繁雜的名詞整理成概念精簡的名詞類別。近體詩階層式概念是將詞林典腋中古人描寫事物的詞彙及唐詩中部份名詞參考 SUMO (Suggested Upper Merged Ontology)及同義詞詞林的架構而自行建置而成，有階層式的架構將事物的概念由大至小細分下來。利用近體詩階層式概念將唐詩所使用到的詞彙概念歸納(concept generalization)，進一步利用關聯規則探勘詩中使用詞彙類別的組合，依可信度(confidence)及支持度(support)分析詩人詩作因詞彙使用不同的風格判別規則。因近體詩階層式概念是自行建置，階層架構不完整且分類規則因人為判別而不一致，致使資料分析準確率不高。

綜合以上的研究，具有豐富意義的詞彙是詩作風格分析的重要關鍵。因此，

本論文分析唐朝詩作所使用的名詞，依詞義建置唐詩名詞概念階層，並使用資料探勘的技術，針對唐朝詩人王維在全唐詩中所收錄的詩作，進行風格探勘。

在文檔中唐詩之詩風探勘 (頁 12-21)