三、 唐詩之詩風探勘
3.2 名詞概念歸納
再以輞川閒居贈裴秀才迪詩句「渡頭餘落日」為例來說明,如圖 5。先切分 出前二字「渡頭」,查詢詞彙庫後可成功標示為名詞。末三字「餘落日」查詢詞彙 庫失敗後,而切分成「餘落」、「日」,查詢後因沒有「餘落」這詞彙,而改切分成
「餘」、「落日」。「落日」經查詢成功後,可標示為名詞。所以,從「渡頭餘落日」
中可以擷取出「渡頭」、「落日」等名詞詞彙。
在上述的例子中,可以發現,唐詩詞彙庫中所收錄的詞彙可能有單字詞、雙 字詞及三字詞,三字詞在詞彙庫詞彙數所佔的比率為 3%,雙字詞則佔 56%,單字 詞佔 41%。詞彙收錄至詞彙庫時,不只是收錄名詞詞彙,且收錄部份標示為非名 詞特定詞彙,可以增快名詞擷取的效率,且也因此增強名詞擷取的準確率。例如圖 4中,將「不見」收錄至詞彙庫並標示為非名詞,因減少查詢的次數而增進名詞擷 取效率。
3.2 名詞概念歸納
詩人對文字詞語有豐富的知識,擅長以不同詞彙描寫同一事物,例如:峰、
嶺、嶽、巒與巔等字,都是山的同義詞或近義詞。致使語詞文字繁多,且電腦會 因不同的文字表現,而視為不同的資料,造成資訊量過多,無法分析出文字使用 的知識。
在本文中提出唐詩名詞概念階層,歸納語義概念相似的語詞為名詞類別。將 語義繁雜的字詞轉換為概念精簡的名詞類別,且不會破壞詩作的意涵表現。利用
資料探勘的技術,分析詩作中名詞類別的使用,找出與詩人創作風格相關的知識。
名詞概念階層建置是參考同義詞詞林分類的架構,共分為四層,如圖 6所示。
圖 6 唐詩名詞概念階層
其中將同義詞詞林中人(A)、物(B)、時間與空間(C)及抽象事物(D)等 四類為名詞做為階層的第一層(Level 1,編號為A、B、C與D),此四大類底下的 中類為第二層(Level 2,編號為a、b、c、d……),同義詞詞林的小類為唐詩名詞 概念階層的第三層(Level 3,編號為 01、02、03、04……),且將唐詩名詞詞彙歸 在第四層(Level 4)。因同義詞詞林中收錄部份古語詞,將唐詩名詞詞彙對應到同 義詞詞林中查詢,可以得到其在同義詞詞林的階層編碼,做為名詞在唐詩名詞概 念階層中的位置編碼,名詞概念階層編碼如圖 7所示。例如,「人」在名詞概念階 層的序號為 21,歸類在人(A)大類,泛稱(a)中類,第(01)小類之中。仍有 部份的字詞有歧義的問題,再由詩詞專家建議及修改。
圖 7 名詞概念階層位置編碼
以王維詩作鹿柴、竹里館、送別、雜詩及相思等五首詩作為例來說明,並以 全唐詩中王維詩作的次序來編號。將表 2中的名詞查詢唐詩名詞概念階層,將名 詞在概念階層中的位置編碼,整理如表 3。
表 2 唐詩名詞集
詩名 編號 詩中所使用到的名詞 鹿柴 p311 山,人,人,語,景,林,青苔,上 竹里館 p323 篁,琴,林,人,明月
送別 p336 山,中,日暮,柴扉,春,草,明年,王孫 雜詩 p345 君,故鄉,故鄉,事,來日,綺窗,前,梅,花 相思 p349 紅豆,南國,秋,枝,君,物
表 3 唐詩名詞類別集
詩名 編號 詩中所使用到的名詞位置編碼
鹿柴 p311 Be04, Aa01, Aa01, Dk11, Bg03, Bh01, Bh04, Cb03 竹里館 p323 Bh01, Bp13, Bh01, Aa01, Bd02
送別 p336 Be04, Cb05, Ca29, Bn04, Ca19, Bh03, Ca18, Af06
雜詩 p345 Aa03, Cb15, Cb15, Da01, Ca12, Bn04, Ca11, Bh02, Bh02 相思 p349 Bh06, Cb02, Ca19, Dn08, Ah08, Ba01
若要以唐詩名詞概念階層第二層來探勘詩作的風格,則必須對詩作所使用的 名詞作概念歸納(concept generalization)。將在概念階層第四層的名詞詞彙找出其 所對應的第二層的位置編碼,例如:「人」是歸在第三層位置編碼「Aa01」之下的 詞彙,其第二層的位置編碼為「Aa」。因此,原本是數千個不同的詞彙,經詞義概 念歸納後,可以將眾多詞義不同的詞彙歸納成數十個詞義精簡的名詞類別,再藉 由資料探勘的技術找出詩作中名詞類別使用的組合關聯規則,作為風格判斷的規 則。例如,p311(鹿柴)使用到名詞類別Aa(人,泛稱)有 2 個,Be(地貌)有 1 個,Bg(自然物)有 1 個,Bh(植物)有 2 個,Cb(空間)有 1 個,Dk(文字)
有 1 個,如表 4所示。在表中以這五首詩中所使用到的名詞概念階層第二層名詞 類別作為資料欄位,如:Aa、Af、Ah等 15 個欄位,並計算詩作中各類名詞的使 用個數,最後並加總計算出詩作名詞使用的總數量。
表 4 唐詩名詞類別表
異性(dissimilarity)可以式 3 來表示。
}