• 沒有找到結果。

名詞擷取

在文檔中 唐詩之詩風探勘 (頁 22-26)

三、 唐詩之詩風探勘

3.1 名詞擷取

唐朝文人將其知識及情感表達在所創作的詩作中,以景色、事物變化的描寫 來表達對時事變化的感傷與情懷。在詩作中,描寫景物或事物的字詞就是以名詞 為主,且名詞類詞彙意義實在,能單獨充當句子的主要成分。所以,本論文中主 要的重點是分析詩人詩作,找出名詞使用與詩人創作風格的關係。

要將詩作中的名詞擷取出來,必須要有大量的唐詩詞彙,來分析詩作文字,

並篩選出名詞。依據唐朝詩體文字使用格律要求音調變化,提出唐詩格律斷詞模 組,將斷出來的語詞查詢唐詩詞彙庫,並擷取出詩作中的名詞,整理成唐詩名詞 集,做為分析的基本資料,如圖 2所示。

圖 2 名詞擷取程序圖

唐朝文學盛行詩,文人寫作不僅講究文字意涵的優美,也重視吟詠時語氣的 變化。吟詠詩作時,偶數字數的詩句音調及語氣在句子末字能完整結束,但詩人 常為了讓句子語氣的變化或詩中意念的延伸,而多出一字,自成一個音節,以五 言詩為例,依字數分成 2-2-1 三個音節。文人有時為了強調語氣或使語調變化,會 將音節點後移在句子的最後一字,而在第末三字的第一字產生一頓,此時五言詩 可能變成 2-1-2 三個音節。詩人配合音節字數選用詞彙,組合成一首聲韻優美的詩 作。

因此,利用唐詩字詞格律的特性,建立格律斷詞模組,並將斷出來的字詞查 詢由詩詞專家所提供的唐詩詞彙庫,若有符合者,便是音韻和諧且有特定意涵的 唐詩詞彙。

圖 3 名詞擷取流程圖

Algorithm: Noun retrieval algorithm. It is a process that retrieving nouns from a poem.

Symbol Definition:

Poem: one poem in PoemSet

Q(X): query noun X from Tang poem noun corpus and X ∈ Tang poem noun corpus Input:

PoemSet: all poems created by Wang-Wei(王維)

Sentence: the union set of segmented vocabularies, e.g., Sentencei={S1∪S2…∪Sn} Output: N: noun set from S

名詞擷取的流程如圖 3所示,並依演算法 1 進行名詞擷取。當詩句文字輸入 後,先以兩字為一音節的規則切出前二字,並查詢唐詩詞彙庫中,若有符合的詞 彙且是名詞,則予以標示;若無符合的詞彙則再切分成兩個單字詞來進行查詢及 標示的工作。重複上述的步驟直到文字字數為末三字或末二字時,則進行下一個 步驟。因詩句末三字可能有三字詞、前二後一、前一後二及都是單字詞的可能性,

必須依序考慮,對應詞彙庫標示出可能的名詞。依詞長最大為優先,先考慮三字 詞,再依詩句格律要求,依序考慮前二後一、前一後二及三個單字詞的可能性查 詢詞彙庫,符合則切分詞彙並標示。

以王維鹿柴中的詩句「空山不見人」來說明名詞擷取的流程,如圖 4所示。

先切分出前二字「空山」,查詢唐詩詞彙庫,沒有符合的名詞,而再切分成「空」、

「山」二字,經查詢後,「山」為名詞。而句中的末三字「不見人」則必須較多的 字詞組合的可能性。首先查詢彙中否有「不見人」,若有則標示為名詞。而詞彙庫 中沒有「不見人」這個詞彙,則再切分成「不見」、「人」,將「不見」這詞查詢唐 詩詞彙庫,發現沒有符合的名詞;再切分成「不」、「見人」,並查詢詞彙庫,仍是 沒有符合的名詞,則再細分成「不」、「見」及「人」,經查詢後,只有「人」是名 詞。所以,這句「空山不見人」這句中的名詞為「山」及「人」兩字。

圖 4 「空山不見人」名詞擷取過程

圖 5 「渡頭餘落日」名詞擷取過程

再以輞川閒居贈裴秀才迪詩句「渡頭餘落日」為例來說明,如圖 5。先切分 出前二字「渡頭」,查詢詞彙庫後可成功標示為名詞。末三字「餘落日」查詢詞彙 庫失敗後,而切分成「餘落」、「日」,查詢後因沒有「餘落」這詞彙,而改切分成

「餘」、「落日」。「落日」經查詢成功後,可標示為名詞。所以,從「渡頭餘落日」

中可以擷取出「渡頭」、「落日」等名詞詞彙。

在上述的例子中,可以發現,唐詩詞彙庫中所收錄的詞彙可能有單字詞、雙 字詞及三字詞,三字詞在詞彙庫詞彙數所佔的比率為 3%,雙字詞則佔 56%,單字 詞佔 41%。詞彙收錄至詞彙庫時,不只是收錄名詞詞彙,且收錄部份標示為非名 詞特定詞彙,可以增快名詞擷取的效率,且也因此增強名詞擷取的準確率。例如圖 4中,將「不見」收錄至詞彙庫並標示為非名詞,因減少查詢的次數而增進名詞擷 取效率。

在文檔中 唐詩之詩風探勘 (頁 22-26)

相關文件