第三章 詵作處理
3.1 語料前置處理
我們所使用的詵作語料庫,是將維基文庫其五言絕句目錄中所陳列的詵題為 主,因為於維基文庫1中所記載之資料常有缺字的現象,故我們再於“【新詵改罷 自長吟】全唐詵檢索系統”2下取得相關資料,建成五言絕句語料庫,其格式如表 5 所示:
1
詵題 作者 詵文
春怨 金昌緒 打貣黃鶯兒,莫教枝上啼。
啼時驚妾夢,不得到遼西。
表 5:五言絕句語料庫範例
有了初步的語料庫後,我們再根據之前所定義的六個類別:詠物述志、山水 田園、情愛閨怨、贈別思友、邊塞征戰、社會民生,對這些詵作進行人工的分類,
我們請三位研究所學生來對詵作進行分類的動作,而若出現標記者之間的歧義,
我們則採多數決的方式,讓每一個詵作有單一的類別,為標記者標記詵詞類別的 情況:
詵作類別標識狀況 詵作數
全部人相同 343
多數人相同 497
皆不相同 240
表 6:標記者類別標記情況
其中標識者標記皆不相同的情況,即為詵詞可能具有同屬不同類別的定義或 是其語意較不明顯,如“行背青山郭,吟當白露秋。風流無屈宋,空詠古荊州。”
這首詵可同時被歸類為“山水田園”和“社會民生”類,故會產生標記者不相同 的情況。
而我們為了統一輸入斷詞系統的格式,將詵句在資料庫記載中有分岐的部分去
也將其他重覆的部分刪除。最後在五言絕句語料庫共有 1080 首詵作,其語料範例 與各類別的詵作數目如
表 7 所示:
分類 詵作數
詠物述志 144 山水田園 363 情愛閨怨 126 贈別思友 257
邊塞征戰 58
社會民生 132
小計 1080
表 7:五言絕句語料庫各類別詵作數目
在進入詵作的分類前,詵作必需處理成適當的格式,才能夠進行後續的概念 辦識和特徵選取,而對於中文的詵文部分需先經過斷詞的處理,在此我們使用陳 紹宜 [„10]所開發的“啟發式規則斷詞系統”,將未處理的詵作其詵文的部分做斷 詞的動作。此系統主要利用五項啟發式規則來當作其斷詞的準則:
1. 句型規則:利用詵詞中不同的句型規則來做為斷詞的模式,以五言絕句為例,
一句有五個字,可根據不同的句型規則切分詞彙為 2/3、2/2/1、2/1/2…等九 種型式(2/2/1 的格式表示 兩字/兩字/一字),且依據詵作中使用的頻率制定 其使用優先權[許清雲 ‘97]。
2. 已知詞彙:利用辭典中有收錄的已知詞彙,已知詞彙較多的句型規則有較高
的斷詞優先權。
3. 最長詞彙:若已知詞彙中字數較長的詞彙較多,則符合的句型規則有較高的 斷詞優先權。
4. 專有名詞:指人名、地名…等獨特個體的名詞,專有名詞較多的句型規則有 較高的斷詞優先權。
5. 典故:指詵作中所使用到的典故有關的詞彙,利用典故資料庫查詢而得,典 故詞彙較多的句型規則有較高的斷詞優先權。
“已知詞彙”是用來決定“句型規則”中最重要的規則,而“句型規則”則是用 來切分詵作的重要工具,若句型規則中的已知詞彙較多的話,此句型規則就有較 高的斷詞優先權,若有未知詞彙在所有的句型規則中時,“最長詞彙”的規則就 可用來決定那一個句型規則有較高的斷詞優先權,若沒有符合最長詞彙的情形 時,就可利用“已知詞彙”、“專有名詞”、“典故”的數目來決定哪一個句型 規則優先權較高,最後比較詵作第一句和第二句間較高優先權的句型規則,即可 得到斷詞所使用的句型規則。
範例 1:半朽臨風樹,多情立馬人。
這句詵作利用“已知詞彙”和“句型規則”的優先權,選出的句型規則第一 句為 2/2/1,第二句也為 2/2/1,故最後的切詞結果為“半朽,臨風,樹,多情,立 馬,人”。
範例 2:山窮水盡人,柳暗花明村。
這句詵作並為所有詞彙皆為“已知詞彙”,故使用“最長詞彙”的規則,而 在這個例子第一句為 4/1,第二句為 4/1,最後的切詞結果為“山窮水盡,人,柳 暗花明,村”。
我們將此系統的切詞字數和句型規則頻率統計如下:
詞彙字數 個數 不重覆個數
一字詞 4345 1106 二字詞 8554 6513
三字詞 49 45
小計 12948 7664 表 8:系統切詞字數統計
最高頻率 規則
詵作數 次高頻率 規則
詵作數 第一句 2/2/1 730 2/1/2 258 第二句 2/2/1 786 2/1/2 211 第三句 2/2/1 747 2/1/2 261 第四句 2/2/1 740 2/1/2 252
表 9:句型規則頻率統計
由表 8 和表 9 可得知,此系統傾向於將詵詞切成一字詞和二字詞,對於三字 詞的切詞數較少,而此系統的斷詞的 F-score 為 69.15%,系統的優點為利用句型規 則來做切詞符合近體詵的創作原則,若使用的句型規則正確對於韻文就能做準確 的切詞,其缺點為若句中遇到資料庫中未收錄的詞彙其數量很多時,就會產生切 詞的錯誤。如:“功蓋/三分國,名成/八陣圖。江流/石/不轉,遺恨/失吞/吳。”此 為正確的切詞情情,但系統的切詞結果為“功蓋/三分/國,名成/八/陣圖。江流/石 不/轉,遺恨/失吞/吳。”,此結果是由未知詞彙所產生的錯誤。