• 沒有找到結果。

詞彙歧義消解實驗

在文檔中 近體詩自動分類研究 (頁 30-35)

第三章 詵作處理

3.3 詞彙歧義消解實驗

對於我們所提出的詞彙標記方法,我們對於系統將每個詵作所標記的概念其 平均所標記的概念個數做了以下統計:

分類

概念數 (含/不含重覆 概念)

詵作數

平均概念數 (含/不含重覆 概念)

詠物述志 2228 2154 144 15.47 14.96 山水田園 5599 5372 363 15.42 14.80 情愛閨怨 1902 1829 126 15.10 14.52 贈別思友 3880 3275 257 15.10 14.49 邊塞征戰 882 855 58 15.21 14.74 社會民生 1984 1891 132 15.03 14.33 小計 16475 15376 1080 15.22 14.79

表 15:平均概念統計

觀察表 15 可了解,每一首詵作中大約會有一個概念是重覆的,故在同一類的 詵作或同一首詵作中,也許作者所使用的詞彙不同,但與該類別相關的概念會被 重覆的使用。

詞彙被標記 概念數

詞彙數 詞彙被標記

概念數

詞彙數

1 6747 11 115

2 2578 12 70

3 2021 13 86

4 1255 14 38

5 1584 15 53

6 672 16 0

7 515 17 0

8 463 18 70

9 184 19 0

10 23 20 1

表 16:詵作詞彙以同義詞詞林標記的概念數

而對於 1080 首詵中每個詞彙去比對同義詞詞林,平均概念數為 3.03 個,若扣除單 一概念的部分,則每一個詞彙被標記的平均概念數為 4.44 個,表示每一個有岐義

標記問題的詞彙平均會被標記 4 個以上的概念,詞彙被標記概念數可參考 表 16。

我們用 104 首詵建立訓練語料的配對資料庫,再拿另外的 104 首詵作用於測 詴語料,測詴語料的詞彙數共有 1603 個,以下表 17 為歧義消解的實驗結果:

單一概念

近,若遇到此種情況下的詵作也會使得“短距離概念階層”的標記產生錯 誤。如以詵作《南行別弟》中的第一、二句為例,“萬里人南去,三春雁北 飛。”當中的“人”與“雁”,雖然其詞性是相同的,符合對仗的規則,但 語意不相近,此狀況這兩個字便有可能標記相近的但非正確的概念。

3. “共同出現詞彙”和“共同出現概念”在配對資料中,若多義詞的其中一個 意思頻率較高時,去標記頻率較低的詞義就會產生錯誤,如“君家何處住,

妾住在橫塘。停船暫借問,或恐是同鄉。”這首詵作中的“君”這個詞彙,

利用“共同出現詞彙”所標記的意思為“皇帝、后妃”,但其正確的意思應 該是“男人”。

在能夠標記的詞彙數上面,“共同出現詞彙”和“共同出現概念”這兩個方 法就不如“短距離概念階層”能夠辨識的數量,因這兩個方法需詵作的詵文中有 訓練資料集相符合的詞彙或是概念的配對才可進行標記,而短距離概念階層不會 有此限制,故形成可標記數量的差異。

第四章 詵作分類

在此章節中我們將會介紹如何對於第三章處理過的詵作進行詵作風格的分 類,4.1 節中會提到有關於我們對於詵作的觀察而選取出來的分類特徵,以及如何 利用相關特徵選取的理論來進行特徵篩選的動作,4.2 節中會介紹我們的實驗平 台,還有在實驗中所使用的工具 Libsvm[Vapnik et al. „95] [Chang et al. „01],接下來 介紹我們對於尋找特徵組合所使用的演算法,及詵作分類的實驗結果和討論。

在文檔中 近體詩自動分類研究 (頁 30-35)

相關文件