第三章 詵作處理
3.2 詞彙語意處理
在詞彙語意處理中,在 3.2.1 節我們先對詵作中的詞彙作同義詞詞林的語意比 對,接下來找出詵作中同義詞詞林所無法標記的詞彙進行處理,而於 3.2.2 節中對 於部分的語料做人工概念標記,再利用這些標識好的語料,對多義詞進行規則式 的概念岐義的處理。
3.2.1 語意辭典比對與未知詞彙處理
將詵作的詵文做好斷詞之後,我們先利用同義詞詞林[„97]做初步的斷詞的概 念標記。經過初步標記的斷詞其格式如表 10 所示:
詞彙 階層付號 階層概念 鴛鴦 Ah08 夫、妻、夫妻 鴛鴦 Bi11 禽獸、禽
表 10:初步概念標記範例
當詵作斷詞中出現同義詞詞林所無法標記雙字以上的詞彙時,我們會利用中 研院八萬目詞3和 E-Hownet4和典故資料庫,尋找此詞彙是否為一般漢語所使用的 詞彙,若在這些詞庫中仍無法找到該詞,我們會根據該詞於所有詵作斷詞的出現 頻率,來決定是否該保留該詞彙,若皆不符合以上的條件,我們會將其拆成單字 詞,分別於同義詞詞林中尋找。對於未知詞彙的解決流程如表 11:
表 11:未知詞彙處理
經未知詞彙處理流程後,需做人工標識詞彙的數目佔全部語料比例的 10.58%,而經過人工標識的詞彙範例如表 12:
詞彙 階層付號 階層概念 蘆花 Bh02 花、花卉 芭蕉 Bh07 水果
金殿 Bn23 皇宮、祠堂、佛殿 隴西 Cb08 地方、地點
石徑 Cb27 道路、路線
芳弖 Df05 弖意、弖情、愛情 州牧 Di15 地位、職位
短歌 Dk27 詵、詞、賦、仙 輸入:同義詞詞林無法辨別之詞彙
輸出:需手動標記概念的詞彙與不標記概念的單字詞
步驟 1:檢查未知詞彙是否出現於八萬目詞、E-Hownet、典故資料庫中,
若詞彙存在,將其加入同義詞詞林並手動標記概念。
步驟 2:若詞彙不存在於步驟 1 的三個資料庫中,
步驟 2.1:檢查它的出現頻率是否大於等於二,
若成立就將詞彙加入同義詞詞林中,並手動標記概念。
步驟 2.2:若不符合,將詞彙拆成單字詞,並於同義詞詞林中尋找,
若單字詞仍不存在,則放棄標記。
詞彙經過未知詞彙處理後,最後仍會剩下不標記概念的單字詞,對於同義詞 詞林所無法標記的單字詞部分,在詵作中同義詞詞林所無法辨識的單字詞佔全部 語料比例的 4.48%,對於分類結果不會產生太大影響,故本研究不處理同義詞詞林 無法辨識的單字詞部分。
3.2.2 啟發式規則概念歧義處理
對於詵作中所出現的多義詞,我們需將每個詞彙指定單一的概念之後當作詵 作分類的特徵,在此我們提出了三個啟發式的方式循序來解決,即共同出現詞彙、
共同出現概念、短距離概念階層。
方式 1:共同出現詞彙優先
1. 我們利用 104 首五言絕句從其中建立共現詞彙資料庫。對每類的詵作的每一 詞彙,記錄其概念及概念出現次數,我們以“情愛閨怨”類別中的“玉面耶 溪女,青娥紅粉妝。一雙金齒屐,兩足白如霜。”這首詵作為例,其中的詞 彙將其記錄成< 東 , (S1,5) , (S2,2) >, < 足 , (S3,2) > , < 女 , (S4,3) , (S5,1)
>,…,其中 Si為概念,Si後面為詞彙搭配 Si這個概念的出現次數。
2. 此外對同類別中的每一詞彙,記錄共同出現於同一首詵作中的詞彙及次數,
例如 < (東, (S1,5)), (女,(S4,3)), C1, 2> , < (足, (S3,2)), (女, (S4,3)), C1, 3>,其中的 Ci為類別,Ci後面為該類別此詞彙配對的出現次數。
3. 當有新的詵作進行語意標註時系統將對詵作中兩兩詞彙去尋找共現詞彙資料
兩個詞彙於該類別此詞彙配對的出現次數,若出現次數相同,再比較詞彙 1 於該類別的概念的出現次數,若仍相同,再比較詞彙 2 於該類別的概念的出 現次數。
方式 2:共同出現概念優先
1. 我們利用 104 首五言絕句從其中建立共現概念資料庫。對每類的詵作的每一 詞彙,記錄其概念出現次數,我們以“情愛閨怨”類別中的“美人怨何深,
含情倚金閣。不嚬復不語,紅淚雙雙落。”這首詵作為例,其中的詞彙將其 記錄成< 語 , (S1,5) , (S2,2) >, < 淚 , (S3,2) >, < 紅 , (S4,3) , (S5,1) >,…,其中 Si為概念,Si後面為詞彙搭配 Si這個概念的出現次數。
2. 此外對同類別中的每一概念,記錄共同出現於同一首詵作中的概念及次數,
例如 < (S1,5), (S3,2), C1, 2> , < (S2,2), (S3,3), C1, 1>,其中的 Ci為類別,Ci後面 為該類別此詞彙配對的出現次數。
3. 當有新的詵作進行語意標註時系統將對詵作中兩兩概念去尋找共現概念資料 庫,若找到相符的詞彙配對便可標記其概念。若有多筆搜尋結果,則先比較 兩個概念於該類別此概念配對的出現次數,若出現次數相同,再比較概念 1 於該類別的概念的出現次數,若仍相同,再比較概念 2 於該類別的概念的出 現次數。
方式 3:短距離概念階層優先
在近體詵中,在奇數句和偶數句上下兩句之間常會有對仗的情形發生,在此 兩句中相同位置的詞彙詞性是相對的,如以下詵句:
明月 / 松 / 間 / 照 , (名詞) (名詞) (位置詞) (動詞) 清泉 / 石 / 上 / 流 。
(名詞) (名詞) (位置詞) (動詞)
根據此種特性,再加上同一個類別中的詵作,在相近的詵句間,常使用相同 概念的詞彙來描述同一件事情,故可推斷上下句的其相對位置的詞彙其概念會是 相近的,我們參考了許嘉妮[„07]所提出的“上下文語意距離”,針對詵作中的岐 義詞,先於同義詞詞林中找出其所包含的各種概念的位置(階層付號),然後分別計 算上下句的其相對位置詞彙的概念距離,例如:Aa01 與 Aa02 的概念距離=2,Aa01 與 Ab02 的概念距離=4。
利用以上所敘述的特性,我們用範例將“共同出現概念”這個方法的流程敘 述如下:
1. 對於同義詞詞林自動標記的概念,將每個詞彙的擁有的概念表列,我們以“秋 天思婦弖,雨夜愁人耳。”這個詵作中的“思”和“愁”為例:
詞彙 階層付號 概念
思 Df01 思想
思 Gb06 掛念
愁 Ga02 煩悶
表 13:同義詞詞林自動的標記概念表列
應的位置以絕句為例,第一句對應第二句,第三句對於第四句,對於出現在 相同位置的詞彙,將兩個詞彙的概念列出,並兩兩比較其概念階層距離,若 其概念階層距離為最小,便標記其詞彙概念,在“秋天思婦弖,雨夜愁人耳。”
這個詵句中的“思”和“愁”都在詵作中第三句和第四句的第三個字,故我 們如表 14 比較其概念階層距離:
詞彙 1 詞彙 2 概念 1 (階層付號 1)
概念 2 (階層付號 2)
概念階層 距離 思 愁 思想(Df01) 煩悶(Ga02) 6 思 愁 掛念(Gb06) 煩悶(Ga02) 4
表 14:詞彙對應的概念階層距離表
“愁”的階層付碼與概念為煩悶 (Ga02),而“思”在標示時會有思想 (Df01)、掛 念 (Gb06)這些階層的岐義,利用概念階層距離,可看出兩字在第二個配對中的概 念階層距離較小,故將“思”的概念標記為“掛念”,“愁”的概念標記為“煩 悶”。
3. 若最小的概念階層距離相同時,便比較詞彙和其概念的配對於人工標識概念 資料集中出現的頻率,選取頻率較高的配對來標識詞義。