• 沒有找到結果。

外部辭典建立

在文檔中 近體詩主題辨識系統研製 (頁 15-19)

第三章 研究方法及步驟

3.2 外部辭典建立

隨著文本領域的不同專有名詞也不盡相同。目前現有的中文辭典,同義詞詞 林、E-Hownet、中研院八萬目詞等詞庫,這些詞庫收錄了詞彙及語意。雖然這些 詞庫都是用於現代白話文,但測試 unigram、bigram 與 trigram 的比對,我們發現 還是有部分的詞彙被收錄在這些詞庫中。在測試中發現同義詞詞林匹配到的詞彙

+nomenclature 708

地方詞 八萬目詞且屬性為+districts 1029

同義詞詞林 哈工大資訊檢索研究室同義詞詞林擴展版7 77303

除此之外我們還觀察到,中研院八萬目詞有專含有名詞與地方詞的貼標 (+countries, +nomenclature, +districts),因此我們從中研院八萬目擴增專有名詞與地 方詞。同時為了後續概念標記的處理,於擴增的同時將這些詞彙標記同義詞詞林 的概念的代碼(Di02A01_國家、Dd15B02_姓氏、Cb25A11_洲縣)如表 7。

表 7 中研院八萬目詞與相對應的概念

詞彙 詞性 定義 對應到同義詞

詞林的概念 七雄 Naea +countries Di02A01_國家 三晉 Naea +countries Di02A01_國家 張 Nbc +nomenclature Dd15B02_姓氏 段 Nbc +nomenclature Dd15B02_姓氏 河南 Nca +districts Cb25A11_洲縣 江西 Nca +districts Cb25A11_洲縣

4 http://ch.eywedu.com/Story/Untitled-2.htm

5 http://cls.hs.yzu.edu.tw:88/CM/query/orig_source.htm

6 http://www.aclclp.org.tw/use_ced_c.php

典故詞彙方面,我們利用網路收尋詩詞典故,找到兩個網站含有典故詞彙。

第一個詩詞典故網站除了有典故詞彙之外,還有典故的概念。如圖 2 中「亡羊路」

與「西州路」的概念為「城建」。因此我們只需要將「城建」轉換成同義詞詞林的 概念代碼,其轉換的步驟如表 8 所示。

圖 2 詩詞典故網站 表 8 詩詞典故概念標記之方法 步驟一:擷取冒號後的片段,視為一個詞彙

步驟二:將詞彙比對同義詞詞林

若有存在,則標記其概念代碼(可以有多個概念) 若不存在,則人工判斷並標記代碼(可以有多個概念)

另一個詩詞曲典故網站如圖 3 所示,記錄著從漢朝到宋朝的典故。不像前一 個網站,只有同義典故的資訊可以利用。只能使用當前的典故與同義典故,比對 前一網站所建置的典故辭典,完成概念標記其方法如表 9。我們僅找到 273 個典 故的概念。

圖 3 詞曲典故網站 表 9 詩詞曲典故概念標記之方法 步驟一:當前的典故詞彙比對典故辭典

若有存在,則標記其概念代碼(可以有多個概念) 若不存在,則將同義典故的詞彙比對典故詞彙

若有存在,則標記其概念代碼

3.3 斷詞處理

結合強度 (

表 12 對仗處理結果 等於 1,則標記”unknown”;如大於 1,則將詞彙切分成單一字的集合。此集合 的所有單一字都需要比對詞庫,並標記所有回傳的概念;所有單一字都不存在

計(u) 儀錶_Bo18A01,方法_Db09A01,計畫_Df09A01,打算_Ga05B01,計算_Hj29C01 兩朝(d) unknow@雙方_Dd05B06,二_Dn04A03,幾_Dn05B02,絲_Dn10A15,少_Eb01B01,朝

代_Ca02B01,早晨_Ca27B01,政府_Dm01A01,朝廷_Dm01A05,向_Kb01A01 開濟(d) unknow@ 挖 _Fa10A01, 開 _Fa31A01, 射 擊 _Hb06A01, 設 立 _Hc05B01, 開 除

_Hc22A02, 支 付 _He10C01, 駕 駛 _Hf01A01, 揮 筆 _Hg11A01, 沸 騰 _Ia10A01, 解 凍 _Ia11C01,開花_Ib21A01,舉行_Ie13B01,開始_Ig01A01,周濟_Hi36A03

老臣(d) unknow@ 老 人 _Ab02A01, 公 公 _Ab02A04, 慣 例 _Da03A04, 老 _Eb15D01, 長 久 _Eb24A01, 舊 _Eb29A01, 年 老 _Eb36A01, 深 _Ec05A01, 本 來 _Ed51B01, 老 練 _Ee21A01,非常_Ka01A01,一直_Ka11B01,官吏_Af08A01

心(d) 心_Bc05F01,心_Bk14B01,中_Cb04C01,點_Cb23A01,內心_Df02A01

在文檔中 近體詩主題辨識系統研製 (頁 15-19)

相關文件