列舉式標記法加入朝代資訊

在文檔中 應用序列標記技術於地方志的實體名詞辨識 - 政大學術集成 (頁 45-49)

第五章 產生標記語料

5.3 解歧標記方法

5.3.3 列舉式標記法加入朝代資訊

圖5.11 加入朝代資訊標記法流程

在 5.3.2 的方法中,再選擇最佳標記時,選擇了從先前處理做資料分析時所得到的直覺 判斷,但這並無法表示在所有情況都是正確的,所以本研究對上一個方法做了一些改進,

代入部分種類名詞的朝代資訊,在不同的朝代時期,有其特定的年號以及當時的官職名 稱,這假設所擁有的年號朝代與官職朝代是完整的,便可以檢驗上個方法中標記為職官、

年號時,其朝代是否是一致的,以下提出一個朝代資訊一致化的方法,如圖 5.11 所示。

將 5.3.2 節的標記結果做為初步標記語料,去觀察年號、職官的朝代,從圖 5.12 了 解到當標記的時候,不同朝代的職官名若出現在同一區段,有很大的可能是錯誤的標記,

所以在這裡加入朝代因素來修正得到的標記結果使得結果更為可信。對於目前的名詞表 中,官職名與年號有比較確實的時間資訊中,地名表中雖然有朝代資訊但地名跨朝代延 續使用的比例相當高,所以若以地名去比對一致性,會刪去許多正確的標記。因此,這 裡只選用職官以及年號的朝代資訊來輔助判斷,而當中官職只有朝代,而年號有精確的 年份區間及朝代。

28

產生初步標記語料後,對語料中標記的年號、官職名補上對應的朝代資訊,雖然年 號類別的詞彙擁有明確時間區間的資訊,雖然從地方志傳記記事的特性,有從古至今這 種時續推移的形式書寫,但是有可能在同一朝代時,根據記事改變時,產生時序上的回 溯,因此在這裡年號及官職都只取其對應的朝代;由於年號中的詞彙絕大多數都只對應 到一個朝代,是比較容易辨識的,所以會先針對年號的部分去做修正,先抽出初步標記 語料中的所有年號,每一個年號去與前後三個出現的年號做比對,透過此種方式,去判 定是否為年號及對應的朝代,如同圖 5.13 所示;之後對抽取出的官職資訊,去檢驗當前 位置前一個以及後一個出現的年號是否與官職朝代一致,若有一致的,則保留此年號並 給予對應年號,若無則刪除;經過這兩步驟,已經將初步標記語料中的年號、官職的朝 代一致化,如圖 5.14、圖 5.15 所示。

代入朝代資訊:

高縣志卷…職官/[職官]{宋}志…與民最親而 學官/[職官]{唐,宋,元}專司教/[

職官]{宋}鐸…沿革 中官/[職官]{唐,宋}斯土者…知州/[職官]{唐,宋,元,明,清}

張景良…得明 知縣/[職官]{唐,宋,元,明,清}二十人…至 典史/[職官]{元,明,清}

之可據者…教職/[職官]{清}…明 知縣/[職官]{唐,宋,元,明,清}王旭 洪武/[年 號]{明}初年任…越彥 宣德/[年號]{明}年任…

若時間為明朝

高縣志卷…職官志…與民最親而學官專司教鐸…沿革中官斯土者…知州/[職官]{明}

張景良…得明 知縣/[職官]{明}二十人…至 典史/[職官]{明 }之可據者…教職…

明 知縣/[職官]{明}王旭 洪武/[年號]{明}初年任…越彥 宣德/[年號]{明}年 任…

圖5.12 朝代資訊標記更正範例

29

圖5.13 一致化初步標記語料中的年號資訊

年號朝代一致化:

成化{明}

成化{明}

嘉靖{明}

正德{西夏,明}

康熙{清}

康熙{清}

雍正{清}

嘉靖{明}

雍正{清}

雍正{清}

雍正{清}

西德{西夏: 0,明: 3}

嘉靖{明: 0}

正德{明}

嘉靖{無標記}

圖5.14 年號朝代一致化範例

30

31

隨機條件場(Condition Random Fields, CRF)是一種鑑別式機率模型(discriminative model),

是馬可夫隨機場(Markov Random Fields, MRF)的一種型式,因此 CRF 同樣符合馬克夫性 質(Markov Property),所以經常用於處理序列型資料的分類問題,例如應用於自然語言 處理、影像處理、生物序列分析等領域。在本章接續的內容中,會去介紹 CRF 以及使

在文檔中 應用序列標記技術於地方志的實體名詞辨識 - 政大學術集成 (頁 45-49)