列舉式標記法加入朝代資訊

第五章產生標記語料

5.3 解歧標記方法

5.3.3 列舉式標記法加入朝代資訊

圖5.11 加入朝代資訊標記法流程

在 5.3.2 的方法中，再選擇最佳標記時，選擇了從先前處理做資料分析時所得到的直覺判斷，但這並無法表示在所有情況都是正確的，所以本研究對上一個方法做了一些改進，

代入部分種類名詞的朝代資訊，在不同的朝代時期，有其特定的年號以及當時的官職名稱，這假設所擁有的年號朝代與官職朝代是完整的，便可以檢驗上個方法中標記為職官、

年號時，其朝代是否是一致的，以下提出一個朝代資訊一致化的方法，如圖 5.11 所示。

將 5.3.2 節的標記結果做為初步標記語料，去觀察年號、職官的朝代，從圖 5.12 了解到當標記的時候，不同朝代的職官名若出現在同一區段，有很大的可能是錯誤的標記，

所以在這裡加入朝代因素來修正得到的標記結果使得結果更為可信。對於目前的名詞表中，官職名與年號有比較確實的時間資訊中，地名表中雖然有朝代資訊但地名跨朝代延續使用的比例相當高，所以若以地名去比對一致性，會刪去許多正確的標記。因此，這裡只選用職官以及年號的朝代資訊來輔助判斷，而當中官職只有朝代，而年號有精確的年份區間及朝代。

產生初步標記語料後，對語料中標記的年號、官職名補上對應的朝代資訊，雖然年號類別的詞彙擁有明確時間區間的資訊，雖然從地方志傳記記事的特性，有從古至今這種時續推移的形式書寫，但是有可能在同一朝代時，根據記事改變時，產生時序上的回溯，因此在這裡年號及官職都只取其對應的朝代；由於年號中的詞彙絕大多數都只對應到一個朝代，是比較容易辨識的，所以會先針對年號的部分去做修正，先抽出初步標記語料中的所有年號，每一個年號去與前後三個出現的年號做比對，透過此種方式，去判定是否為年號及對應的朝代，如同圖 5.13 所示；之後對抽取出的官職資訊，去檢驗當前位置前一個以及後一個出現的年號是否與官職朝代一致，若有一致的，則保留此年號並給予對應年號，若無則刪除；經過這兩步驟，已經將初步標記語料中的年號、官職的朝代一致化，如圖 5.14、圖 5.15 所示。

代入朝代資訊：

高縣志卷…職官/［職官］{宋}志…與民最親而學官/［職官］{唐,宋,元}專司教/［

職官］{宋}鐸…沿革中官/［職官］{唐,宋}斯土者…知州/［職官］{唐,宋,元,明,清}

張景良…得明知縣/［職官］{唐,宋,元,明,清}二十人…至典史/［職官］{元,明,清}

之可據者…教職/［職官］{清}…明知縣/［職官］{唐,宋,元,明,清}王旭洪武/［年號］{明}初年任…越彥宣德/［年號］{明}年任…

若時間為明朝

高縣志卷…職官志…與民最親而學官專司教鐸…沿革中官斯土者…知州/［職官］{明}

張景良…得明知縣/［職官］{明}二十人…至典史/［職官］{明 }之可據者…教職…

明知縣/［職官］{明}王旭洪武/［年號］{明}初年任…越彥宣德/［年號］{明}年任…

圖5.12 朝代資訊標記更正範例

圖5.13 一致化初步標記語料中的年號資訊

年號朝代一致化：

成化{明}

嘉靖{明}

正德{西夏,明}

康熙{清}

雍正{清}

嘉靖{明}

雍正{清}

西德{西夏: 0,明: 3}

嘉靖{明: 0}

正德{明}

嘉靖{無標記}

圖5.14 年號朝代一致化範例

隨機條件場(Condition Random Fields, CRF)是一種鑑別式機率模型(discriminative model)，

是馬可夫隨機場(Markov Random Fields, MRF)的一種型式，因此 CRF 同樣符合馬克夫性質(Markov Property)，所以經常用於處理序列型資料的分類問題，例如應用於自然語言處理、影像處理、生物序列分析等領域。在本章接續的內容中，會去介紹 CRF 以及使

在文檔中應用序列標記技術於地方志的實體名詞辨識 - 政大學術集成 (頁 45-49)

第五章 產生標記語料

5.3 解歧標記方法

5.3.3 列舉式標記法加入朝代資訊

第五章產生標記語料