地名擷取實驗

第七章實驗結果與分析

7.1 評估實體名詞辨識模型實驗

7.1.2 地名擷取實驗

本研究對於地名的辨識，除了找出正確已知的地名，同時也希望可以找出未知的地名詞彙。本實驗分先將實驗語料中辨識為地名的部分，去與已知地名詞彙的比對；之後對非地名表中的詞彙去觀察是否能找出未知地名。

首先假設地名表中的詞彙是完整的，根據地名表去判定擷取出來的地名是否正確，

來評估地名擷取的效果。同 7.1.1 節，一樣對 5.3 節介紹的三種標記方法：順序標記法(M1)、

列舉式標記法(M2)、列舉式標記法加入朝代資訊(M3)加上作為基準的只運用人物資訊表資訊標記(RE)的模型擷取出來的地名詞彙與地名表中詞彙去做比對，去計算四種標記方法個別 Precision 來做比較，評估標準如表 7.4，其公式如(14)，結果如表 7.5 所示。

圖7.3 再續華州志原始片段內容

Precision = Match + 0.5 × P_match

Match + P_match + Miss (14)

表7.5 地名擷取結果

標記方法 M1 M2 M3 RE

擷取地名數量 24440 26802 26222 6159

正確數量 21013 23382 22630 3409

部分正確數量 2662 2638 2740 2384

Precision 0.86 0.87 0.86 0.75 根據實驗結果，本研究提出的方法在地名的辨識度可達 86%，而在 RE 的部分，由於擷取的地名有許多屬於多層級地名，也尌同時包含不同層級的地名詞彙，如河南寶豐縣，河南、寶豐在地名表詞彙皆有出現，但並沒有直接作為一個地名詞彙，在我們的方法中會誤判其為部分正確，不過即使如此，在 RE 的部分所尋找到的地名數量還是遠少於本研究提出的三種方法，不過這僅僅是針對擷取出來的已知地名部分；本研究不僅希望能找到已有的地名資訊，另外希望從擷取出的地名中，找出未知的地名詞彙。因此，

當擷取的地名不屬於地名表中的詞彙或詞彙子字串時，便當作可能為未知地名的候選地名詞彙，透過人工檢查的方式，看是否有未知地名的存在，此部分找出了幾個可能為未知地名的詞彙，不過我們並無法對所有未知地名去做驗證，在此只取有查驗到相關資訊的部分例子做說明，只以圖 7.5、圖 7.6、圖 7.7 為例。

圖 7.5 中的富陂經過查驗是一個古代地名，位置是現今的安徽阜南，由於本研究所表7.4 地名判斷評估標準

Label 標記狀況說明

Match 正確地名詞彙與地名表中詞彙相同

P_match 部分正確地名詞彙為地名表中詞彙的子字串

Miss 未知詞地名詞彙不存在於地名表

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

使用的地名主要是在唐代以後的地名，故並無此地名，而地方志內文中此段描寫為東漢三國時期東吳將領呂蒙的資訊，其地名沿用其古代地名來記載，透過本研究的辨識模型可以擷取出過去資料不存在的地名。圖 7.6 中，從義寧州志中擷取出瀘溪是地名表所沒有的詞彙，人工查驗後發現是異體字的問題，可以改寫成盧溪，是現今湖南省一帶並非真的未知地名。圖 7.7 中，從饒州府志所擷取的章安，查驗為臨海郡底下的一個縣，是東漢時期的郡縣，到了隋朝被廢除，是在地方表中無記載的地名。

圖7.5 瀏陽縣志擷取未知地名範例

圖7.7 饒州府志擷取未知地名範例圖7.6 義寧州志擷取未知地名範例

‧

彙，標記，長度｝，如同圖 7.9 所示，其中標記可分為人名(name)、地名(address)、年號 (nianhao)、職官名(office)、入仕名(entry)、日期(date)、無標記文字(context)七種標記類

在文檔中應用序列標記技術於地方志的實體名詞辨識 - 政大學術集成 (頁 65-68)

第七章 實驗結果與分析