緒論 - 應用序列標記技術於地方志的實體名詞辨識

第一章緒論

1.1 研究背景與動機

現今資訊科技迅速進步以及快速普及，隨著電腦硬體設備效能大幅的提升，連同數位化科技的發展，資訊技術逐漸被廣泛的應用到各種不同的領域之中；數位人文尌是其中一部分；數位人文是近年來數位科技應用的重要趨勢，所謂的數位人文指得尌是透過資訊科學的技術並結合大量的人文數位資料，對於這些資料作各種要素的分析，如時間、空間、詞頻統計、共現詞彙等，讓研究者能進一步從事人文研究，彌補並獲得在數位化之前無法用人工逐一比對所觀察到的現象或新趨勢。數位人文的發展並不只侷限於某個國家或地區，目前全球不同國家對於數位人文皆有其重視的研究面向。

在人文研究方面由於大量的資料都是屬於文字的資料，是屬於非結構化的資料，無法直接拿來做分析，因此要透過量化統計的方法，抑或是機器學習的方法來去找出所想要的關鍵詞出來，再透過這些關鍵詞，便可以幫助各領域的學者做更進一步的分析；例如對於人文學者而言，可以透過標記人名，來做人與人之間的社群網路分析、或是人物在不同時期思想上的變化的時序分析等等。

中國歷代人物傳記資料庫(China Biographical Database, CBDB)[1]是一個線上開放的關聯型資料庫，其主要目標在於有系統地收入中國歷史上所有重要的傳記資料，並無保留地公開給大眾來進行學術的研究，像是提供用於人物傳記的參考資料，或者統計、空間分析等用途。截至 2013 年，資料庫內總共收錄約三十餘萬人的傳記資料，主要包含中國隋唐至民國初期(七世紀至十九世紀)的人物，至今還在不斷增加更多的資訊。

在過去的研究中，人文學者需要運用的大量的人力資源去做資料的標記，再利用資料庫的方式去進一步的研究，可是透過人力標記這方法除了人力成本高，時間代價也是

很高的，所以本研究希望透過資訊科學的技術去做第一步的檢驗及判斷，將需要人工閱讀的部分降到最低，詴著自動化去找出地方志中人物資訊，使學者的研究更加有效率。

1.2 研究方法

本論文詴圖從透過地方志(Difangzhi)語料中補充更多人物資訊於中國歷代人物傳記資料庫，地方志是屬於中國地區古時候官方在各地方上撰寫的地方傳記、記事等。過去 Pang[19]透過學者們花費大量時間透過用人工辨識並輔以正規表示式去擷取含有資訊的區段，再透過人工驗證後建立的人物資訊表。本研究以人物資料表的資訊與 CBDB 中專有名詞表做為研究中去產生對應語料的標記，之後透過統計分析的方式挑出重要的特徵，

再透過機器學習的方式產生一個辨識模型來自動化標記出研究者想要的名詞資訊以及透過標記結果去做人物條目擷取以及人物關係分析等後續的應用。

首先本研究先以哈佛團隊已建立人物資訊表[19]的地方志作為語料，將資訊表中的人名、地名等資訊，以及 CBDB[1]所提供的專有名詞表，如年號、官職等，透過詞表去對應到原本的地方志文本中的詞彙，當標記時有歧義狀況，也尌是句子可以有多種標記組合時，例如江東鳴是一個人名，江東是一個地名，此時江東鳴的江東可以是人名的一部分也可能是地名，對於這類型的問題，透過統計分析方法以及產生所有的標記組合、

依靠歧義詞周圍的語境以制定標記順序、加入朝代資訊等方法來提升訓練語料標記的品質。之後將每一個字的位置對應一筆資料，根據周圍的語境、字本身用於各種實體名詞的可能性以及與特殊專有名詞的間距等資訊做為其特徵。得到訓練語料後，本研究利用 Mallet[18]自然語言工具包提供的條件隨機場(Condition Random Fields, CRF)[20]方法來訓練實體名詞辨識(Named Entity Recognition, NER)模型。為了提升模型效能，使用交叉驗證來挑選適當的特徵產生模型，透過召回率、精確率、F-measure 三個評估指標進行模型效能評估，找出最適合的模型去進行更進一步的應用。

透過最佳的模型預測未標記的語料來自動化取得標記資料，比較我們所提出的三種

方法和根據人物資訊表標記產生的模型，一起做比較，利用系統抽樣[11]的方法，再透過人工驗證，來評估實體名詞辨識模型的好壞。之後再利用標記資訊去做更深入的應用，

例如人、地名的關聯連結以及人物條目切割，利用各類型名詞標記之間的距離、周遭語境去產生相應的規則去產生人、地名連結的資訊以及條目區分的結果。

1.3 主要貢獻

本研究主要提供了一個可以對地方志文獻中部分實體名詞的自動化辨識方法，並透過實驗來證明其辨識的效果，目的在於給未來相關研究者有一個有效的實體名詞標記工具，

能讓研究者在研究初期能快速的標記出有用的資訊，以便進行更深入的研究。同時透過對未整理的地方志去做實體名詞辨識，透過產生的標記語料進行相關的應用及分析，本研究詴著從標記語料中，連結出現的實體名詞，目前方法上只能有效的連結人名與地名；

同時本研究也詴著從地方志語料中分割出人物條目，由於條目內的資訊通常在敘述條目主角相關的事物，因此透過條目切割能更精確的去連結出現人物的資訊。

根據本研究的目的，是從地方志語料中，擷取出現人物的相關資訊並做有效的連結，

根據目前提供的實體名詞辨識方法和標記結果應用方法，已能夠有效的連結人名與地名，

在條目切割部分，雖無法正確切割出所有的條目，但對特定形式的人物條目已經可以做有效的分割。

1.4 論文架構

在第一章介紹研究背景與動機、研究方法。第二章回顧文獻探討數位人文相關研究，與實體名詞辨識之相關研究。第三章介紹何謂地方志，說明本研究所使用的地方志內容數量與地方志研究上的困難。第四章說明系統的架構與介紹訓練模型的工具。第五章會說明如何去產生標記語料。第六章介紹隨機條件場以及本研究使用的特徵集。第七章為實驗部分，先對人、地名做辨識效果的驗證，再將其做延伸應用，例如將辨識出來的人、

地名去做連結；以及人物條目切割的工作。第八章為結論以及未來展望。

在文檔中應用序列標記技術於地方志的實體名詞辨識 - 政大學術集成 (頁 19-22)

緒論

第一章 緒論

第一章緒論