命名實體識別 (Named Entity Recognition, NER)

第二章相關研究

2.1 命名實體識別 (Named Entity Recognition, NER)

國

立政治大學

‧

Na tiona

l Ch engchi University

第二章相關研究

本研究主要利用資訊擷取 (Information Extraction)與資料探勘 (Data Mining)的相關技術，針對電子資料庫中的史料先進行名詞的擷取，再利用取得的名詞與相關資訊產生清代康熙時期的職官年表。其中名詞的擷取屬於中文命名實體識別 (Chinese Named Entity Recognition)的研究議題，在本章將針對目前關於命名實體識別的幾項相關研究進行介紹，分別敘述如下：

2.1 命名實體識別 (Named Entity Recognition, NER)

命名實體識別是屬於資訊擷取 (Information Extraction, IE)底下的一項議題，同時也是自然語言處理 (Natural Language Processing, NLP)領域當中基礎且重要的研究問題。命名實體識別技術主要目的，是從文本之中自動辨識出有意義的名詞，包括人名、事件、時間、地點、物品、組織名稱等。目前在命名實體識別作法基本上可分為以下四種方法：

(1) 基於規則的識別方法 (Rule-based)

透過以人工觀察與分析之後所制定的規則，這些規則通常依據具體的語言特性、領域或是文本格式等，早期有針對中文人名識別，利用姓名與頭銜做為識別的線索[23]，

或是對於希臘文進行識別[17]，此外還有對於中文姓名的結構特徵或者其上下文訊息的分析歸納與整理，並且建立起規則集合進行命名實體識別之方式。

只需要先制定規則便能夠根據規則識別符合的名詞，優點在於所需的空間較小，但缺點是會受限於規則，執行速度方面也較慢，方法彈性較小且有些規則可能會互相衝突。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

(2) 基於統計的識別方法 (Statistic-based)

以統計為基礎的方法，常見的作法為機器學習的機率模型，利用人工已經標記完整的語料庫進行訓練，以數量較大的語料庫作為訓練資料，經由計算出現頻率可以得到關於名詞用字的機率等大量統計數據，以進行命名實體識別[22][16]。優點在於不需大量的人力介入，同時執行速度也較佳，但缺點則是大量的語料庫要取得不易，而且也會因為語料庫的不適當之因素，造成識別上的錯誤非常多，以及統計資料所需的空間也較大。

常見的統計方法有最大熵模型 (Maximum Entropy Models)[15] 、條件隨機域 (Conditional Random Fields, CRFs)[25] 、隱藏馬可夫模型 (Hidden Markov Model, HMM)[26][28][31]…等。

(3) 結合統計與規則的識別方法 (Based on statistic and rule)

由於統計的方法常受到訓練語料庫規模的影響，所以採取統計與規則結合的方式，

例如以統計的方法先進行命名實體識別，再透過規則集合的機制進行校正或過濾。

除了統計與規則相結合的方法[4][6][18]，此外也有相關研究提出統計結合其他方法的識別方式，包括以統計的方式再結合一些經驗法則[27]進行識別，或是提出統計和詞性結合、class-based 統計模型與姓名相關背景知識的結合…等。

(4) 基於詞庫的識別方法 (Corpus-based)

利用以建置詞庫為主的方式，常以人工方式蒐集已知詞彙，並且透過詞庫的比對進行識別[24][25]。然而，要窮舉盡列出所有名詞是件不容易的事情，同時還需要考慮到當處理不同領域文本時，其領域相關的所有可能名詞也必須包含在詞庫當中，才不會造成識別錯誤的情況。因此需要投入大量的人力以及專家的背景知識才能讓詞庫建置完備。

2.1.1 背景領域和語言差異

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

當面臨處理不同領域之文本時，也會因為背景知識的影響，造成特殊詞彙或者專有名詞在判斷與識別上會面臨辨識錯誤的情況，舉例來說，以新聞文章的命名實體識別為例，

假設在政治新聞以及大專院校方面新聞當中皆有出現“政治大學”一詞，在政治新聞文章裡，“政治”一詞並不會被優先視為學校名稱，因此不會與“大學”一詞識別成“政治大學”，而是可能被識別為“政治”以及“大學”兩個獨立且不同的名詞，然而，在大專院校方面新聞中，具有相關背景知識，才有辦法正確的識別出“政治大學”是一個學校名稱，而非分開的兩個名詞。所以針對不同領域進行命名實體識別時，必須進一步建立起相關的背景知識，針對不同領域去設計不同的方法，使得此類的識別錯誤情況得以避免或是減少。

除了受到處理文本之領域差異因素影響之外，對於命名實體識別處理的文本語言不同，在作法上也會有所差異。由於命名實體識別的技術當中，其中有部份作法的步驟是需要先將文本進行斷詞的處理，目的是將連續的字句切割成數個有意義的部份，稱之為 Token，例如字句中的文字、數字或者標點符號，接著再進行命名實體的識別，所以不同語言的斷詞處理也就有所差異。然而，斷詞本身就是一門研究的議題，這部份會間接影響到命名實體識別的作法，舉例來說，針對中文文本與英文文本進行命名實體識別時，在英文文本中，字與字之間有空白做為分隔，然而中文文本當中並沒有存在像英文文本當中的空白間隔，換句話說，中文詞之間沒有明顯的分隔符號，所以在斷詞處理上便有所不同。

除了斷詞處理所造成的影響之外，同時中文在句型文法以及表達方式上與英文呈現差異的極大，就算是沒有透過斷詞步驟來進行命名實體識別，在中文文本與英文文本處理上仍然會有所問題。因此，中文命名實體識別與英文命名實體識別在作法方面，會因為文本語言不同的關係而有所差異，換句話說，不同語言的文本在命名實體識別方法上是無法直接互相套用的，需針對文本當中語言的特性設計命名實體識別的方法。目前英文的命名實體識別及剖析系統技術都較中文純熟，而本研究所探討的部份是屬於中文命

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

名實體識別。

2.1.2 中文命名實體識別 (Chinese Named Entity Recognition)

關於中文命名實體識別的研究議題，目前大部份主要針對的文本為白話文，針對古文進行處理的研究是為少數。

然而對於古文和白話文在中文命名實體識別上，由於他們兩者之間特性的差異，使得處理白話文的中文命名實體識別方法在古文文本上效果不章。在張敏[9]的研究便分析了古文與白話文的異同，利用大規模的語料庫，對三千五百萬字的中文古籍語料進行統計與分析，並且提到語料庫的規模與結構是影響統計結果的重要因素，由於古文的領域專業性較強，古文的分布可能會集中在某些特定的領域，傳統上將不同領域的文獻根據經、史、子、集四部各自建立統計模型，其使用文體、字的頻率、常用字、句子長度等都是完全相異的，因此作者針對不同領域語料庫分析，並且動態合併出通用的語料庫資訊，比較得出以下幾項差異處，包括古文的總字數約為現代文的二分之一，但所使用的漢字個數卻是白話文的二倍，以及古文單字的使用頻率，在高頻率字上較為集中而低頻率字上相當分散，然而在平均句子長度上，古文 7.32 字遠小於白話文的 19 字，還有在熵 (Entropy)的計算上，古文 6.5183 和白話文 6.5659 結果接近。作者主要針對古文進行統計分析，比較其與白話文之間的差異，雖然並未針對命名實體的部份分析兩者之間的區別，但是透過作者的研究結果可以瞭解到，若是要針對古文進行命名實體識別時，也須注意其中差異因素帶來的影響以及作法設計上的考量。

在中文命名實體識別的研究領域裡，包括對單字元命名實體進行識別[29]，提出改進式的信源信道模型 (Improved Source-channel Moedl)，另外也有提出以 role model[30]

進行專有名詞識別，其中 role model 是專門處理專有名詞識別的一些模型，像是日常用語中常出現在人名或者地名附近的名詞，字與字之間皆去組合計算最有可能的 model 機率值，並藉由該 model 來進行識別，但該方法並未針對詞性的部份進一步考量與探討。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

關於機器學習之機率模型的人名識別研究，例如採用支持向量機 (Support Vector Machine, SVM)來進行人名識別[21]，或是毛婷婷[2]除了用 SVM 之外，並且和機率統計模型結合的方式，進行中國人名的識別，先依單字的詞性、前字是否為姓氏、單字為人名的機率…等屬性，從字中擷取特徵向量藉此方式得到訓練資料，再以適當的 SVM 函數建立模型，並考慮到其他模型來輔助 SVM，此實驗結果的準確率為 94.62%，召回率為 91.96%，F 值為 93.27%。關於結合機器學習以及語料庫規則進行中文命名實體識別的方法，在李中國[5]的研究中，根據人名左右邊界的詞語，以及人名用字機率作為識別依據，針對文本先採用正向最大匹配法 (Forward Maximum Matching)進行斷詞的處理之後，接著再利用多次掃瞄的動作，並搭配利用上下文的相關資訊以及人名用字機率，對文本進行人名識別，其實驗結果的準確率為 94.52%，召回率為 98.97%，F 值為 96.69%。

在文檔中由史料中探勘職官年表：以康熙時期為例 - 政大學術集成 (頁 20-24)

命名實體識別 (Named Entity Recognition, NER)

第二章 相關研究

2.1 命名實體識別 (Named Entity Recognition, NER)

國

立 政 治 大 學

‧

第二章 相關研究

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

第二章相關研究

立政治大學

第二章相關研究

立政治大學

立政治大學

立政治大學

立政治大學