• 沒有找到結果。

命名實體識別 (Named Entity Recognition, NER)

第二章 相關研究

2.1 命名實體識別 (Named Entity Recognition, NER)

立 政 治 大 學

Na tiona

l Ch engchi University

第二章 相關研究

本研究主要利用資訊擷取 (Information Extraction)與資料探勘 (Data Mining)的相關技 術,針對電子資料庫中的史料先進行名詞的擷取,再利用取得的名詞與相關資訊產生清 代康熙時期的職官年表。其中名詞的擷取屬於中文命名實體識別 (Chinese Named Entity Recognition)的研究議題,在本章將針對目前關於命名實體識別的幾項相關研究進行介 紹,分別敘述如下:

2.1 命名實體識別 (Named Entity Recognition, NER)

命名實體識別是屬於資訊擷取 (Information Extraction, IE)底下的一項議題,同時也是自 然語言處理 (Natural Language Processing, NLP)領域當中基礎且重要的研究問題。命名 實體識別技術主要目的,是從文本之中自動辨識出有意義的名詞,包括人名、事件、時 間、地點、物品、組織名稱等。目前在命名實體識別作法基本上可分為以下四種方法:

(1) 基於規則的識別方法 (Rule-based)

透過以人工觀察與分析之後所制定的規則,這些規則通常依據具體的語言特性、領 域或是文本格式等,早期有針對中文人名識別,利用姓名與頭銜做為識別的線索[23],

或是對於希臘文進行識別[17],此外還有對於中文姓名的結構特徵或者其上下文訊息的 分析歸納與整理,並且建立起規則集合進行命名實體識別之方式。

只需要先制定規則便能夠根據規則識別符合的名詞,優點在於所需的空間較小,但 缺點是會受限於規則,執行速度方面也較慢,方法彈性較小且有些規則可能會互相衝突。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

(2) 基於統計的識別方法 (Statistic-based)

以統計為基礎的方法,常見的作法為機器學習的機率模型,利用人工已經標記完整 的語料庫進行訓練,以數量較大的語料庫作為訓練資料,經由計算出現頻率可以得到關 於名詞用字的機率等大量統計數據,以進行命名實體識別[22][16]。優點在於不需大量 的人力介入,同時執行速度也較佳,但缺點則是大量的語料庫要取得不易,而且也會因 為語料庫的不適當之因素,造成識別上的錯誤非常多,以及統計資料所需的空間也較大。

常 見 的 統 計 方 法 有 最 大 熵 模 型 (Maximum Entropy Models)[15] 、 條 件 隨 機 域 (Conditional Random Fields, CRFs)[25] 、 隱 藏 馬 可 夫 模 型 (Hidden Markov Model, HMM)[26][28][31]…等。

(3) 結合統計與規則的識別方法 (Based on statistic and rule)

由於統計的方法常受到訓練語料庫規模的影響,所以採取統計與規則結合的方式,

例如以統計的方法先進行命名實體識別,再透過規則集合的機制進行校正或過濾。

除了統計與規則相結合的方法[4][6][18],此外也有相關研究提出統計結合其他方法 的識別方式,包括以統計的方式再結合一些經驗法則[27]進行識別,或是提出統計和詞 性結合、class-based 統計模型與姓名相關背景知識的結合…等。

(4) 基於詞庫的識別方法 (Corpus-based)

利用以建置詞庫為主的方式,常以人工方式蒐集已知詞彙,並且透過詞庫的比對進 行識別[24][25]。然而,要窮舉盡列出所有名詞是件不容易的事情,同時還需要考慮到 當處理不同領域文本時,其領域相關的所有可能名詞也必須包含在詞庫當中,才不會造 成識別錯誤的情況。因此需要投入大量的人力以及專家的背景知識才能讓詞庫建置完 備。

2.1.1 背景領域和語言差異

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

當面臨處理不同領域之文本時,也會因為背景知識的影響,造成特殊詞彙或者專有名詞 在判斷與識別上會面臨辨識錯誤的情況,舉例來說,以新聞文章的命名實體識別為例,

假設在政治新聞以及大專院校方面新聞當中皆有出現“政治大學”一詞,在政治新聞文 章裡,“政治”一詞並不會被優先視為學校名稱,因此不會與“大學”一詞識別成“政 治大學”,而是可能被識別為“政治”以及“大學”兩個獨立且不同的名詞,然而,在 大專院校方面新聞中,具有相關背景知識,才有辦法正確的識別出“政治大學”是一個 學校名稱,而非分開的兩個名詞。所以針對不同領域進行命名實體識別時,必須進一步 建立起相關的背景知識,針對不同領域去設計不同的方法,使得此類的識別錯誤情況得 以避免或是減少。

除了受到處理文本之領域差異因素影響之外,對於命名實體識別處理的文本語言不 同,在作法上也會有所差異。由於命名實體識別的技術當中,其中有部份作法的步驟是 需要先將文本進行斷詞的處理,目的是將連續的字句切割成數個有意義的部份,稱之為 Token,例如字句中的文字、數字或者標點符號,接著再進行命名實體的識別,所以不 同語言的斷詞處理也就有所差異。然而,斷詞本身就是一門研究的議題,這部份會間接 影響到命名實體識別的作法,舉例來說,針對中文文本與英文文本進行命名實體識別 時,在英文文本中,字與字之間有空白做為分隔,然而中文文本當中並沒有存在像英文 文本當中的空白間隔,換句話說,中文詞之間沒有明顯的分隔符號,所以在斷詞處理上 便有所不同。

除了斷詞處理所造成的影響之外,同時中文在句型文法以及表達方式上與英文呈現 差異的極大,就算是沒有透過斷詞步驟來進行命名實體識別,在中文文本與英文文本處 理上仍然會有所問題。因此,中文命名實體識別與英文命名實體識別在作法方面,會因 為文本語言不同的關係而有所差異,換句話說,不同語言的文本在命名實體識別方法上 是無法直接互相套用的,需針對文本當中語言的特性設計命名實體識別的方法。目前英 文的命名實體識別及剖析系統技術都較中文純熟,而本研究所探討的部份是屬於中文命

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

名實體識別。

2.1.2 中文命名實體識別 (Chinese Named Entity Recognition)

關於中文命名實體識別的研究議題,目前大部份主要針對的文本為白話文,針對古文進 行處理的研究是為少數。

然而對於古文和白話文在中文命名實體識別上,由於他們兩者之間特性的差異,使 得處理白話文的中文命名實體識別方法在古文文本上效果不章。在張敏[9]的研究便分析 了古文與白話文的異同,利用大規模的語料庫,對三千五百萬字的中文古籍語料進行統 計與分析,並且提到語料庫的規模與結構是影響統計結果的重要因素,由於古文的領域 專業性較強,古文的分布可能會集中在某些特定的領域,傳統上將不同領域的文獻根據 經、史、子、集四部各自建立統計模型,其使用文體、字的頻率、常用字、句子長度等 都是完全相異的,因此作者針對不同領域語料庫分析,並且動態合併出通用的語料庫資 訊,比較得出以下幾項差異處,包括古文的總字數約為現代文的二分之一,但所使用的 漢字個數卻是白話文的二倍,以及古文單字的使用頻率,在高頻率字上較為集中而低頻 率字上相當分散,然而在平均句子長度上,古文 7.32 字遠小於白話文的 19 字,還有在 熵 (Entropy)的計算上,古文 6.5183 和白話文 6.5659 結果接近。作者主要針對古文進行 統計分析,比較其與白話文之間的差異,雖然並未針對命名實體的部份分析兩者之間的 區別,但是透過作者的研究結果可以瞭解到,若是要針對古文進行命名實體識別時,也 須注意其中差異因素帶來的影響以及作法設計上的考量。

在中文命名實體識別的研究領域裡,包括對單字元命名實體進行識別[29],提出改 進式的信源信道模型 (Improved Source-channel Moedl),另外也有提出以 role model[30]

進行專有名詞識別,其中 role model 是專門處理專有名詞識別的一些模型,像是日常用 語中常出現在人名或者地名附近的名詞,字與字之間皆去組合計算最有可能的 model 機 率值,並藉由該 model 來進行識別,但該方法並未針對詞性的部份進一步考量與探討。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

關於機器學習之機率模型的人名識別研究,例如採用支持向量機 (Support Vector Machine, SVM)來進行人名識別[21],或是毛婷婷[2]除了用 SVM 之外,並且和機率統計 模型結合的方式,進行中國人名的識別,先依單字的詞性、前字是否為姓氏、單字為人 名的機率…等屬性,從字中擷取特徵向量藉此方式得到訓練資料,再以適當的 SVM 函 數建立模型,並考慮到其他模型來輔助 SVM,此實驗結果的準確率為 94.62%,召回率 為 91.96%,F 值為 93.27%。關於結合機器學習以及語料庫規則進行中文命名實體識別 的方法,在李中國[5]的研究中,根據人名左右邊界的詞語,以及人名用字機率作為識別 依據,針對文本先採用正向最大匹配法 (Forward Maximum Matching)進行斷詞的處理之 後,接著再利用多次掃瞄的動作,並搭配利用上下文的相關資訊以及人名用字機率,對 文本進行人名識別,其實驗結果的準確率為 94.52%,召回率為 98.97%,F 值為 96.69%。