第二章 文獻探討

本章分為以下兩小節。在 2.1 節回顧數位人文之相關研究;2.2 節介紹中文實體名詞辨識 之相關研究。

2.1 數位人文之相關研究

所謂的數位人文,指的是需要借助數位科技才能進行的人文研究。也尌是說它所想嘗詴 的研究是過去非數位時代時無法觀察的現象所產生的議題;所以它所討論的是很大量的 人文資料。從大量的資料中,研究者可能可以得到過去無法想像的研究方向。

Wang 和 Inaba[21]對 2005 至 2008 年與數位人文研究相關的期刊論文及研討會論文 分別做了不同年代的關鍵詞的共現分析,從結果顯示出數位人文(Digital Humanities)的 命名是從過去的人文電算(Humanities Computing)轉變而來,且發現「數位人文」這個詞 彙的使用頻率逐年持續增加。陳叔倬[8]利用清朝刑科登載命案的文本,其中包含死亡者 的與凶手基本資訊,也是亞洲區最早擁有的身高紀錄,透過這些資料研究中國一般民眾 的身高分布、各省區域差異分,進而了解當時中國民眾身高與當時經濟環境有顯著的關 聯性。劉吉軒[10]則透過對海外台灣人民所發表的刊物,透過人工選定關鍵詞以及斷詞 器篩選關鍵詞,對當時人工關鍵詞使用變化作比較分析以及各種刊物的關鍵詞的群聚關 係。

從以上研究可以了解到數位人文擁有各式各樣的研究方向,但是研究中通常都需要 有關鍵詞的協助,而上述研究中關鍵詞都需要閱讀以及足夠的背景知識去人工選定,所 以也有人提出關於文本內容分析相關的一些研究,對於尋找關鍵詞有相當的幫助。金觀 濤[4]在對華人觀念起源研究中透過不同詞彙共同出現的現象做定量分析,而難處在於如 何選擇待觀測的關鍵詞彙,此處他們運用了齊夫定律(Zipf’s Law)中的偏離率去分析文本

5

內容中的詞彙來挑選可能是關鍵詞的候選詞彙,當作關鍵詞叢來去建立詞彙共現分析方 法。

而在地方志的研究中,人名、地名便是極具研究價值的關鍵詞彙,所以本研究希望 透過實體名詞辨識方法去自動化擷取候選人名、地名的工作,以方便學者更深入的深 究。

2.2 實體名詞辨識之相關研究

實體名詞(Named Entity)這個詞,是從 Sixth Message Understanding Conference (MUC-6) 所提出[15],指的是文本中具有特定意義的實體,主要包括人名、地名、機構名、專有 名詞等。實體名詞辨識(Name Entity Recognition, NER)是資訊擷取、句法分析、機器翻 譯等自然語言處理相關的重要基本工具。目前有許多中文名稱辨識的研究,而以序列標 記(Sequential Labeling)結合機率統計模型為主要的辨識方法

在中文的實體名詞辨識,相對英文更加的複雜,由於中文的詞是由單字或多字的組 合而成,但字本身通常並非只有單一定義,所以在中文的實體名詞辨識中,分成兩個工 作,一個部分是將字組成詞,再對詞彙去做實體名詞的分類。Zhang[24]對人名、地名、

組織名辨識運用中文詞語粗分模型[23]去做斷詞,產生 top N 個結果;再對於訓練資料 中的字去產生角色模型(Role Model),透過每一個字在不同實體名詞下作為不同的角色 的這種特徵來幫助辨識產生候選詞彙,例如林可以是一個人名的字首,也可能是一個地 名的結尾;再透過條件機率去計算詞彙可能性判斷是否為實體名詞。而 Wu[22]將人名 更細分成中文、日本、俄國、歐洲人名以及人名縮寫,地名細分成一般人名與縮寫,提 出基於詞模型(Word Model)與詞性模型(POS Model)的特徵組合產生混合式模型,同時加 入經驗法則(Heuristic)得到的知識,來因應各種類型的名詞辨識,尤其特別處理了外國 人名以及人名縮寫這部分,透過人民日報的資料來訓練模型及測詴說明混合式模型可以 突破個別模型的缺點。

6

不過上述處理的語料屬於現代白話文,擁有較大量的語料可以去產生效果較佳的斷 詞、詞性標記工具,實際應用在中國古代文學資料上時,並無法得到與處理白話文時同 等的效果,目前並沒有可普遍應用於地方志文獻的斷詞和詞性標記方法的工具。因此,

過去研究中也提出了可以使用於中國古代文獻資料的辨識方法,張尚斌[7]提出詞夾子演 算法做專有名詞的辨識,詞夾子是使用“前文”、“詞首”、“詞尾”、“後文”的組合。主要 概念是利用人在文章寫作上的習慣與字詞之間的耦合關係,來找出專有名詞。透過先給 予樣本詞,然後找出和樣本詞的前後文,也尌是出現在樣本詞前後幾個字,詞首尾則表 示樣本詞的字首以及字尾,並利用這些作為詞夾子再找出與樣本詞相似的候選詞,過迭 代方式不斷產生更多的詞夾子與候選詞;之後透過杜協昌[3]建立了使用者介面,讓人文 學者可以在研究上廣泛地應用詞夾子方法。彭維謙[9]提出一個自動擷取中文人名的演算 法,先透過標點符合切割句子;下一步透過 PMI(Point-wise Mutual Information)公式去計 算字與字之間的相依關係,來決定兩字可否接續在一起成為詞彙,再透過正規化進一步 去區分常用詞與專有名詞;而後透過 PMI分數將字合併成詞,再挑選出候選的人名詞彙;

最後透過候選詞前、後文用詞統計以及人名本身用字統計去產生一個分數來驗證是否為 人名。

在過去古文內實體名詞辨識的研究中,由於語料的缺乏,以及並無適當的已標記資 料,所以難以採用機器學習的方式,而本研究透過 CBDB 內透過人工整理的人物資訊和 地名、官名等專有名詞表以及對應的地方志語料,去詴著標記語料產生訓練資料,嘗詴 使用機器學習方式來做地方志文獻相關的實體名詞辨識。

7

在文檔中 應用序列標記技術於地方志的實體名詞辨識 - 政大學術集成 (頁 22-25)