• 沒有找到結果。

詞夾子演算法 (Word-Clip Algorithm)

第二章 相關研究

2.2 詞夾子演算法 (Word-Clip Algorithm)

立 政 治 大 學

Na tiona

l Ch engchi University

關於機器學習之機率模型的人名識別研究,例如採用支持向量機 (Support Vector Machine, SVM)來進行人名識別[21],或是毛婷婷[2]除了用 SVM 之外,並且和機率統計 模型結合的方式,進行中國人名的識別,先依單字的詞性、前字是否為姓氏、單字為人 名的機率…等屬性,從字中擷取特徵向量藉此方式得到訓練資料,再以適當的 SVM 函 數建立模型,並考慮到其他模型來輔助 SVM,此實驗結果的準確率為 94.62%,召回率 為 91.96%,F 值為 93.27%。關於結合機器學習以及語料庫規則進行中文命名實體識別 的方法,在李中國[5]的研究中,根據人名左右邊界的詞語,以及人名用字機率作為識別 依據,針對文本先採用正向最大匹配法 (Forward Maximum Matching)進行斷詞的處理之 後,接著再利用多次掃瞄的動作,並搭配利用上下文的相關資訊以及人名用字機率,對 文本進行人名識別,其實驗結果的準確率為 94.52%,召回率為 98.97%,F 值為 96.69%。

2.2 詞夾子演算法 (Word-Clip Algorithm)

在史料中進行人名識別的相關研究,其中張尚斌[8]提出的詞夾子演算法便是基於歷史文 本的特性進行人名識別。

作者藉由觀察史料中的特性,得知歷史文件中具有特定的樣板文字。舉例來說,臣 鰲拜跪奏、臣索尼跪奏,在這例子當中「臣…跪奏」即為一個詞夾子,「臣」為左詞夾 子而「跪奏」為右詞夾子。其中,詞夾子演算法的基本精神如圖 2.1 所示,是運用已知 的人名得出夾住該人名的詞夾子,再利用這些詞夾子去得到更多未知的人名,經由反覆 的進行以及一套評估標準,針對詞夾子取得之候選詞進行評估,直到設定的終止條件為 止。所以承上例,我們可利用已知的鰲拜和索尼等人名,得出詞夾子為「臣…跪奏」,

並且再將此詞夾子做為新的樣板,利用它繼續取得未知的人名。詞夾子演算法在人名識 別的精確率為 56.1%,召回率為 77.1%。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

詞夾子演算法可以針對史料進行人名識別,像朱政吉[3]利用改進詞夾子的方式,從 史料取得人名之後再建立官員之間的社會網絡,並且從中找尋權臣。但是本研究最終目 的在於產生職官年表,僅需要取得擔任過職官的人名即可。然而,若是利用詞夾子演算 法來擷取人名,則會產生過多與職官不相干的人名,也就是連同一些鄉野村夫的人名都 被一併擷取出來,對於最後職官年表的產生無實際的幫助,再者,藉由詞夾子擷取人名 並無考慮到該人名擔任職官的任期。雖然本研究與詞夾子演算法兩者皆需要從史料中擷 取人名,但是基於上述原由,詞夾子演算法對於產生職官年表非最適合的處理方法,因 此並不適用在我們的研究上面。

詞夾子

已知人名 未知人名

評分機制

索尼、鰲拜

臣索尼跪奏 惟鰲拜是問

臣…跪奏、惟…是問

臣蘇克薩哈跪奏 惟遏必隆是問

蘇克薩哈、遏必隆

圖 2.1:詞夾子演算法基本精神4

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

第三章

從史料中產生職官任職資訊

本研究之主要目的,是希望從清朝時期的史料中自動產生職官任職資訊,以職官為主並 且依時間軸列出所有擔任該職官的歷史人物與任期。在本研究中首先以資料探勘和資訊 擷取的方式進行中文命名實體識別 (Chinese Named Entity Recognition),包括人名以及 任期時間。接著利用這些資訊自動產生清代的職官任職資訊,我們以提供一項輔助工具 為出發點,藉由資訊技術自動產生類似《清代職官年表》一書中以人力方式整理出來的 歷史職官年表,如圖 3.1 所示為湖廣總督職官年表,記載歷任湖廣總督以及任期,並希 望能夠對於歷史學者不僅在資料的彙整方面或是研究的過程中間有所幫助,還能夠使得 歷史學者進行史學研究時更加的方便。

在第二章相關研究當中,介紹了命名實體識別領域裡中文人名識別的幾項方法,在 這方面的研究議題,目前大部份主要針對的文本為白話文,鮮少針對古文進行處理,本 研究便是以古文為主的史料做為實驗文本識別人名。然而,本研究最終目的在於自動產 生清代的職官年表,同時找出與擔任職官的人名以及任期,換句話說,與一般以中文人 名識別為主研究目的不同。在本研究識別與職官相關之人名和任期的部份,作法上面有 別於先前傳統人名識別較常採用的機器學習 (Machine Learning)或者建置詞庫為主 (Corpus-based)的方式,本研究以資料探勘的技術,利用區間頻繁項目集探勘 (Frequent Itemsets Mining with Period)的概念,透過史料的觀察與分析,針對它在寫作上的特性以 及風格,並且歸納與整理出對探勘有幫助的寫作特性,接著再基於這些歷史文本的寫作 特性,以資料探勘的方式針對各個不同的職官名稱,從已經數位化的史料內容中自動辨

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

識出與任職的官員姓名與任期時間,最後再利用人名與任期時間以及職官名稱等資訊自 動產生清代康熙時期的職官年表,圖 3.2 說明了本研究的架構流程圖。

湖廣總督

任職官員 上任時間 卸任時間 張長庚 順治十八年二月 康熙七年十月 蔡毓榮 康熙九年四月 康熙二十一年正月 董衛國 康熙二十一年正月 康熙二十二年十一月 徐國相 康熙二十三年正月 康熙二十七年三月 丁思孔 康熙二十七年九月 康熙三十三年四月 吳琠 康熙三十三年四月 康熙三十五年六月 李輝祖 康熙三十五年七月 康熙三十八年六月 郭琇 康熙三十八年六月 康熙四十二年正月 喻成龍 康熙四十二年四月 康熙四十四年八月 石文晟 康熙四十四年八月 康熙四十六年五月 郭世隆 康熙四十六年六月 康熙四十九年十月 鄂海 康熙四十九年十月 康熙五十二年四月 額倫特 康熙五十二年四月 康熙五十五年三月 滿丕 康熙五十五年三月 康熙六十一年十一月

圖 3.1:湖廣總督職官年表5

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

在史料《清聖祖實錄》當中,由於是以編年體的型式撰寫,根據時間為軸依序記載 所有的史事,包括政治、經濟、文化、軍事、外交及自然現象…等,大部份的史事中也 會同時記載關於該事件的人員、職官、時間或地點。然而,若是將包含某個特定職官名 稱的所有句子依序從史料中擷取出來,並按照時間排序來觀察,從觀察中發現史料在職 官名稱與人名之間的寫作上存在特殊的關係,兩者往往會伴隨著一起出現的情況相當常 見,也就是說,在史料寫作上提到人名的時候,該人名所擔任的職官名稱通常也會連同 一起被提及,例如東閣大學士熊賜履、九門步軍統領費揚武、吏部尚書李光地…等稱呼,

換句話說,人名時常與其擔任的職官名稱一起出現。

為了更具體的呈現人名與其職官名稱的關係,在此以湖廣總督為例,並摘錄中研院 漢籍電子資料庫查詢湖廣總督之部份結果來進行說明,如圖 3.3 所示。左邊欄位代表第 幾筆查詢結果,右邊欄位紀錄查詢結果的內容,分別包括時間以及所描述的事件,而粗 體字與雙底線的部份為我們手動標記,分別用以表示職官名稱以及人名,以便突顯出兩 者在史料寫作之間的關係。從圖 3.3 中可以得知,大部份提到湖廣總督時也會一併記載 當時擔任該職官的人名,像是第三筆查詢結果為當時湖廣總督張長庚談到殉難總兵官的 事務,第六筆查詢結果為任命蔡毓榮擔任湖廣總督一職,第十四筆查詢結果為蔡毓榮改 任為雲南貴州總督。

然而,史料中也會存在職官名稱與人名沒有伴隨一起出現的情況,例如第四筆和第 五筆查詢結果,分別為裁撤和復設湖廣總督職務,換句話說,當史料在記載職官的設立、

裁撤或合併等沿革情況時,人名便不會伴隨職官名稱附近出現,但是記載職官沿革情況 的次數相較之下來的少,史料之中大部份仍然為記載一般史事較為常見,由此可見,大 部份情況下職官名稱與人名兩者往往會伴隨著一起出現之情況相當常見。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

十七筆的結果當中,最頻繁出現的名詞為董衛國。因此由上述可知,我們能夠利用觀察 的史料寫作特性,針對職官名稱尋找在史料當中包含此職官名稱之所有句子當中,不同 期間所頻繁出現的人名,換句話說,該期間較常伴隨出現的名詞,就是於該期間所擔任 該職官的官員。

3.1.1 職官名稱與人名位置關係

利用史料寫作特性做為人名擷取的基本精神,是以職官名稱與人名的伴隨關係,在史料 中識別職官年表當中的官員,已知兩者會一起出現並伴隨附近,但是對於確切的位置關 係必須事先觀察瞭解,儘量建立出一套規則,避免以偏概全導致影響任職官員的判斷。

因此,我們還需要考慮到職官名稱與人名之間的位置關係,通常在一般直覺上認為人名 常出現於職官名稱的後面,但事實上在史料中職官名稱與人名位置關係主要有三種可能 的情況,整理如下所述:

1. 職官名稱後緊接著人名

擔任該職官的官員姓名在職官名稱之後並且相緊鄰,如例句為湖廣總督蔡毓榮奏報 吳三桂兵至澧州。此種緊鄰的情況常見於史料中記載官員上奏朝廷之時,是職官名稱與 人名較為常見的位置關係,對於人類閱讀習慣上也是較容易找出該職官所對應的人名位 置關係。

擔任該職官的官員姓名在職官名稱之後並且相緊鄰,如例句為湖廣總督蔡毓榮奏報 吳三桂兵至澧州。此種緊鄰的情況常見於史料中記載官員上奏朝廷之時,是職官名稱與 人名較為常見的位置關係,對於人類閱讀習慣上也是較容易找出該職官所對應的人名位 置關係。