第五章 產生標記語料

5.2 資料前處理

語料本身會因為數位化當時的數位化規則設計、輸入者的誤判等狀況,會與研究者所期 望處理的格式有差異,導致數位化內容與研究需要不一致,會使得最後的效果降低,以 下針對發現的狀況各別去處理,將資料調整成適合本研究的形式。本節介紹在標記前對 資料所做的處理工作,分成五個小節:(1)刪除地方志雜訊。(2)卷分割地方志語料 。(3) 異體字補充。(4)原始名詞表內容比對及分析。(5)標記規則。

5.2.1 刪除

地方志

未用標記

首先,根據圖 3.2 所示,語料中有許多○的標記,代表文本中文字與文字間空格的距離,

但我們無法辨別○標記數量的實際意義。為了去解決此問題,一種是將空白全部刪除,

會導致缺少了一些斷句的依據;另一種是保留一個空白,保留一些斷句的資訊,但會失 去空格距離的意義,同時造成部分斷詞錯誤,本研究中採取全部刪除的方式;另外還有 幾種標籤,分別是頁碼的標籤、圖檔的標籤、[T4]標籤,這些標籤可能是學者當初數位 化時所設計的特殊標籤,而本論文中並不會使用到,所以會將全部的特殊標籤刪除。

5.2.2 卷分割

地方志

語料

一本地方志之中,其中可能包含了數卷的資料,而開頭架構皆如圖 5.1 所示,例如歸善 縣志卷之九、淅川廳志卷三等。透過正規擷取出卷開頭,如此便能從語料以本為單位轉 換成以卷為單位。

5.2.3 異體字補充

異體字,又稱為又體、重文,意思尌是不同的字卻擁有相同的發音及意義。其中又分為

[地名]+志卷(之)+[數字] ()內詞彙表示可有可無。

圖5.1 地方志卷開頭結構

17

完全異體字與部分異體字,差別在於部分異體字只在部分情況下意義才相通[5],表 5.2 為異體字的例子。

由於地方志的語料跨越了數個朝代而且具有地域性,根據不同地區,所使用的文字 會有些許變化,抑或是不同的時期的字體也會有差異,例如「康熙」、「康熈」,進而導 致有些詞彙再標記過程時因字體不同而沒有被標記,所以本論文利用了異體字整理表[6]

去挑出常見的語料中異體字來補充至名詞表內,讓標記的效果更好。

表5.2 異體字部分範例 強 强

乾 幹

冊 册

熙 熈

啟 啓

曆 歷 厯

表5.3 名詞表重複詞彙統計

人名資訊表 地名表 年號表 官職表 入仕表

人名資訊表 × × × × ×

地名表 185 × × × ×

年號表 42 118 × × ×

官職表 10 0 0 × ×

入仕表 0 0 0 0 ×

18

5.2.4 原始名詞表內容比對及分析

由於擁有多組名詞表,各組名詞表間可能會有相同的詞,本論文稱為多義詞,將人物資 料表與其他名詞表做交叉比對,發現其中人物資訊表與其他表格中有共同出現的如表 5.3。

在人名資訊表中,與年號表、官職表重複數量不多,透過簡易的檢查,發現是人名 資訊表中錯誤資訊的部分,故刪除人名資料表中與官職表重複的部分。透過刪除人名資 訊表與官職表之間的重複詞,問題尌變成是人名與地名、地名與年號之間的多義問題,

透過語境分析[17],將多義詞視為中心詞彙,觀察其前後的語境,進一步瞭解到其前後 出現過那些文字,在透過觀察分析,可以找出常見的語言架構,如圖 5.2 所示,如此發 現到當多義詞在特定語法結構下,會表示特定意義,在此根據經驗法則將常見的結構結 合成標記規則,在下一節中拿來應用。

金城:

立萬户府所屬山陰馬邑 金城[地名] 等凡七屯地里志明洪武 人物傳趙應祥長沙衛人 金城[人名] 字邦衛厯城人通志府傳

… 安福:

熙正白旗光緒十五年任 安福[人名] 鑲黃旗人光緒十八年任 門者迄今思之王弁江西 安福[地名] 人歲貢苟完四川西充人 人萬歴十九年任王廷俊 安福[地名] 舉人萬歴二十二年任汪

19

5.2.5 標記規則

根據圖 5.2 中的範例所示,顯示透過語境分析所找出的多義詞,多為地名、人名、年號 間的衝突。根據分析的結果,利用規則增加了一種標記類別,日期型標記;並透過常見 的書寫架構去對部分標記作判斷。

首先介紹日期標記,首先找出文本中的「年」、「月」的位置,再根據當前位置往前 觀察是否是數字或是天干地支,透過此方式辨別是否為日期標記,如圖 5.3 所示。

增加了日期標記後,在標記的過程中,若發現多義詞出現在下列幾種狀況時,會給 予相對應的標記:

1. 若多義詞+「人」,則多義詞為地名。

嘉慶孫廷臣浙江 紹興[地名]人 吏目元年任朱濤二年 2. 若多義詞+「縣」,則多義詞為地名。

陳順鑲四川 金堂[地名] 縣 進士宣統二年署 紹興:

年分無考章汝楫尉劉貢 紹興[年號] 十七年任韓彦端二十年 五年任嘉慶孫廷臣浙江 紹興[地名] 人吏目元年任朱濤二年

… 太康:

進士詳宦績柳國勲河南 太康[地名] 監生詳宦績趙煌陝西乾 年以上皆稱太守晉丁義 太康[年號] 二年國相張景永康二年 生康熙五十一年任傅弼 太康[地名] 人貢生康熙五十八年任

圖5.2 語境分析範例

20

3. 若多義詞+[職官],則多義詞為地名。

進士詳宦績柳國勲河南 太康[地名]監生[職官] 詳宦績趙煌陝西乾 4. 若多義詞+[入仕],則多義詞為地名。

萬歴十九年任王廷俊安福[地名]舉人[入仕]萬歴二十二年任 5. 若[人名]+多義詞+[地名],則多義詞為地名。

嘉慶 孫廷臣[人名]浙江[地名]紹興[地名]人吏目元年任朱濤二年 6. 若多義詞+[日期],則多義詞為年號。

年分無考章汝楫尉劉貢 紹興[年號] 十七年[日期]任韓彦端二十年

這裡定義了常見的六種多義詞判別的方式,在後面的標記方法中,也會運用這類書寫架 構的特徵,來使研究時的標記判斷更為準確。

日期標記[日期]:

[天干]={甲乙丙丁戊己庚辛壬癸}

[地支]={子丑寅卯辰巳午未申酉戌亥}

[數字]={一二三四五六七八九十}

[年月]={年月}

若符合以下格式:

[天干]+[地支]+「年」

[數字]+([數字]+([數字]))+[年月]

「元」+「年」

則標為[日期]

圖5.3 日期標記方法

21

在文檔中 應用序列標記技術於地方志的實體名詞辨識 - 政大學術集成 (頁 34-39)