• 沒有找到結果。

第五章 結論與未來研究

5.2 未來研究

立 政 治 大 學

Na tiona

l Ch engchi University

而經由實驗結果所得知的,本研究自動產生之職官年表當中存在錯誤部分,我們進 一步去觀察並分析了以下幾種原因,包括因史料中人名的誤繕、本身含有錯別字或是人 名用字稱呼不一,而造成在計算後選名詞之支持度有所影響,並且也間接影響到候選名 詞組合以及頻繁區間的判斷。另外針對任期準確率的部份,也會因為史料的寫作關係而 造成影響,例如裁撤該職官時若沒有記載當時擔任的人名,則會在該人名任期的結束部 份造成判斷錯誤,以及沒記載上任時間的情況亦然。由於史料文本的關係導致的影響,

是目前我們所無法克服的天然影響因素,在未來也許可以再針對這些地方提出改進的規 則或機制。

我們提出基於歷史文本的特性,以資料探勘的方式識別擔任職官的官員人名,並且 自動產生職官年表的資訊,同時充分的使用數位化的史料,使得數位化的史料內容除了 提供搜尋或者全文檢索之外,也可以從中進行探勘與分析並且能夠自動產生職官年表。

目前我們僅針對清代的康熙時期,爾後希望能藉由此方法更進一步產生整個清朝時期的 職官年表,甚至套用在其他同樣為編年體之史料產生更多朝代的職官年表,省去人工編 輯過程中所耗費的龐大時間與心力,換句話說,取得更多對歷史學者研究有幫助的資 訊,除了已經證實的史觀之外,或許也能夠找出隱含的資訊,讓史學研究者能夠透過更 多資訊技術,提供成為協助他們研究過程中的輔助工具。

5.2 未來研究

關於未來研究的部份,除了針對史料中人名識別效果的改進之外,可以考慮利用已 擷取出來的人名,結合其他史料中的資訊擷取,進行更多有意義的史料分析,例如透過 人名以及該人名所擔任的職官名稱,進一步去觀察其中的變化,例如升遷或者貶官等資 訊,找出歷史學者研究中較為感興趣的細節或者現象。

除此之外,其他考慮的議題像是針對史料文本裡職官名稱當中出現的地名,可以對

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

該職官做更深入的分析,例如福建總督(康熙二十六年,福建總督更名福建浙江總督)、

廣東廣西總督(康熙時期稱之為廣東廣西總督,雍正十二年之後為兩廣總督)、或湖南巡 撫等職官,根據這些職官在歷史上的意義與地位,配合資訊技術來觀察與探討,是否某 些地方職官因地理位置關係,與其他職官有更多意想不到的差異。

另外也可以從仕途變化的角度來進行探勘與分析,當某些人擔任過這些特定職官 後,使得仕途上產生一些有趣的變化或者影響,間接瞭解特定職官的隱含重要性,或是 透過官員之間人脈網絡的關係,藉由社會網絡分析 (Social Network Analysis)的相關技術 觀察是否有「一人得道,雞犬升天」的現象,找尋官員們在官場底下微妙的互動,從中 進行派系團體的探勘。再者可以考慮替歷史學者們建立起一套專業的歷史搜尋引擎,根 據直觀地輸入人名、事件、時間、地點或物品進行檢索的動作,利用現存的資訊技術再 加上專業的歷史人文素養來處理史料,透過這些步驟建置一套能夠通往古今的歷史搜尋 引擎,除了幫助歷史研究者之外還能夠便利民眾對歷史的學習。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

參考文獻

[1] 二月河,康熙大帝,台經院文化,臺北,2001 年。

[2] 毛婷婷、李麗雙與黃德根,基於混合模型的中國人名識別,《中文信息學報》,第二 十一卷,第二期,2007 年。

[3] 朱政吉,由史料中探勘社會網絡:以乾隆時期為例,國立政治大學資訊科學學系碩 士論文,2008 年。

[4] 向曉雯、史曉東與曾準琳,一個統計與規則相結合的中文命名實體識別系統,計算 機應用,第二十五卷,第十期,2005 年。

[5] 李中國與劉穎,邊界模板和局部統計相結合的中國人名識別,《中文信息學報》第 二十卷,第五期,2006 年。

[6] 李振昌、李御璽與陳信希,中文文本專有名詞辨識問題之研究,國立臺灣大學資訊 工程學系碩士論文,1994 年。

[7] 李澍田編,清實錄東北史料全輯 (共三冊),吉林文史出版社,長春,1988 年。

[8] 張尚斌,詞夾子演算法在專有名詞辨識上的應用─以歷史文件為例,國立臺灣大學 資訊工程學系碩士論文,2005 年。

[9] 張敏與毛少平,用於信息檢索的古文統計分析,《中文信息學報》第十五卷第六期,

2001 年。

[10] 陳捷先,滿文清實錄研究,大化書局出版社,臺北,1978 年。

[11] 趙爾巽等纂修,清史稿 (共五冊),博愛出版社,臺北,1983 年。

[12] 錢實甫編,清代職官年表 (共四冊),中華書局出版社,北京,1980 年。

[13] R. Agrawal and R. Srikant,“Fast Algorithms for Mining Association Rules,”

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

Proceedings of the 20th International Conference on Very Large Data Bases, 1994.

[14] R. Baeza-Yates and B. Ribeiro-Neto, Modern Information Retrieval, The ACM Press, 1999.

[15] O. Bender, F. J. Och, and H. Ney, “Maximum Entropy Models for Named Entity Recognition,” Proceedings of the seventh conference on Natural language learning, 2003.

[16] C. K. Fan and W. H. Tsai, “Automatic Word Identification in Chinese Sentences by the Relaxation Technique,” Proceeding of National Computer Symposium, 1987.

[17] D. Farmakiotou, V. Karkaletsis, J. Koutsias, G. Sigletos, C. D. Spyropoulos, and P.

Stamatopoulos, “Rule-Based Named Entity Recognition For Greek Financial Texts,” In Proceedings of the Workshop on Computational Lexicography and Multimedia Dictionaries, 2000.

[18] M. Fresko, B. Rozenfeld, and Ronen Feldman, “A Hybrid Approach to NER by Integrating Manual Rules into MEMM,” AI and Math, 2006.

[19] J. Han and M. Kamber, Data mining: Concepts and Techniques Second Edition, Elsevier, San Francisco, 2006.

[20] J. W. Huang, B. R. Dai, and M. S. Chen, “Twain: Two-End Association Miner with Precise Frequent Exhibition Periods,” ACM Transactions on Knowledge Discovery from Data, Vol. 1, No. 2, 2007.

[21] H. Isozaki and H. KazawaEfficient, “Support Vector Classifiers for Named Entity Recognition,” In Proceedings of the 19th International Conference on Computational Linguistics, 2002.

[22] K.T. Lua and K.W. Gan, “An Application of Information Theory in Chinese Word Segmentation,” Journal of Computer Processing of Chinese and Oriental Languge, Vol.

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

8, No. 1, 1994.

[23] B. I. Li, S. Lien, C. F. Sun and M. S. Sun, “A Maximal Matching Automatic Chinese Word Segmentation Algorithm Using Corpus Tagging for Ambiguity Resolution,”

Proceedings of the Conference on Research on Computational Linguistics, 1991.

[24] J. Y. Nie, M. L. Hannan, and W. Jin, “Unknow Word Detection and Segmentation of Chinese Using Statistical and Heuristic Knowledge,” Journal of Communications of the Chinese and Oriental Languages Information Processing Society, Vol. 5, 1995.

[25] B. Settles, “Biomedical Named Entity Recognition Using Conditional Random Fields and Rich Feature Sets,” Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and Its Applications, 2004.

[26] R. Song, “Person Name Recognition Method Based on Corpus and Rule,” In Computational Language Research and Development, L. W. Chen & Q. Yuan, ed., Beijing Institute of Linguistic Press, 1993.

[27] Y. Wu, J. Zhao and B. Xu, “Chinese Named Entity Recognition Combining a Statistical Model with Human Knowledge,” In Proceedings of the Workshop on Multilingual and Mixed-language Named Entity Recognition, 2003.

[28] G. D. Zhou and J. Su, “Named Entity Recognition using an HMM-based Chunk Tagger,”

Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2002.

[29] X. Zhu, M. Li, J. Gao and C. N. Huang, “Single Character Chinese Named Entity Recognition,” Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing, 2003.

[30] H. P. Zhang, Q. Liu, H. Yu, X. Cheng and S. Bai, “Chinese Named Entity Recognition Using Role Model,” Computational Linguistics and Chinese Language Processing, Vol.

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

8, No. 2, 2003.

[31] G. D. Zhou and J. Su, “Named Entity Recognition using and HMM-based Chunk Tagger,” Preceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002.

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

附錄

附錄一:研究採用二品的部份職官清單

直隸總督、江南江西總督、山東總督、山西總督、直隸山東河南總督、四川陜西總督、

福建總督、湖廣總督、四川總督、廣東廣西總督、雲南總督、雲南貴州總督、漕運總督、

河道總督、江南總督、貴州總督、廣西總督、山西陜西總督、陜西總督、浙江總督、河 南總督、直隸巡撫、江寧巡撫、安徽巡撫、鳳陽巡撫、山東巡撫、山西巡撫、河南巡撫、

陝西巡撫、延綏巡撫、甘肅巡撫、寧夏巡撫、福建巡撫、浙江巡撫、江西巡撫、南贛巡 撫、湖廣巡撫、偏沅巡撫、四川巡撫、廣東巡撫、廣西巡撫、雲南巡撫、貴州巡撫、江 蘇巡撫、江蘇布政使、安徽布政使、甘肅布政使、湖北布政使、湖南布政使、河南布政 使、山東布政使、山西布政使、陜西布政使、廣東布政使、廣西布政使、四川布政使、

雲南布政使、貴州布政使、江西布政使、浙江布政使、福建布政使。