國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
第六章 結論與未來展望
本節總結研究成果與發現,並針對觀察到的論點,說明目前持續進行的工作,最 後歸納未來可進行的方向。
6.1 結論
本研究目的為開發一套中文語料分析工具,幫助人文學者在擁有珍貴與大量語料 的情況下,透過分析工具輔助並結合本身的專業能力對語料進行時間或空間上的 主題變化分析。
我們針對《新青年》、《人民日報》作為實驗語料與分析,將中文語料找出可 能的關鍵詞彙,透過計算關鍵詞彙間的關聯強度,並利用分群方式找出各個時間、
空間上符合的主題與相關句子,並提供給專業學者們在系統工具的輔助與專業知 識結合,達到效率、方便、準確性的結果。且我們也實際提供此套工具給專業的 人文學者分析《新青年》中「世界」觀念的轉變,並於數位典藏與數位人文國際 研討會中發表論文。除此之外我們也自行根據分析出來的結果,將《新青年》以 卷為單位介紹觀念思想上由「自由主義」轉變成「馬克思主義」的變化;《人民 日報》則是根據工具分群結果與專家學者提供的主題類別,統計出各個年度符合 的主題類別並搭配歷史事件與相關句予以佐證說明。
除了《新青年》、《人民日報》語料藉由系統工具分析外,目前持續協助賴惠 玲 3教授研究關於「客家、硬頸、精神」在時間空間中概念上的變化。透過賴教
3
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
授所提供的《聯合報》、《中國時報》中包含「客家」的新聞報導文章,共計 36593 篇的新聞文章,針對「客家、硬頸、精神」等周圍的關鍵詞彙,透過工具程式所 計算的關鍵詞彙緊密程度結果,提供給賴教授研究上的參考資料與依據。
因此在工具開發上,我們不斷結合透過各種中文語料的測試,並將在各種中 文語料中會面臨的問題,作為修正工具介面與設定功能的依據,並在分析工具中 提供更多元且機動性的設定給予使用者選擇。透過這些簡單的功能設定達到對於 文本與料中的雜訊清除,使得文本更能貼近使用者所期許狀況,在減少雜訊的影 響後得到更準確的關聯數據結果。此外在工具中分別針對各個功能提供了功能說 明與操作介紹,如此一來對於第一次操作此系統工具的使用者能夠更快上手。
6.2 未來展望
我們雖然提供了很多種不同的計算關鍵詞彙間的關聯度方法,且可以根據各種方 法將關鍵詞彙分群與找出與關鍵詞彙的相關句。但在應用上對人文學者來說產生 了另一種負擔,因人文學者在不懂每一種方法原理的情況下,無法比較每一個方 法的差異性,故對人文學者來說總是希望將所有方法的結果透過整合的方式,變 成一組整合後的關聯強度數據結果與分群結果,在這方面或許可以結合專業的人 文學者輔助,利用他們已知的結果情況結合機器學習方法將這些數據視為個別的 特徵值予以整合計算。
在階層式分群結果中使用者雖然可以決定自己所想要的分群數,但有時反而 讓使用者不知道如何選擇符合文本的分群數,故未來可以在結合計算 perplexity 的機率分布找出分群結果的分布情況並找出一個轉折點,此一轉折點為可能的最 理想的分群群組數,在輸出結果時提供此一組分群結果作為推薦給使用者的理想 分群群組數。
‧
[1] 人民日報,http://paper.people.com.cn/。
[2] 中 國 近 現 代 思 想 及 文 學 史 專 業 數 據 庫 文 獻 簡 介 , http://digibase.ssic.nccu.edu.tw/?m=2302&wsn=0300。
[3] 台灣數位人文小小讚,https://sites.google.com/site/taiwandigitalhumanities/。
[4] 金觀濤。數位人文研究的理論基礎,數位人文研究的新視野:基礎與想像, 起源為例,2011 年第三屆數位典藏與數位人文國際研討會論文集,199-223,
臺灣,2011。
[7] 項潔、翁稷安。導論―關於數位人文的思考:理論與方法,數位人文研究的 新視野:基礎與想像,項潔編,臺灣大學出版中心,9-18,臺灣,2011。
[8] 新青年簡介,http://zh.wikipedia.org/zh-tw/新青年。
[9] 劉昭麟、金觀濤、劉青峰、邱偉雲、及姚育松。自然語言處理技術於中文史 學文獻分析之初步應用,2011 第三屆數位典藏與數位人文國際研討會論文 集,151-168,臺灣,2011。
[10] John Aldrich. R.A. Fisher and the making of maximum likelihood 1912-1922, Statistical Science, 162-176, 1997.
[11] David M. Blei, Andrew Y. Ng, and Michael I. Jordan. Latent Dirichlet allocation, Journal of Machine Learning Research, 993–1022, 2003.
[12] Lee-Feng Chien. PAT-tree-based adaptive keyphrase extraction for intelligent chinese information retrieval, Information Processing and Management, 501-521, 1999.
[13] Kenneth Ward Church , Patrick Hanks. Word association norms, mutual information, and lexicography, Compute Linguist , 22–29, 1990.
[14] Garry A. Einicke. Smoothing, Filtering and Prediction: Estimating the Past, Present and Future, InTech, 2012.
[15] George William Furnas, Scott Deerwester, Susan T. Dumais, Thomas K.
Landauer, and Richard Harshman. Indexing by latent semantic analysis, Journal of The American Society for Information Science, 391—407, USA,1990.
[16] Jiawei Han, Micheline Kamber, Morgan Kaufmann. Data Mining: Concepts and Techniques, Morgan Kaufmann, 2012.
‧
[17] Trevor John Hastie, Robert Tibshirani. Generalized Additive Models, Chapman
& Hall/CRC, 1990.
[18] JAMA, http://math.nist.gov/javanumerics/jama/
[19] Leonard Kaufman, Peter J. Rousseeuw. Finding Groups in Data: An Introduction to Cluster Analysis, WILEY, 2005.
[20] Chao-Lin Liu, Guantao Jin, Qingfeng Liu, Wei-Yun Chiu, and Yih-Soong Yu.
Some chances and challenges in applying language technologies to historical studies in chinese, International Journal of Computational Linguistics and Chinese Language Processing, 27‒46, 2011.
[21] Yang Liu, Minghui Qiu, Swapna Gottipati, Feida Zhu, Jing Jiang, Huiping Sun, and Zhong Chen. CQARank: Jointly Model Topics and Expertise in Community Question Answering. In Proceedings of the 22nd ACM International Conference on Information and Knowledge Management,USA, 2013.
[22] Christopher D. Manning, Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press, 1999.
[23] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space, In Proceedings of Workshop at ICLR, 2013.
[24] PAT Tree , http://www.openfoundry.org/of/projects/367/.
[25] Karl Pearson , http://en.wikipedia.org/wiki/Karl_Pearson.
[26] SRI Language Modeling ( SRILM ) , http://www.speech.sri.com/projects/srilm/.
[27] Stanford Part-Of-Speech Tagger, http://nlp.stanford.edu/software/tagger.shtml.
[28] Stanford Type Dependencies , http://nlp.stanford.edu/software/lex-parser.shtml.
[29] Stanford Word Segmenter , http://nlp.stanford.edu/software/segmenter.shtml.
[30] Lloyd N. Trefethen, David Bau, III. Numerical linear algebra, Siam, 1997.
[31] WEKA , http://www.cs.waikato.ac.nz/ml/weka/.
[32] Xiao-guang Wang, Mitsuyuki Inaba. Structure and evolution of digital humanities: empirical research based on correspondence and co-word analyses, 從保存到創造:開啟數位人文研究,97-112,臺北:國立臺灣大學出版中心,
2011。