國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
第一章 緒論
1.1 研究背景與動機
現今資訊數位化快速發展,在各個領域中許多的資訊皆透過電腦輔助予以數位化。
數位人文是在近年內數位科技應用的重要趨勢之一,數位人文為藉由資訊科學的 技術結合大量的人文語料,並對語料進行各種特徵分析,例如:詞彙頻率、共現 詞彙、空間、時間等。藉由多種的特徵分析提供給語料相關的研究學者做進一步 研究,以彌補在利用人工難以整理或無法觀察到的現象與趨勢。
目前有許多的資訊搜尋系統雖然可在短時間找出所有符合使用者所給的搜 尋字串資訊,但這些搜尋出來的大量資訊不一定全部都是使用者所需要的資訊,
所以如何快速的搜尋與保留真正具有意義的數據與資料,這是目前在大量數據中 資訊探勘非常重要的課題。
故此研究希望建構一套詞彙分析工具,對任意中文語料能夠有效率、準確的 進行分析,透過找出語料中關鍵詞彙間的相互關係,予以輔助該語料的專業學者 結合其專業知識進行後續的詮釋與分析。因應現今許多數位化的語料相當珍貴,
故此套分析工具給予人文、歷史學者擁有很大的自主空間,可以不需要將珍貴語 料上傳至公共空間或他人空間進行分析的情況下,自主性的在本機端予以研究探 勘,如此一來人文學者可以節省大量的人工閱讀時間且可以保護珍貴的語料。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
1.2 研究目的
此研究希望對各種類型中文語料,透過計算專業詞彙關聯度分析流程,獲得關鍵 詞彙在不同時間或空間上的觀點,以及詞彙間語意上的關聯性,透過資訊科學快 速分析的結果輔助該語料相關研究學者進行更深層的研究。
我們利用《人民日報》[1]、《新青年》[8]中文語料,做為建立這套語料分 析處理流程的基礎,對此語料進行專業詞彙的關聯度與主題分析。此研究中《人 民日報》內容主要是收集 1946-2013 年間包含「人權」此一關鍵詞彙的相關文章 報導。而《新青年》的內容則是收集了《新青年》雜誌中 1915-1922 年間的所有 文章。利用以下流程對語料進行分析:一、使用者可以自行給予關鍵詞彙、或透 過資訊科學技術對文章抽取可能的關鍵詞彙;二、對關鍵詞彙進行各種計算詞彙 關 聯 度 方 法 , 如 : mean 、 SRILM[26] 、 apriori algorithm[16] 、 latent semantic analysis[15]、pointwise mutual information[13]、Person’s chi-squared test[22]、typed dependencies distance 、 Gibbs sampling for latent Dirichlet allocation[11] 、 word2vec[23]等;三、運用流程二中所得的各種詞彙間的關聯強度數值透過分群 方法找出符合的主題與提供輸出分析數據、相關句、分群圖表,讓使用者做進一 步的相關研究。
1.3 主要貢獻
在本研究中,我們提出了一個中文語料分析工具,主要的目的希望可以藉由簡單 的操作介面,協助人文學者對於欲研究的歷史觀念、主題層面觀察與分析。此工 具除了可以大量的處理中文語料外還可以將使用者給定的時間或空間區間快速 地進行分析,讓人文學者在各種不同面相發現新議題。
使用者可以透過此分析工具在大量未知的中文文本中,透過斷詞與計算詞頻 的方式並結合其專業知識挑選出可能的關鍵詞彙,利用各種計算關鍵詞彙間的關
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
聯度功能,找出各種統計關鍵詞彙間的關聯強度的面向,去探討文本中詞彙間觀 念的轉變。最後還可將關鍵詞彙透過彼此間的關聯強度予以分群找出符合每一個 時間、空間中的詞叢或主題,並且推薦詞叢或主題相關的相關句予以輔助,提供 給予人文學者做後續的文史分析與整合語料的趨勢變化。
最後此工具也提供給人文學者使用,並利用計算的數據結果與詞彙分群相關 句的輔助在 2015 年 DADH 國際研討會中發表論文,且目前朝向開放此套工具的 目標前進。
1.4 論文架構
本論文共分為六個章節,第一章為緒論,我們說明研究背景與動機、研究目的、
主要貢獻、論文架構;第二章探討數位人文與文本語料分析的相關研究;第三章 針對語料前處理方法與關鍵詞彙關聯度計算方式進行介紹;第四章說明我們工具 的功能介面、操作流程、輸出結果;第五章描述透過工具輔助實驗語料的結果分 析與評估;第六章為結論與未來展望。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University