• 沒有找到結果。

立 政 治 大 學

Na tiona

l Ch engchi University

第二章 文獻回顧

我們在此分成兩個部份作討論,在 2.1 節中介紹數位人文相關的研究,在 2.2 節 則介紹對於人文語料中如何分析與探勘。

2.1 數位人文相關研究

資訊技術快速的成長,處理資料的速度大幅提升,因此提供歷史人文學者數位化 的研究環境。人文學者可透過資訊科學技術,對語料擷取大量與儲存的相關資訊 特徵,並針對使用者的需求從這些資料中進行分析,探索更深層的脈絡及背後的 意義。

從臺灣大學數位典藏研究發展中心自 2009 年起舉辦的「數位典藏與數位人 文」國際研討會,至今已經舉辦了六屆的研討會,可見數位人文研究近年來受到 高度的重視。項潔等[7]分析探討近年數位人文的發展,指出數位人文目前正蓬 勃發展且備受期待的領域,作為一個發展中的新興領域,我們應該用廣義的角度 去做定義,主因數位人文的出發點是因人文學者的需要,並推廣大家對於人文領 域上的了解。所以我們須在數位技術與人文研究中找尋一個平衡點,而不是堅持 過去既有的方法,排斥數位技術的輔助,但也不能因此完全相信與依賴數位技術,

反而失去了人文研究本身專業地判斷與分析。因此對於數位技術與人文研究應該 相互結合運作達到有快速且有效的成果。金觀濤[4]指出人文資訊在判讀可靠性 時,包含了人文研究者和資訊紀錄者的觀念是否相同或是相互理解判讀的原則,

因此數位技術在人文研究中不只是針對數據結果進行分析統計,還需要處理各種

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

文史或人文語料的剖析,而這些文史、人文的語料還包含了人文研究的核心,所 以數位技術與人文研究相互輔助相當的重要。

2.2 數位人文資料分析之相關研究

取得了原始的數位資料後,我們還須透過資訊科學技術來進一步對這些資料做有 效的整理、擷取、和分析,在有限的資料中挖掘出對於相關研究者有意義的新方 向。

金觀濤等[5]希望藉由數位人文統計方法,對《新青年》找出觀念群集的變 化軌跡。透過 Pat-tree 數位擷取技術與 Zipf-Mandelbrot 模型,計算出文本語料的 核心觀念的關鍵詞彙。再透過核心觀念中高頻的詞彙建構出詞彙間的連結關係,

代表語料的概念網路,並予以輔助文史學者研究分析。

劉昭麟等[9]以中國近現代思想及文學史數據庫為例,透過自然語言處理技 術輔助史學研究學者,在大量的史料中篩選出與研究相關的關鍵詞彙詞集,再進 一步對關鍵詞彙進行詞頻及共現詞組的統計、分析,並估算個別歷史文件與研究 議題的相關度,協助史學研究者能夠有效的取得相關的歷史文件和分析文件中的 內容。

金觀濤等[6]對《清季外交史料》中探討研究「華人觀念」如何隨著認知焦 點的變化逐漸成為一個脈絡。透過觀察關鍵詞彙「華工」的周圍詞彙隨時間區段 上的變化,藉由「共現詞頻分析法」協助相關研究者可以快速地在龐大的史料中,

找出與關鍵詞彙共現度較高的詞彙,進一步架構出以「華工」為核心的重要關鍵 詞叢,進而觀察觀念上的變化過程。希望可以藉由數位技術使更多的人文學者可 以進一步快速有效的處理龐大的文本語料,進行更宏觀的人文分析研究。

Wang 和 Inaba[32]對 2005 年到 2010 年共計五年在數位人文研究領域相關的 期刊論文及研討會論文進行了年代與關鍵字的對應分析(correspondence analysis)、

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

關鍵字彼此共同出現的共字分析(co-word analysis),其結果顯示「數位人文」概 念已經在 2010 年左右逐漸轉變,由人文電算(humanities computing)轉變為數位人 文(digital humanities);而在關鍵詞「數位人文」出現的比率也在近幾年間持續增 加中。

Blei[11]運用 latent Dirichlet allocation (LDA)主題模型統計大量文件,找出隱 藏在的文件中的主題結構。因現在的電腦設備計算速度越來越快數,故可在嚴格 方法檢查數據探勘情況下,藉由放寬一些 LDA 統計上的假設,運用在各種領域 的分析中,如:社群網路分析、圖像分析等。利用主題模型予以超越傳統的資訊 技術應用上。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

相關文件