四、 文獻探討
4.2 數位人文資訊技術運用概況
數位人文是一個快速發展中的文理交叉學科,已經在多個研究分支取得了豐富的成果。如在歷 史學方面的基於 GIS 的歷史地理視覺化;在文學方面的文本挖掘與 TEI 標準;在語言學方面的基 於大型語料庫的語料庫語言學;在舞蹈方面的視頻捕捉、運動分析與虛擬實境再現;考古學方面的 圖像分析、色彩還原和數位重建等。[12]
在文學研究領域,面對越來越多的電子出版物,人們已經開始嘗試採用字詞統計、資訊抽取等 定量的研究方法,該方法在作者歸屬和文學風格與文學流派分析上已經顯示出強大的威力,大大拓 展了傳統的基於單個作品分析的局限;在歷史學研究領域,通過對大量歷史文本進行命名實體和空 間歷史資料的抽取,可以對歷史知識和歷史事件進行靜態和動態的視覺化展示,以揭示社會經濟系 統在時空演變中的客觀規律及相應的政策與規劃手段;在語言學研究領域,基於大規模語料庫的研 究已經成為主流。“語料庫語言學”的迅猛發展使得自然語言文本的採集、存儲、檢索、統計、自 動切分、詞性標注、語義標注等領域取得了一系列突出的成果。[12]
歷史學研究方面
「中國近現代思想及文學史專業數據庫(1830-1930)」研究團隊探索有關觀念史研究的數位人 文方法:如以指涉於觀念的關鍵詞為研究核心,開發出前/後詞綴數位方法:以前/後詞綴為主,
透過數位技術快速勾勒出相同詞綴的不同詮釋向度。如以「後詞綴」數位方法,觀察「主義」觀念 的形成、發展與變化的過程,除可從「中國近現代思想及文學史專業數據庫(1830-1930)」共五萬 一千多筆「主義」資料中篩除不相關資料 92%外,又可快速確定近代中國百年間共出現 1,680 種 不同名稱的主義,並給出每年「主義」的種類數目、各種主義在每年的使用頻度、任一「主義」的 發展趨勢、特殊高峰期相關「主義」的關係和演變脈絡、「主義」的脈絡化轉向與時代語境,宏觀 的掌握「主義」這一關鍵詞所指涉的近代中國的重要概念 / 觀念的形成與演變軌跡,以及其在近 代中國產生的影響。 [13]
陳柏聿《新青年》雜誌作為主要的觀察文集與實驗案例分析,利用五種的共現關係,將社群網 絡的概念引入到文本分析之中,將每個詞彙當作節點,詞彙之間的關聯性當作邊建立詞彙網絡,從 中找出詞彙所形成的觀念,並實作一個由文集中探勘觀念的系統,此系統主要提供三種分析功能,
分別是多詞彙觀念查詢、單詞彙觀念查詢與潛在觀念探勘。研究列後利用該系統找出由自由主義轉 向馬克思列寧主義變化的軌跡,並探勘兩個觀念下的關鍵詞彙。[14]
金觀濤等以《清季外交史料》(1875-1911 年)為底本,挑選曾出現過「華工」此一關鍵詞之 文獻共有 109 篇,總字數為 118,899 字,旁及目前「華工事件」與「華人意識」之相關研究。研 究主要以其所研發之「共現詞頻分析法」為數位輔助程式,透過此程式,可協助研究者快速在所欲 研究的龐大文本中,切割出眾多的待選詞,再由研究者確定重要關鍵詞後,進一步將關鍵詞兩兩配
對成共現詞組,觀察各共現詞組的共現頻度及歷時性分布。而研究者即可從高共現頻度之共現詞組 中,架構出以事件為核心之重要關鍵詞叢,進而觀察事件與觀念之間的互動過程。[15]
劉昭麟等以「中國近現代思想及文學史數據庫」為例,實驗如何利用自然語言處理技術輔助史 學研究,利用 PAT Tree 技術從大量史料中,透過專家的協助來擷取與史學相關的詞彙,進一步分 析詞彙的語境與共現的現象,最終估計個別文件與研究議題相關度,希望藉此輔助學者以比較有效 率的方式,覓得相關的史學文件和分件文件內容。自然語言處理技術固然不能完全取代史學研究者 從事史學研究,但是初步經驗顯示,自然語言處理技術有足夠的潛力為史學研究者提供初步分析的 服務,讓史學研究者可以比較有效率的方式處理大量的語料,並且把珍貴的研究時間用於知識層次 的分析工作。[16]
數位研究實驗室(Digital Scholarship Lab)的 Mining the Dispatch 計畫運用 topic modeling 技術對 超過 11 萬頁、約 2 千 4 百萬字的報紙內容進行分析,呈現出在西元 1860 年 11 月(林肯當選為美利 堅合眾國總統後)至 1865 年 12 月(里奇蒙於同年 4 月被攻陷並撤退)期間,地方社會所經驗的歷史過 程及政治社會變遷、和一般民眾之社會生活的持續與斷裂。而 Visualizing Emancipation 計畫不僅結 合官方紀錄、報紙、私人信件與日記等不同來源的地圖與文本材料,並應用 Google Earth 的功能及 其視覺化介面,呈現出南北戰爭時期維吉尼亞州各地區之奴隸解放的進行過程、地方差異、和發展 模式,以及伴隨此過程的社會變遷狀況。「台灣大學數位人文研究中心電子報 27 期」
「中國歷代人物數據庫」(China Biographical Database, CBDB)為以宋代人物的傳記為中心,在 積累大量數據的同時進行群體傳記學(prosopography)的研究。群體傳記學是想找出某一個特定群體 共有的身份資訊,例如,其教育程度、出身背景乃至宗教信仰等,進而通過這個視角對社會現象進 行分析。清史學者 Kent Guy 利用群體傳記對清朝中國以前的巡撫的籍貫、教育背景等,通過統計 分析發現一些有趣的現象,如這些巡撫大多在科舉考試中不太成功,他們差不多都在官職生涯中期 擔任這個職位,這是進一步升官的中途站。對於這個結論,救了數據的支持,以往研究者所提出的 結論都是模糊的,但這次的分析讓這些結論更堅實。[17]
Spatial History Project 之一的"The Broken Paths of Freedom"為巴西奴隸買賣歷史的研究,Daryle Williams 等研究者利用"spatial turn",首先匯總各個時期的相歷史數據和資訊,標注在地圖上,並 深度探堪文本,跨各個時間點揭示新的知識和對歷史的理解。
金觀濤等以<<新青年>>為文本,將關鍵詞的概念加以量化,並從統計理論出發得出一個較客 觀的指標,研究發現,利用此統計與數位方法,除了解決主觀判斷的爭議外及減少人工篩選的負擔 外,也具有三項突破,(1) 能夠更加準確地將關鍵詞篩選出來;(2) 應證了偏離值大小能夠代表詞 的關鍵性;(3) 應證了關鍵詞詞數能夠部份反映文本的思想變化。[18]
有關印歐語的起源一直都富有爭議,一種理論認為它起原於大約 6,000 年前的 Pontic 草原;另
一種理論認為它起源於 Anatolia, 是在 8,000~9,500 年前随著農業的傳播而散佈到世界各地。研究者 利用 Bayesian phylogeographic(親緣地理學)對 103 種古代與現代印歐語言進行分析,為找出印歐語 系的確切誕生地,研究者在初期工作的基礎上,運用生物資訊學在流行病傳播研究領域的計算方法 和相關的資訊處理模型,把語言的變化和地理數據同時輸到電腦,得出的結論明顯支持第二種起源 說。[19]
圖書館研究方面
2009 年 4 月,OCLC 正式宣佈即將推出基於 WorldCat 書目數據的"Web 協作型圖書館管理服務
", 不僅此項服務被公認為是後項雲端計算服務,同時此舉預示著雲計算開始在圖書館領域廣泛應 用。雲端計算的出現對於圖書館來說,最終是要通過圖書館讀者服務功能體現並發揮其作用,重點 在於圖書館如何利用它來提升圖書館服務的方式方法以及服務效率能級。[20]
圖書館的核心價值就是毫無保留的動用技術、人力與資源,讓讀者公平、自由地獲取資訊。對 於圖書館來說,雲端計算最大的價值在於讓圖書館人專注於自己的業務,擺脫資訊科技的束縛,發 揮資訊科技的最大效益,降低資訊科技 應用的難度和複雜性,從而降低管理成本,減少風險,並 進行更大範圍的協作,提供更好的服務。[21]
在 The Qumran Visualization Project 數位人文計畫中,作者透過對該計劃的批判性回顧,提出 一些有關神學圖書館應該關心的數位人文問題,並提供圖書館可以支持、推廣或參與相關計劃的優 勢。[22]
文學研究方面
武曉春等利用 HowNet 知識庫,提出一種新的基於詞滙語義分析的相似度評估方法,有效利用 了功能詞以外的其它詞滙,達到了較好的作者身份識別功能。其提出基於詞的作品風格相似性分析 方法,發現了除了普遍認同的功能詞外,其它詞滙經過合理篩選也可以有效地區分不同作者寫作風 格的特徵。其採用的基於熵的特徵加權方法,在理論上解釋了不同詞滙在作回比較過程中的重要程 度,在實驗中提高了分類性能。研究所提出的方法,對作回長度有一定的要求,同時也發現作回中 特有的一些詞匯在 How Net 知識庫中沒有定義,所以擴充知識庫或改進知識庫的利用方法,更精 確更完整地定義「語義相同,形式不同"的風格特徵集合,將進一步提高結論的可靠性。[23]
人物間的關係一直是歷史研究的重要一環,以很的人工分析往往只局限在比較明顯或單純的關 係,難以涉及那些潛在的、複雜的關係。通過電腦輔助分析,研究者很可能觀察到人際網絡中不同 節點的關聯,從而提出新的結論。參與中「國歷代人物數據庫」(China Biographical Database, CBDB) 相關計畫的研究者已開始利用這些資料來還原宋代思想學派間的互動,並推測宋代一些學者可能是 不同學派間溝通的橋樑。[24]
陳炳藻將《紅樓夢》一百二十回本按順序編成三組,每組四十回。並將《兒女英雄傳》作為第 四組進行比較研究。從每組中任取八萬字,分別挑出名詞、動詞、形容詞、副詞、虛詞這五種詞,
通過計算機程序對這些詞進行編排、統計、比較和處理,進而找出各組相關程度。 結果發現《紅
通過計算機程序對這些詞進行編排、統計、比較和處理,進而找出各組相關程度。 結果發現《紅