• 沒有找到結果。

臺灣資訊化先驅謝清俊(2014 年)在中國科學院第 10 屆「兩岸三院資訊技術與 應用交流研討會」,發表「淺談人文資訊學的回顧與省思」簡報。他在人文資訊學發 展緩慢議題中提出省思:「目前,人文學者利用數位工具協助研究,還泰半停留在數 據或資料處理的層面。這還是1980 年之前的一般水平啊!遲滯了三十年吶!」謝教 授談的是資訊技術能否及如何協助人文學者做「理解」與「意義」的研究,他深深了 解學科性質的不同、追求的不同,而期許資訊領域不要畏懼困難,努力嘗試達到對人 文學科的影響。因為,資訊科技「對每個領域都提出了對問題的新看法,並提供了對 問題詮釋的新角度和解決問題的新方法,進而建立了對問題理解的新模式和新理論。」

人文學科也不可能自外於這場改變。謝教授沒有責備人文領域的意思,是作資訊端的 反省,但文史研究者難道不需要思考,為什麼我們落後了三十年?新看法、新角度、

新方法、新模式與新理論,連五個新,文史界要持續作壁上觀嗎?

2012 年牛津大學網路研究所教授麥爾荀伯格 Viktor Mayer-Schonberger()以及

《經濟學人》雜誌資料編輯庫基耶(Kenneth Cukier)合寫了一部《大數據》,宣告

「『數位革命』之後,『資料革命』登場:巨量資料掀起生活、工作和思考方式的全面 革新」。此書一出,很快成為網路書店第一名暢銷書,被喻為十年一見的改變觀念之 書(麥爾荀伯格、庫基耶,2013/林俊宏譯,2013)。數位文明已然再度進化,從原 先的大規模資訊轉換,到現在生產出人類文明的新資料品種,而且數量龐大到自己可 以建立觀點、發言說話。文史界的資訊課題,似乎不容再忽視了。「大數據」的全部 概念或許不盡適用於文史數位化討論,但它提出的思考與方法理念,值得我們借鑑。

(一)技術突破與開放文本

大數據的基本精神在發現與創意開發鉅量資料的價值,提醒我們一個資料導向的 社會與世界即將到來。即「當一切成為資料」、「量化這個世界」,所掌握的訊息可展 延為「無窮無盡」的用途(麥爾荀伯格、庫基耶,2013/林俊宏譯,2013,頁 113、

133)。13 資料化與數位化還不同,數位化僅是將文獻錄為數據或掃瞄,它們必須被

13 「大數據」書中所談其實多為被動性蒐集資料,與我們文史數位化尚須主動建設基礎,階段不 同。但它闡釋的唯有全面資料化以後,才能進行各種創意觀察,發現隱藏的認識,提供人們解 決問題,適用文史研究參考。

進一步詮釋及判斷,才能成為可分析的資料,也才可以成為資訊人眼中真正利用來「做 研究」的工具。

「資料化」不是新名詞,就如同1950 年代史學家嚴耕望(1956)為研究唐代士 風與黨爭,細密考證了唐代二千六百八十餘任共1,116 位尚書省左右僕射、左右丞、

六部尚書與侍郎官員的籍貫、出身、任職等資料,編為圖表;為寫作《唐代交通圖考》,

從《全唐詩》找出 1,000 條以上的相關佐證(嚴耕望,2008)。這裡都看到量化的研 究法。古籍數位化資料也要朝這樣的方向加值,進行數位文本的標示,讓一次整理成 果,提供無數嚴耕望的創意組合取用,而或許省下嚴耕望那種畢生孜孜矻矻、毫不懈 怠喘息的資料爬梳工作。文史研究者資料爬梳工作不僅在獲取材料,也從中奠定對專 業的認識與見識,不是區區資料蒐集可以論價值的。但,如果每一個有志研究者都要 重新去梳理材料、提取關鍵詞彙,重複耗費時間精力,在數位時代是一種消耗與浪費。

更重要的,如果對象只是一部總集、幾部史書與政書,那還在控制範圍,而若跨越的 時間與空間超過人的可能呢?

資料庫進行全文檢索,只能找到完全符合檢索詞內碼的詞彙或單字,無法智慧判 斷可能的相同資料,其結果是粗略的。但進行像XML 語法標示,把材料中的詞彙與 性質定位且定義出來,則不僅可令檢索時完整無誤,數位文件還可進行大串連,真正 地發揮數位化功能,跳脫電子版本的捱板角色(謝清俊,2007,2008)。目前不少個 別製作採excel 檔欄位建置,交由資訊公司轉入資料庫,這樣的數位化未來若無人持 續維護,資料庫是停滯的,資料是封閉的,不便再加利用,也不能匯流成資料大軍。

XML 語法標示,如筆者建置之「古籍叢書資料庫」:

<_ id="1279.枕經閣叢刊(一名太平陳氏枕經閣叢書)"/>

<coll>枕經閣叢刊</coll>(一名<coll type="alias">太平陳氏枕經閣叢書</coll>)

<pr>陳樹鈞</pr>編

<ed>清宣統元年(1909)太平陳氏自刻本</ed>

<ti j="1">菌譜</ti>一 JUAN 宋<pr>陳仁玉</pr>撰 <ti j="1">讀書錄存疑</ti>一 JUAN 宋<pr>潘音</pr>撰 <ti j="1">田間書</ti>一 JUAN 元<pr>林昉</pr>撰

給予每一筆叢書如同身分證的編號,說明別名、編者、版本以及子目書名作者資 料,有了這些標示,未來可隨心運算其間訊息。此項工作需要文史專家投入,只有專

業才能明瞭這些材料的意義,得以正確標示並規畫未來功能。尤其重要的是,制定一 種古籍標示的凡例,如何斷詞、如何突顯各種詞彙。如方志的標示:

<ti j="10">雍録</ti>十 JUAN 宋<pr>程大昌</pr>撰

<ti j="4">元河南志</ti>四 JUAN 清<pr>徐松</pr>輯

〔至元〕<ti j="6">齊乘</ti>六 JUAN<ti j="1">附釋音</ti>一 JUAN 元<pr>于欽</pr>纂 釋音<pr>于潛</pr>撰

〔淳熙〕<ti j="10">新安志</ti>十 JUAN<ti j="1">附録</ti>一 JUAN 宋<pr>羅願</pr>纂

考量讀者檢索時會採用的詞彙,進行標示選擇。但仍有可能如「元河南志」,讀 者未必輸入完整,在許多須首字符合的檢索系統中,此資料很可能漏失。已開發之模 糊檢索功能,即使輸入的詞彙是不完整或跳離在上下幾行的,系統都可以計算出符合 比例,提供選擇呈現。古籍資料要全面進行標示,乍聽下不容易,但事實上今天已有 許多軟體工具可輔助,文史專家只要管控那些電腦所無法判斷與理解的部分。如法鼓 文理學院所建置的「佛學規範資料庫」建立之「知識規範檔」(authority)。如圖 2 此 人名部分,為每一位重要佛學人物建立身分規範碼,包含各種相關知識並多語種內容。

完善此規範檔,未來可以利用在數位文本的自動標示,不論文本中出現的是本名、字 號或各種習見稱號,都可以被規範、標示出來,也就可以完整檢得。

圖2 「鳩摩羅什」規範資料。圖片取自「佛學規範資料庫」(http://dev.

ddbc.edu.tw/authority/person/)。法鼓文理學院版權所有。

法鼓文理學院製作電子佛典CBETA 及相關知識整理與開發,有十分豐富、細膩、

深刻及優越的成績。最難能可貴的是,他們的資料庫、資料本身與各種成果都完全置

放網上,提供無償使用與下載。像他們的人名、地名、時間規範資料庫,即可作為自 動搜尋並標示的工具,讓其他古籍資料庫的標示作業事半功倍。文本開放在此突顯為 一議題。佛教團體建置資料庫,有與其他古籍製作相異之用心與目標,故不能一以概 之。但誠如國學網尹小林(2013)先生所言「我們正處於一個偉大的時代,需要產 生偉大的作品,創造偉大的成果」(光明日報,2013)。基於這樣的使命,就需要有 宏闊的思維,有帶領古籍過渡為數位資料的責任感。

再以維基百科與臉書為例,前者為內容開放的百科全書,由全世界人類共同參與 書寫,無償提供網路自由檢閱,目前中文版已有79 萬 234 個條目(維基媒體基金會,

2015 年 1 月 17 日),同時間大英百科中文版的條目為 7 萬個(遠流出版公司、智慧 藏科技學習公司,無日期),相差十餘倍。維基百科不完全以多取勝,它的內容在全 球協力下已愈來愈完善、深入,且免費、便利使用,這樣的成果簡直是人類的奇蹟與 偉大象徵。維基尚有文庫,也是由世界各地人們自由、義務性地提供文本,文檔已有 11 萬 5,224 篇(維基媒體基金會 a,2014.10.12),不乏古籍作品。或許這些文本內容 不盡精確,但它檢索方便、使用無償,查閱率不下那些收費資料庫。假以時日,這種 開放式文本的成長將不可限量,有哪個團隊的組員能有幾十億人口呢?在數位時代,

資料就是話語權,這是文化霸權的掌握,不啻一場戰爭。另如風靡全球的社群網站-

臉書,全球活躍用戶數在2012 年 10 月突破 10 億(維基媒體基金會 b,2014.10.12),

它不收費,卻為創始人馬克•祖克柏(Mark Elliot Zuckerberg)帶來鉅額財富。祖克 柏早有機會賣出此贏利商品,但他說自己關心的是「如何讓世界更開放」(維基媒體 基金會c,2014.10.12)。可見投資報酬率的資料庫使用思維有另種可能。

數位化人力與金錢資本都鉅大,不可能全部公益,但至少以國家、政府經費製作 的應該向全民開放,資源共享。文本開放後提供大眾加值,加值成果若也開放,全球 受益,可吸引廣泛使用;不開放的加值成果不便利用,難以敵對免費資源。現階段古 籍數位技術還相當多且專業,例如「語意檢索」(葉健欣,2009)與「視覺化古籍校 勘平台」(葉健欣,2014),古籍自動標點、自動比對與自動排版技術(光明日報,

2013), 已遠過文史學者的可能想像。技術飛躍進步,若能再擁有文本,古籍數位 化趕上二十年,或許能夠期待。

(二)新型態的「船堅礮利」?

數位文本進行標示,後續就能展開各種運算與分析,將詞彙資料發展成視覺化訊 息及衍生資料統計後的新研究議題。以目前製作相當先進與優越的法鼓文理學院佛學

數位文本進行標示,後續就能展開各種運算與分析,將詞彙資料發展成視覺化訊 息及衍生資料統計後的新研究議題。以目前製作相當先進與優越的法鼓文理學院佛學

相關文件