國立臺灣大學文學院圖書資訊學系 碩士論文
Department of Library and Information Science College of Liberal Arts
National Taiwan University Master Thesis
從大學教師的觀點探討學術圖書館發展之資料庋用服務
A Research on How to Develop Data Curation Service in Academic Library from Professors’ Viewpoint
秦韻涵 Yun-Han Chin
指導教授:陳雪華 博士 Advisor: Hsueh-Hua Chen, Ph.D.
中華民國 101 年 7 月
July 2012
誌謝辭
三年的時間說來也不短,其中真的有很多辛苦的部份,能夠順利走到畢業這 一步,我最感謝的是天父上帝,總是垂聽我的禱告,也給我夠用的恩典,讓我能 渡過許多難關,很多突發狀況也都有驚無險的解決,真的覺得今天能在這邊寫謝 辭,是因著主的保守和看顧,讓我能走完這段研究所的日子。
非常感謝我的指導教授陳雪華老師,總在百忙之中給予我很多建議和教導,
讓我不但能完成論文,也在當中學到許多寶貴的經驗;更感謝老師對我的包容,
身為一個從理學院來唸碩士班的學生,當中有很多不習慣和不適應,沮喪和想放 棄的時候也很多,謝謝老師的寬容與鼓勵,讓我順利畢業。
感謝我的父母,這三年來在各種不同方面給予我很多幫助。我的母親樂意聽 我訴苦,幫我禱告,也時常鼓勵我,真的是我完成學業最大的動力;而我的父親 在各種資源上幫助我,讓我唸完這三年的研究所,從不抱怨我從職場回到學校的 決定,真的很感謝他們對我的幫助,希望我也能親口表達感謝之意。最後論文的 衝刺階段,時常有來自弟弟的關心,讓我很感動,希望他明年也能順利畢業。
謝謝跟我同甘共苦的同學林玉,和給我許多幫助的雅文,雖然雅文已去國外 唸書,但仍感謝她在我剛進研究所的階段給予我許多幫助,因為我真的很不習慣 文學院在許多教學或作業上的模式,因此常麻煩她許多事。而在論文期間,常常 和林玉一起討論,一起進行研究,而讓論文能有所進展,是辛苦但也美好的回憶,
很高興今年跟林玉一起順利畢業。
最後想感謝一位對我而言十分特別的朋友,在我心情低落時陪伴我,想偷懶 時督促我,不開心時安慰我,是我不可或缺的好夥伴;不只是畢業,許許多多其 他的順境逆境,都有他的鼓勵與陪伴。為此我更加感謝主,讓我生命中遇到這麼 多願意幫助我、願意為我代禱的人們,包括高雄榮耀教會和基督之家的小組員們,
還有許多幫助過我的親戚朋友,願上帝祝福你們!
I
摘要
跨領域以及跨國研究的趨勢,使得研究資料的分享和保存成為學術環境中的 新興議題,也是資料庋用發展的依據;資料庋用能促進研究資料的保存與組織,
並提供檢索和取用,讓更多需要的使用者能夠持續的使用這些資料,以發揮其最 大價值,減少資源的浪費。資料密集是目前學術研究的趨勢之一,因此研究過程 中產生的大量資料如何被有效的保存、管理和分享是許多學術機構十分重視的問 題;而研究者身為資料的主要生產者與使用者,其對資料庋用的看法和需求,將 是成功推動資料庋用服務的關鍵。
本研究以臺灣大學的教師為對象,採用質性研究的訪談法,自 2011 年 8 月 至 2012 年 5 月,共訪談了 12 位臺大教師,瞭解他們對於資料庋用的看法,以及 對於發展資料庋用服務的需求,希望能夠作為臺大圖書館未來發展資料庋用服務 時的初步參考。
訪談結果的分析主要從資料來源與保存現況、資料之分享、資料之公開與遭 遇的障礙以及對資料庋用服務的期待與需求等 4 個層面進行討論和歸納,並根據 研究結果,針對臺大圖書館、臺灣大學以及政府單位等 3 個層級提出推動及發展 資料庋用服務的建議。
本研究之結果為以下幾點:一、各國在資料庋用之發展程度以英國和美國較 具代表性,可作為國內學術圖書館發展資料庋用服務之參考;二、研究資料之來 源多樣化,整理方式不一;三、研究資料之分享以不影響個人研究為優先考量;
四、對研究資料公開之態度較不積極;五、期待資料庋用服務之發展能有實質回 饋,並對研究有所幫助。
關鍵詞:研究資料、資料庋用、使用者研究
II
Abstract
Sharing and preservation of research data attracts lots of attention in the academic environment because of the trend of interdisciplinary and transnational research. Data Curation provide a good solution to data sharing and preservation. Data Curation, which involves maintaining, preserving and adding value to research data, can help researchers to access and reuse the data as well as to maximize its value and reduce resource waste. How to preserve and manage large amounts of data effectively is a very important issue for the academic institutions because of the trends of data-intensive research. The researchers who produce and use the research data will be the main target of data curation service, so what researchers want and need is very important to the academic institutions which try to develop the data curation service.
This thesis investigates the professors’ attitudes towards the concept of data curation and what they want or need for the data curation service . “Interviewing” is applied from the qualitative perspective and 12 of the professors of National Taiwan University were interviewed from the August, 2011, through the May, 2005.
Following conclusions are derived by analyzing the interviewing results.
1. The development of data curation in United Kingdom and the United States can be the best practice for academic libraries in Taiwan which want to develop the data curation service
2. High diversity in the resource of research data.
3. The sharing of research data can not affect the current research.
4. Researchers’ attitude toward data publication is negative.
5. Data curation service should provide feedback to their research.
Keyword: Data curation, research data, user study
III
目次
第一章 緒論... 1
第一節 研究背景與動機... 1
第二節 研究目的... 4
第三節 研究方法... 4
第四節 研究範圍與限制... 5
第五節 名詞解釋... 5
第二章 文獻探討... 7
第一節 資料庋用之意涵與重要性... 7
第二節 歐洲地區之資料庋用發展狀況... 13
第三節 美加地區之資料庋用發展狀況... 22
第四節 使用者調查相關研究... 31
第三章 研究設計與實施... 49
第一節 研究方法... 49
第二節 研究對象... 50
第三節 研究流程... 51
第四章 研究結果分析... 55
第一節 受訪者背景與資料類型... 55
第二節 研究資料之來源與保存現況... 59
第三節 研究資料之分享... 63
第四節 研究資料之公開與所遭遇的障礙... 67
第五節 對臺大圖書館發展資料庋用服務之期待與需求... 74
第六節 綜合討論... 79
第五章 結論與建議... 86
第一節 結論... 87
第二節 建議... 94
第三節 未來研究建議... 97
參考文獻... 99
附錄一... 104
附錄二... 106
IV
表目次
表 2-1 學術出版和研究資料之差異………..10
表 2-2 國外使用者調查之研究結果分析……….47
表 3-1 受訪者代號以及所屬科系和訪談時間…...………….……….50
表 4-1 受訪者之科系和研究領域………...………..56
表 4-2 受訪者資料類型分析………..58
表 4-3 本研究與國外使用者調查研究之分析比較……..……….85
V
圖目次
圖 2-1 Data Library and consultancy………18
圖 2-2 Edinburgh DataShare……….19
圖 2-3 Research data management guidance……….20
圖 2-4 EDINA………21
圖 2-5 DATA.GOV………...………23
圖 2-6 Research Data Management Service Group………...27
圖 2-7 DataStaR……….……….28
圖 2-8 Distributed Data Curation Center………30
圖 2-9 The Purdue University Research Repository………..31
圖 3-1 研究實施步驟……….…54
1
第一章 緒論
現代學術研究的重要特徵包括跨領域合作和密集、大量的使用並產出資料,
在這樣的新研究環境下,研究者們面對的不再單只是資料蒐集的問題,如何處理 研究過程中的大量資料也開始受到重視,研究資料的保存、管理以及分享成為學 術環境中不可不面對的新挑戰。
第一節 研究背景與動機
因著科技進步和研究上的需求,越來越多學術研究是以跨領域或遠距離合作 的方式來共同解決新的科學問題,發展新的研究方式;而在這樣的合作模式中,
大量的研究資料要如何被有效的組織並分享給研究團體中的其他人,成為研究過 程中不可避免的環節之一。e-Research 之概念就是在這股新興的學術研究潮流下 應運而生,其特徵是跨領域合作、大量且密集的資料使用和產出,重視資料的保 存與便利的分享,以促進學術研究的發展;Jankowski(2009)指出 e-Research 是基 於網際網路環境的學術研究,研究者以網路為基礎,並運用各種相關工具,打破 國界和學科領域的限制,實現跨國或跨領域的合作研究模式。e-Research 的興起 帶來研究思維上的突破,不同國家或領域之間密切合作的結果,產生了大量的研 究資料;對研究團隊而言,安全的保存和有效的分享資料十分重要,而對其他的 研究者而言,適度的開放使用這些資料,將使其更具價值,並有助於學術研究的 進步。
除了研究型態的轉變之外,另一個推動研究資料公開的因素在於認為由國家 補助而產生的研究,其成果也應為公眾所共享,亦包含在過程中產生的研究資料;
基於這個想法,經濟合作開發組織 (The Organization For Economic Cooperation
2
And Development,簡稱 OECD)於 2007 年提出了「公共贊助研究資料之近用原 則與基準(Principles and Guidelines for Access to Research Data from Public
Funding)」,其目的便在於促進研究資料的近用,尤其是由國家所贊助的計畫中 所產出之資料,以期達到強化科學之交流與進步、刺激新研究的產生、發掘更多 尚未被探討的研究主題等目的(OECD, 2007)。
研究資料的公開確實會對學術研究有所幫助,因此如何公開並讓其能被需要 的人取用就成為必須面對和解決的難題。資料庋用一詞翻譯自「data curation」,
其意義為對學術研究或教育上有價值的資料進行主動且持續的管理,包括對資料 的評鑑、選擇與組織等,以確保在其生命周期中能有效的被取得和使用(Shreeves
& Cragin, 2008)。由於資料庋用之對象是以數位化的資料為主,因此有一同義詞
「digital curation」,英國數位庋用中心(Digital Curation Centre,簡稱 DCC)將其定 義為「針對數位化之研究資料在其整個生命週期中進行維護、管理、保存和加值 之行為。」 (DCC, 2007)。資料庋用包含了針對研究資料進行管理、保存及再利 用之概念,強調的是在資料受到完善的保存與組織後,能夠提供檢索和取用,讓 更多需要的使用者能夠持續的使用這些資料,以發揮其最大價值,並減少資源的 浪費。資料庋用的發展將能為 e-Research 下產生大量的研究資料找到合適的解決 之道,是近年來相當受重視的議題。
資料庋用的發展有許多層級,例如英國的數位庋用中心(DCC)屬於國家級的 機構,希望站在國家的高度,透過各種合作和研究,發展完善的策略,並推動資 料庋用的發展。若從學科領域的層級來看,有些學科在資料公開方面早已是慣例,
因此發展了專門存放研究資料的資料庫,希望提供一個長久保存研究資料的解決 方案,例如美國醫學圖書館(U.S. National Library of Medicine)所建置的 National Center for Biotechnology Information (簡稱 NCBI),就是生物科技領域中最具公信 力和代表性的資料庫,其中有完整的基因和蛋白質結構等資料,是世界各國的研 究者們主動上傳並註冊的,已成為生物科技及相關領域之慣例。
3
對於其他並無學科典藏庫的領域來說,機構層級的典藏庫是一個解決方案,
故國外漸漸有學術圖書館將研究資料納入典藏範圍,例如英國愛丁堡大學的 Edinburgh DataShare 以及普渡大學的 Purdue University Research Repository,都是 學術圖書館參與其中並推出資料庋用相關服務的實例。Choudhury(2009)亦指出 圖書館具有發展資料庋用的潛力,透過將研究資料納入典藏範圍,擴充學術圖書 館的館藏,館員則可扮演資料科學人員(data scientist)的角色,讓圖書館成為提供 專業服務的資料中心,成為整個學術研究中重要的一環。
資料庋用的觀念在國內並不普及,目前也尚未有學術圖書館提供資料庋用服 務之實例。2011 年 5 月由臺灣大學(簡稱臺大)與教育部北二區區域教學資源中心 圖書館所主辦的「e-Research:新世代學術研究之利器」研討會中,邀請伊利諾 大學與賓州州立大學專家學者出席,並介紹國外學術圖書館發展資料庋用服務之 概況,應是國內首度對此議題有公開且共同的討論。臺灣大學圖書館(簡稱臺大 圖書館)更以此為契機,成立了 e-Research 小組,成員包括圖書館館長與兩位副 館長,學科館員亦參與其中,定期聚會並討論資料庋用相關議題,瞭解國外學術 圖書館在資料庋用服務方面的發展,以評估在校內落實的可能性。
臺大圖書館在推動機構層級的資料庋用時,首先會面對的就是同時身為資料 生產者和使用者的大學教師們,他們的參與意願、對資料庋用的看法和需求,都 是能否順利推動資料庋用服務的關鍵。國外大學在發展資料庋用服務時,會先對 校內的研究者們進行調查或訪談,瞭解他們的需求以及可能遭遇的障礙,作為推 動資料庋用的參考。因此本研究也希望透過對臺大教師的訪談,深入瞭解他們對 於資料庋用所代表的資料分享和公開等概念,抱持什麼樣的態度和看法,調查他 們對於資料庋用服務的期待和需求,以及目前學術環境中,是否存在不利於資料 庋用推廣的障礙,以期能夠作為臺大圖書館未來推動資料庋用服務的參考;唯有 協助教師們解決現存的障礙並提供符合他們需求的服務,才能讓學術圖書館在新 的研究環境中成為助力,並扮演學術研究中不可或缺的角色。
4
第二節 研究目的
本研究旨在瞭解大學教師對於學術圖書館發展資料庋用的看法和需求,由於 考量到各機構的差異性與獨特性,故以臺大之教師為研究對象,探討學術圖書館 資料庋用之發展方向,並希望能提供臺大圖書館作為發展資料庋用服務的參考。
本研究的目的如下:
(一) 探討國外大學之資料庋用發展現況,並分析其資料庋用相關之使用者 研究及成果。
(二) 調查臺大教師目前研究資料之來源及其保存 (三) 訪查臺大教師分享研究資料之狀況。
(四) 訪查臺大教師對於研究資料公開之態度與可能遭遇的障礙。
(五) 分析臺大教師對於資料庋用服務之期望與需求。
(六) 提供研究成果作為學術圖書館、研究型大學及政府單位未來發展資料 庋用服務之參考。
第三節 研究方法
資料庋用在國內屬於新興議題,大多教師對其認識不深,因此本研究採用訪 談法,以期在對談的過程中加以解釋資料庋用之意義,並瞭解臺大教師們之看法 與需求。訪談對象之挑選採取方便取樣,以期能夠找到對此議題較有興趣之教師 進行訪談;本研究使用半結構式的訪談,再根據受訪者的回答,轉成文字描述之 訪談文本,並加以分析、詮釋。
為達研究目的,且因資料庋用在國內幾乎尚未被討論,本研究首先蒐集國外 相關文獻,以瞭解資料庋用之意涵、重要性及發展現況,從中找出發展的較為完 善的大學進行深入介紹;並彙整國外許多使用者研究,據以設計訪談大綱,進行 訪談調查,最後將訪談結果加以整理歸納,提出結論與建議。
5
第四節 研究範圍與限制
本研究以臺大內從事研究的教師們為對象,希望能深入瞭解同時身為資料生 產者和使用者的教師們,對於臺大圖書館發展資料庋用服務有何看法,調查他們 對於資料庋用服務的期待和需求;以及目前學術環境中,是否存在不利於資料庋 用推廣的障礙,希望能做為未來臺大圖書館發展資料時的初步參考。考慮到臺大 教師人數眾多,無法在本研究中涵蓋所有不同之學術領域,故訪談對象之挑選採 用方便取樣,從有意願且容易接觸的教師開始訪談,再請受訪者推薦他們認為對 此議題有興趣或有需求之教師,進行下一步的訪談。
由於資料庋用屬於新興議題,國內文獻極為稀少,故本研究將以國外之文獻 為主要分析之對象,且受到語言的限制,參考之文獻以英文為主;考慮到各國發 展資料庋用的進展不一,希望挑選目前發展較為建全,且有大學層級之資料庋用 發展的國家進行深入介紹,因此在各國之資料庋用發展狀況方面,將以英國和美 國為主,並以具代表性的大學為例進行探討。
第五節 名詞解釋
一、 e-Research
e-Research 的特徵是跨領域合作、大量且密集的資料使用和產出,重視資料 的保存與便利的分享,以促進學術研究的發展;Jankowski (2009)指出 e-Research 是基於網際網路環境的學術研究,研究者以網路為基礎,並運用各種相關工具,
打破國界和學科領域的限制,實現跨國或跨領域的合作研究模式。
e-Research 和 e-Science、cyberinfrastructure 等詞意義相近,故時常被混用,
e-Science 主要應用於歐洲,美國則較常使用 Cyberinfrastructure;以代表的意涵 而言,e-Science 一般較為強調自然科學領域,而 Cyberinfrastructure 則是強調資
6
訊基礎建設對學術研究的幫助和影響。相較之下,e-Research 代表的是領域的擴 張,除了自然科學,也涵蓋了社會科學、人文科學等領域,更具整體觀點和代表 性(Harvey, 2010)。
二、 資料庋用
資料庋用一詞翻譯自「data curation」,其意義為對學術研究或教育上有價值 的資料進行主動且持續的管理,包括對資料的評鑑、選擇與組織等,以確保在其 生命周期中能有效的被取得和使用(Shreeves & Cragin, 2008)。由於資料庋用之對 象是以數位化的資料為主,因此有一同義詞「digital curation」,英國數位庋用中 心(Digital Curation Centre,簡稱 DCC)將其定義為「針對數位化之研究資料在其 整個生命週期中進行維護、管理、保存和加值之行為。」 (DCC, 2007)。
資料庋用包含了針對研究資料進行管理、保存及再利用之概念,強調的是在 資料受到完善的保存與組織後,能夠提供檢索和取用,讓更多需要的使用者能夠 持續的使用這些資料,以發揮其最大價值,並減少資源的浪費。
7
第二章 文獻探討
第一節 資料庋用之意涵與重要性
一、資料庋用的意涵
「資料庋用」一詞翻譯自「data curation」,Shreeves and Cragin (2008)對其之 定義為「對於在學術研究或教育上有價值的資料進行主動且持續的管理,包括對 資料的評鑑、選擇與組織等,以確保在其生命周期中能有效的被取得和使用。」;
而 Rusbridge et al.(2005)進一步的闡釋了「curation」一詞之意涵,認為其範圍不 只是對於資料當下的保存和再利用,而是要對資料進行加值,使其透過適當的公 開方式而更容易的被取得和使用。英國資訊系統聯合委員會 (Joint Information Systems Committee,簡稱 JISC)的報告中,認為「curation」和過去圖書資訊學界 使用的「archiving」及「preservation」等詞彙都有所不同,其包含的層面更廣,
除了長久的保存之外,更要維持保存對象之完整性,並促進使用者對其之取用。
以資料為對象時,則從資料被產生時就持續對其進行保存及管理,讓其能有效的 被檢索、取用和再利用,也要注意資料的不斷更新,以確保其符合需求 (Lord, Macdonald, Lyon, & Giaretta, 2004)。
資料庋用的概念在英國十分受到重視,並於 2004 年成立了數位庋用中心 (DCC),希望發展更完整的資料庋用策略,以促進國內學術研究之進步。數位庋 用中心對於資料庋用是採用「digital curation」一詞,其定義為「針對數位化之研 究資料在其整個生命週期中進行維護、管理、保存和加值之行為。」 (DCC, 2007)。
Beagrie 認為在資料庋用之議題上,很多詞彙都在持續的進化,或是在不同領域 中有各自的常用詞彙,容易在溝通上造成混淆,而 digital curation 可用以代表科 學界中常用的 data curation 和圖書資訊界使用的 digital preservation 等概念,而這
8
些詞彙多少都已留下一些刻板印象,例如不同領域對「data」的範圍界定有所不 同;而大部份研究者會認為 digital preservation 是研究結束後的事情,是圖書館 或出版者的責任,與他們無關。故選擇 digital curation 一詞除了能夠做為整合這 些類似概念的橋樑,也能避免一些對於既有詞彙的刻版印象 (Beagrie, 2006)。總 而言之,data curation 和 digital curation 所代表的概念基本上是相同的,只是在詞 彙的選擇上會因領域的不同而有所差異,故在本文中一律將其譯為「資料庋用」, 避免更多因為翻譯上的不同而造成之混淆。資料庋用包含了管理、保存及再利用 之概念,強調的是在資料受到完善的保存與組織後,能夠提供檢索和取用,讓更 多需要的使用者能夠持續的使用這些資料,以發揮其最大價值,並減少資源的浪 費。
資料庋用中的資料指的就是研究資料,不同領域中對於研究資料的範圍會有 不同之界定,故以下針對較廣泛之研究資料定義進行闡述。依據 OECD 於 2007 年在其「公共贊助研究資料之近用原則與基準」中對研究資料的定義,研究資料 指的是「作為科學研究主要來源之事實性紀錄,包括數據、文字紀錄、圖片和聲 音等,並且這些紀錄能夠被用來驗證研究成果而受到學術社群所認可」,研究資 料不包括用來做研究或分析的電腦設備、研究報告的草稿、未來的研究規劃、研 究相關人員之間的對話記錄和一些實體物件,像是實驗用的老鼠、細菌、樣本等。
(OECD, 2007)
根據美國國家科學基金理事會(National Science Board,簡稱 NSB)的分類,
研究資料依其產生的方式可分為以下四大類: (NSB, 2005)
1. 觀察型 (observational):包括測量值和調查報告等,大多具有特定時間、
地點的特性,屬於具有是歷史性質且不可能重新蒐集的資料。
2. 電腦運算型 (computational):來自於電腦模式或模擬之成果,要重製這 些資料需要有相同的硬體、軟體等條件,很多時候只有模擬結果被保存。
9
3. 實驗型 (experimental):大多來自於實驗進行中所紀錄下來的一切資料,
雖然可以重新進行相同實驗,卻常有時間、人力和經費上的考量,因此仍具 保存價值。
4. 紀錄型 (records):指關於政府、商業活動、社會現象等相關紀錄,可應 用於科學、社會科學、歷史研究等各方面。
英國的研究資訊網路(Research Information Network,簡稱 RIN)認為研究資料 的分類方法應不只一種,根據其產生之方式,研究資料可來自於科學實驗 (scientific experiments)、電腦模式或模擬(models or simulations)以及觀察
(observations)等三種不同的過程,若是根據資料被蒐集的原因不同,則可分為下 列三類:
1. 為了特定研究計畫所蒐集的資料,在該計畫之外的情境下,這些資料可 能不具太大的價值。
2. 為了特定學術團體、學科領域或跨領域所蒐集並用以輔助研究之資料。
3. 基本且能夠提供所有研究者都加以使用、參考的資料,像是化學結構、
基因序列或是文字紀錄等。
而不同研究階段中亦會產生不同的研究資料,大致分為研究初始階段產生的「原 始資料(raw data)」,通常來自觀察或實驗;另外則是將原始資料進行處理、分析 或合併後所產生的「衍生資料(derived data)」。(RIN, 2008)
Kuula (2008)認為學術出版和研究資料是有所不同的,並對其進行比較,其 對研究資料的描述較為完整,包括它可能並未被發表於研究成果中、牽涉到更多 隱私或保密的問題、著作權和擁有權的界線較不明確、可能需要授權或特定的軟 體才能使用等等;兩者的差別如表 2-1 所列。(Kuula, 2008)
10
表 2-1 學術出版和研究資料之差異 學術出版(publication) 研究資料(data)
代表了研究成果之資訊 不一定發表於研究成果中之資訊 使用者需用基本的軟體開啟 使用者可能需要特定軟體才能開啟
自行理解 需要更多相關資訊來幫助理解
不需要特殊的許可才能使用 使用前可能需要徵求同意 擁有權和著作權明確 擁有權和著作權常常不明確 學術社群可免費取用或是透過付費的
方式取得
有不同程度的開放情況(使用權限上的 限制不同)
被視為學術產出 目前尚未被視為正式的學術產出
已可被使用 需要額外的處理
資料來源:根據 Kuula, A.,& Borg, S. (2008). Open access to and reuse of research data: the state of the art in Finland. Finland: Finnish Social Science Data Archive (FSD)整理
綜上所述,研究資料極具多樣性,目前國際間尚無單一而完整之定義。本研 究依據資料庋用的意義,界定研究資料為研究過程中所使用和產出的資料,不包 含硬體設備和實驗樣本,且以數位化之資料為主。
二、資料庋用的重要性
學術研究會產出許多的研究資料,尤其在電腦與網路的普及後,許多未整理、
公開的研究資料常被儲存在各個研究室、實驗室的硬碟中;Witt(2008)認為一個 研究從資料的產生開始,隨著整理、組織和分析等過程到研究結果的產出為止,
資料的量是不斷被濃縮和刪減的,尤其是到了研究結果發表的階段,通常是透過 期刊文章或論文,所呈現出來資訊是最少的狀態,稱為「資訊瓶頸(information bottleneck)」;而這也是傳統上圖書館會參與的階段,透過保存、流通的方式來使 這些學術成果被散佈和傳播。事實上,一篇學術文章中所包含的資訊量通常並不
11
足以提供他人重覆該研究,也幾乎不可能對該研究進行再次的驗證;對專家學者 來說,他們只能用推測的方式去評估其原始產生的資料是否有其他潛力或用途,
而對一般的使用者來說,更是無法進一步的了解該文章背後之資料的價值或其他 應用的可能性。雖然在資訊瓶頸之外的資料可能會透過一些非正式的管道在學術 團體中交流和分享,但和已發表的學術文章的能見度相比,這些資料被他人取用 的機會顯得相形見絀。除了驗證研究成果的價值之外,資料的保存和分享也能減 少資源上的浪費,避免在進行相關的研究時需要重新產出相同的資料;這些資料 甚至能夠被不同領域的人所使用,進而促成不同學術領域的交流,深化學術研究 的發展。總而言之,只要有新的使用者能夠取得並了解這些研究資料,它們就有 可能在意想不到之處不斷創造新的價值。
Heidorn(2008)用「黑暗資料(dark data)」來形容那些未被適當的整理和保存的 研究資料,這些未公開和分享的資料對潛在的使用者和學術社群來說近乎是隱形 的,造成再使用上的困難甚至因此而遺失。Heidorn(2008)認為大型的研究計畫由 於參與者眾,研究經費高且容易受到各方的關注,因此在研究資料的保存、組織 和管理等各方面都設想的較為周全,有意者也較容易知道如何取得這些研究資料,
並進行再利用;相對的,小型的研究計畫常因經費和人力的關係,在研究過程中 就不曾好好的整理、組織相關的研究資料,研究完成之後,也不見得願意花費時 間思考如何保存這些資料,或是如何與他人分享,造成資料的再使用率低,無法 發揮其最大價值;而在現實的情境中,這些小型的研究計畫其實占了大多數,更 讓資料流失的問題需要受到重視。
以 2007 年美國國家科學基金會(National Science Foundation, 簡稱 NSF)所贊 助的研究計畫為例,總研究經費的前 20%只有 254 個研究計畫,而其餘的 80%
之研究經費則贊助了 11,771 個研究計畫 (NSF, 2007)。Heidorn(2008)指出,這 254 個研究計畫應是大型或知名度較高的計畫,經費和人力都較為充足,而且可能會 產出大量的資料需要儲存並管理,所以可以假設這些計畫有將其資料進行良好的
12
保存,其資料被取用的機會也較高。但相對的,剩下 11,771 個計畫應屬於小型 計畫或是個人申請的計畫,很可能因為經費不足或人力問題,使這些計畫中的的 資料未被妥善的保存或管理,造成資料對整個研究環境而言是隱藏甚至流失的。
這 11,771 個計畫大約占了總計畫數的 98%,即使個別的計畫中所產出的資料量 不多,但加總之後相當可觀,這表示流失的資料量也不可忽視;這些資料就如同 經濟學上長尾理論(long tail theory)的「尾巴」,熱門的資料雖然受到大部份人的 關注,但這些位於尾巴的資料同樣會有其使用者,只要提高它們的能見度,就能 讓更多潛在的使用者注意到並且再利用,因此仍有管理並保存這些研究資料的價 值。Witt(2008)則指出所謂的 small science,也就是傳統上以個人的研究假設為出 發點所進行的研究,成果通常來自對自己所產出的資料的分析,故資料量少而未 受重視;但隨著科技的進步和研究型態的轉變,small science 也開始會有合作研 究的情況發生,因此亦有資料庋用的需求,而由於過去的資料未受重視,較缺乏 發展資料庋用的基礎,故需特別關注。
Goetz(2007)認為還有一種黑暗資料是來自於「失敗的實驗」,這並非是說研 究本身的失敗,而是往往在成功之前有很多的嘗試,也產生了許多無法呼應研究 假設的資料,這些資料並不會被發表在研究成果中,因此也不為人所知,故成為 黑暗資料的另一來源。科學與科技的進步讓研究資料的數量快速增加,若不重視 對這些資料的保存、管理和再利用,只會讓更多具有潛在價值的資料消失於黑暗 之中,對科學的發展造成無法彌補的損失。Lord and Macdonald(2003)指出並非所 有資料都有長久保存之價值,且其價值會因著時空和學科領域的不同而有所差異,
因此數位資源的篩選、保存和庋用之重要性會在越來越多的領域受到關注。美國 國家科學基金理事會則認為數位研究資料本身就提供了科學研究上新的可能性,
透過對大量資料的分析、整合,可能會帶來科學研究上嶄新的領悟,其潛在之效 益值得更多的研究 (NSB, 2005)。研究資料是重要且極具價值的科學產出,如何 透過資料庋用讓其在未來發揮更大的貢獻,是必須積極面對的重要議題。
13
美國研究圖書館學會(ARL)於 2011 年於發表的報告「New Roles for New Times: Digital Curation for Preservation」中,認為在研究型態轉變與網路基礎建 設快速發展的現況下,學術圖書館應以研究中不可或缺的角色為目標,積極轉型 並發展出資料庋用相關服務,培養具備相關知識的館員和專業的資料科學人員,
進行更全方位的數位內容典藏,包括所處機構中產生的研究資料或其他一手研究 資源等;並以過去數位內容出版的相關經驗,將這些數位的研究資料進行整理及 保存,以期在未來能進行資料之出版或公開,促進研究的進步。
資料庋用對許多國家而言都是新興議題,雖然受到關注和討論,但能將之付 諸實行的國家仍在少數。為了呈現世界各國在資料庋用方面的進展,並剖析其在 大學層級之應用實例,以下將分析歐洲地區和美加地區之發展概況,並舉出資料 庋用發展較完整之大學為例,進行深入之介紹。至於亞洲地區的國家,如澳洲和 日本,雖然有相關的國家級的典藏庫、學術研討會以及使用者研究,但因發展較 晚,故缺乏大學層級之案例,其他各國則少有相關議題之討論,因此不再另外介 紹其發展狀況,但仍會將使用者研究之部份進行整理和探討。
第二節 歐洲地區之資料庋用發展狀況
一、歐洲整體之資料庋用發展概況
歐盟委員會(European Commission,簡稱 EC)在 2010 年發表了一份報告
「Riding the wave」,描述了歐洲地區面對研究資料快速增加、研究型態改變等狀 況所採取的行動,並對發展過程中的重要事件進行回顧;最後則預測了 2030 年 時會發生的情況,並點出了目前環境中阻礙資料庋用發展的一些障礙,進而提出 因應之對策。文中指出為了無縫的取得、使用、再利用資料,並兼顧資料品質和 可信度,資料本身應被視為基礎建設的一環,而整合大量資料所帶來的衝擊和影 響會大大的改變學術研究進行的方式,同時亦有助於社會、經濟、科技等各方面
14
的發展。(EC, 2010)
「Riding the wave」文中對 2030 年提出了很多期待,希望資料的產生者、使 用者或是保管者都能充分瞭解資料分享之重要性;而各領域的研究者不但能夠取 得需要的資料,也有能力評估並瞭解這些研究資料的意義,同時資料的提供者也 能因此而受惠,進而讓更多人願意分享資料並將之儲存於可信賴的典藏庫中。對 於政府提供資金的研究,則應將資料的再利用視為重要的一環,以發揮其最大價 值,政府部門的資料也應更透明化,讓所有人、團體、企業因著能平等的取得這 些研究資料,而進行自由的運用,創造更多價值或激發新的研究契機。為了達成 這些願景,文中建議歐盟國家應立刻採取行動,開始國際之間的合作,在整個以 資料為目標的基礎建設上達到共識,讓資料的儲存、檢索和使用等功能能夠有品 質保障且具彈性,因此也必須要規劃足夠的預算來支持這些建設。在資料的品質 和價值上,也應制定標準來幫助確保資料之品質,並評估其影響力。在推廣方面,
需要訓練出一批新的資料專家,因此應有相關的課程放入學校教育體制中,同時 亦能推廣相關之概念,讓大眾也能夠了解資料庋用之重要性。文中最後強調沒有 任何單一國家或機構能夠獨自面對資料庋用這個新挑戰,因此國際間的定期討論 是很重要的,應該要舉辦論壇或研討會,促進各國更加重視此一議題;同時並兼 顧綠色科技的發展,以及相關政策的制定,讓未來科學研究的發展能夠有勞固的 根基。(EC, 2010)
EC 的這篇報告顯示出整個歐盟國家已經開始注意到大量產生的研究資料所 帶來的影響,若不盡早面對和處理,則可能演變成巨大的損失;相較之下,英國 在更早之前就已經注意到這個問題,也在國內進行了許多討論和研究,是目前在 資料庋用方面文獻最多的國家。由於本研究的焦點在於大學教師對資料庋用之看 法,因此以下就英國在整個資料庋用的發展過程中,大學如何參與其中以及發展 之狀況進行介紹。
15
二、英國的大學之資料庋用發展
英國很早就對資料庋用的議題十分關注,其發展資料庋用的過程大致上是由 國家層級的機構開始發動,而在過程中和各大學的互動、合作都十分密切,因此 要瞭解英國如何推動資料庋用,就必需從國家型計畫或機構的角度探討大學在其 中所扮演的角色。
英國於 2004 年 3 月 1 日成立之數位庋用中心(DCC)由聯合資訊系統委員會
(Joint Information Systems Committee,簡稱 JISC)所贊助,是一獨立運作的研 究型機構,希望藉由國家級機構的成立來面對資料庋用所帶來的挑戰,而這個挑 戰絕非單一機構或單一領域能獨自面對的,因此其參與之成員眾多,包括科技促 進委員會(Science and Technology Facilities Council,簡稱 STFC)、英國巴斯大 學(University of Bath)所主持的英國圖書資訊網絡辦公室(United Kingdom Office for Library and Information Networking,簡稱 UKOLN)和英國愛丁堡大學、英國 格拉斯哥大學、英國牛津大學等機構內的圖書館、計算機中心及研發單位。DCC 希望以國家級單位的角度來全面的推廣資料庋用之概念,宣傳相關資訊以喚起各 界對此議題之重視,並且開發各種工具、服務及制定標準,提供實務方面的資訊,
讓更多高品質的資料有機會在未來創造新的價值(DCC, 2011)。
DCC 從成立之初就有非常明確的階段性任務,第一階段是從 2004 年 3 月到 2007 年 2 月,組成一個專業團隊來探討並檢視英國高等教育之環境中所存在關 於數位保存及資料庋用方面的問題,團隊成員包括資料方面的專家、圖書館員、
檔案方面的專家以及資料的創造者,也就是研究者們;在這個階段當中 DCC 也 向外擴展其夥伴關係,納入高等教育以外的機構或是國際級機構為其合作對象。
第二階段從 2007 年 3 月開始到 2010 年 2 月,團隊將其研究重心慢慢往學術社群 移動,目的在於希望更多的瞭解研究者們在研究資料的整個生命週期中做了些什 麼,需要的又是什麼,因此針對許多不同的學術領域進行了深入的個案研究。
16
(DCC, 2011)
第三階段從 2010 年 3 月到 2013 年 2 月,DCC 指出他們已發展足夠的工具和 服務來協助資料庋用,但他們不可能獨自管理所有英國的研究者所產出的資料,
並且 DCC 自身並非資料典藏之單位,因此呼籲英國有能力管理或保存資料的機 構、管理人來使用 DCC 的服務及工具,讓 DCC 幫助它們發展管理及保存研究 資料的能力,以更全面的推廣資料庋用,除了提供服務和工具之外,DCC 也提 供教育訓練及最佳案例,甚至是更客製化的協助,希望能在實務工作上也能提供 更多幫助。第三階段的核心成員是英國愛丁堡大學、英國巴斯大學和英國格拉斯 哥大學,其中以愛丁堡大學居於領導地位,也在 JISC 的資金補助之下建立了提 供全國高等教育相關機構典藏研究資料的資料中心「EDINA」(DCC, 2011; EDINA, 2011)。
愛丁堡大學在英國的資料庋用發展過程中一直扮演十分核心的角色,其所建 構的平台持續獲得 JISC 的贊助,也展現了初步的成果。愛丁堡大學於 1983 年成 立了 Edinburgh University Data Library,目標在於協助愛丁堡大學內研究資料的 取得、使用和管理,幫助研究者更有效率的進行研究。1995 年 JISC 將 Edinburgh University Data Library 指定為國家級學術資料中心,隨後於 1996 年,EDINA 此 名稱正式發布,代表其已成為國家級的資料管理中心,服務對象不再侷限於愛丁 堡大學內。(EDINA, 2011)
EDINA 的主要資金來源為英國的高等教育資助委員會(Higher Education Funding Council)之下的 JISC;其目標在於促進英國各大學及機構之研究產出,
並提高教學和學習之效率,以此大方向為前提,進行各種研究計畫;同時也提供 資訊服務,對象包括英國 90%的大學以及 2/3 的學院。EDINA and Data Library 隸屬於愛丁堡大學中資訊服務(information service)部門之下,和大學圖書館為同 一層級的單位,其所提供的服務內容也和圖書館十分類似,最大的不同點在於圖
17
書館的典藏以出版品為主,而 EDINA and Data Library 所蒐集並管理的是研究過 程中所產生的資料。(EDINA, 2011)
EDINA 和愛丁堡 Data Library 的主要區隔在於 EDINA 的服務對象為全國的 大學或研究機構,而 Data Library 則以愛丁堡大學之教職員及學生為主要對象。
Data Library 所提供之服務包括「Data Library and consultancy」、「Edinburgh DataShare」以及「Research data management guidance」等,以下就此三項服務以 及 EDINA 所提供之服務進行介紹:
(一)、Data Library and consultancy
此項服務之內容類似於圖書館的參考服務,目的在於向研究者提供協助,幫 助他們尋找並獲得所需要的研究資料,若是在研究的過程中,遇到不會使用或分 析這些資料的狀況,也可提供適當的幫助;若研究者們希望更有效的管理自己的 研究資料,Data Library 的職員也可提供建議和方法。Data Library 以整合許多政 府機關、學術研究專案所開放使用之研究資料的方式,提供資料之線上目錄,除 了檢索之外,也可用學科類別、地區或資料之標題來進行瀏覽。研究者若想要使 用這些研究資料,則必須先註冊,並遵守資料提供者的條件和限制,才可下載或 使用這些研究資料。此項服務本身並未徵集研究資料,其最主要的功能是進行資 源的整合,因此除了研究資料之外,也對英國國內及國際的各種網路資源進行了 相當好的整理,使用者可以直接在網站上看到依學科分類的各種資料庫或網路資 源,方便研究者搜尋相關資訊,另外也針對教學相關之網路資源進行整理,供研 究者參考、使用。(The University of Edinburgh, 2011)
http
(二)
資料 瀏覽 瀏覽 其所 資料 的檔 的典 都有 但每
://www.ed.ac.
)、Edinbur 類似於機構 料,並進行資 覽,可依照研 覽,亦不需事 所屬領域、資 料下載的部 檔案下載。
典藏政策,包 有詳盡的說 每筆資料都
.uk/schools-de
rgh DataSh 構典藏之功
資料之管理 研究社群、
事先登入。
資料擁有者 部份,則依其
DataShare 包括典藏資 說明;下載資 都有其授權內
圖 2-1 Da
epartments/inf onsultancy
hare
功能,但對象 理和保存為最
、資料創造者 每一筆資料 者、日期等進 其檔案格式不 於網頁上清 資料的同意書 資料並不侷限
內容,是資
18
ata Library a (網址:
formation-serv 檢索日期:
象則是研究 最主要的工 者、資料之 料的標題之 進行描述,
不同區分為 清楚解釋了 意書、資料內
限於愛丁堡 資料的使用者
and consulta
vices/services 2011/12/20)
究資料,以徵 工作內容;並 之日期、標題 之下都有關於
也提供該資 為多個檔案 了典藏研究資
內容、後設資 堡大學內的使
者必須遵守 ancy
s/research-sup )
徵集愛丁堡 並提供研究 題以及學科 於該資料之 資料之引用
,讓使用者 資料的各種
資料欄位、
使用者,而 守的。(The U
pport/data-libr
堡大學內之研 究資料的檢索 科領域等等進
之後設資料 用格式;而研 者自行選擇需 種優點以及它
取用權限等 而且是免費的 University o
rary/c
研究 索和 進行
,對 研究 需要 它們
等等 的,
of
Edin
(三)
並鼓 多研 不覺 首先 助的 料的 料管 料的 理清
nburgh, 201
(
)、Researc 以推廣研究 鼓勵他們將 研究者對於 覺得保存這 先強調保存 的,希望他們 的定義,並說 管理的實際 的格式有哪 清單,引導研
11)
(網址:http:
ch data man 究資料的儲 將資料存放至 於在研究過程 這些資料是有 存和管理研究 們能夠主動 說明英國不 際步驟提出指 哪些、資料可
研究者更深
圖 2-2 E ://datashare.i
nagement g 儲存與管理為
至 Edinburg 程中所產生 有價值或是 究資料的重 動對自己所擁 不同政府機關 指引,讓研究 可能被哪些學 深入思考有效
19
Edinburgh D is.ed.ac.uk/
guidance 為目的,提 gh DataShar 生的資料其實 是必要的,網 重要性,也點 擁有之資料 關對於資料 究者了解自 學科的研究 效率的資料
DataShare 檢索日期
提高教職員們 re。在研究資 實並不清楚 網站中針對這 點出這些行為
料進行整理 料保存管理的 自己的研究資 究者重覆使用 料管理所應顧
:2011/12/20
們對於資料 資料之管理 楚該如何保存
這類型的研 為對研究者
。第二步則 的政策。接 資料是屬於 用等,並列 顧及的層面
0)
料庋用之認知 理部份,由於 存和管理,甚 研究者提出說 者本身亦是有 則是介紹研究 接下來開始對
於什麼類型 列出一張資料
面;對於資料 知,
於許 甚至 說帖,
有幫 究資 對資
、資 料管 料如
何建 所應 究資 一些 要進 究社 校或 權限 可以 理相
http
建檔和後設 應注意的一 資料分享方 些無法分享 進一步的確 社群間的電 或機構的網 限、限制以及 以將資料存 相關課程和
://www.ed.ac.
設資料如何建 一些問題,讓 方面,同樣也 享的狀況,例 確認;接下來 電子郵件、w 網站上、國家
及如何長久 存放至 Edinb 和工具,讓有
圖 2-
.uk/schools-de esea
建立也有基 讓研究者能重 也是先指出分 例如牽涉到保 來則介紹如何 wiki 等等,以 家級資料中心 久保存研究資
burgh DataS 有需要者能
-3 Research
epartments/inf arch-data-mgm
20
基本的說明。
重視資訊安 分享資料的 保密協定或 何分享資料 以及正式的 心等方式。
資料等部份 Share。除此 能自行取用。
h data manag (網址:
formation-ser mt 檢索日期
。最後則提醒 安全並確保資 的優點讓研究 或隱私權等資 料,包括非正 的分享管道
。接下來則是 份進行說明 此之外,網站
。(The Univ
gement guid
rvices/services 期:2011/12
醒關於資料 資料不會流 究者們了解 資料,是否 正式的分享
,也就是將 是對於資料
。最後則是 站中亦匯整 versity of Ed
dance
s/research-sup 2/20)
料的儲存和備 流失。至於在 解,同時也舉 否能夠分享就 享管道,例如 將資料公開在 料之保護、取 是鼓勵研究者 整了許多資料
dinburgh, 2
pport/data-libr
備份 在研 舉出 就需 如研 在學 取用 者門 料管 011)
rary/r
)、EDINA 相較於上述 性的資訊服 所整合的資 音、圖片等資
,包括 GIS 館員以及開 料庋用有興 需的資源。
愛丁堡大學 理研究資料 說明,對於智 的情況下可 想得十分周
述三個以愛 服務為目標,
資源可分為三 資料以及期 資料、地圖 開發者使用的 興趣或想要實 (EDINA, 2
(網址:
學發展之資 料的服務之外
智慧財產權 可以公開、分 周全。同時也
愛丁堡大學為 作為一個整 三大類,第一 期刊目錄、學 圖以及許多 的資源,提供 實行在自身
011)
圖 http://edina.
資料庋用服務 外,對資料庋 權、保密協定 分享他們的研 也提供專門的
21
為主要服務 整合性的平 一大類是多 學術文章等 多提供研究資
供資料典藏 身機構中的館
圖 2-4 ED .ac.uk/ 檢索
務相當完整 庋用的重要
定等也都有 研究資料,
的典藏庫,
務範圍之項目 平台,搜集相
多媒體資料和 等相關資源
資料之網站 藏機構的網站
館員及開發
DINA 索日期:201
整,除了針對 要性和研究資 有初步之解釋
優點及該注
,讓研究者之
目,EDINA 相關之網站供
和參考資源
。第二大類 站。第三大類
站以及相關 發者,能夠快
11/12/20)
對校內的研 資料的價值 釋,讓研究 注意的事項 之資料能夠
A 則是以提供 供使用者取 源,包括影片 類則是資料和 類則是給圖 關之軟體,讓 快速的取得他
研究者提供協 值也有非常清 究者了解在什 項有哪些等等 夠存放。全國
供全 取用。
片、
和地 圖書
讓對 他們
協助 清楚 什麼 等,
國性
22
之服務方面,則著重於資源的整合,除了研究資料之外,也提供參考資源,對於 研究之支援相當全面;並提供圖書館館員或開發者在發展資料庋用服務時,可能 會需要的軟體及現有的典藏庫,讓其他機構亦能發展合適的資料庋用服務。
第三節 美加地區之資料庋用發展狀況
一、美加整體之資料庋用發展概況
歐巴馬總統上任後,大力推行美國聯邦政府資料的透明化,稱之為「Open Government」,將政府各單位所產出之資料的使用權開放給全體國民,並以此為 目標,成立了 DATA.GOV 網站,讓使用者能夠方便且迅速的檢索、下載和使用 這些政府所產出的資料。網站中匯整了政府各部會所產出的資料,並可依照資料 所屬領域和類型進行檢索及瀏覽,資料量十分豐富;美國政府希望透過資料的開 放和自由使用,為這些資料創造更多的附加價值,也鼓勵個人或企業開發以資料 為基礎的新商機,例如各種網路應用程式(DATA.GOV, 2011)。加拿大在推廣政府 資料透明化方面則進展較慢,雖然溫哥華(Vancouver)和納奈莫(Nanaimo)等都市 都擁有自己的開放資料(open data)網站,但並無像 DATA.GOV 這樣整合所有政府 部會資料之網站,在資料的管理和公開上都稍落後於美國。
資料 Hea 文章 家科 日之 man
除了政府以 料庋用之推
alth,簡稱 N 章上傳至 Pu 科學基金會 之後到期或 nagement pl
1. 資 產 2. 資 乏
(網址:h
以身作則,
推廣有很大的 NIH)於 2 ubMed Cen 會則於其 201 或申請之計畫
lan),其內容 資料類型、範 產生之資料 資料本身及其 乏相關標準或
圖 2 http://www.d
將資料開放 的影響力。
008 年開始 ntral 之外,也
10 年 5 月頒 畫書都應包
容則至少包 範例、軟體
、物件;
其後設資料 或規定,則
23
2-5 DATA.G data.gov 檢
放給全體國 美國國家衛 始正式要求接
也必需繳交 頒布的新政 包含 1 至 2 頁
包括以下幾 體、教材等
料所採用的標 則需提出因應
GOV 檢索日期:20
國民之外,美 衛生研究院
接受補助的 交符合規定格 政策中,規定
頁的「研究 幾點:(NSF,
,及其他任
標準、格式 應的方法;
011/12/20)
美國在政策 院(National
的研究計畫除 格式的研究 定所有於 20 究資料管理計
2010) 任何在執行計
式和內容。若
策上的走向也 l Institutes o 除了將發表 究資料;美國
011 年 1 月 計畫」(data
計畫過程中
若所處領域 也對 of 表的
國國 月 18
a
中所
域缺
24
3. 資料分享和取用之政策,包括對資料的隱私權、保密協定、安全性、
智慧財產權或是其他相關權益;
4. 資料再利用、再傳播及產生衍生性產品的相關規定和政策;
5. 對於研究資料和其他研究產出的長期保存及取用之規劃。
雖然美國國家科學基金會並未要求提出申請的計畫書一定要將其研究資料 上傳至資料庫或資料典藏單位,但此一政策顯示了國家對於研究資料管理及保存 的重視,也促使所有向美國國家科學基金會申請計畫的研究者必須更加重視自己 所產出的研究資料,並思考如何對其進行更有效的管理,在資料庋用的發展上提 供了無與倫比的助力,也彰顯了美國推廣資料庋用的決心。以此政策為契機,許 多大學開始思考在研究過程中如何給予研究者們更多的幫助,以及如何有效幫助 研究者們管理、分享他們的研究資料,讓資料庋用之概念和相關服務在美國的大 學中受到更多重視。
二、美國的大學之資料庋用發展
Sustainable Digital Data Preservation and Access Network Partners (簡稱
DataNet)計畫是美國在發展資料庋用方面一個相當重要的里程碑,許多大學和圖 書館都參與其中,並且扮演重要的角色;而美國普渡大學和美國康乃爾大學不但 參與在 DataNet 計畫中,且此兩所大學在資料庋用方面的服務皆被列入 ARL2010 之年度報告中(Soehner, Steeves, & Ward, 2010),十分具前瞻性且各有特色,值得 作為本研究探討之對象,以下分別就這三者進行介紹。
(一)、DataNet 計畫
美國國家科學基金會於 2007 年提出了 DataNet 計畫,其目標在於為科學之 發展與教育提供一個保存、管理大量研究資料之資料庋用平台,並透過各領域典 藏庫之建置,發展資料分享與再利用之服務和工具來達成目的。這個為期五年的
25
補助計畫挹注了高額的資金,共開放五個申請名額,補助資金總額之上限則高達 10 億美金;2008 年底宣布了兩個通過申請的計畫,分別是 Data Conservancy (簡 稱 DC)和 Data Observation Network for Earth (簡稱 DataONE),預定於 2009 年中 開始執行 (NSF, 2007)。以下分別就這兩個計畫之內容、目標,以及研究圖書館 如何參與其中做簡單的介紹。
DC 的計畫主持人是美國約翰霍普金斯大學薛瑞登圖書館(Sheridan Library ) 的副館長,而美國伊利諾大學香檳分校及美國洛杉磯加州大學的研究圖書館也都 參與其中。其目標在於整合現存的系統和標準,使其有更好的互通性,並透過模 組化、資料的儲存、基本的概念框架等方式,讓跨領域的資料能夠進行整合和管 理 (Gold, 2010)。DC 計畫中研究圖書館扮演了重要的角色,同時也有許多不同 領域的專家學者參與其中,希望能以使用者為中心打造出一個系統雛型,讓研究 資料透過完善的保存和管理,在學術研究上展現出其新的價值。DC 以大氣、海 洋、土地、生態和人類活動等領域的相關資料做為初步整合的示範目標,以展現 這些大尺度且跨領域的資料之複雜性,因此合作對象也包含許多大型的相關學術 研究計畫,希望在發展系統的同時也能提供學術團隊即時的回饋。DC 展現了研 究圖書館在學術環境中的新價值,也希望能以此做為研究圖書館發展資料庋用之 藍圖,促使研究圖書館檢視自身在資料庋用上所能扮演的角色或是能夠提供的協 助,甚至讓資料庋用的發展成為研究圖書館的資金來源,使相關服務能夠長久持 續 (DC, 2009)。
取得 DataNet 補助資金的另一個計畫為 DataONE,其目標在於建立分散式且 永續性的網路資訊基礎建設(cyberinfrastructure),其對象是各種地球相關之觀測 資料,希望讓這些資料能夠被完整的描述並且容易檢索和取得;DataONE 認為 它們所建置的是一個虛擬的資料中心,透過各種工具、軟體甚至是後設資料的整 合,讓資料的分享和檢索都變得更迅速。DataONE 也透過最佳範例、線上管理 方案之指引和案例、影片檔等方式,來幫助研究者們學習如何更有效的管理自己
26
的研究資料,讓未參與大型研究計畫的研究者們也能因此受益。使用者可以直接 在 DataONE 的網頁上使用關鍵字進行資料的檢索,而檢索結果可依照資料提供 者、所屬研究計畫、所屬研究單位等層面進行篩選;DataONE 的重點是與地球 相關的觀測資料,因此也提供結合 Google Map 的介面,讓使用能透過地圖上的 區域來檢索資料。研究圖書館和圖書資訊相關人員也並未在 DataONE 計畫中缺 席,計畫主持人本身是美國新墨西哥大學(UNM)圖書館 e-Science 部門的主任,
主導團隊中則有多位來自圖書資訊界的相關人員,DataONE 亦呼籲圖書館可多 加利用它們所提供的各項工具及資源,讓圖書館成為計畫擴展服務對象的節點 (Gold, 2010)。除了學術界之外,DataONE 認為教育界和一般大眾都可以透過這 些觀測資料來了解自己所居住的環境正在產生怎樣的變化,其服務的對象是非常 廣泛的,所蒐集的資料自然也是跨國、跨領域且包含各種尺度的,因此各種標準 的轉換和發展更多為資料加值的技術都在 DataONE 的發展目標中。(DataONE, 2009)
(二)、美國康乃爾大學
為因應美國國科會的新政策,康乃爾大學於 2010 年底開始規劃如何為校內 的研究者提供新服務,以幫助校內研究者順利的寫出研究資料管理計畫,並更好 的保存、管理自己的研究資料。在規劃此服務之初,先根據研究資料管理計畫所 應包含之內容,歸納成出幾個項目,來分析校內原本就提供的相關服務和實際需 求服務之間的落差;進行校內現有服務的調查後,發現許多已經有提供的服務由 於單位之間缺乏合作,因此效率較低,也不容易被大部分研究者所知;領域方面 涵蓋的不夠完全則是另一個問題,例如後設資料的標準或是領域典藏庫等,都並 非所有領域都有專屬的標準和典藏庫可供研究資料的保存和管理。較大的服務缺 口則出現在長期的管理方面,由於目前對於研究資料長期保存所需的資金和人力 都沒有充足的證據或研究,因此基本上是完全無法預估的;而研究資料在保存的
過程 的政 Plan
Dat 色,
需要 關服 Serv 的影 需要
(網
程中,若需要 政策,因此
nning Group 根據上述 a Managem
,主要之工作 要的研究者 服務,而不 vice Group, 影響力是非 要的服務。
網址:https:/
要經歷典藏 此這部分或許
p, 2010) 述調查之結果
ment Service 作內容就是 者可以透過此 不需要透過各 , 2010)。美 非常深遠的,
圖 2-6 R //confluence.
藏庫和機構之 許有賴學校
果,康乃爾 e Group (簡 是將校內目前
此已網站提 各單位一個 美國許多其他
,同時也讓研
Research Da cornell.edu/d
27
之間的移轉 校更多的宣導
爾大學成立了 簡稱 RDMSG
前已提供的 提供的訊息和 個一個的進行 他大學也漸
研究圖書館
ata Managem display/rdms
轉,其在保護 導或制定相
了一個虛擬 G)」來扮演 的服務進行
和聯絡資訊 行查找(Res 漸漸開始提供
館有很好的切
ment Servic sgweb/Home
護或規劃上 相關規範。(R
擬的服務團隊 演協調、整合
整理,並建 訊,一次就取
earch Data 供類似的服
切入點,提
ce Group e 檢索日期
上,也沒有明 (RDMSG
隊「Researc 合和窗口的 建置網站,讓 取得所有需要
Manageme 服務,可見政 提供更多研究
期:2011/12/2 明確
ch 的角
讓有 要相
nt 政策 究者
20)
稱 D 的,
典藏 藏庫 作對 段中 過程 領域 產生 保存 201
由康乃爾 DataStaR),
,並希望促進 藏庫中,以供 庫」,其功用 對象或相關 中是可以不 程中,DataS 域典藏庫的 生後設資料 存 metadata
1)
(網址
康乃爾大
爾大學的 Alb
,是以在研究 進研究者們 供更多使用 用在於讓研究 關人員分享研 不公開的,取
StaR 可自動 的不同要求,
料,以便未來 和連結到該
址:http://da
大學所提供之
bert R. Man 究過程中支 們在研究完成 用者再利用
究者在研究 研究資料,研 取用權限上可
動產出最低
,人工鍵入更 來能快速的
該領域典藏
圖 atastar.mannl
之服務以校
28
nn 圖書館所 支援研究資
成後,將研
。DataStaR 究過程中,能
研究者可自 可由研究者 低限度之後設 更多所需的 的將其存入永
藏庫之路徑,
圖 2-7 DataSt lib.cornell.ed
校內的研究者
所管理的 Da 資料在研究者
研究資料和其 R 是一個儲存 能以 DataS 自行決定將資 者決定。而在
設資料,再透 的後設資料
永久性的典
,方便使用者
taR
du/ 檢索日
者們為主要
ata Staging 者或團隊之 其後設資料
存研究資料 StaR 為平台
資料分享給 在研究資料
透過圖書館
,在每個研 典藏庫中,而
者日後的檢
日期:2011/12
要對象,以幫
Repository 之間的分享為
料放入永久性 料的「暫時性 台來和自己的 給誰,在研究 料上傳及分享
館員的協助 研究階段中逐
而 DataStaR 檢索。(DataS
2/20)
幫助研究者們 y (簡 為目 性的 性典 的合 究階 享的
,依 逐步 R 則 StaR,
們撰
29
寫出合適的研究資料管理計畫為目標,積極整合校內現有的服務,並分析服務不 足之處,作為後續改進的方向。以此服務為出發點,讓大學圖書館更有機會在研 究的早期階段就參與其中,並了解該研究所產出的資料,進而推廣 DataStaR 此 一典藏庫,讓研究者們一步步的將資料整理、上傳,並建立後設資料,最後再依 研究者的意願將其資料存放至合適的資料庫或機構典藏中。康乃爾大學之資料庋 用服務規劃相當完善,而且在 NSF 政策的趨使下,研究者使用這些服務的機會 將大幅提升,有利於資料庋用之推廣與發展。
(三)、美國普渡大學
為了有效的對校內研究者們所擁有的研究資料進行調查和整理,普渡大學成 立了分散式資料庋用中心(Distributed Data Curation Center,簡稱 D2C2),希望藉 由和校內研究者間的合作推廣資料庋用。普渡大學並和美國伊利諾大學合作,對 校內的研究者進行深度訪談,並將這些訪談進行歸納和整理後,發展出一套資料 庋用檔案(Data Curation Profile)作為調查與瞭解研究資料現況之工具。(Witt, Carlson, Scott Brandt, & Cragin, 2009)
Data Curation Profile 之工具組中包含了使用者指引 (User Guide)、訪談手冊 (Interviewer's Manual)、訪談工作表 (Interview Worksheet)以及模組 (Template)等 四個部份,讓使用這個工具組的訪談人員能快速建立訪談之架構,且每一個訪談 段落都可對應到模組中,所以只要將每次訪談之內容依照此工具組所建議的方式 填入模組,即可完成屬於該研究資料的 Data Curation Profile。將現存的研究資料 建立各別的 Data Curation Profile 將有助於研究資料之管理與保存,也能夠分享 研究者的需求讓所有相關人員瞭解,並用以評估目前提供資料相關服務的狀況。
該計畫目前已完成普渡大學、伊利諾大學香檳分校與加州大學聖地牙哥分校針對 生物、交通運輸和大氣相關領域中,共 13 個研究者的檔案,以這些檔案為基礎,
可作為在自身機構發展資料庋用服務之指引,並了解不同領域的資料類型和面對 資料分享之態度與需求。(D2C2, 2011)
Purd 服務 內產 PUR 平台 及 P 以符 智慧 上數 透過 線尚 產權
除了針對 due Univers 務,是一個讓 產出之研究
RR 服務之提 台功能和軟
PURR 中研 符合該領域 慧財產權、
數位物件識 過網路傳播 尚不滿半年 權的重視,
圖 (網址:http
對校內研究者 sity Researc 讓普渡大學 究資料的機構
提供主要是 軟體開發,而
研究資料的挑 域中常用的標 保密協定等 識別號(Dig 播的同時,也 年,其公開的
可推測其將
2-8 Distribu ://d2c2.lib.pu
者的需求進 ch Reposito 學的研究者們
構典藏為目 是透過校內的 而圖書館的服
挑選和管理 標準;PURR 等方面亦有 gital Object 也保障資料 的研究資料僅
將成為普渡
30
uted Data C urdue.edu/
進行了解之外 ory(簡稱 PU
們能夠線上 目標,持續發
的圖書館群 服務重點在 理,並會為研
R 也重視資料 有相關政策
Identifier,
料擁有者的權 僅有一筆,
渡大學推廣資
Curation Cen 檢索日期:
外,普渡大 URR)則提供 上分享研究資
發展此平台 群和 IT 部門 在於協助研究
研究資料加 料的長期保
,未來由 PU 簡稱 DOI 權益(PURR
但從其所提 資料庋用的
nter 2011/12/20
大學於 2011 供線上的資
資料之平台 台的各項功能
門進行合作 究資料管理 加上最合適的
保存及安全性 URR 提供之
),讓 PUR , 2011)。由 提供的服務 的重要服務
0)
年中上線的 資料管理與儲 台,並以成為
能與服務。
,IT 部門發 理計畫的撰寫 的後設資料 性,在隱私權 之資料都會 RR 中的資料 由於此一服務 務和對於智慧
。
的 儲存
為校
發展 寫以 料,
權、
會加 料在
務上 慧財