第二章 文獻探討
第一節 資料庋用之意涵與重要性
7
第二章 文獻探討
第一節 資料庋用之意涵與重要性
一、資料庋用的意涵
「資料庋用」一詞翻譯自「data curation」,Shreeves and Cragin (2008)對其之 定義為「對於在學術研究或教育上有價值的資料進行主動且持續的管理,包括對 資料的評鑑、選擇與組織等,以確保在其生命周期中能有效的被取得和使用。」;
而 Rusbridge et al.(2005)進一步的闡釋了「curation」一詞之意涵,認為其範圍不 只是對於資料當下的保存和再利用,而是要對資料進行加值,使其透過適當的公 開方式而更容易的被取得和使用。英國資訊系統聯合委員會 (Joint Information Systems Committee,簡稱 JISC)的報告中,認為「curation」和過去圖書資訊學界 使用的「archiving」及「preservation」等詞彙都有所不同,其包含的層面更廣,
除了長久的保存之外,更要維持保存對象之完整性,並促進使用者對其之取用。
以資料為對象時,則從資料被產生時就持續對其進行保存及管理,讓其能有效的 被檢索、取用和再利用,也要注意資料的不斷更新,以確保其符合需求 (Lord, Macdonald, Lyon, & Giaretta, 2004)。
資料庋用的概念在英國十分受到重視,並於 2004 年成立了數位庋用中心 (DCC),希望發展更完整的資料庋用策略,以促進國內學術研究之進步。數位庋 用中心對於資料庋用是採用「digital curation」一詞,其定義為「針對數位化之研 究資料在其整個生命週期中進行維護、管理、保存和加值之行為。」 (DCC, 2007)。
Beagrie 認為在資料庋用之議題上,很多詞彙都在持續的進化,或是在不同領域 中有各自的常用詞彙,容易在溝通上造成混淆,而 digital curation 可用以代表科 學界中常用的 data curation 和圖書資訊界使用的 digital preservation 等概念,而這
8
些詞彙多少都已留下一些刻板印象,例如不同領域對「data」的範圍界定有所不 同;而大部份研究者會認為 digital preservation 是研究結束後的事情,是圖書館 或出版者的責任,與他們無關。故選擇 digital curation 一詞除了能夠做為整合這 些類似概念的橋樑,也能避免一些對於既有詞彙的刻版印象 (Beagrie, 2006)。總 而言之,data curation 和 digital curation 所代表的概念基本上是相同的,只是在詞 彙的選擇上會因領域的不同而有所差異,故在本文中一律將其譯為「資料庋用」, 避免更多因為翻譯上的不同而造成之混淆。資料庋用包含了管理、保存及再利用 之概念,強調的是在資料受到完善的保存與組織後,能夠提供檢索和取用,讓更 多需要的使用者能夠持續的使用這些資料,以發揮其最大價值,並減少資源的浪 費。
資料庋用中的資料指的就是研究資料,不同領域中對於研究資料的範圍會有 不同之界定,故以下針對較廣泛之研究資料定義進行闡述。依據 OECD 於 2007 年在其「公共贊助研究資料之近用原則與基準」中對研究資料的定義,研究資料 指的是「作為科學研究主要來源之事實性紀錄,包括數據、文字紀錄、圖片和聲 音等,並且這些紀錄能夠被用來驗證研究成果而受到學術社群所認可」,研究資 料不包括用來做研究或分析的電腦設備、研究報告的草稿、未來的研究規劃、研 究相關人員之間的對話記錄和一些實體物件,像是實驗用的老鼠、細菌、樣本等。
(OECD, 2007)
根據美國國家科學基金理事會(National Science Board,簡稱 NSB)的分類,
研究資料依其產生的方式可分為以下四大類: (NSB, 2005)
1. 觀察型 (observational):包括測量值和調查報告等,大多具有特定時間、
地點的特性,屬於具有是歷史性質且不可能重新蒐集的資料。
2. 電腦運算型 (computational):來自於電腦模式或模擬之成果,要重製這 些資料需要有相同的硬體、軟體等條件,很多時候只有模擬結果被保存。
9
3. 實驗型 (experimental):大多來自於實驗進行中所紀錄下來的一切資料,
雖然可以重新進行相同實驗,卻常有時間、人力和經費上的考量,因此仍具 保存價值。
4. 紀錄型 (records):指關於政府、商業活動、社會現象等相關紀錄,可應 用於科學、社會科學、歷史研究等各方面。
英國的研究資訊網路(Research Information Network,簡稱 RIN)認為研究資料 的分類方法應不只一種,根據其產生之方式,研究資料可來自於科學實驗 (scientific experiments)、電腦模式或模擬(models or simulations)以及觀察
(observations)等三種不同的過程,若是根據資料被蒐集的原因不同,則可分為下 列三類:
1. 為了特定研究計畫所蒐集的資料,在該計畫之外的情境下,這些資料可 能不具太大的價值。
2. 為了特定學術團體、學科領域或跨領域所蒐集並用以輔助研究之資料。
3. 基本且能夠提供所有研究者都加以使用、參考的資料,像是化學結構、
基因序列或是文字紀錄等。
而不同研究階段中亦會產生不同的研究資料,大致分為研究初始階段產生的「原 始資料(raw data)」,通常來自觀察或實驗;另外則是將原始資料進行處理、分析 或合併後所產生的「衍生資料(derived data)」。(RIN, 2008)
Kuula (2008)認為學術出版和研究資料是有所不同的,並對其進行比較,其 對研究資料的描述較為完整,包括它可能並未被發表於研究成果中、牽涉到更多 隱私或保密的問題、著作權和擁有權的界線較不明確、可能需要授權或特定的軟 體才能使用等等;兩者的差別如表 2-1 所列。(Kuula, 2008)
10
表 2-1 學術出版和研究資料之差異 學術出版(publication) 研究資料(data)
代表了研究成果之資訊 不一定發表於研究成果中之資訊 使用者需用基本的軟體開啟 使用者可能需要特定軟體才能開啟
自行理解 需要更多相關資訊來幫助理解
不需要特殊的許可才能使用 使用前可能需要徵求同意 擁有權和著作權明確 擁有權和著作權常常不明確 學術社群可免費取用或是透過付費的
方式取得
有不同程度的開放情況(使用權限上的 限制不同)
被視為學術產出 目前尚未被視為正式的學術產出
已可被使用 需要額外的處理
資料來源:根據 Kuula, A.,& Borg, S. (2008). Open access to and reuse of research data: the state of the art in Finland. Finland: Finnish Social Science Data Archive (FSD)整理
綜上所述,研究資料極具多樣性,目前國際間尚無單一而完整之定義。本研 究依據資料庋用的意義,界定研究資料為研究過程中所使用和產出的資料,不包 含硬體設備和實驗樣本,且以數位化之資料為主。
二、資料庋用的重要性
學術研究會產出許多的研究資料,尤其在電腦與網路的普及後,許多未整理、
公開的研究資料常被儲存在各個研究室、實驗室的硬碟中;Witt(2008)認為一個 研究從資料的產生開始,隨著整理、組織和分析等過程到研究結果的產出為止,
資料的量是不斷被濃縮和刪減的,尤其是到了研究結果發表的階段,通常是透過 期刊文章或論文,所呈現出來資訊是最少的狀態,稱為「資訊瓶頸(information bottleneck)」;而這也是傳統上圖書館會參與的階段,透過保存、流通的方式來使 這些學術成果被散佈和傳播。事實上,一篇學術文章中所包含的資訊量通常並不
11
足以提供他人重覆該研究,也幾乎不可能對該研究進行再次的驗證;對專家學者 來說,他們只能用推測的方式去評估其原始產生的資料是否有其他潛力或用途,
而對一般的使用者來說,更是無法進一步的了解該文章背後之資料的價值或其他 應用的可能性。雖然在資訊瓶頸之外的資料可能會透過一些非正式的管道在學術 團體中交流和分享,但和已發表的學術文章的能見度相比,這些資料被他人取用 的機會顯得相形見絀。除了驗證研究成果的價值之外,資料的保存和分享也能減 少資源上的浪費,避免在進行相關的研究時需要重新產出相同的資料;這些資料 甚至能夠被不同領域的人所使用,進而促成不同學術領域的交流,深化學術研究 的發展。總而言之,只要有新的使用者能夠取得並了解這些研究資料,它們就有 可能在意想不到之處不斷創造新的價值。
Heidorn(2008)用「黑暗資料(dark data)」來形容那些未被適當的整理和保存的 研究資料,這些未公開和分享的資料對潛在的使用者和學術社群來說近乎是隱形 的,造成再使用上的困難甚至因此而遺失。Heidorn(2008)認為大型的研究計畫由 於參與者眾,研究經費高且容易受到各方的關注,因此在研究資料的保存、組織 和管理等各方面都設想的較為周全,有意者也較容易知道如何取得這些研究資料,
並進行再利用;相對的,小型的研究計畫常因經費和人力的關係,在研究過程中 就不曾好好的整理、組織相關的研究資料,研究完成之後,也不見得願意花費時 間思考如何保存這些資料,或是如何與他人分享,造成資料的再使用率低,無法 發揮其最大價值;而在現實的情境中,這些小型的研究計畫其實占了大多數,更 讓資料流失的問題需要受到重視。
以 2007 年美國國家科學基金會(National Science Foundation, 簡稱 NSF)所贊 助的研究計畫為例,總研究經費的前 20%只有 254 個研究計畫,而其餘的 80%
之研究經費則贊助了 11,771 個研究計畫 (NSF, 2007)。Heidorn(2008)指出,這 254 個研究計畫應是大型或知名度較高的計畫,經費和人力都較為充足,而且可能會 產出大量的資料需要儲存並管理,所以可以假設這些計畫有將其資料進行良好的
12
保存,其資料被取用的機會也較高。但相對的,剩下 11,771 個計畫應屬於小型 計畫或是個人申請的計畫,很可能因為經費不足或人力問題,使這些計畫中的的 資料未被妥善的保存或管理,造成資料對整個研究環境而言是隱藏甚至流失的。
這 11,771 個計畫大約占了總計畫數的 98%,即使個別的計畫中所產出的資料量 不多,但加總之後相當可觀,這表示流失的資料量也不可忽視;這些資料就如同 經濟學上長尾理論(long tail theory)的「尾巴」,熱門的資料雖然受到大部份人的
這 11,771 個計畫大約占了總計畫數的 98%,即使個別的計畫中所產出的資料量 不多,但加總之後相當可觀,這表示流失的資料量也不可忽視;這些資料就如同 經濟學上長尾理論(long tail theory)的「尾巴」,熱門的資料雖然受到大部份人的