第二章 文獻探討
第二節 研究資料管理
本節探討研究資料及研究資料管理的定義,以及資料分享及資料再用,並列 舉資料管理計畫的相關內容,了解學者對於研究資料使用、分享及研究資料管理 計畫等相關議題。
一、研究資料
學者對於資料並沒有統一的定義,資料並不是一個單純且本身擁有其本質的 物件,資料存在於背景脈絡中,由此背景及旁觀者的觀點來賦予資料的意義。在 學術上,資料的角色與資料的產生的過程有關(Borgman, 2015)。
針對學術研究,資料是研究的產出也是對學術出版的投入(Borgman, 2010)。 匹茲堡大學(University of Pittsburgh)在其研究資料管理的指引中定義資料為紀 錄的資訊,包含了電腦軟體及科學或技術性質的紀錄,科學類的資料可分為有形 及無形資料,有形資料如紀錄簿、底片、標本、病例報告表格等,而無形資料如 統計、調查結果、結論(Nordenberg, 2009)。
聚焦於研究的概念,資料指驗證原始研究成果而收集、觀察、產生或創建的 任何資訊,通常為數位化形式,但亦包含非數位的形式,如實驗紀錄簿和日誌
(University of Leeds, n.d.)。工程暨物理研究委員會(Engineering and Physical Sciences Research Council, EPSRC)隸屬於英國研究與創新機構(UK Research and Innovation),其認為研究資料為科學界通常保留及接受之記錄事實的資料,用以 驗證研究結果,多數為數位格式,但其他格式資料也包含在內(EPSRC, 2019)。 經濟合作開發組織(Organization for Economic Co-operation and Development, OECD)在公共資金研究資料之取用原則和準則(OECD Principles and Guildlines for Access to Research Data from Public Funding)將研究資料定義為用於科學研究 的主要來源之事實紀錄,如數字、文字、圖像及聲音,並被科學界普遍接受以作 為研究結果的驗證,主要針對數位、電腦可讀格式的資料,不包含研究初步分析
18
及科學論文的草稿、未來研究計畫、實體物件如實驗室樣本、細菌菌株、老鼠等 實驗動物(OECD, 2007)。
秦韻涵(2012)以大學教師的觀點探討對於資料庋用的看法及需求,藉由訪 談的方式了解教師對於資料保存現況、資料分享、資料公開及其障礙及資料庋用 服務的期待與需求,在其論文中依據資料庋用的意義定義研究資料為研究過程中 所使用和產出的資料,以數位化資料為主,不包含硬體設備和實驗樣本。
美國國家科學委員會(National Science Board, 2005)將資料分為觀察資料、
電腦計算資料、實驗資料三大類,其分類能應用於科學、社會科學和技術領域,
人文、藝術、醫學和健康不在所提及的領域內,但仍可使用此分類。而Borgman
(2015)整理美國國家科學委員會對於資料的分類,提及了可將「紀錄」做為第 四類資料。資料的分類說明如下:
1. 觀察資料(Observational Data):識別、標註或記錄事實或現象發生的結果,
且通常會透過儀器產生。在科學領域方面如利用衛星進行天氣觀測,社會領域方 面如線上訪談、民族誌所取得的訪談資料。此類資料因不可複製,保存價值高。
2. 電腦計算資料(Computational Data):為執行電腦模型、模擬或工作流所產生,
在物理和生命科學領域中最為常見,但亦存在於社會科學和人文科學中。能取得 模型之詳細的資訊,如軟體、硬體及輸入資料的描述,則模型的輸出不一定要保 存於長期儲存庫內。
3. 實驗資料(Experimental Data):由控制條件下檢測、建立假設、發現或測試新 法律程序的結果。如在實驗室進行的心理學實驗,若實驗設計為可複製的,資料 比起保存更容易複製,反之,實驗設計為不可複製,或複製實驗的費用太高,則 資料也可能需要保存,因此保存此類別的資料關鍵為成本及實驗是否能重現。
4. 紀錄(Records):包含不容易納入上述三個類別的資料,幾乎任何現象或人類 活動的紀錄都可以作為研究的資料,如政府或企業等文件、檔案、錄製的影像等。
19
歸納上述的定義,本研究將研究資料定義為為了進行研究所使用、創建、產 出的紀錄資訊,以數位、電腦可讀取的格式為主,不包含有形的資料(如紀錄簿、
印刷品、實驗室樣本、實驗動物等)。 二、資料管理
研究者的研究過程中,資料的產生及收集是必不可少的活動,網路及科技的 發展讓進行研究時產生及收集更大量的資料,資料管理的重要性提高。在資料管 理中,資料生命週期的概念經常被用來幫助研究人員理解資料管理的範圍和意義,
資料生命週期可分為六個階段,分別為:創建資料、處理資料、分析資料、保存 資料、資料提供他人取用、資料再用(Surkis & Read, 2015) 。
維吉尼亞大學圖書館提出了資料的生命週期,其主要分為六個階段:(1) 提 案策劃及撰寫,檢視現有的資料來源,決定是否使用新資料還是舊有資料,並預 測資料的潛在使用者;(2) 專案計畫開始,開始創建資料管理計畫,決定要使用 的資料形式及內容,並預測收集材料及方法;(3) 資料蒐集,管理檔案、備份與 儲存,並規劃資料取用的控制及安全問題;(4) 資料分析,包含了檔案分析和檔 案操作,並管理檔案版本;(5) 資料分享,決定檔案的格式,並整理資料;(6) 提 案結束:將資料儲存在資料庫(儲存庫)(University of Virginia, 2019)。
在提案結束後,資料將進行儲存,並進行下一次的使用,資料再次被發現。
而在整個計畫的過程中,管理資料是必不可少的,好的資料管理不僅能讓資料能 重複使用,也能將資料可以被保存且經過長時間後仍可以使用,讓之後的使用者 能夠再次使用。
Wissik & Ďurčo(2016)以奧地利科學院的數位人文中心之案例說明其資料 管理的服務,並提出一個涵蓋整個資料生命週期的機構研究資料工作流模型,如 圖2-1。此模型目標為滿足不同學科、部門及研究者,並擁有普遍性,能適用於 不同情況,模型分為六個階段:預處理階段(分為提案階段和授予階段)、處理 階段、儲存階段、出版和再使用階段以及品質保證階段,每個階段不一定都是劃
20
分明確的,部分階段可重疊,並可分為兩種情境進行說明。情境一為編寫新專案 計畫,研究者會先尋求建議並提出新專案計畫的想法,新專案計畫進入預處理階 段時,會再分為兩個不同階段,分別為提案階段以及批准階段,提案階段會需要 擬定資料管理計畫,在批准階段會進行資料收集;預處理階段後,進入資料處理 階段,在理想的狀況下,研究者會在一個協作的空間中,利用工具並將資料進行 標記、分析以及視覺化,再進入出版階段;儲存階段為進行線上和(或)印刷出 版的項目資料進行儲存及歸檔,資料必須要確保能長期使用,例如可將資料備份 至其他機構;在再使用階段,正確引用為重要議題,而對於資料集,唯一永久標 示符為關鍵的要素,如數位物件識別碼。第二個情境為專案已經結束的遺留資料
(legacy data)情境,在這個情境中,資料如專案計畫結束所留下具有遺失風險 的資料,在這此階段,資料須先進入隔離(quarantine)儲存庫中,再進行分析,
通常處理遺留資料的資源有限,主要的目標為確保資料能儲存以及與其他研究者 可取用。
圖 2-1 機構研究資料管理工作流模型
資料來源:Wissik, T., & Ďurčo, M. (2016). Research data workflows: from research
data lifecycle models to Institutional Solutions. Selected Papers from the CLARIN
Annual Conference 2015, October 14–16, 2015, Wroclaw, Poland, pp. 94-10721
透過此模型,可更瞭解資料在研究中所歷經的過程,研究進行新項目時,資 料在一開始就需進行資料管理計畫後才進行資料的建模及資料採集,之後進入資 料處理階段,進行資料的分析,儲存至機構,或是資料視覺化後進行出版,資料 出版及儲存後,資料可被他人取用達到再利用。
由上述的資料生命週期及研究資料工作流可發現資料保存為重要要素,而資 料保存及資料管理是相互的兩個概念,資料管理,從字面解釋為將資料進行有條 理的整理,而除了管理之外,也包含了保存的概念,將資料進行有效的管理,亦 能保存資料,供日後及他人所再利用。資料管理的議題在進行研究時是一個重要 的步驟,除了將所蒐集的資料進行管理,讓自己在取用時更加方便外,也能透過 將研究中所產出的資料管理與保存,讓日後進行相關研究的時候,能夠進行查閱 及再次利用,而保存的資料也能提供給他人使用,達到資料再利用。
研究資料管理(Research Data Management, RDM)通常就人、政策、資源和 技術系統方面進行描述,系統支援研究人員和組織並在其產生、收集、使用和保 存研究資料時給予指引(Steeleworthy, 2014)。研究資料管理貫穿整個研究生命週 期的活動,包含資料的產生、處理、分析、保存、再利用等,以確保研究資料能 取用、整合、發現、共用、長期保存及資料再用(李丹丹、吴振新,2012)。資 料管理類型如標示了研究變數的意義、說明存放資料的資料夾內的內容、說明分 析法的工作流等,透過管理,能確保研究者在資料收集過程中,是有組織的、能 理解的以及透明的(Surkis & Read, 2015)。
總結上述的定義,研究資料管理針對人、政策、資源及技術進行資料描述,
說明資料的內容、資料的工作流程、進行資料研究的變數等,並貫穿了整個資料 生命週期,除了能使研究者在進行研究更有組織地整理資料外,也能提供其他研 究者更便於取用及資料再用,助於資料長期保存。
22
三、資料分享與再用
學者進行研究後,研究的傳播及出版成為重要的任務,對於學者來說,將研 究的結果公開是研究的重點之一。學術出版隨著科技的改變,增加了數位化的出 版方式,如將研究公開且免費提供給大眾取用的開放取用期刊,開放取用的概念
學者進行研究後,研究的傳播及出版成為重要的任務,對於學者來說,將研 究的結果公開是研究的重點之一。學術出版隨著科技的改變,增加了數位化的出 版方式,如將研究公開且免費提供給大眾取用的開放取用期刊,開放取用的概念