• 沒有找到結果。

研究資料之來源與保存現況

第四章 研究結果分析

第二節 研究資料之來源與保存現況

59 

第二節 研究資料之來源與保存現況

受訪者的所使用或產出的研究資料,除了在類型上各有差異之外,資料本身 的來源也各不相同,而不同的資料來源對後續研究資料的分享和公開都有所影響;

另一方面,對研究資料進行資料庋用的難易度,則和受訪者目前如何保存他們的 研究資料息息相關,因此本節先就受訪者們的資料來源以及保存進行瞭解。

一、 研究資料來源

根據訪談的結果可發現受訪者的資料來源主要有三種,分別是政府機關、自 身產出和大型資料庫,顯示受訪者在研究中所使用的研究資料不一定是完全原創,

常是從它處取得後,再進行分析和研究。

(一)、從政府機關取得

政府機關是很重要的研究資料來源,有 7 位受訪者提到他們所使用的資料來 自於政府機關,包括氣象局、環保署、水利署、勞工局、健保局等等。而資料產 生的方式則是透過量測或是調查,受訪者 D、E、F、G、J 和 I 使用的是政府機 關透過儀器所取得的量測資料,以數據和圖片為主。

「一般來說資料來源是公家機構,……公家機構才會有長期的蒐集資 料,學校的研究者不太可能有錢去做長期的蒐集資料,……像是台灣 的水文資料,是水利署每天派人去蒐集的,……台灣幾十條河流,又 要每天去,大概就要上千人,可以想像是多大一個工程,……要很龐 大一筆錢去做,所以公家機關才可能去長期做。……像台灣有 6、7 個地震儀,要花錢買的,放的土地當然也是政府,這些資料是屬於氣 象局的,……所以說這種長期的資料都是政府機構的。」 (G:36-43) 受訪者 B 常會使用由政府單位進行調查後所產生之調查資料,例如勞動狀況 調查、健康狀況調查等等,這些調查往往每隔幾年會做一次,因此資料量相當豐 富而且龐大。受訪者認為這些資料品質和數量都相當好,唯一的缺點要花很多時

60 

間在資料的索取,造成研究上時間的壓力。

「台灣的調查資料庫算是很不錯,以國際來講算是水準很好的,……

有一定的規範,而且是有經驗的政務官在維持,有連貫性,……樣本 數很大、變項數很多,……研究在作相關的統計或分析時,都覺得水 準蠻好的。」 (B:38-40)

(二)、自行產出研究資料

透過自己進行實驗、調查、量測來產出研究資料的受訪者則有 9 位,其中 5 位同時也會使用政府機關之資料,分別是受訪者 B、D、F、G 和 I。另外 4 位受 訪者則以自己產出的研究資料為主。受訪者 A 的資料產生方式是透過親自實地 考察和量測後,再進行記錄和整理;受訪者 C 的資料產生方式是透過訪談;受 訪者 H 的資料產生方式是透過對血液樣本進行拍照,再對照片進行分析;受訪 者 K 的資料產生方式則是透過實驗對各種食材進行檢驗並產生實驗數據。

「成都平原地區發現了一些城,大概 10 座,但我們覺得應該還有很 多小型遺址,被埋在地底下,是肉眼看不到的,…….所以我們用了很 多比較科學,比較先進的方法,像是配合各種鑽探技術、磁力探測、

雷達等等。……每隔 20 公尺鑽一個孔,每個孔都有一張數據的表格,

一天就大概 100 張以上的表格。……其他也有照片阿、現場紀錄阿,

很多不同資料。」 (A:16-26)

移民研究議題範圍廣,這幾年的訪談紀錄 90%都有打字並存進電 腦……,我研究的區域主要是加拿大、澳洲、紐西蘭、美國等地的臺 灣移民,……透過長時間的接觸和他們建立關係,並透過訪談或是問 卷來瞭解他們的生活狀況。……這些資料當然不可能再次產出一樣 的,……我認為很有價值,如果有人要拿這些資料去做分析,我也滿 高興的。 (C:32-35)

「我們是用實驗的方法,我們拿病人的檢體,去探討、去跟醫生討 論,……像是針對癌細胞的轉移,……會從原來的位置跑到血管 去,……會產生一些實驗資料,一些量測到的數據,像是血液中有多 少癌細胞;還有一些是影像的資料,主要還是影像資料為主,是最基 礎的,……譬如說一個圖檔,像是對血液樣本拍照,但要看解析度多 高,還有範圍多大,……有時候影像資料很大,很占空間。」 (H:

6-11)

 

61 

(三)、以大型資料庫中的資料進行研究和分析

受訪者 L 的資料來源是以大型的基因和蛋白質資料為主,由於分子生物學領 域的特性是以先註冊該基因或該蛋白質結構者,其發現會受到學術界之認同,因 此一旦有新的發現,研究者們都會主動上傳到幾個大型且知名的國際級資料庫中,

同時也能使用資料庫中的資料進行分析和研究。

「我們所有的研究者除非是為了專利的目的,要不然我們都無條件的 把我們的 data 丟進去,原因是你不丟進去別人就丟進去,你丟進去至 少還保有起碼得 credit,……除非你覺得這些發現後面會有很有價值 的產出,不然一定會先送進資料庫;……送進去後會產生一組號碼,…

就是在資料庫中註冊了這資料。」 (L:12-16)

二、 研究資料保存

研究資料保存的問題可分為兩個層面,第一個是檔案的大小,一旦檔案太大 或是成長非常快速,則在資料的傳輸和儲存上都會遭遇困難,而資料的格式亦會 影響到檔案的大小。另一個問題是資料的整理,長期累積的資料若未經適當的整 理,則在進行資料庋用時,就必須花費更多人力和時間去統整這些研究資料,甚 至需要具學科背景的專業人士的幫助。上述兩個因素皆對資料庋用的難易度造成 影響。

(一) 、檔案大小與資料格式

最多受訪者提到的格式是數據,但受訪者們皆表示格式不會只有一種,圖片、

表格、照片、筆記、聲音檔等都是會產出的資料格式。受訪者 H 的研究資料以 照片為主,這些高解析度的照片會快速消耗硬碟空間;受訪者 I 則是以聲音檔為 研究資料,由於原始的音檔可能錄製了很長的時間,因此檔案很大,但並非全部 都有研究價值。

「我們的資料量很大,……看你錄多久阿,錄久了當然檔案很大,……

有些原始檔真的大到恐怖,真的會想典藏嗎?……我是建議典藏一些 有意義的聲音片段吧,一些原始檔中剪出來的 clip,例如有一些生態

62 

相關的聲音。」 (I:15-18)

數據資料本身檔案並不大,因此有些受訪者不認為儲存空間對他們而言有困 難,但也有例外的情況,受訪者 E 和 F 所使用的資料雖然是數據,但由於氣象 觀測數據產生的頻率很高,因此檔案數量增加的速度十分驚人,對儲存空間的需 求量很高。

「我在做的氣候研究,…就要用很多過去的觀測資料,還有很多過去 的模式模擬出來的關於過去的氣候的資料,或是未來氣候的資料,…

自己也會有模式去跑資料出來,所以真的要用到很龐大的資料,可能 是幾十 TB。…所以現在對研究氣候的人來說,模擬出來的資料要儲 存在哪裡真的是很大的問題。…像我們前陣子買了 100T 的硬碟,現 在已經剩下 20 幾 T 而已了,應該也很快就會被填滿。…所以資料儲 存真的變成一個很昂貴的議題,…大型計畫的投資說不定要到幾千 萬。」 (E:2-13)

(二) 、資料整理現況

受訪者都表示目前資料皆保存在自己的研究室或電腦中,通常不會主動刪除,

有些會燒成光碟,或用硬碟進行備份,至於整理資料的工作則大多教給學生或助 理去做。除了受訪者 L 表示會將基因或蛋白質等研究資料上傳至大型資料庫中 之外,其它 11 位受訪者並無將研究資料公開或上傳至資料庫等經驗,皆是以自 行保存為主。受訪者 K 指出資料長期累積以及整理方式不固定的結果就是資料 十分零亂;而且整個教育體系中都沒有教導研究資料的重要性,學生對資料的整 理自然沒有概念,整理方式因人而異,老師們也不一定有時間去確認整理的方式 是否恰當,因此實驗室中的資料要從頭開始把它整理好真的很困難。

「因為我們一直都沒有人力和資源去把資料的管理建立起來,……另 外就是學生的老習慣,因為都沒有特別的重視或去訓練,學生也不知 道有資料管理的需求,所以大部份都是看學長姐怎麼做,他們就跟著 怎麼做,所以這其中變異性就非常大,……我也是到 5、6 年前才慢 慢開始想把實驗室裡的資料規格化,……還要花很多時間說服學 生,……因為長期以來, (學生)都覺得 result 比較重要,中間的 quality 不重要,所以這樣的基本訓練真的很不足。」 (K:112-121)

 

63