第二章 巨量資料探勘技術 應用於測量核能發電之風險感知
第一節 文獻回顧
第二章 巨量資料探勘技術 應用於測量核能發電之風險感知
巨量資料探勘的技術,已經成為當前資料蒐集的發展趨勢,隨著技術的成熟,
甚至逐漸地應用到民意調查的領域,成為政府制定公共政策的依據。據此,本研 究嘗試透過巨量資料分析與資料探勘技術的應用,探討公眾對於核能發電之風險 感知,藉此瞭解核能發電的相關議題,例如議題趨勢、政策意象與政策態度等趨 勢的變化。
第一節 文獻回顧
一、 巨量資料的意涵
在資訊科技的快速發展之下,大量的原始資料淹沒了公部門與私部門的組織,
形成了一個無法被忽略的巨量資料現象(TechAmerica Foundation, 2012)。Manyika 等人(2011)便指出,目前只需要不到六百塊美金的費用,就能夠買到一個能夠存 取全世界所有音樂的硬碟。而根據學界的預測,全世界的資料量每一年會成長 40%,同時大量資料的處理也能夠帶來許多商機,美國的健保系統很可能能夠增 加 3 千億的收入,而歐洲的公部門在應用大量資料處理的科技後可以增加 2 千 5 百億的產值(Manyika
et al.,
2011)。根據 Fan 與 Bifet(2012)的研究,指出巨量資料(Big Data)一詞最早是出現在 1998 年美國硅圖公司(Silicon Graphics, SGI)的一個報告中,同一年這個詞也出現 在 Weiss 與 Indrukya 的資料探勘書中。然而,巨量資料的概念並非全新的,而是 與資料探勘(data mining)技術息息相關,並且十分相似(Olmer, 2008)。其中,兩 者最大的差異之處在於資料量的多寡,由於目前的資料量已經呈現指數性的成長,
資料集的龐大與複雜性,不僅使得政府與社會無法應付,同時,也讓傳統的方法 學與資料探勘的軟體無法應付,因此,促成巨量資料的概念興起。按照 Chen 與
6
Zhang(2014)的看法,認為巨量資料是指,一個難透過先進與傳統資料處理平台 處理的、類型多元的大資料集的集合;而 TechAmerica Foundation (2012)則把巨 量資料廣義定義為,一個用於敘述需要先進技術與科技來獲取、儲存、分配、管 理與分析的大量、高速、高複雜的變數資訊的名詞。
二、 巨量資料的特點
植基於過去的研究,巨量資料主要具備以下幾個特性(
Eaton et.al., 2012
;Fan &Bifet, 2012;TechAmerica Foundation, 2012;Chen & Zhang, 2014),從基本的 3V 特徵(volume、velocity 與 variety 等)(
Eaton et.al., 2012
),逐漸擴充為 6V,甚至到 7V。1. 容 量 (volume) : 代 表 資 料 的 大 小 , 現 代 的 組 織 往 往 需 要 處 理 超 過 1PB(petabyte = 1015元組)或甚至 1ZB(zettabyte = 1021元組)的資料量。
2. 速度(velocity):代表資料進出的速度,資訊流,如 RFID 感應器的使用,
導致不同組織需要同時處理大量的資料,在產品週期越來越短的狀況下,
能夠在對手之前從資料集中獲取新趨勢的資訊是迫切的。
3. 種類(variety):代表不同資料種類與來源,資料已經不只有結構的資訊,
同時也包非結構與半結構的資訊,巨量資料因為試圖包含所有與人類決 策過程相關的資訊因此會導致獲取的資訊類型多元,資料庫科技往往都 只應用於處理全世界資料的 20%,因為這 20%的資料是容易處理的結 構性資料,而剩下的 80%非結構性資料,例如影音資訊都往往都被忽 略。
有時以上的定義會依據不同學者、實務界者的需求而多加上第四個 V:
4. 在前三個 V 加上:價值(value)、變異性(variability)或虛擬(virtual)。
5. 準確性(veracity):資料的品質與可信度,那一些資訊是垃圾資訊哪一些 是有用的?這個特性根據 TechAmerica Foundation (2012)與
Zikopoulos
7
等人(2013)的看法,認為準確性也是巨量資料的核心特性之一。
雖然,巨量資料具備以上的特徵,不過,若要進一步發揮其特長,必須搭配 新的科技與技術。對此,Chen 與 Zhang(2014)就指出,若要分析與捕獲巨量資料 中的價值,必須建立新的科技與技術,雖然目前許多的方法已經被發明出來,不 過還是有許多方面的需求沒有辦法被滿足,而這些不同的科技與技術通常都會橫 跨許多不同的領域,目前工具主要可以被分為三種:
1. 整批處理工具(batch processing tools):其中最著名的是 Apache Hadoop,
這種工具也是目前最被使用的。
2. 資訊流處理工具(stream processing tools):用於即時分析資料的工具。
3. 互動式分析工具(interactive analysis tools):允許使用者自行分析資訊。
而用於分析巨量資料的技術則包含了許多不同的特色,這些包括(Chen
& Zhang, 2014):
1. 最佳化(optimization methods):許多巨量資料的應用會需要使用到即時 的最佳化處理。
2. 統計:蒐集、組織與推估資料的科學,主要在探討不同物件之間的關聯、
因果關係。
3. 資料探勘(data mining):用於從資料中提取出寶貴的資訊、模式的一系 列技術,巨量資料分析比傳統的資料探勘還要來得有挑戰性。
4. 機器學習(machine learning):一種使人工智慧設計演算法來演化出根據 實證資料行為的作為,其最主要的特性就是使得機器能夠發現知識並自 動得做出有智慧的決策。
5. 視覺化途徑:建立圖表與其他用視覺化資料呈現的過程。
6. 社會網絡分析(social network analysis, SNA):把社會關係以網絡理論的 角度看待,透過節點與節點解釋。
8
三、 巨量資料與政策制定
如前所述,巨量資料與資料探勘在概念上十分相近,而兩者最大的差異在於 資料數量的多寡,因此,可以將巨量資料當作前端資料蒐集的管道,而資料探勘 則當作後端資料分析的方法(World Economic Forum, 2012),如圖 2-1 所示。
圖 2-1 巨量資料之資料生態體系 資料來源:轉引自世界經濟論壇(2012: 4)。
就目前的成果來說,資料探勘的應用已經非常廣泛,其用途包含在健保資料、
民意、降低詐騙情形、救災決策制定、行銷、金融業與製造業(Obenshain, 2004;
Stylios et al., 2010;Jans, Lybaert & Vanhoof, 2010;Peng et al., 2011;Tsai, 2012)。
而巨量資料也逐漸在許多國家的政府政策決策過程中受到相當程度的重視,其中,
美國政府在 2012 年的報告中,就提到許多目前聯邦政府所應用到的巨量資料方 案,這些方案從美國的國防部、能源部、退伍軍人人事部、衛生及公共服務部、
國立衛生研究院到美國太空總署都有,目前在美國也開始希望把巨量資料分析的 概念納入到健保中(Miller, 2012),亞洲的各國在近期也開始重視巨量資料,南韓
9
特別建造了一個巨量資料的中心1,而日本政府則發布了報告針對巨量資料的發
展提出未來的願景2,同樣的新加坡政府也把巨量資料科技納入了交通的管控系
統中3。
Eaton 等人(2012)依據 IBM 的經驗,認為巨量資料可以用於日誌分析(log analytics)、詐騙偵測(fraud detection)、社會媒體趨勢分析、客服中心(call center)資訊 整理與顧客鑑定、風險建模與管理與能源產業。
Manyika 等人(2011)則認為巨量資 料在五個領域能夠創造價值並有刺激組織設計、結構與管理改革的潛能,這些領 域包含創造可及性與透明、允許組織透過蒐集大量的資料來進行實驗以並發現需 求與缺點、把顧客進行細部分類、透過自動化或有巨量資料科技支援的決策系統、允許產品與服務的創新。
為此,TechAmerica基金會進一步建議巨量資料分析者可依循圖2-2所示的啟 動路徑,推動巨量資料分析(轉引自廖洲棚等,2012):
圖 2-2 巨量資料分析啟動路徑 資料來源:轉引自廖洲棚等(2012)。
1 資料來源:網址:
http://www.futuregov.asia/articles/2014/jan/24/south-korean-first-big-data-centre-reveals-progres/
2 資料來源:網址:
http://www.globalregulatoryenforcementlawblog.com/2013/06/articles/data-security/japan-promotes-th e-use-of-big-data/
3 資料來源:網址:
http://www.futuregov.asia/articles/2014/apr/17/singapore-government-uses-big-data-analytics-optim/
10