• 沒有找到結果。

第2節 雲端運算與大數據之關係

第2節 雲端運算與大數據之關係

第1項 大數據之定義

大數據(Big Data)之定義是符合大量(Volume)、速度

(Velocity)、多樣性(Variety)及有價值(Value)的資料26。大 數據之常見來源是:網頁與社群(Web & Social)、智慧裝置

(Machine)、感測器(Sensing)、交易(Transaction)、物聯網 IoT27。  大數據近年來快速發展,其應用領域橫跨商業、經濟、管理 與城市治理等多重面向,透過大量城市歷史資料以及城市居民每 天所創造的新資料,城市管理當局即可建構「城市大數據資料庫」。

透過大數據的分析,進一步改善城市居民生活品質。甚至已逐漸 開始影響社會科學領域的傳統社會科學研究方法及概念28。 

 

第2項 大數據之應用與限制

著名的大數據應用案例是,2009 美國在全球新興流感 H1N1  防疫工作上面臨挑戰,美國政府與疾病管制單位卻苦於無法有效 預測新型流感可能的擴散範圍與時間,因而無法完全掌握疾病傳 播的真實狀況。  此時美國科技巨擘  Google 公司的工程師,運用  Google 身為全球最大搜尋引擎的優勢,將其每天將近  30  億筆 的搜尋紀錄加以蒐集整理,並且選取出美國民眾最常搜尋的前 5

       

26  Hashem I A T, Yaqoob I, Anuar N B ,Mokhtar S, Gani A, Khan S U, , The rise of “big  data” on cloud computing: Review and open research issues,Information  Systems 47 98 (2015). 

27  Id. 

28  林顯明,〈大數據應用於社會科學研究的意涵與省思〉《T&D 飛訊》,第 214  期  , 國家文官學院,頁 2(2016)。 

千萬個搜尋關鍵字與美國疾病管制局(CDC)在 2003 至 2008 年 之間的流感傳播資料進行比對。但  Google 運用此技術的目的,

是運用搜尋大量關鍵字、搜尋頻率與疾病管制局過去的流行病  傳染資料進行比對,並找出  H1N1  新型流感可能的傳播時間、

擴散地區,是否有統計上的相關性。最後,其所獲得的預測結果,

不僅與過去美國疾病管制局針對流感傳染與分布情形的看法相 當類似外,更進一步地能事先掌握與預測新型流感傳播的速度與 擴散範圍;相較之下,必須仰賴各地方衛生部門回報感染案例的 美國疾管局,Google  此套系統反而能更快的預測流感擴散的速 度,增加公共衛生系統反應時間以及預先配置防疫人力,將疾病 可能造成的影響降至最低。對此,大數據於 2009 年的初試啼聲,

Google  系統研發與預測結果,刊登在國際《Nature》科學期刊,

開啟了大數據使用與研究熱潮29。 

以上發想其實蠻有創新性:由 Google 搜尋找出 100 個和流 感可能相關的關鍵字,從中挑選出 45 個;再透過常用的統計迴 歸(卜松模式)來建模,以當日關鍵字的用量組合,來預測 1 週 後流感的發生率。這應用就流感防治而言當然很有吸引力,且操 作簡單,符合所謂大數據分析速度(Velocity)的要求:簡單快 速。大多數大數據相關演講中,對它的介紹就到這裡,但卻沒有 提到接下來發生的事30。 

根據 Google 流感趨勢的預測和美國疾病預防管制中心提供 的實際發生率比對後,明顯地在 2009 年,Google 的預測遠低於

       

29  同前註,頁 2‐4。 

30  參考連怡斌,大數據分析的迷思:以谷歌流感趨勢預測為例,科技部科技大 觀園網站:https://scitechvista.nat.gov.tw/zh‐tw/feature/c/0/1/10/1/2293.htm

(最後點閱時間;2016 年 11 月 15 日),2016 年 4 月。 

實際所發生的。Google 以 2008 年前的資料建立的模式來「估計」

2008 年前已知的流感發生率,可以估計的很準,但對預測未來 尚未發生的,就差很多31。 

經過修正後(主要是刪除掉一些無用的預測變數),Google 研究 團隊於 2011 年又在另一知名的研究期刊《PloS ONE》發表修正 後模式。新模式已將 2009 年後的偏差修正回來,其應用前景又 再度被看好。但在 2 年後的 2013,這模式的預測結果又再度破 功。前一次是低估很多,這次則是高估很多32。 

曾經首先刊登 Google 流感趨勢預測的《Nature》科學期刊 批判:Google 誤解流感了!(When Google got flu wrong.)紐約 時報抨擊更猛烈:全盤瓦解:不探索資料的來龍去脈,只能告訴 你誤導的故事(Disruptions: Data without context tells misleading  story.)。自此 Google 也封鎖了 Google Flu 的一些功能,並且未再 更新資料33。 

隨著大數據應用的加快與增廣,以前為它設立的定義似乎也 不必那麼拘泥。但在一些攸關安全與健康的應用,則不能因追求 快速而忽略對變異的控制。在這一點上,大數據的分析不能只講 究資料存取的效能,更應該加強與統計界的合作,才能做出更好 的決策與應用34。 

 

第3項 雲端運算與公寓大廈管理雲儲存大數據之關係

然而,處理大數據是一項具有挑戰性和耗時的任務,需要大        

31  同前註。 

32  同前註。 

33  同前註。 

34  同前註。 

型計算基礎設施才能成功數據處理和分析,而雲端運算正具有執 行大規模和複雜計算之能力,並且消除了維護昂貴的專用電腦硬

體、軟體之需要35。 

       

35  Hashem I A T, Yaqoob I, Anuar N B ,Mokhtar S, Gani A, Khan S U, , The rise of “big  data” on cloud computing: Review and open research issues,Information  Systems 47 98 (2015).