國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
8
第二章 巨量資料的定義、發展與應用模式 第一節 何謂巨量資料
巨量資料一詞,於 2012 始開始正式進入公眾視野,13今日,巨量資料(或稱 大數據)一詞無論在政府機關、商業組織、抑或學術機構已成為顯學,亦有許多 成功的商業、學術研究及公共治理的應用,我國之政府部門亦於國家發展政策中 將巨量資料的應用列為提升政府公共行政的重點方向,然而,巨量資料究竟是什 麼?巨量資料有多龐大(big)?而資料(data)又是什麼資料?什麼又不是資料?
非數位化的資料如何成為巨量資料的資料?巨量資料的核心技術為何?誰在利 用巨量資料?巨量資料的應用對於商業、學術、公共治理分別造成什麼影響?而 巨量資料會造成什麼樣的隱私風險?巨量資料的蒐集規模、後續的分析與應用,
以及其所驅動的決策行為,與其他網路資訊科技存在根本性的差異,所可能造成 的隱私風險也不相同。因此,有必要先釐清巨量資料的定義及其發展現況。
第一項 巨量資料之字源與發展
牛津字典(Oxford English Dictionary, OED)2013 時首次增加 Big Data 一詞 至字典庫中,其對於巨量資料所下的定義為:「非常大規模的運算資料,其資料 規模一般來說在管理以及運作層面呈現顯著的邏輯上的挑戰」14。然而,就字源 學的意義而言,巨量資料(Big Data)一詞的起源為何?在什麼樣的情境之下論 及巨量資料?其意義與現今對於巨量資料的理解有何差異?何時出現如今普遍 定義的巨量資料?是否有明確定義的巨量資料意義範圍?
根據 OED 的記載,最早使用 big data 一詞的學術文獻是 Charles Tilly 於 1980 年於密西根大學(University of Michigan)的社會組織研究中心(Center for
13 Steve Lohr, How Big Data Became So Big, THE NEW YORK TIMES, available at:
http://www.nytimes.com/2012/08/12/business/how-big-data-became-so-big-unboxed.html.
14 ”Computing(also with capital initials) data of a very large size, typically to the extent that its manipulation and management present significant logistical challenges; (also) the branch of computing involving such data”. 請參閱牛津英文字典(Oxford English Dictionary, OED)有關「big data」的 定義及引註文獻,可取得自:http://www.oed.com/.
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
9
Research on Social Organization, CRSO),發表的研究論文「The Old New Social History And The New Old Social History」。15Tilly 文中提及 Big Data 的段落如下:
...Stone 提出異議,認為歷史資料太不可靠,以致於其研究上的協助因 表象上一致的規則應用而不可信賴、編碼缺漏關鍵細節、數學結果對於歷史學者 所尋求的而言並不完全、儲存於電腦磁片的證據阻礙其他歷史學者對於結論的檢 證、調查員因對於統計結果的追求而喪失他們的機智、莊嚴與對於比例的辨別,
而沒有任何重要問題真正的向擁有巨量資料(big-data)的人們的恫嚇而產出,
「一般而言,這種方法論的複雜度使它超出資料的可靠性,結果的有效性似乎在 某種程度與方法論的數學複雜性及資料蒐集的龐大規模呈現負相關」……16
Tilly 是一名社會學者,而上述脈絡所論及的主題為對於「計量歷史」作為一 種方法論的回顧與批評,有論者認為,該段描述所涉及 big data 的文字與現今的 使用意義並不相同,作者對於 big data 一詞的使用,毋寧只是對於「重要問題」
(big questions)一詞所賣弄的華麗對比句型而已,若將 big 一字去除,也不影響 其脈絡。17不過,儘管 Tilly 筆下的「big-data」一詞並無特殊意義,但其文章所引 述有關 Lawrence Stone 對於歷史學量化研究方法論批評的描述,主張聚焦於計量 歷史的學者可能因過於採信量化統計資料的結果而產生偏見,且基於量化統計方 法論上的數學複雜性,導致於歷史學者對尋求與檢證事實的阻礙,Stone 的批評 確實與現今對於巨量資料或資料科學的應用的批評有相當的關聯。
1989 年,Erik Larson 在其為「Harper」雜誌所撰寫的文章中描述:
……巨量資料擁有者聲稱他們所做的對消費者有益,但是資料所使用的方式 已超出原初的目的。18
15 Charles Tilly, The Old New Social History and the New Old Social History, 218 CSRO WORKING PAPER, 1, (1980). available at:
https://deepblue.lib.umich.edu/bitstream/handle/2027.42/50992/218.pdf.
16 Id. at 8.
17 Gil Press, The OED, Big Data, and Crowdsourcing, WHAT’S THE BIG DATA?, available at:
https://whatsthebigdata.com/2013/08/17/the-oed-big-data-and-crowdsourcing/.
18 “The keepers of big data say they are doing it for the consumer’s benefit. But data have a way of being used for purposes other originally intended”. see Steve Lohr, The Origins of "Big Data": An Etymological Detective Story, BITS BLOG, available at :
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
10
此應為首次使用 Big Data 一詞的「非學術性」文獻,這段文字是 Larson 針 對其電子信箱的垃圾郵件與「直效行銷」(direct marketing)的現象所作的推測,
Larson 預示了巨量資料持有者對於消費者資料進行追蹤並預測等「目的外利用」
的資料處理及分析,以獲取其商業利潤的現象。然而,除此之外,Larson 沒有繼 續闡述此類「big data」的其他性質,也無描述其應用的科技。
資訊化的時代,知識與概念的起源與散播,已不再僅限於傳統的學術機構或 媒體,特別是有關網際網路或新興科技的知識渠道,虛擬及實體的知識社群
(knowledge community)扮演相當關鍵的角色,而巨量資料一詞真正具電腦運算 脈絡下的科技意義字源,即有可能是出現於如此的知識社群。據 Steve Lohr 的調 查,19John R. Mashey 於 1990 年代任職於電腦影像製作公司「Silicon Graphics」
時,在 USENIX 會議中發表簡報「Big Data and the Next Wave of InfraStress Problems, Solutions, Opportunities」,20該篇簡報探討資料儲存速度、需求及電腦基礎設施如 何因應,Mashey 在第一頁即以「storage growing bigger faster」定義 big data,並 論及隨著網路的發展,使用者對於資料的需求增加,除影像、圖片、模型以外,
亦希望在網路瀏覽當時尚屬較困難的資料形式:聲音、影片。21然而,當時的電 腦基礎設施環境的建置未臻完善,以致於資料的儲存與處理面臨技術上的侷限。
Mashey 主要著重於如何提升電腦儲存容量及運作效率,以滿足使用者對於運用 資料的需求,22Mashey 提及基礎設施的限制,導致當時對於資料的運用產生以下 四種限制:ㄧ、無法找尋以及理解資料;二、無法由外部產生資料;三、基於系 統的限制無法持有及存取資料;四、錯誤的資料形式。Mashey 認為,若能解決 這四種限制,則有以下四種的對應益處:首先,對於資料作出有意義的洞見、再 者,能由概念產生內容、第三,增強儲存及處理資料的能力、最後,解除資料利
https://bits.blogs.nytimes.com/2013/02/01/the-origins-of-big-data-an-etymological-detective-story/.
19 Lohr, supra note 13.
20 John Mashey, Big Data and the Next Wave of InfraStress Problems, Solutions, Opportunities, USENIX, available at: https://www.usenix.org/conference/1999-usenix-annual-technical-conference/big-data-and-next-wave-infrastress-problems.
21 Id.
22 該簡報題目的「infraStress」為英文單字「infrastructure」與「stress」的組合字。
‧
同年,Weiss 與 Indurkhya 在他們的著作「Predictive Data Mining: A Practical Guide」中提及 big data,24該書也是首本提及 Big Data 的「書籍」,25Weiss 與
Dynamic Factor Models for Macroeconomic Measurement and Forecasting」論文,27 在這篇不足 10 頁的論文中,Diebold 於首段即定義 Big Data 為: Management: Controlling Data Volume, Velocity and Variety」中進一步擴充巨量資 料的概念與內涵,29Laney 在本篇文章中闡述,隨著電子商務(e-commerce)領域
23 Mashey, supra note 20.
24 Wei Fan & Albert Bifet, Mining Big Data: Current Status, and Forecast to the Future, 14 ACM SIGKDD Explorations Newsletter, 1, 1 (2012).
25 Id.
26 See Francis X. Diebold, On The Origin(s) and Development of the Term "Big Data", WORKING PAPER, 1, 3 available at: https://economics.sas.upenn.edu/pier/working-paper/2012/origins-and-development-term-%E2%80%9Cbig-data.
27 Francis X. Diebold, Big Data" Dynamic Factor Models for Macroeconomic Measurement and Forecasting: A Discussion of the Papers by Lucrezia Reichlin and by Mark W. Watson, in ADVANCES IN ECONOMICS AND ECONOMETRICS, EIGHTH WORLD CONGRESS OF THE
ECONOMETRIC SOCIETY 115, (M. Dewatripont, L.P. Hansen and S.Turnovsky eds., 2003).
available at: https://doi.org/10.1017/CBO9780511610264.005.
28 Id. at 115.
29 Doug Laney, 3-D Data Management: Controlling Data Volume, Velocity and Variety, META
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
12
的發展,大量且不同形式資料集的快速累積,造成無法分析與處理的困難。雖然 該文並沒有直接使用 big data 一詞,但是其以三個定義描述該種資料的性質,分 別為數量(volume)、速度(velocity)、多樣性(variety),30「3v 定義」後來演變 為巨量資料被普遍承認的性質。
2008 年,Chris Anderson 於美國著名的科技媒體「連線」(Wired)發表「The End of Theory: The Data Deluge Makes the Scientific Method Obsolete」ㄧ文,31這 篇寫著「理論的終結」聳動標題的文章,認為巨量資料將改變知識的認知與科學 的方法論。Anderson 闡述人類社會已進入千兆位元組時代(petabyte age),資料 的「量變」不僅代表數量上的改變,還形成「本質」上的差異。Anderson 以 Google 如何贏得網路廣告市場為例,他認為,Google 並不需要知道不同國家、文化、年 齡、階級用戶的消費習慣或喜好,不需要進行市場調查、預先設定假設的研究,
Google 僅須透過經由演算法所蒐集的大量用戶資料,而得出特定用戶在網路上 的行為軌跡,再藉由此結果進行廣告的投放。32也就是說,Google 不需要知道用 戶與特定行為之間的「因果關係」是什麼,Google 僅需要掌握其「事實上的相 關」。也就是說,Google 不需要知道原因,只需要知道結果。Anderson 在文章中 預言,這樣的資料分析工具,將改變的不僅是商業廣告的應用,而是對於科學方 法論的翻轉,在 petabyte 的時代以前,科學研究必須經由嚴謹的假設,再透過特 定規模的測試以驗證科學家的理論,並且試驗不同的模型進行比較,以確認「因 果關係」。33然而,在 petabyte 的時代,「因果關係」不再重要,當資料的規模夠大 時,量變產生質變,透過演算法運作的統計工具,藉由巨量資料的分析,我們便 可以從資料顯示的「相關性」找出「模式」,34並且比傳統科學方法論的結果更為
GROUP, (2001), http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/.
30 Id.
31 Chris Anderson, The End of Theory: The Data Deluge Makes the deluge makes the scientific method obsolete, WIRED, https://www.wired.com/2008/06/pb-theory/.
32 Id.
33 Id.
34 Id.
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
13
準確。Anderson 這樣為巨量資料的能力定義並且預測其能力範圍所及:
當我們蒐集的事實與數字不斷增長,我們發現重要問題的機率也隨之增加,
因為在巨量資料的時代下,多不僅是多而已,多,就代表著不同。35
2008 年後,Big Data 正式進入公共視野,伴隨著理論與實務的應用,各學術 領域相關的文獻汗牛充棟。2012 年,紐約時報記者 Steve Lohr 發表專欄報導「The Age of Big Data」,認為人類社會已進入巨量資料的時代。36不過,統計學或資料 科學並不是一門新興的學科,在商業領域,以數據分析驅動的商業智慧(business intelligence, BI)應用早已行之有年,巨量資料與一般的數據分析、統計學又有什 麼差異?此即觸及到巨量資料的定義,請參考第二項的討論。