巨量資料與隱私權─個人資料保護機制的再思考 - 政大學術集成
全文
(2) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.
(3) 國立政治大學法律學系碩士班碩士論文 Department of Law, College of Law, National Chengchi University Master Thesis. 巨量資料與隱私權─個人資料保護機制的再思考 Big Data Privacy: 政 and治. 大. 立 Data Protection Mechanisms Rethinking Personal ‧. ‧ 國. 學 sit. y. Nat. io. er. 研究生:鍾孝宇. n. Chung, Hsiao Yu aAuthor: iv l C n hengchi U. 指導教授:陳起行博士. Advisor: S.J.D. Chi-Shing Chen. 中. 華. 民. 國. 一. ○. July, 2017. 六. 年. 七. 月.
(4) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.
(5) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.
(6) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.
(7) 謝辭 謹將本文獻給我的家人、與愛憫。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.
(8) 摘要 本文主張,隱私是公民社會的構成元素,它保障個人在社會建構的形塑之下, 保有日常行為實踐的能動性,得在自我自主經驗與社會建構的來回探索之間,生 成個人的主體性。這個動態的主體性發展空間,使我們得以開拓環境中的意外發 現並建立心智的批判獨立性,具備如此公民特質的社會,才有能力促進自我決定、 創新、人際交往互動等實踐可能性,形塑健全的公民社會。 然而,巨量資料在數位環境中,正全面影響我們日常行為實踐的模式。巨量 資料以統計相關性的知識論與方法論,形成不同的洞察與價值,其以資料驅動技. 政 治 大 物,不僅是日常生活的輔助工具,而毋寧是我們個人感官的延伸,其精巧的影響 立 術所辨識出的現象模式,建立其宣稱的客觀性優勢。巨量資料脈絡下的數位技術. ‧ 國. 學. 我們與周遭世界的關係,積極介入、給予指示、引導行為,甚至定義我們的身分, 調整、調控我們的行為。作為一種知識生產與治理模式,巨量資料的監控本質對. ‧. 於個人或群體所加諸的權力作用,將削弱個人主體性的發展空間,進而影響健全. sit. y. Nat. 的公民社會發展,形成新型態的、難以察覺的隱私權侵害風險。並且,本文認為,. al. er. io. 商業監控結合監控資本主義邏輯的調控治理,對於公民社會的傷害更鉅。. v. n. 面臨如此的風險,本文指出作為資訊社會產物的現行個人資料保護機制,無. Ch. engchi. i n U. 法回應數位環境中巨量資料隱私威脅的三個因素:個人資料性質的改變、告知與 同意機制的失敗、資料汙染。並在奠基於隱私權的社會價值理論之上,提出三種 原則性建議:巨量資料的應用倫理、巨量資料利用的正當程序原則、社會責任與 自律規範。在原則性建議以外,亦將視角拉回我國的個人資料保護機制,參考歐 盟一般資料保護規則的相關立法,建議我國應盡速設置專責之資料保護監管機構, 並提供具體的個人資料保護規範修法方向:創設涵蓋資料保護影響評估的資料管 理機制、建置組織內部資料利用監督機制、以及創設使用者的資料可攜權。 關鍵詞:巨量資料、演算法、隱私權、個人主體性發展空間、公民社會、監 控、監控資本主義、全景敞視治理、調控治理、GDPR、個人資料保護機制.
(9) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.
(10) 巨量資料與隱私權─個人資料保護機制的再思考. 目錄 第一章. 緒論____________________________________________________ 1. 第一節. 問題意識與研究動機 __________________________________________ 1. 第二節. 研究範圍與方法 ______________________________________________ 4. 第一項. 文獻研究 ____________________________________________________ 5. 第一款 第二款 第三款. 第二章. 研究架構 ____________________________________________________ 6. 學. 第三節. 政 治 大 比較法研究 __________________________________________________ 6 立. ‧ 國. 第二項. 古典文獻研究________________________________ 5 專書、論文、期刊、政府文件__________________ 5 網路文本____________________________________ 6. 巨量資料的定義、發展與應用模式 _________________________ 8. ‧. 第一節 何謂巨量資料 ____________________________________________________ 8 巨量資料之字源與發展 ________________________________________ 8. 第二項. 巨量資料之定義 _____________________________________________ 13. sit. n. 第三項. al. 容量(volume) ____________________________ 14 速度(velocity) ____________________________ 15 多樣性(variety)___________________________ 16 其他定義___________________________________ 17. er. io. 第一款 第二款 第三款 第四款. y. Nat. 第一項. Ch. engchi. i n U. v. 巨量資料之發展現況 _________________________________________ 19. 第一款 第二款. 產業現況___________________________________ 19 各國政策發展現況___________________________ 23. 1. 2.. 美國___________________________________________ 23 歐盟___________________________________________ 24. 3.. 我國___________________________________________ 25. 第二節 巨量資料的商業應用 _____________________________________________ 26 第三節 巨量資料與公共治理 _____________________________________________ 31 第一項. 城市治理 ___________________________________________________ 32. 第二項. 醫療 _______________________________________________________ 33.
(11) 第三項. 第三章. 犯罪預防 ___________________________________________________ 34. 隱私與隱私權的社會價值_________________________________ 37. 第一節 隱私及(資訊)隱私權的發展─歷史、概念與定義 ___________________ 37 第一項. 隱私的歷史考察簡述與隱私權的起源 ___________________________ 37. 第一款 第二款. 隱私的歷史考察簡述_________________________ 37 隱私權的起源_______________________________ 40. 第二項. 隱私權的承認與概念形塑 _____________________________________ 43. 第三項. 資訊隱私權的提出 ___________________________________________ 51. 第四項. 小結 _______________________________________________________ 53. 第二節 隱私已死?─重探隱私權的價值 ___________________________________ 54 第一項 第二項. 政 治 大 隱私的社會價值 立 _____________________________________________ 61 隱私與個人主體性發展「空間」 _______________________________ 55. ‧ 國. ‧. 第三項. 隱私與民主體制_____________________________ 64 隱私與創新_________________________________ 66 隱私與人際交往互動_________________________ 69. 學. 第一款 第二款 第三款. 本文對於當代隱私權價值的理解 _______________________________ 74. 第一項. al. n. 1. 2. 3.. 第二節. y. 政府監控 ___________________________________________________ 78. 第一款 第二款 第三款. 第二項. sit. io. 第一項. 巨量資料的政府監控與商業監控 _______________________________ 78. er. 第一節. Nat. 第四章 巨量資料監控對於隱私權的系統性挑戰 _________________________ 78. Ch. i n U. v. 公私部門相互交織的權力體系_________________ 83 監控作為治理技術的全面日常生活化 __________ 85 新型態的隱私侵害___________________________ 88. engchi. 先發預測(preemptive predictions) _______________ 89 資料歧視(data discrimination) __________________ 91 錯誤分類(missorting)__________________________ 95. 商業監控 ___________________________________________________ 96. 第一款. 個人資料的價值與商品化_____________________ 96. 第二款. 監控資本主義_______________________________ 98. 知識、權力與看不見的社會傷害 ______________________________ 104 「全景敞視」治理 __________________________________________ 105. 第一款 第二款. 自我監控的寒蟬效應________________________ 113 分類的客觀性迷思__________________________ 116.
(12) 第二項. 超越「全景敞視」─調控治理 ________________________________ 118. 第一款 第二款 第五章 第一節. 自我決定與民主體制________________________ 126 意外發現與創新____________________________ 130. 個人資料保護機制的再思考______________________________ 134 現行個人資料保護機制因應巨量資料挑戰的困境 ________________ 134. 第一項. 個人資料性質的改變 ________________________________________ 134. 第二項. 告知與同意機制的失敗 ______________________________________ 139. 第三項. 資料汙染 __________________________________________________ 149. 第二節. 個人資料保護機制的再思考 __________________________________ 150. 第一項. 巨量資料的應用倫理 ________________________________________ 153. 第二項. 建立巨量資料利用的正當程序原則 ____________________________ 158. 我國個人資料保護機制之修正建議 ____________________________ 165. 學. y. sit. 結論__________________________________________________ 175. io. 第六章. 資料管理機制______________________________________ 169 內部監督機制______________________________________ 171 使用者自主權與資料可攜權__________________________ 173. Nat. 1. 2. 3.. 盡速設置專責的資料保護監管機構 ___________ 166 個人資料保護法的建議修正方向______________ 169. ‧. 第一款 第二款. al. er. 第四項. ‧ 國. 第三項. 政 治 大 社會責任與自律規範 立 ________________________________________ 162. n. v i n Ch 壹、 中文參考文獻 ____________________________________________________ 178 engchi U. 參考文獻__________________________________________________________ 178. 貳、 英文參考文獻 ____________________________________________________ 185.
(13) 圖目錄 圖 1 16 種隱私侵害行為類型 .................................................................... 50 圖 2 隱私與個人主體性發展空間............................................................ 75. 表目錄 表 1 電腦儲存容量單位............................................................................ 14 表 2 巨量資料其他定義............................................................................ 18. 政 治 大. 表 3 秘密之定義........................................................................................ 38. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.
(14) 第一章 緒論 烏托邦似乎比我們過去所想像的更容易達到了。而實際上,我們發現自己 正面臨著另一個痛苦的問題:如何去避免它的最終實現?…… 烏托邦是會實現的。生活直向著烏托邦邁步前進。或許會開始一個新的世 紀,在那個世紀中,知識份子和受教育的階級將夢寐以求著逃避烏托邦,而回 歸到一個非烏托邦的社會─ 越少的「完美」,就越多的「自由」。. 立. 政 治 大. Nicolas Berdiaeff1. 第一節 問題意識與研究動機. ‧ 國. 學. Uber 前員工 Samuel Ward Spangenberg 於 2016 年 10 月向法院提出告訴,指. ‧. 控 Uber 有部分員工利用查看運作中車輛位置以及車內乘客資訊的工具「god. y. Nat. view」 ,持續追蹤特定乘客下車後五分鐘內的位置及移動軌跡,;2Airbnb 於 2016. er. io. sit. 年 10 月 27 日上午修訂其服務條款及隱私政策,將台灣、澳門、香港包含於中國 之內,而按照其新修訂之隱私政策,若是房產位於中國境內之房東,其個人資料. al. n. v i n 將會傳輸並儲存於 Airbnb 中國,不僅如此,房客之訂房日期與付款金額、甚至 Ch engchi U 其與房東就訂房細節來往的訊息亦會被 Airbnb 傳輸並儲存至中國境內,該隱私. 政策發佈後 Airbnb 緊急於當天下午更正並將台港澳排除於中國之外;3Yahoo 於 2016 年 9 月坦承,其系統於 2014 年遭駭客竊取至少 5 億名用戶的帳戶、電子郵 件信箱、電話、生日等資訊,以及部分用戶之安全問題與回答也可能外流,而該 公司於 2016 年 8 月時亦傳出另有 2 億用戶資料遭竊取並且公開販售,Yahoo 除. 1. 轉引自 Aldous Lenrard Huxley 著,黎陽譯,美麗新世界,志文出版社,頁 6,1973 年 4 月。 高敬原,Uber 再爆隱私爭議!傳員工濫用權限,追蹤包括碧昂絲等名人乘車資訊,數位時 代,2016 年 12 月 13 日,可取得自: https://www.bnext.com.tw/article/42306/uber-employeestracking-celebrities-security-lawsuit. 3 蘇文彬,Airbnb 新隱私條款犯眾怒,中午緊急更正:臺灣用戶不屬中國,iThome,2016 年 11 月 2 日,可取得自: http://www.ithome.com.tw/news/109357. 1 2.
(15) 配合調查之外,呼籲 2014 年後未變更密碼的用戶盡速更換密碼。4 網路資訊科技的發展,賦予我們改變生活基本面向的能力,包含我們的對話 溝通與學習、我們的工作、購物、娛樂,以及我們參與政治與社會生活的方式, 5. 亦即,網路資訊科技影響我們與世界的關係。巨量資料、演算法、人工智慧、機. 器學習等新興科技,將會全面滲透人類日常生活的各面細節,在萬物聯網的數位 環境之中,網路資訊科技深刻的影響人類的行為模式。雖然許多新興科技仍舊處 於學術的討論而尚未進入商業應用階段,但近年來,巨量資料(big data)已成功 地在學術、醫療、商業領域掀起技術革命,不容忽視。前述的 Uber、Airbnb 便是. 政 治 大 的商業模式,使其分別對交通與旅遊產業在全球範圍產生巨大衝擊。而創立於 立. 應用巨量資料的領先集團,其對於網路資訊科技最新應用的掌握,發展出新型態. 1994 年的第一代網際網路服務業者 Yahoo,其提供的免費網路服務,包含搜尋引. ‧ 國. 學. 擎、電子郵件及社群網站等等,早已累積大量的用戶,這些用戶的個人資料和他. ‧. 們的網站瀏覽行為在巨量資料的技術應用下,便成為極具價值的有價商品。. y. Nat. 然而,巨量資料的應用與發展,除改進商業模式、提升公私部門治理效能、. er. io. sit. 增進使用者便利性以外,其本質上不透明且一般人難以理解的數學模型與演算法 運作邏輯,對於使用者造成的隱私侵害風險是否可能高於傳統的資訊科技?其對. al. n. v i n 「個人」以及「群體」乃至於「社會整體」又分別會造成如何的負面效應?在資 Ch engchi U 料流通充斥的數位環境中,使用者放棄對於個人資料的自主權以換取便利的消費. 或服務是否為無法避免的選擇?科技世界具有指數特性,科技的成長如同「指數 曲線加速期」,在某個時間點後,某項趨勢會突然變得明顯,並且如同數學的指 數曲線成長,呈現垂直上升的走向,此即所謂的「摩爾定律」(Moore’s law)。6以 巨量資料為首的新興網路科技,朝向摩爾定律的的指數走勢似乎勢不可擋。而最. 4. 林妍溱,Yahoo 坦承兩年前遭駭客入侵,至少 5 億用戶帳號被竊,iThome,2016 年 9 月 23 日,可取得自: http://www.ithome.com.tw/news/108625. 5 Andrew L. Shapiro 著,劉靜怡譯,控制權革命,臉譜出版,頁 13,2001 年 5 月。 6 Marc Goodman 著,林俊宏譯,未來的犯罪:當萬物都可駭,我們該如何面對,木馬文化,頁 58-61,2016 年 3 月。 2.
(16) 關鍵的問題即為,此種趨勢對於人類社會的發展而言,究竟是好?是壞?這當中 涉及哪些倫理或法律問題?是否會對健全的公民社會造成危害?而在面對這樣 的風險時,我們是否應該重新思考個人資料保護機制的設計,抑或承擔網路資訊 科技造福人類幸福所伴隨的必要之惡? 當我們討論「巨量資料」(big data)時,我們在討論的是什麼?筆者曾經在 一個場合遇見許多年未見的舊識,雖筆者與其並非相當熟識的朋友,但基於禮貌 於當下交換電話號碼之後,稍晚瀏覽 Facebook 頁面時,卻發現 Facebook 主動推 薦我加入該名舊識為好友,當下的感受相當奇異,ㄧ方面發覺我們是如此的處於. 政 治 大 異 Facebook 竟如此深入掌握我的生活細節。 立. 線上(on line)線下(off line)邊界漸趨模糊、毫無間隙的數位社會;ㄧ方面訝. 在巨量資料應用的數位環境中,我們所使用的數位技術物,已不單純僅是日. ‧ 國. 學. 常生活的輔助工具,而是積極介入、給予指示、引導行為,甚至定義我們的身分、. ‧. 指引、調控我們行為的全知之眼,這就是巨量資料的能力。綜觀其應用,對於企. y. Nat. 業而言,改變其商業模式、增進決策效率,精準的判定使用者行為模式,以隨時. er. io. sit. 調整及改善其服務,達成企業的利潤最大化;對於政府而言,可以大幅提升公共 治理效率,促進福利與安全等公共利益。然而,巨量資料除具有提升商業利益以. al. n. v i n 及公共利益的效益,也伴隨著極大的隱憂,也就是對人們造成的隱私侵害風險, Ch engchi U 並且多數人甚至無從知曉或察覺,抑或無從理解處於巨量資料的監控下可能會產. 生的具體傷害為何。在萬物聯網的數位社會中,所有人的日常生活隨時都在生產 各種「後設資料」 (metadata)7,這些大量的後設資料,在數位時代以前可能沒有 任何意義,然而在巨量資料技術的應用之下,我們於線下(off line)生活所產生 的資料,都有可能經由蒐集後成為線上(on line)資料集的一部分,進而輕易的 辨識我們的身分、喜好、人脈網絡、政治傾向、性生活、性傾向等細節。. 7. 後設資料(metadata) ,指有關資訊物件之結構的資訊(structured in formation about an information object) ,簡言之,就是有關資訊本身的資訊,亦即不包含實際內容的資訊。例如: 通話時發話的位置、對象、通話時間,但不涉及通話內容。美國 NSA 前僱員 Edward Snowden 當初所揭發美國 NSA 的稜鏡計畫內容,便是透過監控設備大量取得被監控對象的後設資料。 3.
(17) 然而,除非完全斷絕與社會的正常往來,否則我們近乎無法選擇地必須使用 網際網路與各種數位科技以維持日常生活的基本運作,在這樣近乎全面的數位監 控(digital surveillance)之下,我們該如何保障隱私權?或者,我們是否還需要 隱私權的保障?隱私權究竟保障什麼?除了部分特別在意隱私的個人以外,缺乏 制度性的隱私權保障,是否會對社會的整體發展造成危害?而在巨量資料「全知 之眼」的觀看下,我們如何失去隱私?在這樣的脈絡基礎下,世界各國現行的個 人資料保護與隱私規範的侷限是什麼?我們又應該如何重塑可行的個人資料保 護機制?在台灣的脈絡之下,隱私權作為一種憲法保障的基本權,面臨巨量資料. 政 治 大 本文的主張是,數位環境中的巨量資料應用,特別基於其監控本質,將會對 立. 技術的隱私威脅,應該如何具體的落實在個人資料保護法制的設計之下?. 於個人造成全面的思想介入,影響個人日常生活實踐的能動性,削弱個人主體性. ‧ 國. 學. 的發展空間,進而影響自我決定、創新、人際交往互動等實踐,損及公民社會的. ‧. 發展,造成社會的負面外部性。這是一種新型態的隱私侵害風險。而現行的個人. y. Nat. 資料保護機制與巨量資料技術存在本質性的對立,並無法有效保障個人隱私。因. er. io. sit. 此,本文認為,應重新檢視個人資料保護機制的政策思維,同時,針對巨量資料 的特性,提供法律規範以外的解決方案。並在此前提之上,對於我國的個人資料. n. al. Ch. 保護機制,提供若干的具體建議。. 第二節 研究範圍與方法. engchi. i n U. v. 本文所設定的研究對象為「巨量資料」與「隱私權」,欲討論並試圖處理的 核心問題為:巨量資料監控下的知識生產與治理模式,可能對於個人造成新型 態的隱私侵害,進而傷害公民社會的整體發展,在這樣的風險下應該重新思考 現行的個人資料保護機制。具焦於此核心問題,本文第二章首先將介紹「巨量 資料」的字源、定義、產業現況、各國政策、商業與公共治理應用;第三章則 會回顧「隱私」的歷史演變,以及(資訊)「隱私權」的起源、發展、概念形 塑,並且特別爬梳隱私權的社會價值,探討隱私權除為個人利益以外,亦為重 4.
(18) 要的社會利益,因為隱私權透過保障個人的主體性發展空間,可促成公民社會 整體福祉的累積,在面對巨量資料的隱私侵害威脅時,可作為立法政策的理論 資源;第四章為本文的重點章節,筆者將試圖辨識巨量資料監控的性質,將其 區分為「政府監控」與「商業監控」,並主張其各自代表不同的知識生產與權力 治理模式,進而產生不同的隱私威脅。而筆者主張,在商業監控的脈絡之下, 將會對於個人或群體造成更嚴重的隱私侵害風險;第五章回到個人資料保護機 制的思考,首先將論證在巨量資料的應用下,目前各國普遍採用的個人資料保 護或隱私規範面臨如何的困境,接著討論三種可能的因應策略,最後則將視角. 政 治 大 個資法未來修正時若干具體建議。至於本文所採取的研究方法則如下: 立. 拉回我國個人資料保護法,參考歐盟一般資料保護規則的相關立法,提供我國. ‧ 國. 學. 第一項 文獻研究. 第一款 古典文獻研究. ‧. 雖遲至 19 世紀末期,才由 Warren 及 Brandeis 首次於法律文本中提出「隱私. y. Nat. sit. 權」 (the right to privacy)的概念,8但「隱私」的需求在歷史上的發展源遠流長,. al. n. 9. er. io. 而其歷史演變在漢語世界與英語世界的發展脈絡不同,就「字源學」的視角而言,. i n U. v. 「隱」與「私」各有其差異內涵,甚至在過往並非僅有「隱私」二字可表達「隱. Ch. engchi. 私」的內涵,另有其他字詞可指涉隱私概念,但其範圍又不盡相同。而英語世界 的隱私一詞首次出現於中世紀末期,後來也多次出現在許多非法律的文本中,從 不同時期出版的字典也可看出其字源與內涵的流變。故本文將透過各種不同類型 的古典文獻,試圖回溯「隱私」一詞或其指涉的概念於歷史上的演變。. 第二款 專書、論文、期刊、政府文件. 8. See Samuel D. Warren & Louis D. Brandeis, The Right to Privacy, 4 HARVARD LAW REVIEW, 193-220 (1890). available at http://www.jstor.org/stable/1321160?seq=1. 9 字源學(Etymology) :為研究字的起源、歷史及其意義以及演化同時研究字形和意義,以至 讀音、語法和文法的研究方法。可參閱「國家教育研究院雙語詞彙、學術名詞暨辭書資訊網」 對於字源學的解釋,可取得自:http://terms.naer.edu.tw/detail/1304758/?index=3 5.
(19) 由於本文將涉及巨量資料與演算法技術的發展歷程、技術定義、商業與公共 應用,以及隱私權概念的法學、社會學、哲學和文化理論探討,因此將全面回顧 此二領域的學術文獻資料及有關的政府文件。. 第三款 網路文本 網際網路的其中一個特色在於其「去中心化」(decentralized)、10多點化與共 同參與互動的精神,其破除傳統知識建構的專家制度與知識傳播的門檻限制,與 其即時性(real-time)的本質,更能快速地推動知識的更新。11由於網路資訊科技 的本質與其發展速度,因此傳統學術文獻不一定能作為唯一權威的知識來源。因. 政 治 大 關的網路文本作為本文開展的理論資源。 立. 此,本文除參考學術文獻以外,在盡可能確認資訊正確的情形之下,亦會引用相. ‧ 國. 學. 第二項 比較法研究. 本文將比較不同區域法制下,各國在面臨巨量資料應用時,如何修正其個人. ‧. 資料保護規範,或發展出新型態的資料保護機制,特別聚焦於歐盟於 2016 年訂. y. Nat. sit. 定的一般資料保護規則(general data protection regulation, GDPR)。12並且參照國. n. al. er. io. 際組織相關的個人資料保護原則。最終將視角拉回我國個人資料保護法,提供未 來修法可參考之若干建議。. 第三節 研究架構. Ch. engchi. i n U. v. 本文論證之展開架構如下: (1) 巨量資料技術的定義什麼?巨量資料與其他網路資訊科技是否有本質上的 差異?巨量資料的知識論與方法論是什麼?. 10. 劉靜怡,資訊社會的規範困境:台灣網際網路法律發展的歷史考察,第四屆資訊科技與社會 轉型研討會,頁 185,2001 年 12 月 27 日。 11 龔俊哲,維基百科知識建構的正當化過程,南華大學社會學研究所碩士論文,頁 11-12, 2010 年 6 月。 12 歐盟一般資料保護規則(General Data Protection Regulation, GDPR) ,於 2016 年 4 月 27 日正 式修正通過,並於同年 5 月 4 日正式出版於歐盟官方議事錄(official Journal) ,預計於 2018 年 5 月 24 日施行,可取得自歐盟官方網站:http://eur-lex.europa.eu/eli/reg/2016/679/oj。 6.
(20) (2) 在數位時代之下,隱私是否仍然重要?為何我們仍須重視隱私權的保障?隱 私的核心價值是什麼?除了保障個人利益以外,隱私對於社會的意義是什麼? 隱私權是否有社會價值?內涵是什麼? (3) 巨量資料監控目的為何?「政府監控」與「商業監控」的差異是什麼?巨量 資料監控對於人的數位日常生活實踐造成什麼影響?對於社會造成什麼影 響?造成什麼樣的隱私權侵害風險?與其他網路資訊科技造成的隱私權侵 害風險有何差異? (4) 現行個人資料保護機制面對巨量資料挑戰的困境為何?在法律規範的路徑. 政 治 大 積極履行資訊的企業社會責任?我國個人資料保護機制應該如何修正? 立. 以外,是否有其他解決方案?如何建構巨量資料的應用倫理?如何促成企業. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 7. i n U. v.
(21) 第二章 巨量資料的定義、發展與應用模式 第一節 何謂巨量資料 巨量資料一詞,於 2012 始開始正式進入公眾視野,13今日,巨量資料(或稱 大數據)一詞無論在政府機關、商業組織、抑或學術機構已成為顯學,亦有許多 成功的商業、學術研究及公共治理的應用,我國之政府部門亦於國家發展政策中 將巨量資料的應用列為提升政府公共行政的重點方向,然而,巨量資料究竟是什 麼?巨量資料有多龐大(big)?而資料(data)又是什麼資料?什麼又不是資料? 非數位化的資料如何成為巨量資料的資料?巨量資料的核心技術為何?誰在利. 政 治 大. 用巨量資料?巨量資料的應用對於商業、學術、公共治理分別造成什麼影響?而. 立. 巨量資料會造成什麼樣的隱私風險?巨量資料的蒐集規模、後續的分析與應用,. ‧ 國. 學. 以及其所驅動的決策行為,與其他網路資訊科技存在根本性的差異,所可能造成 的隱私風險也不相同。因此,有必要先釐清巨量資料的定義及其發展現況。. ‧. 第一項 巨量資料之字源與發展. y. Nat. er. io. sit. 牛津字典(Oxford English Dictionary, OED)2013 時首次增加 Big Data 一詞 至字典庫中,其對於巨量資料所下的定義為:「非常大規模的運算資料,其資料. al. n. v i n 規模一般來說在管理以及運作層面呈現顯著的邏輯上的挑戰」 。然而,就字源 Ch engchi U 14. 學的意義而言,巨量資料(Big Data)一詞的起源為何?在什麼樣的情境之下論 及巨量資料?其意義與現今對於巨量資料的理解有何差異?何時出現如今普遍 定義的巨量資料?是否有明確定義的巨量資料意義範圍? 根據 OED 的記載,最早使用 big data 一詞的學術文獻是 Charles Tilly 於 1980 年於密西根大學(University of Michigan)的社會組織研究中心(Center for. 13. Steve Lohr, How Big Data Became So Big, THE NEW YORK TIMES, available at: http://www.nytimes.com/2012/08/12/business/how-big-data-became-so-big-unboxed.html. 14 ”Computing(also with capital initials) data of a very large size, typically to the extent that its manipulation and management present significant logistical challenges; (also) the branch of computing involving such data”. 請參閱牛津英文字典(Oxford English Dictionary, OED)有關「big data」的 定義及引註文獻,可取得自:http://www.oed.com/. 8.
(22) Research on Social Organization, CRSO),發表的研究論文「The Old New Social History And The New Old Social History」。15Tilly 文中提及 Big Data 的段落如下: ......Stone 提出異議,認為歷史資料太不可靠,以致於其研究上的協助因 表象上一致的規則應用而不可信賴、編碼缺漏關鍵細節、數學結果對於歷史學者 所尋求的而言並不完全、儲存於電腦磁片的證據阻礙其他歷史學者對於結論的檢 證、調查員因對於統計結果的追求而喪失他們的機智、莊嚴與對於比例的辨別, 而沒有任何重要問題真正的向擁有巨量資料(big-data)的人們的恫嚇而產出, 「一般而言,這種方法論的複雜度使它超出資料的可靠性,結果的有效性似乎在. 政 治 大 Tilly 是一名社會學者,而上述脈絡所論及的主題為對於「計量歷史」作為一 立. 某種程度與方法論的數學複雜性及資料蒐集的龐大規模呈現負相關」……16. 種方法論的回顧與批評,有論者認為,該段描述所涉及 big data 的文字與現今的. ‧ 國. 學. 使用意義並不相同,作者對於 big data 一詞的使用,毋寧只是對於「重要問題」. ‧. (big questions)一詞所賣弄的華麗對比句型而已,若將 big 一字去除,也不影響. y. Nat. 其脈絡。17不過,儘管 Tilly 筆下的「big-data」一詞並無特殊意義,但其文章所引. er. io. sit. 述有關 Lawrence Stone 對於歷史學量化研究方法論批評的描述,主張聚焦於計量 歷史的學者可能因過於採信量化統計資料的結果而產生偏見,且基於量化統計方. al. n. v i n 法論上的數學複雜性,導致於歷史學者對尋求與檢證事實的阻礙,Stone 的批評 Ch engchi U 確實與現今對於巨量資料或資料科學的應用的批評有相當的關聯。. 1989 年,Erik Larson 在其為「Harper」雜誌所撰寫的文章中描述: ……巨量資料擁有者聲稱他們所做的對消費者有益,但是資料所使用的方式 已超出原初的目的。18 15. Charles Tilly, The Old New Social History and the New Old Social History, 218 CSRO WORKING PAPER, 1, (1980). available at: https://deepblue.lib.umich.edu/bitstream/handle/2027.42/50992/218.pdf. 16 Id. at 8. 17 Gil Press, The OED, Big Data, and Crowdsourcing, WHAT’S THE BIG DATA?, available at: https://whatsthebigdata.com/2013/08/17/the-oed-big-data-and-crowdsourcing/. 18 “The keepers of big data say they are doing it for the consumer’s benefit. But data have a way of being used for purposes other originally intended”. see Steve Lohr, The Origins of "Big Data": An Etymological Detective Story, BITS BLOG, available at : 9.
(23) 此應為首次使用 Big Data 一詞的「非學術性」文獻,這段文字是 Larson 針 對其電子信箱的垃圾郵件與「直效行銷」(direct marketing)的現象所作的推測, Larson 預示了巨量資料持有者對於消費者資料進行追蹤並預測等「目的外利用」 的資料處理及分析,以獲取其商業利潤的現象。然而,除此之外,Larson 沒有繼 續闡述此類「big data」的其他性質,也無描述其應用的科技。 資訊化的時代,知識與概念的起源與散播,已不再僅限於傳統的學術機構或 媒體,特別是有關網際網路或新興科技的知識渠道,虛擬及實體的知識社群 (knowledge community)扮演相當關鍵的角色,而巨量資料一詞真正具電腦運算. 政 治 大 查, John R. Mashey 於 1990 年代任職於電腦影像製作公司「Silicon Graphics」 立. 脈絡下的科技意義字源,即有可能是出現於如此的知識社群。據 Steve Lohr 的調 19. 時,在 USENIX 會議中發表簡報「Big Data and the Next Wave of InfraStress Problems,. ‧ 國. 學. Solutions, Opportunities」 ,20該篇簡報探討資料儲存速度、需求及電腦基礎設施如. ‧. 何因應,Mashey 在第一頁即以「storage growing bigger faster」定義 big data,並. y. Nat. 論及隨著網路的發展,使用者對於資料的需求增加,除影像、圖片、模型以外, 21. er. io. sit. 亦希望在網路瀏覽當時尚屬較困難的資料形式:聲音、影片。 然而,當時的電 腦基礎設施環境的建置未臻完善,以致於資料的儲存與處理面臨技術上的侷限。. al. n. v i n Mashey 主要著重於如何提升電腦儲存容量及運作效率,以滿足使用者對於運用 Ch engchi U 資料的需求,22Mashey 提及基礎設施的限制,導致當時對於資料的運用產生以下. 四種限制:ㄧ、無法找尋以及理解資料;二、無法由外部產生資料;三、基於系 統的限制無法持有及存取資料;四、錯誤的資料形式。Mashey 認為,若能解決 這四種限制,則有以下四種的對應益處:首先,對於資料作出有意義的洞見、再 者,能由概念產生內容、第三,增強儲存及處理資料的能力、最後,解除資料利 https://bits.blogs.nytimes.com/2013/02/01/the-origins-of-big-data-an-etymological-detective-story/. 19 Lohr, supra note 13. 20 John Mashey, Big Data and the Next Wave of InfraStress Problems, Solutions, Opportunities, USENIX, available at: https://www.usenix.org/conference/1999-usenix-annual-technicalconference/big-data-and-next-wave-infrastress-problems. 21 Id. 22 該簡報題目的「infraStress」為英文單字「infrastructure」與「stress」的組合字。 10.
(24) 用的限制。23 同年,Weiss 與 Indurkhya 在他們的著作「Predictive Data Mining: A Practical Guide」中提及 big data,24該書也是首本提及 Big Data 的「書籍」,25Weiss 與 Indurkhya 對於 big data 在電腦科學實務領域所開啟的概念假設提出實際應用的 理論質疑,他們認為: ……非常大量的資料蒐集……現在是以編碼並集中儲存於資料庫中的方式, 使分析家得以使用有效的方法去做更全面性的檢驗。理論而言,「巨量資料」可 以產生資料探勘應用的更強大效果,但實際上仍有許多困難。26. 政 治 大 Dynamic Factor Models for Macroeconomic Measurement and Forecasting」論文, 立. 而 2000 年,賓州大學經濟學家 Francis X. Diebold,發表名為「”Big Data” 27. 在這篇不足 10 頁的論文中,Diebold 於首段即定義 Big Data 為:. ‧ 國. 學. ……近期的科技紀錄與儲存的突破性與進階發展,促成了潛在的相關並且可. ‧. 取得資料的數量爆炸性成長(有時包含品質的爆炸性成長)。28. y. Nat. Diebold 在論文中描述巨量資料對資料儲存與分析能力的大幅提升,對於總. er. io. sit. 體經濟的實證研究方法,包括研究對象、時間、頻率等的資料蒐集與利用處理, 將有突破性的助益,本篇論文應是首篇對於巨量資料作出明確概念定義的「學術. al. n. v i n 論文」。緊接著於 2001 年,Douglas Data C h Laney 於一篇於網路發表的論文「3-D engchi U. Management: Controlling Data Volume, Velocity and Variety」中進一步擴充巨量資 料的概念與內涵,29Laney 在本篇文章中闡述,隨著電子商務(e-commerce)領域 23. Mashey, supra note 20. Wei Fan & Albert Bifet, Mining Big Data: Current Status, and Forecast to the Future, 14 ACM SIGKDD Explorations Newsletter, 1, 1 (2012). 25 Id. 26 See Francis X. Diebold, On The Origin(s) and Development of the Term "Big Data", WORKING PAPER, 1, 3 available at: https://economics.sas.upenn.edu/pier/working-paper/2012/origins-anddevelopment-term-%E2%80%9Cbig-data. 27 Francis X. Diebold, Big Data" Dynamic Factor Models for Macroeconomic Measurement and Forecasting: A Discussion of the Papers by Lucrezia Reichlin and by Mark W. Watson, in ADVANCES IN ECONOMICS AND ECONOMETRICS, EIGHTH WORLD CONGRESS OF THE ECONOMETRIC SOCIETY 115, (M. Dewatripont, L.P. Hansen and S.Turnovsky eds., 2003). available at: https://doi.org/10.1017/CBO9780511610264.005. 28 Id. at 115. 29 Doug Laney, 3-D Data Management: Controlling Data Volume, Velocity and Variety, META 11 24.
(25) 的發展,大量且不同形式資料集的快速累積,造成無法分析與處理的困難。雖然 該文並沒有直接使用 big data 一詞,但是其以三個定義描述該種資料的性質,分 別為數量(volume) 、速度(velocity) 、多樣性(variety) ,30「3v 定義」後來演變 為巨量資料被普遍承認的性質。 2008 年,Chris Anderson 於美國著名的科技媒體「連線」 (Wired)發表「The End of Theory: The Data Deluge Makes the Scientific Method Obsolete」ㄧ文,31這 篇寫著「理論的終結」聳動標題的文章,認為巨量資料將改變知識的認知與科學 的方法論。Anderson 闡述人類社會已進入千兆位元組時代(petabyte age),資料. 政 治 大 如何贏得網路廣告市場為例,他認為,Google 並不需要知道不同國家、文化、年 立 的「量變」不僅代表數量上的改變,還形成「本質」上的差異。Anderson 以 Google. 齡、階級用戶的消費習慣或喜好,不需要進行市場調查、預先設定假設的研究,. ‧ 國. 學. Google 僅須透過經由演算法所蒐集的大量用戶資料,而得出特定用戶在網路上. ‧. 的行為軌跡,再藉由此結果進行廣告的投放。32也就是說,Google 不需要知道用. y. Nat. 戶與特定行為之間的「因果關係」是什麼,Google 僅需要掌握其「事實上的相. er. io. sit. 關」 。也就是說,Google 不需要知道原因,只需要知道結果。Anderson 在文章中 預言,這樣的資料分析工具,將改變的不僅是商業廣告的應用,而是對於科學方. al. n. v i n 法論的翻轉,在 petabyte 的時代以前,科學研究必須經由嚴謹的假設,再透過特 Ch engchi U 定規模的測試以驗證科學家的理論,並且試驗不同的模型進行比較,以確認「因 果關係」 。33然而,在 petabyte 的時代, 「因果關係」不再重要,當資料的規模夠大 時,量變產生質變,透過演算法運作的統計工具,藉由巨量資料的分析,我們便 可以從資料顯示的「相關性」找出「模式」 ,34並且比傳統科學方法論的結果更為. GROUP, (2001), http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volumevelocity-variety-construct-for-big-data/. 30 Id. 31 Chris Anderson, The End of Theory: The Data Deluge Makes the deluge makes the scientific method obsolete, WIRED, https://www.wired.com/2008/06/pb-theory/. 32 Id. 33 Id. 34 Id. 12.
(26) 準確。Anderson 這樣為巨量資料的能力定義並且預測其能力範圍所及: 當我們蒐集的事實與數字不斷增長,我們發現重要問題的機率也隨之增加, 因為在巨量資料的時代下,多不僅是多而已,多,就代表著不同。35 2008 年後,Big Data 正式進入公共視野,伴隨著理論與實務的應用,各學術 領域相關的文獻汗牛充棟。2012 年,紐約時報記者 Steve Lohr 發表專欄報導「The Age of Big Data」,認為人類社會已進入巨量資料的時代。36不過,統計學或資料 科學並不是一門新興的學科,在商業領域,以數據分析驅動的商業智慧(business intelligence, BI)應用早已行之有年,巨量資料與一般的數據分析、統計學又有什. 政 治 大. 麼差異?此即觸及到巨量資料的定義,請參考第二項的討論。. 立. 第二項 巨量資料之定義. ‧ 國. 學. Viktor Mayer-Schönberger 在其極具代表性的著作「大數據」中表示,巨量資 料代表「資料量一定要達到相當規模才能做的事(例如得到新觀點、創造新價值) ,. ‧. 沒有一定規模就無法實現」 。37不過,巨量資料的特色絕不僅在於資料「量」的多. sit. y. Nat. 寡而已。雖然作為正在發展中的一種科技,目前各界並沒有對於巨量資料的一致. al. er. io. 性定義,但是一般而言,仍然有一般性的巨量資料定義概念,最常見的定義即是. v. n. 3v 定義:數量(volume) 、速度(velocity)、多樣性(variety)。如前文所述,此. Ch. engchi. i n U. 定義是由 Doug Laney 於 2001 年時所提出。2012 年,Laney 則再次定義巨量資 料,仍不脫此三個面向,他認為巨量資料為「大量、高速、且/或類型多變的資訊 資產,它需要全新的處理方式,去促成更強的決策能力、洞察力與最佳化處理」 38. 。. 35. Id. Steve Lohr, The Age of Big Data, THE NEW YORK TIMES, http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-world.html. 37 Viktor Mayer-Schönberger & Kenneth Cukier 著,林俊宏譯,大數據: 「數位革命」之後,「資 料革命」登場: 巨量資料掀起生活、工作和思考方式的全面革新,遠見天下文化,頁 14, 2013 年 5 月。 38 Jewel,巨量資料的時代,用「大、快、雜、疑」四字箴言帶你認識大數據,INSIDE 硬塞的 網路趨勢觀察,2015 年 2 月 6 日:https://www.inside.com.tw/2015/02/06/big-data-1-origin-and4vs. 原文為:”Big data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process 13 36.
(27) 而 Inderpal Bhandar 於 2013 年在 Boston 舉辦的「巨量資料創新高峰會」 (Big Data Innovation Summit)另提出真實性(veracity)的概念,他認為「真實性」必 須加入巨量資料分析的考慮因素,39所謂「真實性」即必須過濾並檢測資料來源 的真實與否,以確保巨量資料分析的準確度。因此,數量、速度、多樣性,以及 後來加入的真實性,即為構成巨量資料的「3Vs」或「4Vs」要件,以下便簡要說 明巨量資料的各個要件:. 第一款 容量(volume) 容量(Volume)代表巨量資料的資料規模,然而,究竟要多少資料量足以撐. 政 治 大 kilobyte(KB)等於 1024立 Bytes,1 megabyte(MB)等於 1024 KB,接著依序為 之為「巨量資料」?電腦儲存容量的最小單位為 bit,1 byte 容量等於 8 bits,401. ‧ 國. 學. GB、TB、EB、ZB、YB,請參考表 1: 表 1 電腦儲存容量單位. 說明. Bits. /. 最小資料儲存單位. Byte. 8 Bits. Megabyte. 1024 Byte. Ch. 1024 Kilobyte. engchi. Gigabyte. 1024 Megabyte. Terabyte. 1024 Gigabyte. Petabyte. 1024 Terabyte. Exabyte. 1024 Petabyte. Zettabyte. 1024 Exabyte. sit. y. n. al. er. io. Kilobyte. ‧. 容量. Nat. 單位名稱. i n U. v. optimization.” 39 Kevin Normandeau, Big Data Volume, Variety, Velocity and Veracity, insideBIGDATA, http://insidebigdata.com/2013/09/12/beyond-volume-variety-velocity-issue-big-data-veracity/. 40 關於位元組的概念,請參閱維基百科的介紹: https://zh.wikipedia.org/wiki/%E5%AD%97%E8%8A%82. 14.
(28) 舉例而言,一部數小時電影的數位檔容量約為 1 GB,而 YouTube 用戶每秒 上傳影片總長度即超過一小時;41Google 每日處理的資料容量超過 24 PB,每月 處理超過 600 PB 的資料;42零售百貨 Walmart 每小時儲存超過 2.5 PB 的消費者 交易資料,43IBM 預估,至 2020 年止,全球將有超過 60 億人擁有手機,每日產 生 40 ZB、也就是約 43 兆 GB 的資料,比 2005 年成長約 300 倍,44較 2009 年成 長約 43 倍。45據 IBM 統計,世界上的數位資料,其中 90%是在 2011 年至 2012 年時所產生,46而 25 年前時,人類每天才產生約 100GB 的資料。47也因為如此快. 政 治 大 處理,而具備如此規模的資料,便可稱為巨量資料。至於具體的容量範圍,目前 立 速的資料生產所累積的資料規模,導致現有的資料儲存軟體與資料分析工具無法. 並沒有清楚的界定,但約須介於數十 TB 至數 PB 之間,48因為資料容量若超越數. ‧ 國. 學. 十 TB 以上的規模,則一般的電腦運算及儲存模式即無法處理,需要新的運算與. ‧. 儲存模式。49就此定義而言,雖然許多公司、商業組織或政府部門宣稱他們所處. y. Nat. 理的資料為巨量資料,但事實上能掌握到足夠容量的資料規模,可稱為巨量資料. n. 第二款 速度(velocity) a 41. 50. er. io. sit. 公司(big data companies)的商業組織,至少就我國而言,其實並不在多數。. iv l C n hengchi U. Mayer-Schönberger & Cukier 著,同上註 37,頁 16-17。 同前註。 43 By Bisk, What Is Big Data, VILLANOVA UNIVERSITY, https://www.villanovau.com/resources/bi/what-is-big-data/. 44 The Four Vs of Big Data, IBM, http://www.ibmbigdatahub.com/sites/default/files/infographic_file/4-Vs-of-big-data.jpg. 45 THERESA PAYTON & TED CLAYPOOLE & HON.HOWARD A. SCHMIDT, PRIVACY IN THE AGE OF BIG DATA: RECOGNIZING THREATS, DEFENDING YOUR RIGHTS, AND PROTECTING YOUR FAMILY (2014). 46 Id. 47 Nader Mikhail, Why Big Data Kills Businesses, FORTUNE, http://fortune.com/2017/02/28/whybig-data-kills-businesses/. 48 呂紹玉,看懂 Data 在說什麼,你就是下個有錢人!,商周.com,2013 年 12 月 31 日,可取 得自:http://www.businessweekly.com.tw/article.aspx?id=5782&type=Blog.;陳昇瑋,資料科學往 前看-從大數據到人工智慧,可取得自: http://www.iis.sinica.edu.tw/~swc/talk/data_science_overview.html. 49 曾龍,大數據與巨量資料分析,科學發展月刊,524 期,頁 68,2016 年 8 月。 50 呂紹玉,同上註 48。 15 42.
(29) 傳統的資料分析程序,稱之為批次處理(batch process) ,資料庫接收大量資 料後,再將指定工作程序交由處理器(server)進行分析,並等候結果,當資料接 收的速度慢於批次處理的速度,且分析結果並不具即時性的要求時,這樣的資料 分析程序並沒有問題。51然而,這樣的資料處理方式僅適用於處理不具即時性的 資料,隨著社群網站、行動裝置、感測器、電子交易的普及,越來越多的即時(realtime)資料在流通與傳輸,如 IBM 統計,現代汽車平均擁有將近 100 個感測器, 紐約證券交易所每個交易時段會處理超過 1 TB 的交易資訊,52這種持續產生的即 時資料稱為串流資料(streaming data),即時性串流資料的流通與傳輸接續不斷. 政 治 大 速率則為巨量資料所稱的速度(velocity)。 立. 且高速,超出傳統資料分析工具可以因應的範圍,此種資料集(dataset)產生的 53. 根據美國國家標準技術研究所(National Institute of Standards and Technology,. ‧ 國. 學. NIST)的定義, 「velocity」代表「傳輸中的資料以即時或接近即時的速度處理並. ‧. 分析,且與靜止資料(例如:持久性資料)的處理方式相當不同。傳輸中的資料. y. Nat. 趨近似於事件處理架構,及聚焦在即時或智慧操作運用」 。54某些產業其實已經長. er. io. sit. 期處理高容量(high-volume)及短時段(short-time interval)的資料,如電信業 已處理此類型資料多年,但對於其他產業而言,這是一種新的資料處理方式。55. n. al. Ch 第三款 多樣性(variety) e. ngchi. i n U. v. 資料多樣性(variety) ,即是指資料來源儲存地(repository) 、域別(domain) 、 類型(type)及性質(nature)的多樣性,包含傳統資料庫無法處理的不相容資料 格式(incompatible data formats) 、非連結資料結構(non-aligned data structures) 、 不一致資料語義(inconsistent data semantics)等。56傳統的關聯式資料庫(relational. 51. Diya Soubra, The 3Vs That Define Big Data, DATA SCIENCE CENTRAL, http://www.datasciencecentral.com/forum/topics/the-3vs-that-define-big-data. 52 IBM, supra note 44. 53 Big Data Definitions, NIST BIG DATA PROGRAM, available at: https://bigdatawg.nist.gov/. 54 Id. 55 Id. 56 Laney, supra note 29. 16.
(30) database)多半只能儲存及處理結構化資料(structured data) ,所謂的結構化資料 是指資料在資料庫中的格式、順序、欄位等都已被精確定義和規定。57然而,隨 著 web 2.0 的發展,不論是網路或實體生活、數位或類比來源,現今資料的產生 及來源相當多樣且紛雜,包含社群網站的文字資料、影片、圖片、位置資料、各 式感測器資料等,這些難以儲存在傳統關聯式資料的資料,稱為非結構化資料 (unstructured data),且來源種類與數量不斷的增加。58 具多樣性特徵資料的處理方式,必須經由預先轉換的處理或預先分析以辨別 資料屬性,使其與其他資料融合。自動化的資料融合倚賴語義後設資料(semantic. 政 治 大 的多樣性資料經由上述處理步驟後才放置於資料庫中,成為整合資料(integrated 立 metadata),透過語義後設資料使多樣性資料得以理解並應用。59來自不同資料集. data) 。透過資料類型、邏輯模型、時間範圍、語義等分析跨度所發展的複雜化分. ‧ 國. 學. 析,得以克服資料多樣性。並且,藉由分散式處理(distributed processing)技術,. ‧. 可針對不同類型資料進行個別預先分析,後再接續進行不同分析。60. y. Nat. 總而言之,資料來源的多樣性(variety)挑戰,再結合資料的規模及輸入速. er. io. sit. 度,已超越傳統資料庫的管理及操作能力。因此,得以儲存並處理容量(volume) 、 速度(velocity)、多樣性(variety)三個層面都具規模特徵的資料技術,便可稱. n. al. 之為巨量資料技術。. 第四款 其他定義. Ch. engchi. i n U. v. 誠然,除一般認可的 3V 定義以外,隨著巨量資料技術的演變,目前不論業 界或學界都嘗試在 3V 定義的基礎上發展其他涉及不同層面的定義,61表 2 簡單 整理來自學者整理巨量資料的其他定義,分為特徵、技術、衝擊三個層面:. 57. 邱祐瑋,數據科學入門─讓數據思維成為生活的一部分,可取得自: http://s.itho.me/techtalk/2017/20170116_datascience.pdf. 58 城田真琴著,鐘惠真、梁世英譯,大數據的獲利模式:圖解‧案例‧策略‧實戰,經濟新潮 社,頁 51,2014 年 5 月。 59 Big Data Definitions, supra note 53. 60 Id. 61 Andrea De Mauro & Marco Greco & Michele Grimaldi, What Is Big Data? A Consensual Definition and a Review of Key Research Topics, 1644 AIP CONFERENCE PROCEEDINGS, 97, 102 (2015). 17.
(31) 表 2 巨量資料其他定義 層面. 定義 複雜、非結構化、大量數額的資料。 結合容量、多樣性、速度及真實性以致於在今日的數位市場中替組. 特徵 織創造競爭優勢的機會。 容量、速度、多樣性、價值。 大量的資料集,主要透過容量、速度及/或多樣性等特徵呈現,需 要規模化的結構來有效儲存、運用、及分析。. 政 治 大. 對於大量及/或複雜的資料集的分析與儲存,運用系列技術包含但. 立. 不限於:NoSQL, MapReduce, 機器學習(Machine Learning)。. ‧ 國. 學. 技術. 運用大量運算能量的程序,最新技術包含機器學習及人工智慧,處. ‧. 理極大量且通常非常複雜的資訊集。. 資料集的規模超越典型資料庫軟體工具得以捕捉、儲存、管理、分. y. Nat. io. sit. 析的能力。. n. al. er. 一種在科技、分析、神話之間交互作用的文化、技術、學術現象。. Ch. i n U. v. 因以下三個分析資訊的關鍵轉變,以致於改變我們了解及建構社會 的現象:. engchi. 衝擊 1. 更多的資料 2. 更混亂的(不完全)資料 3. 相關性取代因果關係 資料來源:筆者自製,整理自 De Mauro 等,請參閱註 61。. 在特徵層面上,除 3v 以外,論者亦提出複雜性(complexity) 、價值(value) 等概念,而 NIST 另外將變異性(variability)也列為巨量資料的特徵之一;62關於. 62. Big Data Definitions, supra note 53. 18.
(32) 技術層面,有論者將其定義為典型資料庫無法處理的資料集,而 Microsoft 則強 調機器學習(machine learning) 、人工智慧(artificial intelligence)的應用,63亦有 論者藉由特定資料庫之選用作為判定其是否為巨量資料技術的依據;至於衝擊層 面,boyd 及 Crawford 則以批判的角度將巨量資料視為一種在科技、分析與神話 之間互相交織的文化、技術和學術現象,64而 Mayer-Schönberger 與 Cukier 則從方 法論的角度,定義巨量資料的「相關性」取向取代傳統「因果關係」取向的運作 邏輯。 縱然目前仍無出現巨量資料的權威定義,且作為一個相對新穎的技術,巨量. 政 治 大 的爬梳,本文認為還是得以標誌出以下的核心概念: 立. 資料的定義也可能隨著其發展而持續演變,但是透過其字源脈絡、不同層面定義. (1) 資料具備容量(volume) 、速度(velocity) 、多樣性(variety)的規模特徵。. ‧ 國. 學. (2) 需運用特定資料庫工具與演算法儲存、處理、利用資料。. ‧. (3) 統計相關性作為「知識論」與「方法論」的知識生產模式,形成不同的洞察。. sit. y. Nat. io. al. n. 第一款 產業現況. er. 第三項 巨量資料之發展現況. Ch. engchi. i n U. v. 2012 年,哈佛商業評論(harvard business review, HBR)的一篇文章: 「資料 科學家:21 世紀最性感的職業」 (Data Scientist: The Sexiest Job of the 21st Century) , 描述資料科學家(data scientists)如何應用巨量資料技術及思維,改造 2006 年時 雖已掌握大量用戶資料但始終無法開創新價值的專業社群網路 LinkedIn,65該文 主張,為了因應前所未見的多樣性及容量規模的資料型態,掌握大量且混雜資料 的公司,尤其是以資料驅動(data-driven)為主的公司,亟需資料科學家協助其 63. Mauro & Greco & Grimaldi, supra note 61. danah boyd & Kate Crawford, Critical Questions for Big Data, 15 INFORMATION, COMMUNICATION & SOCIETY, 662, 663 (2012). 65 Thomas H. Davenport & D.J. Patil, Data Scientist: The Sexiest Job of the 21st Century, 90 HARVARD BUSINESS REVIEW, (2012). available at: https://hbr.org/2012/10/data-scientist-thesexiest-job-of-the-21st-century. 19 64.
(33) 應用巨量資料並發現新的洞見與價值。66Yahoo 及 LinkedIn 為市場上率先嗅出此 趨勢並開始大量聘用資料科學家的商業組織,而許多非網路公司亦不落人後,例 如 GE 及 Walmart 針對其公司所蒐集的大量資料聘請資料科學家團隊協助其進行 商業決策。67該文認為,掌握巨量資料技術及思維的資料科學家,會如同華爾街 在 1980 至 1990 年代極度仰賴計量學家(quants)或財務工程師(financial engineer) 的模式般,在未來十年內,成為市場上最為迫切需求的人力資源。68但由於資料 科學並非一門既有的學科,也極少有既存的學術機構、政府部門、商業組織提供 相關的課程或訓練資源,作者強調,優秀資料科學家的技藝,絕不等同於傳統的. 政 治 大 因此,該文呼籲,人才為巨量資料發展的關鍵,產學部門應盡快設 立. 計量分析師、資料管理師,資料科學家通常還具備跨領域的專業,以確保其思維 的靈活性。69. 立相關課程及跨領域專業的結合,培養資料科學家人才。70. ‧ 國. 學. 不過,在資訊科技(information technology, IT)產業領域,每隔數年即會出. ‧. 現一個熱門關鍵詞或流行詞彙,但一段時間之後就會遭人淡忘,並無發揮造成原. y. Nat. 先所預期的衝擊力道。71在巨量資料之前,資料探勘(data mining)及雲端運算. er. io. sit. (cloud computing)都曾是 IT 業界與學術界的熱門關鍵詞。紐約時報「The Age of Big Data」ㄧ文對於巨量資料時代的預測,以及哈佛商業評論將資料科學家. al. n. v i n (data scientists)描述為本世紀最為重要職業的樂觀評估,至本文寫作時間約為 Ch engchi U. 五年左右的差距,就 IT 產業的發展周期而言,是一個可回頭審視巨量資料發展 現況及評估未來發展的適當時機。因此,筆者於本款即欲探究,巨量資料除了在 產業界及眾多文獻中引起一陣騷動以外,其現今的發展現況與未來走向為何? 根據國際數據公司(international data corporation, IDC)的預測,72 2017 年. 66. Id. Id. 68 Id. 69 Id. 70 Id. 71 城田真琴著,同上註 58,頁 48。 72 Big Data and Business Analytics Revenues Forecast to Reach $150.8 Billion This Year, Led by Banking and Manufacturing Investments, According to IDC, IDC, http://www.idc.com/getdoc.jsp?containerId=prUS42371417. 20 67.
(34) 全球巨量資料與商業分析(big data and business analytics, BDA)將創造 1508 億 的總收入,較 2016 年增加 12.4%,商業組織對於巨量資料與商業分析(BDA) 相關硬體、軟體、服務的採購,至 2020 年以前預估將維持每年 11.9%的複合年均 成長率(compound annual growth rate, CAGR),屆時,巨量資料與商業分析產業 年收入將達 2100 億。73IDC 認為,巨量資料經過數年的發展,正要開始進入商業 主流的視野,巨量資料與商業分析(BDA)對於決策支援和自動化決策的能力已 受到商業組織的高層注意。2017 年會對於巨量資料與商業分析解決方案進行大 規模投資的五大產業分別為:. 政 治 大 離散式生產(discrete manufacturing) 立. (1) 銀行(banking) (2). (4) 聯邦/中央政府(federal/central government). ‧. (5) 專業服務(professional services)74. 學. ‧ 國. (3) 流程式生產(process manufacturing). y. Nat. 上述五大產業對於 BDA 解決方案的注資會於 2017 年達成 724 億美元,並. er. io. sit. 且預計於 2020 年到達 1015 億美元,除此以外,健康照護、保險、證券、投資服 務、電信業對於 BDA 投資的複合年均成長率將達 12.8%。75同時,巨型企業(超. al. n. v i n 過 1000 名員工)對於 BDA 的投資將超過總數的 60%,並於 2018 年時達成 1000 Ch engchi U. 億美元的規模,而中小型企業亦將貢獻接近四分之一的 BDA 收入。美國於 2017 年時為 BDA 解決方案的最大市場、次大市場為西歐,前者的投資為 788 億美元, 後者則為 341 億美元,緊接者為亞洲(扣除日本)的 136 億美元。76 麥肯錫(McKinsey&Company)公司的麥肯錫全球研究所(Mckinsey Global Institute, MGI)於 2016 年 12 月亦針對巨量資料發佈一份題為:「The Age of Analytics: Competing in a Data-Driven World」的報告,在該份報告中,MGI 對於. 73 74 75 76. Id. Id. Id. Id. 21.
(35) 巨量資料是否僅是大肆炒作的騙局之質疑給予明確的否定答案。77相對的,MGI 認為巨量資料的應用範圍和機會都已顯著並持續成長,主要原因是來自數位平台、 無線感測器、虛擬實境應用、數以十億計的手機裝置每三年成長兩倍速率的資料 規模。78另外,資料儲存性能增加,同時成本持續降低,都使得資料科學家得以 掌握前所未有的運算能量,而發展出更為細緻的演算法。79 MGI 並觀察到,掌握巨量資料技術的領先集團,其數位平台的網絡效應不僅 使其得以在市場中創造贏者全拿的情況,透過巨量資料的深度運用,這些公司已 可發展出全新的商業模式,並進一步跨足不同的產業,這種由資料規模所創造出. 政 治 大 邊界(traditional sector boundaries)。 舉例而言,如 Google 及 Facebook 兩間掌 立 的商業價值與優勢,使得巨量資料先行者開始擴張其版圖,逐漸模糊傳統部門的 80. 握巨量資料技術的領先公司,在 2017 年將佔美國整體數位廣告產業總收入的. ‧ 國. 學. 60.4%,81並佔全球廣告總收入的 20%,2012 年時,兩間公司的廣告收入還僅占. ‧. 全球廣告總收入的 10.6%,如今已超越傳統媒體成為最重要的廣告媒介商。82. y. Nat. 隨著巨量資料技術專業需求的持續增長,資料科學家一如哈佛商業評論所預. er. io. sit. 期的成為市場最炙手可熱的工作職缺,根據美國著名求職網站 Glassdoor 於 2017 年發布的報告,透過收入潛力、職缺開放數量、工作滿意度等評價因素,評比全. al. n. v i n 名的工作職缺,資料科學家名列第一。 Ch engchi U. 美國排名前 50. 83 而另一全球求職網站. Indeed 對於資料科學家的工作職缺招募數量及求職者搜尋次數所進行的統計,自 2014 年起迄 2017 年為止,除工作職缺招募數量曾於 2016 年短暫下滑以外,都. 77. MCKINSEY GLOBAL INSTITUTE, THE AGE OF ANALYTICS: COMPETING IN A DATADRIVEN WORLD (EXECUTIVE SUMMARY) 1 (2016). available at: http://www.mckinsey.com/business-functions/mckinsey-analytics/our-insights/the-age-of-analyticscompeting-in-a-data-driven-world. 78 Id. 79 Id. 80 Id. at 6. 81 Google、Facebook 佔美數位廣告市場過半,商智謀略,2017 年 3 月 21 日,可取得自: https://www.bqjournal.com/google-facebook-command-51-per-cent-of-digital-display-advertising. 82 李寧怡,Google 和臉書 吸走全球 2 成廣告收入,蘋果日報,2017 年 5 月 2 日,可取得自: http://www.appledaily.com.tw/realtimenews/article/new/20170502/1109603/. 83 50 Best Jobs in America, GLASSDOOR, https://www.glassdoor.com/List/Best-Jobs-in-AmericaLST_KQ0,20.htm. 22.
(36) 持續呈現成長曲線,84有趣的是,截至 2011 年為止,在 Google 搜尋(Google Search) 上幾乎看不到資料科學家的搜尋字眼。85而 2012 年預測資料科學家將成為本世 紀最誘人職業的作者 Thomas Davenport,則是於 2016 年時修正其對於資料科學 家的看法,但 Davenport 並非否定巨量資料的發展走向,反之,他認為按照巨量 資料科技的發展速度,人工智慧將取代資料科學家,成為從巨量資料中挖掘價值 的最佳選擇。86總而言之,從 2012 年以降,巨量資料於市場的發展趨勢並未減 緩,且隨著機器學習(machine learning)、人工智慧(artificial intelligence)的興 起,巨量資料的未來發展更具想像空間。. 立. 第二款 各國政策發展現況. ‧ 國. 學. 1. 美國. 政 治 大. 美國政府於 2012 年時即發佈「巨量資料研究與發展倡議」 (Big Data Research. ‧. and Development Initiative) ,其中涵蓋國防、醫療、教育、能源、交通運輸、國土. y. Nat. sit. 安全、商業、科學、工業等應用領域的 84 個計畫,87該計畫結合美國美國國家科. n. al. er. io. 學基金會(NSF)、國家衛生研究院(NIH)、能源部(DOE)、國防部(DOD)、. i n U. v. 國防先進研究計劃署(DARPA)以及美國地質調查所(USGS)六大部門,並投 注 2. 億美金。882014. Ch. engchi. 年,美國白宮總統辦公室發佈巨量資料白皮書「Big Data:. Seizing Opportunities, Preserving Values」,在為期 90 天的深入調查後,該份白皮 書肯認巨量資料科技對政府、商業、社會的正面影響力,但同時也強調除了社會 利益以外,也必須注意巨量資料應用可能造成社會傷害的風險。另外,白皮書特 84. Data Scientist’ Job Trends, INDEED, http://www.indeed.com/jobtrends/q-%22DataScientist%22.html. 85 Matthew A.Waller & Stanley E. Fawcett, Data Science, Predictive Analytics, and Big Data: A Revolution That Will Transform Supply Chain Design and Management, 34 JOURNAL OF BUSINESS LOGISTICS, 77, 83 (2013). 86 Rich Bellis, Six Very Clear Signs That Your Job Is Due to be Automated, FAST COMPANY, https://www.fastcompany.com/3062739/six-very-clear-signs-that-your-job-is-due-to-be-automated. 87 張進福,大數據革命 匯流大未來,大數據匯流電子報,可取得自: http://innobic.blogspot.com/2014/07/blog-post_8406.html. 88 同前註。 23.
(37) 別提及在巨量資料應用下的以下五個議題仍需要大眾的持續對話,以確保巨量資 料應用能夠最大化利益並最小化傷害:保護隱私價值、教育場域的應用、預防歧 視、加強執法與安全的正當利用、資料作為公共資源。89是 2016 年美國白宮總統 辦 公 室 再 度 發 佈 巨 量資 料 報 告 「 Big Data: A Report on Algorithmic Systems, Opportunity, and Civil Rights」 ,相較於 2014 年白皮書聚焦於巨量資料於變動中的 世界所扮演的角色與機會,2016 年的報告則更加關注巨量資料與演算法應用的 客觀性問題,以及其在信用制度、就業環境、高等教育、刑事司法等四大層面的 影響與挑戰。90. 政 治 大 大西洋彼岸的歐盟則於 立 2012 年開啟「巨量資料公私部門論壇」(Big Data. 2. 歐盟. ‧ 國. 學. Public Private Forum)91。歐盟執委會(European Commission)2014 年發表「邁 向一個繁榮的資料驅動經濟」(Towards a Thriving Data-Driven Economy)一文,. ‧. 將巨量資料列入歐盟 Horizon 發展計畫之一,92並聚焦於促進國家競爭力、解決. sit. y. Nat. 公共議題、發展相關軟硬體技術,強化中小企業資料應用能力,共享政府資料應. al. er. io. 用、開放資料(open data)等方向。2016 年由歐盟議會(European Parliament). v. n. 所出版的一份文件「Big data and data analytics:The potential for innovation and. Ch. engchi. i n U. growth」表示,2016 年至 2020 年止,歐盟將協同公私部門針對巨量資料研究投 入 20 億美元的研究經費。93歐盟最高行政機關歐盟執委會(European Commission) 致力於在歐盟數位單一市場(digital single market)的框架下,藉由資料的自由流. 89. BIG DATA: SEIZING OPPORTUNITIES, PRESERVING VALUES 59 (2014.) See generally BIG DATA: A REPORT ON ALGORITHMIC SYSTEMS, OPPORTUNITY, AND CIVIL RIGHTS, (2016). available at: https://obamawhitehouse.archives.gov/sites/default/files/microsites/ostp/2016_0504_data_discriminatio n.pdf. 91 請參閱該論壇網站:https://www.big-project.eu/. 92 EUROPEAN COMMISSION, TOWARDS A THRIVING DATA-DRIVEN ECONOMY 5 (2014), available at: https://www.kowi.de/de/Portaldata/2/Resources/fp/2014-COM-Big-Data.pdf. 93 EUROPEAN COMMISSION, BIG DATA AND DATA ANALYTICS: THE POTENTIAL FOR INNOVATION AND GROWTH 6 (2016), available at: http://www.europarl.europa.eu/RegData/etudes/BRIE/2016/589801/EPRS_BRI(2016)589801_EN.pd f. 24 90.
(38) 通與交換,期盼能透過巨量資料的加值應用,達成歐盟市場的知識經濟進展、改 進研究並促進創新、解決社會重大問題等目標。. 3. 我國 至於我國的巨量資料政策發展,2014 年時開始推動「開放資料」、「巨量資 料」、「群眾外包」(crowd sourcing)三項政策,結合網路科技以協助政府施政。 94後行政院國家發展委員會於. 2015 年發佈「創意台灣 ide@Taiwan 2020」政策白. 皮書,95其主要政策政策之一即為善用巨量資料分析提升政府施政品質,具體執 行措施則「規劃以資料科學方法分析跨域資料」 ,96隨後於同年由行政院設置「大. 政 治 大 業,選定 7 項分析議題,分別為:企業調薪、毒藥品防制、新住民潛力願景、低 立 數據技術指導小組」,並由經濟部、國發會、科技部配合其辦理巨量資料分析作. ‧ 國. 學. 所得背景、退休人力再利用、大學畢業生薪資。972016 年 4 月,大數據技術指導 小組完成上述初步分析結果後,因其屬臨時任務編組性質,後經行政院資訊通信. ‧. 發展小組第 37 次會議決議增設「資料應用推動指導小組」繼續推動資料應用相. sit. y. Nat. 關業務後,大數據技術指導小組解散。98. al. er. io. 根據官方文件,我國巨量資料之發展政策脈絡首先從 2014 年起啟動「開放. v. n. 資料」政策開始,透過成立開放資料平台(data.gov.tw) ,將政府所持有之資料分. Ch. engchi. i n U. 為「政府開放資料」 、 「政府敏感性資料」 、 「政府機敏性資料」三類,機敏性資料 不對外公開,但政府機關內部可分析應用,而敏感性資料則透過去識別化方式釋 出,其識別化驗證標準為 CNS 29100, CNS 29191,並符合 ISO29101 的控制措施, 而目前財政部已將相關所得稅核定資料導入完成,並經第三方驗證機構驗證,其. 94. 黃彥棻,落實毛式三箭打造施政新藍圖 國發會成為數位政府大腦,iThome,2015 年 8 月 3 日,可取得自:http://www.ithome.com.tw/people/97634. 95 國發會經濟發展處,ide@ Taiwan 2020(創意臺灣)政策白皮書,台灣經濟論衡,第 13 卷 2 期,頁 17-44,2015 年 6 月。 96 劉宗熹,公務機關巨量資料分析應用推動簡介,政府機關資訊通報,第 341 期,頁 5,2016 年 6 月。 97 同前註,頁 3。 98 同前註,頁 1。 25.
(39) 他部會則尚未完成相關作業。99 政府另針對敏感性資料之應用研究,推動政學合作方案。國家發展委員會協 助發掘部會應用主題,盤點各部會欲解決之業務議題,交由科技部徵集學研計畫 解決,學研所需研究經費由科技部支持。100並以學術與研究領域為資料釋出對象, 共計徵集三類議題進行試行研究,包含: 「社會安全」 、 「經濟發展」 、 「環境永續」 , 而下屬的相關主題則如:健康照護、治安維護、矯正教化、毒藥品防制、居住正 義、原住民生活發展、穩定物價、提升薪資、穩健財政收支、賦稅合理、自然環 境保護及災害預警等。101除開放資料政策以外,行政院成立的「大數據技術指導. 政 治 大 務為針對行政院行政院重大施政議題進行巨量資料分析。 立. 小組」即為主要的巨量資料主導單位,其整合科技部、國發會、經濟部,主要任 102. 然此一推動國家巨量資料政策的單位僅為政務編組,自 2016 年 5 月後由新. ‧ 國. 學. 設置之另一任務單位「資料應用推動指導小組」接續大數據技術指導小組的功能。. ‧. 103至於基礎環境建設方面,則推動公務機關符合去識別化相關驗證標準,及由國. y. Nat. 研院高速網路與計算機中心建置「大資料分析平台 Braavos」 :提供巨量資料共用. 學研各界之巨量資料硬體需求。104. n. al. Ch. 第二節 巨量資料的商業應用. engchi. er. io. sit. 設施、雲端服務平臺、分析應用服務,以具技術支援之雲端服務模式,協助產官. i n U. v. Netflix(網飛)是一間提供網路隨選串流影片平台的公司,與傳統 DVD 出 租店不同的地方在於,消費者以月費會員制的訂閱模式,可無限觀賞 Netflix 串 流平台上的影片。而 Netflix 在推出月費訂閱的商業模式以前,是提供實體 DVD. 99. 鐘嘉德、柴惠珍、高崎均、曹元良,我國大數據政策推動現況,國土及公共治理季刊,第 3 卷 4 期,頁 77-79,2015 年 12 月。 100 同前註,頁 80-81。 101 同前註,頁 81。 102 同前註,頁 81-84。 103 劉宗熹,同上註 96,頁 5。 104 鐘嘉德等,同上註 99,頁 84。 26.
(40) 租借的服務,至 2013 年為止,Netflix 共累積 3300 萬名訂閱者,並且提供數十萬 部影片供消費者觀賞,也因此累積大量的消費者的使用數據。1052013 年,Netflix 推出大獲好評的影集 House of Cards(紙牌屋) ,該劇第一季獲得四項艾美獎與金 球獎提名,是第一部獲得艾美獎提名的網路影集。 House of Cards 的成功並非偶然,事實上,該劇的製作過程,即是巨量資料 作為成功的商業應用的典範之一。Netflix 透過其訂閱者的資料進行分析,發現大 部分觀賞英國 BBC 頻道製作的 House of Cards 原作的訂閱者,同時也觀賞了美 國演員 Kevin Spacey 主演的電影以及美國導演 David Fincher 所執導的電影。106因. 政 治 大 作為導演,而 Kevin Spacey 則擔任該劇男主角。這種倚賴巨量資料的數據分析結 立 此,當 Netflix 決定買下 House of Cards 版權並拍攝美國版時,即選擇 David Fincher. 果作為影集導演、演員乃至於故事內容的選擇方法,與好萊塢過去一般的電影、. ‧ 國. 學. 影集製作與選角的邏輯大為不同,然而 Netflix 藉由其大量訂閱者所產生的數據. ‧. 累積而成的巨量資料,從中分析特定觀賞族群的觀賞偏好,而獲得巨大的成功。. y. Nat. 如同前文所提的「相關性」與「因果關係」,Netflix 不需要知道為什麼喜歡. er. io. sit. 看 David Fincher 電影的人也喜歡觀賞 Kevin Spacey 主演的電影,而且這一類觀 影族群還同時熱愛英國 BBC 影集 House of Cards。Netflix 毋須找出這其中的因. al. n. v i n 素,它只需要精準掌握特定觀影族群對於導演、演員、故事風格的喜好。Netflix Ch engchi U. 另外也發現,用戶的「想看電影清單」與用戶「會員合約期間」呈現正相關,雖 然 Netflix 不清楚「想看電影清單」的具體數字為何,但 Netflix 透過數據了解到 若用戶在「想看電影清單」登錄了一定數量的影片,其長期續約的可能性也越高, 因此 Netflix 在用戶加入會員後,便設計出會大力推薦用戶追加影片至「想看電 影清單」的服務,並且反覆測試,監控用戶是否按照 Netflix 的意圖行動。 107. 105. David Carr 著,陶夢縈、陳柳譯,大數據在手,沒人比 Netflix 更了解觀眾,紐約時報中文 網,2013 年 3 月 1 日,https://cn.nytimes.com/business/20130301/c01carr/zh-hant/. 106 Andrew Leonard, How Netflix Is Turning Viewers into Puppets, SALON, http://www.salon.com/2013/02/01/how_netflix_is_turning_viewers_into_puppets/. 107 城田真琴,同上註 58,頁 107。 27.
相關文件
專業研習班,協助機構熟習 新條文及循規措施。歡迎個 人資料保障主任、負責合規
“Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced?. insight and
Know how to implement the data structure using computer programs... What are we
• Recorded video will be available on NTU COOL after the class..
—we cannot teach all, but with reading you can learn all 3-6: 3 hour teaching, 6 hour reading/writing after class as important as writing assignments:. some may show up
Good Data Structure Needs Proper Accessing Algorithms: get, insert. rule of thumb for speed: often-get
Global Logistics and Supply Chain Management, 3rd Edition, John Wiley & Sons. Global Macrotrends and their Impact on Supply
資料探勘 ( Data Mining )