個人資料保護機制的再思考

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

134

第五章個人資料保護機制的再思考

我們正處於網路資訊科技持續以摩爾定律發展的數位環境之下，巨量資料技術的應用，其「量變造成質變」的規模特徵，也造成隱私侵害風險屬性的改變與狀態的變遷，⁶⁰⁵並且隨著智慧演算法、人工智慧、機器學習等科技的精進，更擴大風險範圍與實現的可能性。本文認為，無論在公私部門，以資料驅動的治理模式，都已是不可逆轉的趨勢，然而，我們必須審慎留意巨量資料技術的監控本質所建構的知識生產和權力治理模式，並辨識其對於特定群體或個人的分類、預測、

調控技術，可能會對於公民社會所造成的傷害。

事實上，巨量資料科技作為仍在快速發展的新興科技，在巨量資料應用的主流市場其實都尚未跟進完備的監管制度。有鑒於巨量資料科技對於作為公民社會構成元素的隱私造成威脅，本文在此欲從立法政策的層面，檢視目前普遍採用的個人資料保護機制面對巨量資料挑戰的困境，並參考國際組織發佈之隱私保護相關原則的發展、相關學說、以及歐盟一般資料保護規則，提出若干適用巨量資料科技的個人資料保護機制的原則與具體建議。

第一節現行個人資料保護機制因應巨量資料挑戰的困境第一項個人資料性質的改變

什麼是個人資料？綜觀各國個人資料保護法的相關規定，目前仍多半將個人資料的定義取決於可否「識別」的可能性，「可識別資料」為個人資料，「不可識別」的資料即非個人資料，而所謂的「可識別資料」，如論者指出，可約略區分為三種類型：

(1) 已識別個人資料（identified personal information）

(2) 可直接識別之個人資料（directly identifiable personal information）

605 Richards & Jonathan H. King, supra note 241, at 410.

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

135

(3) 可間接識別之個人資料（indirectly identifiable personal information）⁶⁰⁶ 我國個人資料保護法（下稱個資法）第 2 條對於「個人資料」的定義為：「指自然人之姓名、出生年月日、國民身分證統一編號、護照號碼、特徵、指紋、婚姻、家庭、教育、職業、病歷、醫療、基因、性生活、健康檢查、犯罪前科、聯絡方式、財務情況、社會活動及其他得以直接或間接方式識別該個人之資料。」

607。個資法所定義的個人資料除列舉部份以外，主要分為兩種類型：得以「直接」

或「間接」識別特定個人的資料。但何謂得以「間接識別」的資料？個資法施行細則第 3 條解釋：「指保有該資料之公務或非公務機關僅以該資料不能直接識別，

須與其他資料對照、組合、連結等，始能識別該特定之個人。」⁶⁰⁸。

然而，在現今的數位環境中，若考量巨量資料的技術效能與資料儲存規模，

現行個人資料保護機制對於個人資料的二分法定義，⁶⁰⁹可能失去規範上的意義。

其中有兩個主要的因素：一、巨量資料的蒐集、處理、利用過程可能都不涉及特定的個人可識別資訊（personal identifiable information, PII），但作用結果會造成隱私侵害；二、巨量資料技術得輕易將「去識別化」資料的回溯為可識別資料

（identifiable data）。⁶¹⁰ 也就是說，巨量資料技術可藉由非個人可識別資訊（non-PII）的蒐集、處理、利用產生識別特定個人的效果；並且還可透過其他非個人資料的比對，再識別化（re-identification）資料主體。⁶¹¹

首先，巨量資料技術的多樣性（variety）要素，代表巨量資料可蒐集、儲存、

處理、利用「半結構化」與「非結構化資料」的效能，在行動裝置、感測器、監控攝影機、網際網路無所不在的數位環境中，許多以往無法數位化的事物，現今都可藉由巨量資料技術數位化之後，轉為資料格式儲存，並進行進一步的利用。

606 葉志良，大數據應用下個人資料定義的檢討：以我國法院為例，資訊社會研究，第 31 卷，

頁 12，2016 年 7 月。

607 「個人資料保護法」第 2 條。

608 「個人資料保護法施行細則」第 3 條。

609 葉志良，同上註 606，頁 23。

610 同前註。

611 Ira S. Rubinstein, Big Data: The End of Privacy Or A New Beginning?, 3 INTERNATIONAL DATA PRIVACY LAW, 74, 77 (2013).

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

136

因此，個人資料的性質已有所改變，舉例來說：我們的 Twitter 貼文、在 Facebook 對他人貼文的「讚」、瀏覽網站的時間、⁶¹²拼字錯誤後正確矯正的紀錄、駕車時感測器所紀錄的行車資料、手機 GPS 持續紀錄的移動軌跡等，都能夠即時儲存，

我們身處於一個「後設資料世界」（metadata world）。⁶¹³

隨著網際網路的大面積覆蓋、可連網裝置的無所不在、資訊儲存成本的降低，

形成資料運算、儲存、相互連結能力的大幅提升，使得幾乎我們所作的任何事、

產生各種以往被視為「資料廢氣」和「資料麵包屑」的無意義資料，都可以被自動化的儲存。⁶¹⁴巨量資料可即時處理的資料涵蓋來自無數的網路使用者互動紀錄

（線上）、基礎設施感測器紀錄（線下），如網路交易、搜尋紀錄、健康資訊、通訊網絡、電網、行動裝置、電子郵件、點擊紀錄、瀏覽紀錄、社群媒體互動、道路、橋梁、住家、衣物都可成為巨量資料的蒐集來源，⁶¹⁵而上述許多資料性質不一定被視為是具有個人可識別資訊（PII）的資料。

巨量資料的技術優勢，在於將大量零碎的、無關聯的、不可識別的個人內容資料與後設資料蒐集、儲存，並與其他已識別（identified）資料或不可識別資料

（non-PII）相互連結、比對之後，產生作用於特定個人的預測結果，⁶¹⁶這同時也是產生潛在隱私風險的原因。也就是說，在一系列的資料應用過程中，巨量資料在蒐集（collection）階段或甚至資料於傳輸、交換的過程中時，都可能並無觸及與產生任何個人可識別資料（PII），但是其資料分析結果卻可能得以辨識特定的個人，⁶¹⁷並對其產生正面或負面的影響。

由於「非結構化資料」（unstructured data）改變資料的性質，在巨量資料的脈絡下，所有行為紀錄都可能成為有價值的資料，這構成巨量資料應用的一大特色，

612 Crawford & Schultz, supra note 148, at 106.

613 Richards & Jonathan H. King, supra note 241, at 402.

614 Id.

615 Omer Tene & Jules Polonetsky, Big Data For All: Privacy and User Control in the Age of Analytics, 11 NW. J. TECH. & INTELL. PROP, 239, 240 (2013).

616 Crawford & Schultz, supra note 148, at 106.

617 Id.

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

137

也就是其資料分析的動態性與不可預測性。⁶¹⁸與傳統網路資訊服務業者或其它必須蒐集特定可識別個人資訊以提供服務的應用模式不同，巨量資料在還沒有特定的利用目的之前，便盡可能從內部或外部的管道蒐集並儲存大量的資料。許多資料的來源是已公開的資料，在具體的利用結果發生以前，難以確認特定的資訊或分析「是否」以及「何時」成為或產生個人可識別資料（PII）。⁶¹⁹因此，在資訊儲存與分析科技的持續進展下，可識別個人資料（PII）與不可識別個人資料（non-PII）的邊界逐漸趨於模糊，由於可擷取資料性質的改變，在資料與資料之間即時連結、比對、結合的情形下，可產生揭露其他資料的效果。⁶²⁰

並且，巨量資料知識論的特殊性在於統計相關性，而非因果關係，其預測模型的目的是找出行為模式，將特定人歸屬於特定的群體，並給予不同的處遇，也就是說，商業組織只需要識別「群體」，而不需要識別「特定個人」，這與傳統資訊隱私法（information privacy law）和「公平資訊實踐原則」（FIPPs）以個人可識別資料（PII）作為啟動要件的因果關係原則不同。⁶²¹個人化服務、廣告、內容的預測與調控，並不需要透過個人可識別資料（PII）的蒐集、處理、利用，就得以產生對個人的影響。Paul M. Schwartz 與 Daniel J. Solove 即指出，現今商業組織的個人化「行為行銷」（behavioral marketing）運作機制的過程，可能完全不牽涉到個人可識別資料（PII）的利用，⁶²²商業組織利用 cookies、flash cookies 等技術，不僅可追蹤使用者於其網站的瀏覽紀錄，還可追蹤使用者在整個網際網路的活動，⁶²³這些都不屬於傳統對於個人可識別資料（PII）的範圍之內。並且，重點在於商業組織利用巨量資料進行統計相關性的知識生產，其聚焦於特定群體的分類，因此它的分析結果並不必須要得出可識別「特定」個人的資料，而是利用群體的識別因素，影響個人可觸及的廣告、服務、內容。

618 Id. at 107.

619 Crawford & Schultz, supra note 148, at 107.

620 Paul M. Schwartz & Daniel J. Solove, The PII Problem: Privacy and A New Concept of Personally Identifiable Information, 86 N.Y.U.L.Q. REV, 1814, 1846 (2011).

621 Crawford & Schultz, supra note 148, at 108. Also see id. at 1827.

622 Id. at 1849-1854.

623 Id. at 1851.

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

138

再者，在網路資訊科技的持續精進下，事實上並不存在可完全「去識別化」

的資料。以現今的個人資料保護機制或隱私法（privacy laws）的規定而言，一般來說，資料經由「匿名化」（anonymization）、「加密」（encryption）、「轉換代碼」

（key-coding）的去識別化方式，⁶²⁴去除資料的識別性（identifiers）以後，即可不適用相關的規範。⁶²⁵然而，就如 Paul Ohm 所指出，即便是已明顯經匿名化的資訊，仍然會有足夠的剩餘資料（residual data）可重新連結（re-link）至個人。

626

他以 Netflix 於 2006 所舉辦的資料競賽「Netflix Prize」為例，Netflix 釋出約 1 億筆由近 50 萬用戶的電影評分資料，在每一筆資料中，包含被評分的電影、

評分星級、評分日期，所有資料都經過去識別化處理，只保留特定的使用者識別符（unique user identifier），目的是為了掌握各別使用者的評價紀錄。⁶²⁷Netflix 釋出該筆資料的動機是為了提升自身網站的推薦系統精準度。⁶²⁸然而，競賽者很快就發現，只要掌握匿名使用者對於 6 部排名 500 以外的電影的評分，即有 84%的機率可以重新識別特定的使用者，而若知悉匿名使用者對電影評分的特定日期，

重新識別的效率更高：掌握 2 部電影的評分日期，再識別使用者的機率為 68%；

掌握 6 部電影的評分日期，再識別使用者的機率則高達 99%。⁶²⁹更驚人的是，競賽者挑選 50 名匿名的 Netflix 使用者評分資料與另一個公開使用者電影評價紀錄的電影網站「網路電影資料庫」（Internet Movie Database, IMDb）的資料相互比對，競賽者可再識別其中兩名使用者，並且透過使用者在 IMDb 對特定電影所留下的評語，瞭解其政治、宗教、性別的特定意識形態和立場。⁶³⁰

624 葉志良，同上註 606，頁 24。

625 Paul Ohm, General Principles for Data Use and Analysis, in PRIVACY, BIG DATA, AND THE PUBLIC GOOD: FRAMEWORKS FOR ENGAGEMENT, (Julia Lane & Victoria Stodden & Stefan

在文檔中巨量資料與隱私權─個人資料保護機制的再思考 - 政大學術集成 (頁 147-152)

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第五章 個人資料保護機制的再思考

第一節 現行個人資料保護機制因應巨量資料挑戰的困境 第一項 個人資料性質的改變

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

立政治大學

第五章個人資料保護機制的再思考

第一節現行個人資料保護機制因應巨量資料挑戰的困境第一項個人資料性質的改變

立政治大學

立政治大學

立政治大學

立政治大學