• 沒有找到結果。

論大數據時代資料蒐集之智慧財產法與競爭法爭議—以網路爬蟲技術為中心 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "論大數據時代資料蒐集之智慧財產法與競爭法爭議—以網路爬蟲技術為中心 - 政大學術集成"

Copied!
147
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學商學院 科技管理與智慧財產研究所 碩士學位論文. 論大數據時代資料蒐集之智慧財產法與競爭法 爭議—以網路爬蟲技術為中心 政 治. 大. ‧. ‧ 國. 學. 立 Law and Competition Law Regimes on Intellectual Property Data Collection in the Era of Big Data: Focusing on Web Scraping. n. er. io. sit. y. Nat. al. Ch. e. i. i n U. v. n g c h 博士 指導教授:鄭菀瓊 研究生:徐. 寧 撰. 中華民國 一零七 年 七 月. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(2) 中文摘要 在大數據時代下,資料成為兵家必爭之地,為了擷取、分析、並 利用資料、幫助企業進行更好的商業決策,有效率且自動化擷取資料 的 電 腦 程 式 工 具 —網 路 資 料 爬 梳 ( Web Scraping) 技 術 應 運 而 生 , 成 為企業從外部獲取資料不可或缺的技術之一。 然而,網路資料爬梳經常涉及未經授權擷取公開網站上載有的資 料,另作商業用途,可能因而侵害資料持有者的智慧財產權,或被指. 政 治 大 的合法性與個案情況高度相關,在法律適用尚未釐清的狀態之下,恐 立. 控為「搭便車」,構成破壞競爭秩序等不正競爭行為。資料蒐集行為. 將阻礙網路產業與資料蒐集與分析 為核心的商業模式。. ‧ 國. 學. 本論文聚焦在企業運用網路爬蟲擷取公開網頁資料,在智慧財產. ‧. 權 部 分 以 著 作 權 為 焦 點 , 回 顧 網 路 爬 蟲 涉 及 的 Kelly v. Arriba, Field v.. sit. y. Nat. Google 與 AP v. Meltwater 等 實 務 案 例 , 討 論 著 作 權 保 護 之 現 況 與 侷 限 ;. al. er. io. 在不正競爭防止法部分,藉回顧中國著名網路企業百度、大眾點評、. v. n. 奇 虎 360 等 公 司 間 的 爭 議 , 及 美 國 Yelp 與 Google 爭 議 , 與 我 國 的 近 年. Ch. engchi. i n U. 發生的房仲訴屋比案比較,梳理網路資料爬梳技術相關法律議題的發 展現況,並參考各國法院值得借鏡的處理態度,試圖平衡資訊流通自 由與市場參與者各方之利益,建立大數據環境中網路爬蟲的治理模式。. 關鍵字:大數據、資料擷取、網路爬蟲、不正競爭防止、著作權法. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(3) 英文摘要 In the era of Big Data, an unprecedented scale of digital data is being generated, which leads to an explosion of “publicly available” content on websites. In order to obtain those data from the Web, an automatic and efficient data extraction technology, commonly referred to as “web scraping”, has been created. It has become one of the indispensable technologies to gain access to data sources outside of a firm.. 政 治 大 for commercial purposes. Data scrapers thus face potential legal liabilities for 立. Web scraping, however, often involves unauthorized use of scraped data. copyright infringement or considered in contravention of unfair competition. ‧ 國. 學. law. As the lawfulness associated with web scraping is highly fact sensitive,. ‧. legal uncertainty might hinder innovative data-driven business models.. sit. y. Nat. This paper examines the commercial use of web scraping technologies. al. er. io. which retrieves data from public websites. It examines copyright infringement. v. n. claims in cases such as Kelly v. Arriba, Field v. Google, and AP v. Meltwater.. Ch. engchi. i n U. It then reviews the leading cases in the United States, China, and Taiwan involving famous digital companies such as Google, Yelp, and Baidu . Lastly, the paper explores and provides recommendations on how to govern web scraping to better achieve the balance between free flow of information, and the interests of different market participants.. Keywords:Big Data, Data Extraction, Web Scraping, Unfair Competition, Copyright Infringement. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(4) 目次 第一章. 緒 論 .................................................................................... 1. 第一節. 研 究 動 機 與 研 究 目 的 ................................................................... 1. 第二節. 研 究 方 法 ......................................................................................... 3. 第三節. 研 究 範 圍 與 限 制 ............................................................................ 3. 第四節. 本 文 架 構 ......................................................................................... 5. 網 路 資 料 爬 梳 與 法 律 疑 義 .................................................... 7. 第一節. 爬 蟲 技 術 ......................................................................................... 7. 第一項. 定 義 與 背 景 ............................................................................... 7. 第二項. 爬 蟲 技 術 常 見 利 用 類 型 ....................................................... 14. 第二節. 第一項. 造 成 目 標 網 站 的 伺 服 器 負 荷 .............................................. 19. 學. ‧ 國. 第二項 第三項. 智 慧 財 產 權 之 侵 害 ................................................................ 20. 第四項. 傷 害 商 業 競 爭 秩 序 ................................................................ 21. ‧. 網 路 爬 蟲 相 關 法 律 爭 議 ............................................................ 22 資 料 之 性 質 ............................................................................. 25 網 路 爬 蟲 與 限 制 資 訊 流 通 的 法 律 ..................................... 29. io. 第三項. y. 第二項. 爬 蟲 協 議 ( Robot Exclusion Protocol) ......................... 22. Nat. 第一項. sit. 第三節. al. v i n 網 站經 營涉C 及之 體 與 無 體 財U 產 權 ...................................... 32 h有 en gchi. 網 路 爬 蟲 與 智 慧 財 產 權 ..................................................... 32. n. 第三章. 政 治 大 促 進 資 訊 流 通 與 技 術 創 新 .................................................. 17 立. 網 路 爬 蟲 之 影 響 .......................................................................... 17. er. 第二章. 第一節. 第一項. 有 體 財 產 權 ............................................................................. 32. 第二項. 無 體 財 產 權 ............................................................................. 35. 第二節. 保 護 模 式 一 : 資 料 庫 特 別 權 ................................................... 39. 第一項. 歐 盟 資 料 庫 保 護 指 令 簡 介 .................................................. 41. 第二項. 資 料 庫 保 護 指 令 與 網 路 爬 蟲 .............................................. 43. 第三項. 小 結 ........................................................................................... 46. 第三節. 保 護 模 式 二 : 編 輯 著 作 ............................................................ 47. 第一項. 資 料 庫 可 能 構 成 編 輯 著 作 .................................................. 47. 第二項. 爬 蟲 協 議 不 屬 技 術 保 護 措 施 .............................................. 50. 第四節. 資 料 擷 取 方 之 法 律 抗 辯 ............................................................ 55. 第一項. 合 理 使 用 .................................................................................. 55. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(5) 第二項. 默 示 授 權 .................................................................................. 60. 第三項. 禁 反 言 ...................................................................................... 63. 第五節 第四章. 主 張 著 作 權 的 困 境 ..................................................................... 65. 網 路 爬 蟲 與 不 正 競 爭 ......................................................... 69. 第一節. 智 慧 財 產 權 與 不 正 競 爭 防 止 法 ............................................... 70. 第二節. 百 度 訴 奇 虎 360 案 ( 中 國 ) ................................................... 72. 第一項. 案 件 事 實 .................................................................................. 73. 第二項. 重 要 爭 點 .................................................................................. 74. 第一款. 競 爭 關 係 之 認 定 ............................................................ 75. 第二款. 爬 蟲 協 議 屬 於 公 認 的 商 業 道 德 ................................. 76. 第三款. 不 正 競 爭 的 行 為 認 定 ................................................... 77. 政 治 大 第三節 Yelp 與 Google 爭 議 ( 美 國 ) ................................................ 82 立 第 一 項 案 例 事 實 .................................................................................. 82 案 例 評 析 .................................................................................. 78. 學. ‧ 國. 第三項. 第二項. 重 要 爭 點 .................................................................................. 83. 第三項. 案 例 評 析 .................................................................................. 86 以 FTC 法 處 理 爬 蟲 爭 議 較 少 見 ................................ 86. 第二款. 美 國 法 院 曾 創 設 不 當 取 用 原 則 ................................. 88. y. 他 國 相 似 案 例 : 大 眾 點 評 訴 百 度 案 ........................ 90. sit. Nat. 第三款 第一項. al. er. 經 濟 新 報 訴 全 曜 公 司 案 ( 台 灣 ) .......................................... 92. io. 第四節. ‧. 第一款. 案 例 事 實 .................................................................................. 92. 第二款. 上 訴 人 投 入 努 力 , 擁 有 一 定 經 濟 利 益 .................... 96. 第三款. 高 度 抄 襲 之 判 斷 ............................................................ 97. 第四款. 顯 失 公 平 競 爭 行 為 認 定 ............................................... 98. 第三項 第五節. n. v i n 第 二 項 重 要 爭 點C .................................................................................. 93 hengchi U 第 一 款 競 爭 關 係 之 認 定 ............................................................ 95. 案 例 評 析 .................................................................................. 98. 房 仲 訴 屋 比 案 ( 台 灣 ) .......................................................... 100. 第一項. 案 件 事 實 ................................................................................ 100. 第二項. 重 要 爭 點 ................................................................................ 101. 第一款. 建 立 比 價 平 台 非 屬 不 正 競 爭 行 為 ........................... 101. 第二款. 兩 造 並 無 競 爭 關 係 ...................................................... 102. 第三項. 案 例 評 析 ................................................................................ 103. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(6) 第六節. 競 爭 關 係 認 定 標 準 轉 嚴 ............................................. 104. 第二款. 強 調 言 論 自 由 ............................................................... 106. 第三款. 聚 合 網 站 類 似 搜 尋 引 擎 之 比 喻 ............................... 107. 網 路 爬 蟲 之 管 制 邏 輯 與 建 議 ................................................. 108. 第一項. 不 正 競 爭 法 概 括 條 款 之 比 較 ............................................ 109. 第二項. 網 路 環 境 下 不 正 競 爭 行 為 判 斷 標 準 .............................. 113. 第三項. 網 路 爬 蟲 之 合 法 性 取 決 於 利 用 模 式 .............................. 117. 第一款. 違 反 爬 蟲 協 議 之 法 律 效 果 ........................................ 117. 第二款. 直 接 複 製 、 呈 現 擷 取 資 料 ........................................ 118. 第三款. 擷 取 後 轉 化 利 用 資 料 ................................................. 119. 結 論 與 建 議 ...................................................................... 121. 學 ‧. Nat. y. 第三節. io. sit. 第二節. 政 治 大 對 於 資 料 持 有 者 的 策 略 建 議 ................................................. 127 立 對 於 資 料 擷 取 者 的 策 略 建 議 ................................................. 130 規 範 取 向 的 選 擇 ........................................................................ 121. n. al. er. 第一節. ‧ 國. 第五章. 第一款. Ch. engchi. i n U. v. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(7) 圖次 圖 一 資 料 庫 知 識 發 現 流 程 圖 ………………………………………………8 圖 二 網 路 爬 蟲 簡 易 架 構 …………………………………………………...10 圖 三 京 東 網 站 爬 蟲 協 議 示 意 圖 …………………………………………….24. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(8) 第一章 緒論 第 一節. 研 究動 機與 研究 目的. 大 數 據 正 在 劇 烈 改 變 我 們 的 生 活 , 2014 年 經 濟 合 作 暨 發 展 組 織 ( The Organization for Economic Cooperation and Development, OECD ) 發 布 報 告 指 出 1, 資 料 是 創 新 的 驅 動 力 , 深 刻 影 響 包 含 教 育 、 公 衛 、 醫 療 、 商 業 、 司 法 等 公 私 領 域 , 並 催 生 以 資 料 為 核 心 的 商 業 模 式 ( Datadriven economy) 。 透 過 大 數 據 分 析 所 帶 來 的 新 知 識 , 可 以 顛 覆 各 個 領. 政 治 大 過去,要進行資料 立相 關 性 的 統 計 與 分 析 , 多 必 須 倚 賴 人 工 進 行 收. 域的生態,有機會創造前所未見的新產品與服務。. ‧ 國. 學. 錄,然而,這樣的資料蒐集方式需耗費大量人力成本、整理的資料規 模也有限,又可能因為人為主觀選擇,增加後續分析的母體資料客觀. ‧. 性的疑慮,因此,市場亟需自動化、大量蒐集資料的技術,以利後續. sit. y. Nat. 資 料 分 析 , 創 造 資 料 的 利 用 價 值 。 而 網 路 資 料 爬 梳 ( Web Scraping ). al. er. io. 就 是 網 路 產 業 經 常 使 用 的 一 種 技 術 , 透 過 網 路 爬 蟲. v. n. ( Crawler/Scraper ) 等 自 動 化 程 式 , 其 以 浩 瀚 的 網 際 網 路 作 為 資 料 的. Ch. engchi. i n U. 來源,研究人員、新聞工作者得應用爬蟲技術觀察人類的行為模式、 預測投票傾向等等,企業也能以網路上蒐集之資料為基礎,推出 創新 服務與應用。. 1. See generally, OECD, D ATA - DRI VE N I NNOVATI ON. FOR. G ROWTH. AND. W E LL - BE I NG (2015),. https://read.oecd-ilibrary.org/science-and-technology/data-driven-innovation_978926 4229358-en#page8. 1. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(9) 然而,運用爬蟲技術來取得資料,與許多網路所孕育的新興商業 行為一樣,尚未有完整的法律加以應對,也因為其利用模式不斷推陳 出新,創造新的法律爭議 。 隨著資訊科技與網際網路發展,資料對於網路企業的重要性日漸 提高,網路資料爬梳技術的採用不僅有助於公開資訊的自由流通;擷 取公開網站上的資料加值利用,產出具有商業價值的新資訊,還與過 去逐字抄襲他網站之網頁內容,不啻構成智慧財產權侵害或不正競爭 行為之利用模式,有所不同。在科技發展下,是否可以在未經同意或. 政 治 大 的網頁內容,挪作己用 立? 究 竟 何 種 資 料 利 用 模 式 才 是 爬 蟲 行 為 的 合 理. 授 權 , 自 由 擷 取 公 開 可 獲 得 的 / 公 開 可 存 取 的 ( Publicly Accessible ) 2. ‧ 國. 學. 法律界線、我國的法制又要如何面對資訊時代下資料取用的法律議題 ? 此疑義對資料擷取方,與網站經營者都帶來法律上的不安定性。. ‧. 由此,讓本文好奇,法律如何面對資訊社會與此相關的系列爭議. y. Nat. sit. —現 在 的 界 線 是 什 麼 樣 ( what) 、 未 來 的 界 線 怎 麼 劃 ( how) 、 以 及. n. al. er. io. 為 什 麼 如 此 ( why) ? 為 回 應 以 上 問 題 , 本 文 首 先 將 介 紹 網 路 爬 蟲 擷. i n U. v. 取網頁資料的運作模式與其影響,進而討論以著作權法主張網路資料. Ch. engchi. 爬梳構成侵權行為的管制現況與其界線,而後探討以不正競爭法制規 範網路資料爬梳之案例,以及最後,探討管制的適切性,以供我國立 法與司法解釋實務參考。. 2. Teresa Scassa, Sharing Data in the Platform Economy: A Public Interest Argument for Access to Platform Data, 50(4) UBC L. REV. 1017, Fn. 119 (2017). 該文特別強調 Public Accessible 和 Public Available 的差別。 2. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(10) 第 二節. 研 究方 法. 本文採取之研究方法以案例探討為主、文獻回顧為輔,試圖歸納 出爬蟲行為的合法界線。 在案例探討部分,主要選擇網路產業較為活躍的美國、中國,與 歐盟,探討有關自動化資料擷取程式的案例,觀察主管機關或法院對 此一行為的規範趨勢,兼及論述相關內國法規範,討論規範之共同之 處,並分析判斷標準,歸納法制之優缺點,藉此與我國最新案例發展. 政 治 大 在文獻回顧部分, 立將 研 讀 與 整 理 國 內 外 對 於 網 路 爬 蟲 與 第 三 方 資. 相互比較,以期作為我國立法與司法實務 之借鏡。. ‧ 國. 學. 料蒐集相關之研究報告、期刊論文,釐清第三方資料擷取所涉及的法 律議題、其規範現況與學說爭論,試圖建立一系統性論述,以回答本. ‧. 文提出的核心問題。. er. io. sit. y. Nat. 研 究範 圍與 限制v i l C n he gchi U 大 數 據 相 關 法 律 議 題 包 含 巨n 量資料的取得、儲存、分析,及其所. n. 第 三節 a. 3. 使 用 的 技 術 、 資 料 分 析 結 果 的 利 用 等 4; 本 文 主 要 欲 聚 焦 於 大 數 據 分 析. 3. Big Data 亦有翻譯為「巨量資料」,根據美國國家標準技術研究所(NIST)定義,大數據的 特徵包含聚集龐大資料量(Volume)、即時性(Velocity)、多樣性(Variety)、變化性 (Veracity)的資料。何謂大數據概念下的巨量規模,未有明確定義,可能是指大量到兆位元 組(TB)、千兆位元組(PB)的規模,重點在強調經過大數據的儲存、處理與分析,可以挖 掘出未知的新資訊;See, NIST Big Data Public Working Group, NIST Big Data Interoperability Framework: Volume 1, Definitions, 4 (2015), https://bigdatawg.nist.gov/_uploadf iles/NIST.SP.15001.pdf.. 4. See generally, Daniel L. Rubinfeld & Michal S. Gal, Access Barriers to Big Data, 59 ARIZ. L. REV. 339 (2017). 本文從大數據產業的價值鏈點出各階段的法律議題。 3. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(11) 的 過 程 中 的 第 一 步 —資 料 的 取 得 階 段 , 探 討 第 三 方 透 過 爬 蟲 技 術 擷 取資料,並加以利用時所涉及的法律議題。本文設定之主要研究目標 為網站內容提供者可能提起的法律主張,以及相對地,哪一種網路爬 蟲利用類型較可能獲得違法的評價,藉以勾勒網路資料爬梳的合法性 邊界。 一、 網 路 爬 蟲 擷 取 的 資 料 標 的 為 網 頁 上 的 資 料 , 為 呈 現 雙 方 的 相 對 關 係 , 本 文 將 網 頁 內 容 的 提 供 方 5稱 為 資 料 持 有 者 ( Data Host) 或 是 網 站 經 營 者 ( Website Operator ) ; 而 網 路 資 料 爬 梳 技 術 的. 政 治 大. 採 用 方 , 稱 為 資 料 擷 取 者 ( Data Scraper) 6。. 立. 二、 本 文 將 聚 焦 於 網 站 經 營 者 關 於 著 作 權 法 、 與 不 正 競 爭 防 止 法 的. ‧ 國. 學. 法律主張,以適用法律時之爭議為主軸,輔以不同國家之案例 加以討論。網路爬蟲擷取資料的行為亦可能涉及違反網站所載. ‧. 使用者條款,或類似的線上定型化契約,惟本文不擬討論線上. y. Nat. er. io. sit. 契約有效性等契約法問題。. 三、 本 文 擬 僅 聚 焦 於 民 間 企 業 如 何 利 用 爬 蟲 技 術 這 種 自 動 化 資 料 搜. al. n. v i n 集工具,最大化其競 而來的法律風險。因此, C爭h力 , 以 及 隨 之U engchi 擷取資料的目的如為學術研究等非商業利用,以及資料持有方. 5. 網路內容服務業者(Internet Content Provider/Host Providers)可以包括營業機構或個人,利 用網路服務提供者(ISP)提供之網際網路通路,提供網際網路儲存空間給自己或其使用 者;ICP 之定義與類型請見 Jan Bernd Nordemann, Liability for Copyright Infringements on the Internet: Host Providers (Content Providers) — The German Approach, 2(1) J. INTELL. PROP. INFO. TECH. & ELEC. COM. L. 37 (2011).. 6. 此稱呼係參考 Jeffrey Kenneth Hirschey, Symbiotic Relationships: Pragmatic Acceptance of Data Scraping, 29 BERKELEY TECH. L.J. 897 (2014) 一文的用字。 4. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(12) 對於資料擷取的反制行為,是否有濫用市場優勢地位等競爭法 上疑慮,即非本研究討論的範圍。 四、 網 路 爬 蟲 的 運 用 , 基 本 上 可 分 為 三 個 階 段 , 分 別 是 在 目 標 網 頁 擷 取 資 料 、 存 取 到 自 己 的 資 料 庫 、 以 及 後 續 利 用 7, 在 不 同 的 程 式語言設計下,網路爬蟲可能尚有不同強度與功能,然簡化為 此三步驟已足夠進行法律分析 、討論其主要爭議。 五、 本 文 在 探 討 爬 蟲 行 為 是 否 構 成 智 慧 財 產 權 的 侵 害 與 不 當 競 爭 等 議題上,暫排除對於個人資料的討論,僅探討非個人資料作為. 政 治 大. 本文爬蟲行為擷取標的,特先敘明。. 立. ‧ 國. 學. 第 四節. 本 文架 構. ‧. y. Nat. 本文之研究架構以網路爬蟲擷取資料為中心,共分為五章;第一. er. io. sit. 章為緒論,闡述本文的研究動機、目的,並界定研究範圍,說明研究 所遇限制,並介紹本文論述架構,俾使讀者對本文有一概略了解。. n. al. Ch. engchi. i n U. v. 第二章進入網路資料爬梳之介紹,歸納常見的網路爬蟲商業利用 型態,並於第二章第二節說明其所帶來的商業價值,與利弊影響;又, 對於擷取網頁資料的管制由許多不同法規形塑而成,故於第二章第三 節 點 出 相 關 的 管 制 法 規 —包 含 著 作 權 法 與 不 正 競 爭 防 止 法 。 本文以第三章及第四章分析目前處理網路資料爬梳的法律框架: 第三章主要聚焦於網站經營者主張智慧財產權相關規定保護網頁資料. 7. 將搜尋引擎的網路爬蟲技術拆解步驟分別討論,可見於廖先志、金鍾誠,論搜尋引擎以程式 在網路上自動抓取資料時可能面臨之法律問題及其解決之道,圖書館學與資訊科學,33 卷 1 期,頁 58,2007 年 4 月。 5. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(13) 的可能性,第三章第一節指出探討實體財產權主張的侷限;並特別在 第三章第二節,討論設有「不具原創性」資料庫保護法制的國家對網 路爬蟲的規範情況;而在第三章第四節、第五節討論與網路資料爬梳 技術相關的著作權法律的保護範圍與例外,最後帶出主張著作權法在 保護不具原創性網頁資料的困境。 第四章則以不正競爭防止法規制為中心,第四章第一節至第五節, 以網路爬蟲資料利用的實務案例為出發,探討美國、中國等資料分析 產業蓬勃發展的國家所衍生的案件與法律適用,也回顧我國對於此技. 政 治 大 章第六節比較各國規範 立, 並 提 出 本 文 對 網 路 爬 蟲 相 關 案 例 的 分 類 處 理. 術的規範趨勢;並在個案介紹之後,提出本文之觀察與分析 。在第四. ‧ 國. 學. 的必要,以及判斷標準的建議。. 第五章為本文的結論,統整前述各個章節,並點出網站經營者可. ‧. 以採取的經營策略。. n. er. io. sit. y. Nat. al. Ch. engchi. 6. i n U. v. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(14) 第二章 網路資料爬梳與法律疑義 第 一節. 爬 蟲技 術. 第一項 定義與背景 未 經 處 理 的 原 始 資 料 ( Raw Data) 89本 身 只 是 毫 無 使 用 價 值 的 雜 訊 , 唯有對資料進行分析、計算,找出資料之間的規律或是相關性,才能 將 資 料 ( Data) 能 轉 化 為 資 訊 ( Information) 、 知 識 ( Knowledge) 及 行 動 ( Action) 10; 換 言 之 , 處 理 過 的 資 料 才 有 使 用 上 的 價 值 。 這 種 在. 政 治 大 ;例如,企業蒐集大量消費者在網頁點擊. 大量資料中自動搜尋先前未知的、具有關聯性知識的分析過程,稱為. 立. 資 料 探 勘 ( Data Mining ) 11. ‧ 國. 學. 購買的習慣,分析之後發覺消費的行為模式,藉此得知消費者真實的 喜好,甚至能預測消費者行為,進而用以提升行銷的精準度與廣告成. ‧. 效;這種規模與效用是單憑人工整理與肉眼觀察所難以達到的。如圖. n. al. i n U. v. Data 亦有譯作「數據」,本文為求用詞一貫,除 Big Data 在我國通稱為「大數據」以外,都 使用「資料」一詞翻譯 Data。. 9. er. io. sit. y. Nat. 8. Ch. engchi. 資料(Data)可以廣泛指稱各種可以以數位形式收錄於資料庫的檔案,包含文字、圖像、聲 音、影像、事實、數字、數據等等,詳細討論請見下述第一章第三節第二項;See, Jean-Paul Triaille et al., Study on the legal framework of text and data mining (TDM), 8 (2014), http://ec.europa.eu/internal_market/copyright/docs/studies/1403study2en.pdf.. 10. See, Indranil Bose & Radha K. Mahapatra, Business Data Mining — A Machine Learning Perspective, 39 INFO. & MGMT. 211, 211 (2001); Ali M. Al-Khouri, Data Ownership: Who Owns “My Data”?, 2(1) INT’L J. MGMT. & INFO. TECH., 1 (2012); Chaim Zins, Conceptual approaches for defining data, information, and knowledge, 58(4) J. AM. SOC’Y. FOR INFO.. SCI. & TECH. 479, 485. (2007). 11. Data Mining 又常譯作資料採礦、資料挖掘;將此技術應用到全球資訊網上,又可稱為網路 探勘(Web Mining),亦即針對網站內容、網頁架構、網站使用度等面向進行分析與統計, 得以了解資料潛藏的關聯性,或更了解使用者行為。參見陳惠貞,2017 新趨勢計算機概論, 頁 14-23。 7. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(15) 一 所 示 , 資 料 探 勘 屬 於 資 料 庫 知 識 發 現 ( Knowledge Discover y in Databases, KDD) 中 的 重 要 步 驟 。. 立. 政 治 大. 圖 一 資 料 庫 知 識 發 現 流 程 圖 12. ‧ 國. 學. 圖一顯示的是資料分析與應用的基本架構,簡而言之,進行資料. ‧. 分析前,首先必須有資料來源;接下來選擇所需要的資料之後,需進. y. Nat. 行 資 料 的 前 置 處 理 與 資 料 轉 換 , 是 為 資 料 清 理 ( Data Cleaning ) 的 過. er. io. sit. 程 13 , 包 含 資 料 合 併 、 堆 疊 、 刪 除 不 需 要 的 變 數 , 調 整 資 料 的 單 位 為 一致等等;然後才能進行資料探勘,整理出分析的結果。然而一整張. al. n. v i n 的數據報表含意是難以理C 解的,所以需要經過解釋、與視覺化資料來 hengchi U 呈現隱含的知識與意義。. 在整個資料分析的過程中,第一步驟即是取得欲處理與分析的目 標資料。取得資料的方式可能來自事業內部或是外部:如果事業內部 有許多資料來源,例如電子商務平台從客戶交易與互動中蒐集大量資 料,自然透過資料庫管理,進行大數據分析、加值利用資料就不成問. 12. Usama Fayyad et al., The KDD Process for Extracting Useful Knowledge from Volumes of Data, 39(11) COMM. OF THE ACM 27, 29 (1996).. 13. Id. at 28, 30. 8. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(16) 題;但是對於尚未吸引足夠使用者,又無完整資料庫的 新創事業,如 何從外部取得資料來源即是一個重要的問題。 其 中 , 網 際 網 路 成 為 人 們 獲 取 外 部 資 料 的 重 要 管 道 14 。 網 際 網 路 上 的 公 開 網 頁 15( Public Website ) 含 有 大 量 的 資 料 , 其 涵 蓋 新 聞 、 商 品資料、財金資料、商家評論、活動與交通票券,甚至公告、各種文 書等生活各方面的資料,如果能進一步善加利用、分析,將可以產生 巨大的商業價值、催生新的商業服務。 而欲取得他人經營的網站上的資料,可採用不同種資料採集的方. 政 治 大. 式:其中一種是直接和目標網站內容提供者請求利用,介接該網站經. 立. 營 者 自 行 開 放 的 應 用 程 式 介 面 ( Application Programming Interface,. ‧ 國. 學. API) , 即 可 取 得 便 於 使 用 的 標 準 化 格 式 資 料 16。 提 供 API 是 一 種 網 站 經 營 常 見 的 資 料 使 用 策 略 , 以 Facebook 的 「 開 放 平 台 」 17功 能 為 例 ,. ‧. 讓 用 戶 或 第 三 方 業 者 可 以 介 接 Facebook 的 API, 以 Facebook 的 資 料 為. y. Nat. sit. 基 礎 , 另 行 開 發 應 用 程 式 與 加 值 服 務 , 例 如 , 在 Facebook 網 站 上 提 供. n. al. er. io. 遊戲應用程式、心理測驗,或在第三方經營的網誌上加入按讚、分享. i n U. v. 到 Facebook 頁 面 的 按 鈕 等 , 使 Facebook 可 執 行 的 服 務 更 加 多 元 。 然. 14. Ch. engchi. Pamela Samuelson, Mapping the Digital Public Domain: Threats and Opportunities, 66 L. & CONTEMP. PROBS. 147, 167 (2003).. 15. 根據 The Computer Desktop Encyclopedia 的定義,「公開網頁」是指任何有網路連線與瀏覽器 的人都可以訪問的網際網路位址;相對而言,私人網頁則是指特定人士,或經過註冊的人輸 入密碼始可訪問的網站,例如企業內部的網路(Intranet)架設防火牆與網際網路相隔,參見 THE COMPUTER DESKTOP ENCYCLOPEDIA, http://lookup.computerlanguage.com/host_app/search?ci d=C999999&term=public+website&lookup.x=0&lookup.y=0 (last visited July 3, 2018).. 16. RYAN MITCHELL, WEB SCRAPING. WITH. PYTHON: COLLECTING DATA. FROM THE. MODERN WEB, 49. (2015). 17. FACEBOOK FOR DEVELOPERS, https://developers.facebook.com/policy/?locale=zh_TW (last visited July 3, 2018). 9. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(17) 而 , API 是 資 料 持 有 者 所 設 定 , 各 該 網 站 經 營 者 可 以 控 制 第 三 方 所 能 接 取 的 資 料 內 容 、 種 類 與 數 量 , 所 以 在 目 標 網 站 API 所 提 供 的 資 料 格 式 不 合 使 用 目 的 , 或 根 本 沒 有 開 放 API 等 情 況 下 , 就 無 法 取 得 資 料 。 此時,技術上不待資料持有方同意或事先取得授權,即可進行資 料 採 集 的 一 種 方 法 , 就 是 網 路 資 料 爬 梳 ( Web Scraping) 18。. 立. 政 治 大. ‧. ‧ 國. 學 er. io. sit. y. Nat. al. v. n. 圖二 網路爬蟲簡易架構(筆者自繪). Ch. engchi. i n U. 一般使用者瀏覽網頁的原理,簡單來說,是使用者透過網際網路 連 線 到 網 站 , 向 網 站 的 伺 服 器 發 出 請 求 ( request ) , 伺 服 器 回 傳 ( response ) 並 發 送 給 使 用 者 瀏 覽 器 , 瀏 覽 器 就 依 據 該 網 站 的 原 始 碼 ( 例 如 HTML 檔 案 19) , 呈 現 網 頁 的 圖 案 與 文 字 ; 而 「 網 路 資 料 爬 梳 」. 18. Web Scraping 中文也有譯作網路資料爬梳、網頁資料抓取、網頁擷取、網頁抓取、網頁爬 蟲、網絡爬蟲、網頁挖取等,未有統一的正式翻譯;網路爬蟲的技術,英文也有稱為 screen scraping(螢幕擷取)或 web harvesting(網頁收割)等,參見 supra note 16, at Preface, x.. 19. 超文字檔案標記語言(HyperText Markup Language, HTML),是一種主要用來製作網頁內容 與外觀的標記語言,用來定義網頁與文件的結構,瀏覽器接收到 HTML 文件,就會轉譯為使 用者看得懂的網頁;參見陳惠貞,前揭註 11,頁 8-28。 10. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(18) 技術,如上圖二所示,係透過普遍稱為「網路爬蟲」的網路程式 ( Scraper 或 Crawler) 20, 快 速 且 自 動 化 地 從 網 際 網 路 上 搜 尋 、 篩 選 , 向 目 標 網 站 的 網 址 ( Universal Resource Locator, URL) 的 伺 服 器 溝 通 、 要求資料,在分析後,大量擷取特定資料,儲存於自己的資料庫的技 術 21 。 網 路 爬 蟲 程 式 可 以 設 定 擷 取 資 料 的 來 源 , 可 以 不 設 定 特 定 對 象 , 擷取全網際網路的網頁;也可以設定特定幾個網頁,擷取特定的資料。 換言之,網路爬蟲擷取資料的方式其實就像一般使用者一樣,經 由 對 網 站 請 求 ( request) —回 傳 ( response) 的 過 程 訪 問 網 站 , 只 是. 政 治 大. 利用程式自動化操作。本文整理網路爬蟲技術之特點如下:. 立. 1. 網 路 爬 蟲 之 技 術 門 檻 易 跨 越. ‧ 國. 學. 依 據 Distill Networks 的 2016 年 報 告 22, 網 路 爬 蟲 技 術 技 術 發 展 得. ‧. 越來越成熟、利用範圍與規模也持續擴大,成為普通人也都能輕易下. y. Nat. 載並操作擷取網頁資料的新產品,學習寫作爬蟲程式也在開發者社群. n. al. er. io. sit. 非 常 流 行 23 , 在 網 路 上 不 僅 有 許 多 開 發 好 的 程 式 供 自 由 運 用 , 還 有 許. 20. Ch. engchi. i n U. v. Crawler 與 Scraper 指稱的網路爬蟲功能稍有不同,簡言之,網際網路彷彿是一張互相連結的 大網,搜尋引擎經常使用 Crawler,首先給定一個或是多個起始的網址,Crawler 再透過該網 頁含有的 URL 不斷連結、擴散到其他網頁,尋找各網頁上相關的資料、建立索引;而 Scraper 網路爬蟲是針對特定的網站分析、並擷取網頁的 HTML 原始碼,得以獲取所需要的 資料。. 21. Hirschey, supra note 6, at 904-05.. 22. The 2016 Economics of The Rise of Advanced Persistent Bots Web Scraping Report, DISTILL NETWORKS, 7, https://forum.equinix.com/assets/images/files/distil-networks-2016-economics-of-we b-scraping.pdf (last visited July 3, 2018).. 23. See, Hirschey, supra note 6, at 904. 11. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(19) 多 免 費 教 學 資 源 24, 也 有 第 三 方 公 司 提 供 的 爬 蟲 程 式 產 品 25, 所 以 接 近 利用爬蟲技術的門檻並不高。 2. 效 率 高 運用網路爬蟲,使用者可以自動分析並下載特定的資料。使用者 只 要 設 定 一 網 址 , 對 於 目 標 伺 服 器 要 求 ( Request) 特 定 資 料 , 並 取 得 回 應 ( Response) , 接 著 透 過 不 同 的 程 式 寫 作 技 巧 26, 即 可 篩 選 出 自 己 想要的資料內容,自動下載檔案。功能上,爬蟲程式可以設定機器人 「自動登入」網站,開始擷取資料;或是在使用者必須按「下一頁」. 政 治 大. 類 型 的 網 站 , 網 路 爬 蟲 也 能 做 到 自 動 翻 頁 27 , 節 省 使 用 者 一 一 點 選 網. 立. 頁的時間。另外,可以設定擷取資料的頻率,一次爬取數千個網站資. ‧. ‧ 國. 學 er. io. sit. y. Nat. al. v i n C 橘 , https://buzzorange.com/techorange/2017/08/04/python出 爬 蟲 、 抓 取 網 頁 資 料 , 科 技 報h engchi U scraping/(最後瀏覽日:2018/07/03);大數學堂網站提供 Scrapy 爬蟲、Crawler 爬蟲多個入 n. 24. 搜尋網路爬蟲教學資源,即可尋找到例如:附範例與完整程式碼!手把手帶著你用 Python 做. 門與實戰演練教學影片,http://www.largitdata.com(最後瀏覽日:2018/07/03),甚至出版商 O’Reily 直接將 Ryan Mitchell 所著 Web Scraping with Python, 2nd Edition 免費提供於網站, https://www.safaribooksonline.com/library/view/web-scraping-with/9781491985564/ch01.html (最後瀏覽日:2018/07/03)。 25. 例如 Kimono、import.io 等網站提供網路爬蟲產品,使用者無須自己寫出程式碼,只需要按照 操作指令鍵入,即可開始運用網路爬蟲爬梳資料。. 26. 參見 Engine Bai,Python x 網路爬蟲,http://enginebai.logdown.com/posts/834887/webcrawler (最後瀏覽日:2018/07/03)提到搜尋、正則、字串處理、切分、取代等程式寫作技巧,可 以達到篩選資料的功能。. 27. 詳細翻頁技術操作方式可參考 UncleChen 的博客,python 利用 beautifulsoup+selenium 自動翻 頁抓取網頁內容,http://unclechen.github.io/2016/12/11/python 利用 beautifulsoup+selenium 自 動翻頁抓取網頁內容/(最後瀏覽日:2018/07/03)。 12. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(20) 料 庫 , 並 在 各 個 網 站 資 料 庫 中 篩 選 、 擷 取 想 要 的 特 定 資 料 28 , 可 見 網 路爬蟲蒐集資料的規模與速度,遠遠超過人力所能及。 舉 例 而 言 , Google 搜 尋 引 擎 的 「 GoogleBot」 就 是 一 廣 為 人 知 的 網 路 爬 蟲 29, 之 所 以 Google 能 夠 提 供 好 的 搜 尋 服 務 , 係 建 立 在 GoogleBot 強大的爬蟲程式設計與演算法,使其有辦法「爬」過最多的網頁、篩 選出最具相關性的網頁內容,提供給使用者。 3. 節 省 成 本. 政 治 大 ,並非自己重新產生網站內容,甚至不需要. 運用爬蟲蒐集資料可以大幅降低資料蒐集的成本,例如,常見的 聚 合 網 站 ( Aggregator) 30. 立. 經過目標網頁的同意,技術上仍可以做到直接擷取他人網頁的資料,. ‧ 國. 學. 節省與目標資料網站洽談合作的交易成本,也避免技術整合的困難。. ‧. 綜合以上特點,可得知爬蟲技術的應用有助於提高資料採集的效. sit. y. Nat. 率,使用者可以尋找到更多資料分析所需的原料,在網路上,自動蒐. al. er. io. 集資料的技術已有悠久的運用歷史,資料經濟的浪潮越發蓬勃,由於. v. n. 此工具進入門檻不高、成本較低,且越發精準的資料分析技術是市場. Ch. engchi. i n U. 所需,在可預見的未來,仍會繼續為市場廣泛利用。. 28. MITCHELL, supra note 16, Preface, x.; Sean O'Reilly, Nominative Fair Use and Internet Aggregators: Copyright and Trademark Challenges Posed by Bots, Web Crawlers and Screen-Scraping Technologies, 19 LOY. CONSUMER L. REV. 273, 274 (2007).. 29. Google 網 站 對 於 GoogleBot 的 說 明 , 請 見 https://support.google.com/webmasters/answer /182072?hl=zh-Hant(最後瀏覽日:2018/07/03)。. 30. 詳如下述第二項第二款說明。 13. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(21) 第二項 爬蟲技術常見利用類型 網路爬蟲的用途十分廣泛與興盛,根據統計,網路爬蟲資料擷取 行 為 占 據 了 網 際 網 路 總 流 量 的 46% 31, 而 在 大 數 據 技 術 不 斷 演 進 下 , 可 以想見未來可能出現的網路爬蟲商業模式難以窮盡列舉 ,以下僅整理 目前利用網路爬蟲技術常見的幾種商業模式: 第一款 搜索引擎類爬蟲 人的時間與注意力有限,要求使用者記得數個網址,直接造訪個. 政 治 大 輸 入 的 特 定 詞 彙 ( Query) , 準 確 地 引 導 使 用 者 到 含 有 相 關 資 訊 的 網 站 。 立 別網站尋找想要的資訊並不實際,此時搜尋引擎的功能是依據使用者. ‧ 國. 學. 網 路 爬 蟲 是 搜 尋 引 擎 的 重 要 構 成 部 分 , 主 要 使 用 crawler 爬 蟲 為 架 構。運作上,搜尋引擎使用的這種類型的爬蟲,係從固定的網址. ‧. ( URL) 為 始 點 , 找 出 網 頁 中 所 含 的 超 連 結 ( hyperlink) , 再 不 斷 分. sit. y. Nat. 別沿著各個超連結,繼續剖析下一個網頁,取回資料,不斷遞迴重複. al. er. io. 這 個 過 程 32 。 在 每 連 結 到 一 個 網 頁 時 , 搜 尋 即 儲 存 該 網 頁 內 容 於 自 己. v. n. 的 資 料 庫 , 以 建 立 索 引 ( index ) 因 應 使 用 者 搜 尋 的 需 求 33。 搜 尋 引 擎. Ch. engchi. i n U. 亦可依其功能細分為不同種類,以常見的進行文字搜尋與檢索的搜尋 引 擎 , 搜 尋 引 擎 的 運 作 為 「 取 得 資 訊 —儲 存 —建 立 索 引 」 的 過 程 34。. 31. John Delaney & Aaron Rubin, Morrison & Foerster's Predictions on Intersection of Technology and Law — From Web Scraping to Blockchain, INTELLECTUAL PROPERTY WATCH (Jan. 4, 2018), http://www.ip-watch.org/2018/01/12/morrison-foersters-2018-predictions-intersection-technology-l aw-web-scraping-blockchain/.. 32. MITCHELL, supra note 16, at 31.. 33. Niva Elkin-Koren, Let the Crawlers Crawl: On Virtual Gatekeepers and the Right to Exclude Indexing, 26 U. DAYTON L. REV. 179, 187 Footnote 23 (2001).. 34. 廖先志、金鍾誠,前揭註 7,頁 54。 14. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(22) 第二款 聚合網站類爬蟲 聚 合 網 站 ( Aggregator ) 簡 而 言 之 , 是 整 合 散 見 在 各 網 站 的 內 容 或服務,讓使用者降低一一訪問數個網站的時間成本,可以在單一網 站 上 得 到 所 需 資 訊 35 。 聚 合 網 站 上 所 聚 集 的 資 料 可 能 是 任 何 網 頁 上 的 資料,端視市場的需求而有各種可能,例如新聞報導、金融資料、股 票收盤價格、商品價格等。 常 見 的 新 聞 報 導 聚 合 網 站 如 Google 新 聞 36 、 美 國 赫 芬 頓 郵 報 ( Huffington Post) 37等 , 或 我 國 的 LINE TODAY 38, 通 常 本 身 沒 有 組. 政 治 大. 織建立記者團隊、也不提供第一手採訪取得的內容,而是從不同的來. 立. 源擷取其他傳媒所產生的新聞,以「轉載」的方式呈現新聞在單一網. ‧ 國. 學. 站 上 39 。 透 過 網 路 爬 蟲 技 術 也 可 以 聚 合 金 融 資 訊 , 提 供 帳 戶 整 合 ( Account Aggregation) 的 服 務 40; 例 如 北 美 地 區 的 新 創 公 司 Mint.com. ‧. 理 財 平 台 41 , 讓 使 用 者 只 要 一 次 登 入 , 即 可 以 在 一 個 平 台 上 管 理 自 己. y. Nat. sit. 數 個 金 融 帳 戶 ( financial account) , 查 看 不 同 銀 行 帳 號 的 交 易 紀 錄 與. n. al. er. io. 帳戶餘額等資訊,不僅節省使用者時間,還可以提供進一步的分析與. i n U. v. 管理功能,有利網路銀行業務的發展。另外常見的聚合網站是如. 35. Ch. engchi. See, Kimberley A. Isbell, The Rise of the News Aggregator: Legal Implications and Best Practices, BERKMAN CENTER RESEARCH PUBLICATION No. 2010-10, 2 (2010); Monika Jasiewicz, Copyright Protection in an Opt-Out World: Implied License Doctrine and News Aggregators, 122 YALE L.J., 837, 837 (2012).. 36. Google 新聞,https://news.google.com/?hl=zh-TW&gl=TW&ceid=TW:zh-Hant(最後瀏覽日: 2018/07/03)。. 37. 赫芬頓郵報從未印刷紙本報紙,聘雇編輯群負責錄寫主流媒體新聞,更特別的是大量向各領 域名人、政治人物邀稿,不區分專欄與網誌的界線的經營方式在當時十分創新。. 38. LINE Today 網站,https://today.line.me/tw/pc(最後瀏覽日:2018/07/03)。. 39. Isbell, supra note 35, at 2.. 40. O'Reilly, supra note 28, at 273.. 41. Mint 官方網站,https://www.mint.com/(最後瀏覽日:2018/07/03)。 15. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(23) Trivago 或 是 Kayak 42等 提 供 使 用 者 「 旅 遊 計 劃 工 具 」 的 聚 合 網 站 , 透 過搜尋眾多機票與飯店網站,為旅客提供機票、飯店、租車等相關資 訊,方便旅客找到最便宜的價格組合。 聚合網站類型的爬蟲運作方式與搜尋引擎爬蟲並無太大差異,搜 尋引擎爬蟲擷取資料、儲存至資料庫,最後建立索引目錄以利使用者 查詢;聚合網站亦有相同的擷取資料、儲存至資料庫步驟,僅是後續 並無建立索引,而是將擷取來的資料內容,依據使用者需求整理、呈 現在網站上而已。 第三款 資料分析類爬蟲. 立. 政 治 大. 前兩種網路爬蟲發展比較久遠,皆是擷取資料而後分析、整理,. ‧ 國. 學. 以近乎相同(例如搜尋引擎類),或只是簡化原本網站資料的形式. ‧. (例如聚合網站類),提供服務給自己的網站使用者。然而,近期蓬. y. Nat. 勃發展的商業模式,是擷取資料後用於資料分析目的的網路爬蟲。此. er. io. sit. 類網路爬蟲利用方式與前兩者不同,其擷取目標網站資料之後,並不 建立索引、也不單單是簡化原網站資料呈現於自己網站,而是將擷取. al. n. v i n 來的資料進一步進行資料C 分析,進而提供與原本網站不相關聯的、或 hengchi U 是原本網站並未提供的資訊。. 近幾年,美國矽谷出現了不少以資料探勘為核心業務的新創企業, 這些公司本身並沒有自己內部蒐集或產生的資料,而是依賴諸如 Facebook、 Twitter、 LinkedIn 等 握 有 大 量 資 料 的 網 路 平 臺 , 從 這 些 網. 42. KAYAK 官 方 網 站 , https://www.tw.kayak.com/?ispredir=true Kayak ( 最 後 瀏 覽 日 : 2018/07/03)。 16. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(24) 路平台公司公開網頁擷取資料,進行分析處理後,以資料分析結果營 利。 截 至 目 前 最 新 的 美 國 實 務 案 例 , 2017 年 的 hiQ v. LinkedIn 43案 , 即 屬 此 一 利 用 類 型 。 該 案 原 告 hiQ 公 司 是 以 資 料 探 勘 為 主 要 業 務 的 新 創 企 業 , 其 商 業 模 式 是 以 網 路 爬 蟲 擷 取 LinkedIn 專 業 人 才 社 群 網 站 上 公 開 的 會 員 資 料 44 , 然 擷 取 資 料 的 目 的 並 不 是 用 來 建 立 另 一 競 爭 性 人 力 資源平台,而是透過資料分析技術,由頻繁更新公開檔案內容的行為 預 測 該 員 工 另 覓 新 工 作 的 可 能 , 並 販 售 此 一 分 析 結 果 給 其 雇 主 45。. 政 治 大. 立. 網 路爬 蟲 之 影響. ‧ 國. 學. 第 二節. 在個案利用目的不同之下,網路爬蟲帶來對資料持有者,以及社. ‧. 會大眾各有利弊的影響,以下分述之:. y. Nat. er. io. al. sit. 第一項 促進資訊流通與技術創新. v. n. 資料對於現代資訊社會至關重要,文化與資訊的自由流通有賴大 眾得以近用各種資訊. i n U. C h也 因 此 , 資 訊 流 通 自 由 ( free engchi. 46 ,. flow of. information) 在 現 代 社 會 有 著 勝 於 以 往 的 重 要 性 , 無 論 是 為 了 監 督 政. 43. hiQ Labs, Inc. v. LinkedIn Corp., 273 F.Supp.3d 1099 (N.D. Cal. 2017),該案正在第九巡迴上訴 法院審理中。因為加州北區聯邦地方法院准予 hiQ 禁制令,命 LinkedIn 必須允許網路爬蟲擷 取網頁公開資料,有利於網路爬蟲方的判決結果,使另一聚合網站 3Taps 公司,亦對 LinkedIn 公司提起確認訴訟,主張網路爬蟲擷取公開資料的行為不會違反聯邦電腦詐欺與濫 用法(CFAA),見:3Taps Inc. v. LinkedIn Corp., No. 18-00855 (C.D. Cal. filed Feb. 8, 2018).. 44. hiQ, 273 F.Supp.3d at 1104.. 45. Id.. 46. F.W. Grosheide, Database Protection — The European Way, 8 WASH. U. J.L. & POL’. Y. 39, 41. (2002). 17. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(25) 府政策、民間企業,或為了確保市場的效率運作,都建立在能有意義 地 接 近 並 利 用 資 訊 47 。 以 知 識 經 濟 角 度 來 理 解 政 府 公 開 資 料 ( Open Government Data) , 其 倡 議 不 僅 是 促 使 政 府 施 政 透 明 化 以 及 促 進 公 共 參與;政府開放原始資料,移轉給民間更有效率地加值利用資料, 更 可進一步加速服務與產品的創新應用,有助於促進資訊自由流通,促 進 產 業 發 展 48。 網 路 爬 蟲 技 術 是 有 助 於 資 訊 流 動 的 工 具 49, 例 如 The San Francisco Chronicle 報 紙 的 調 查 報 導 記 者 透 過 網 路 爬 蟲 , 擷 取 Airbnb 上 房 屋 物 件. 政 治 大 有 效 率 地 近 用 資 料 ,立 對於產業界更有重要意義,例如大型零售商. 的 資 料 , 評 估 Airbnb 對 舊 金 山 房 屋 租 賃 市 場 的 影 響 50。 透 過 網 路 爬 蟲. ‧ 國. 學. Amazon、 Walmart , 皆 需 要 透 過 網 路 爬 蟲 擷 取 競 爭 對 手 網 站 上 的 商 品 價 格 資 料 51 , 以 利 於 調 整 自 己 的 定 價 策 略 、 訂 定 最 適 價 格 ; 對 於 網 路. ‧. 產業的新進業者而言,其受限於有限的資源,難以在短時間內自己建. sit. y. Nat. 立規模足夠龐大的資料庫,然而透過技術擷取公開網頁上的大量資料. al. er. io. 加以分析利用,這些新進業者可以填補目前市場尚未提供的需求,有. v. n. 助 於 降 低 新 業 者 進 入 市 場 之 進 入 門 檻 52 。 網 路 爬 蟲 的 利 用 也 可 能 有 助. 47. Ch. engchi. i n U. Elkin-Koren, supra note 33, at 208-09; Jamie Williams, “Scraping” is Just Automated Access, and Everyone Does It, ELECTRONIC FRONTIER FOUNDATION (Apr. 17, 2018), https://www.eff.org/deepli nks/2018/04/scraping-just-automated-access-and-everyone-does-itu.. 48. Scassa, supra note 2, at 1046; 戴豪君、顧振豪,建構資料開放之良善法制環境,國土及公共治 理季刊,3 卷 4 期,頁 18,2015 年 12 月。. 49. Rubinfeld & Gal, supra note 4, at 374.. 50. Williams, supra note 47.. 51. REUTERS, How Amazon's Bot Army is Trouncing Walmart in E-Commerce Wars, FORTUNE (May 10, 2017), http://fortune.com/2017/05/10/amazon-bots/.. 52. Rubinfeld & Gal, supra note 4, at 374. 18. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(26) 於 技 術 創 新 53 , 因 為 網 路 爬 蟲 擷 取 網 頁 資 料 以 後 , 可 以 用 於 資 料 分 析 , 並找出連原本資料持有者也尚未發現、尚未商業化的知識。 綜上所述,如果賦予資料持有者過大的權利限制網路爬蟲擷取、 加 值 利 用 資 料 , 可 能 危 害 資 訊 自 由 流 通 54 , 提 高 新 競 爭 者 進 入 市 場 門 檻,不利技術創新。 第二項 造成目標網站的伺服器負荷 網路爬蟲通常會消耗目標網站的大量流量,造成目標網站伺服器. 政 治 大 的本質,就是近用他人所營運的網站,要求資料,而此技術之所以可 立. 的 負 荷 , 減 慢 網 頁 運 作 的 速 度 55。 以 自 動 化 程 式 —網 路 爬 蟲 擷 取 資 料. 以達到有效率的資料蒐集,來自資料擷取者將瀏覽網站的頻率寫入程. ‧ 國. 學. 式碼中,指定爬蟲程式擷取資料的速度。如果目標網站沒有特別的限. ‧. 制 , 技 術 上 爬 蟲 訪 問 網 站 的 頻 率 可 達 到 難 以 想 像 的 高 速 , 例 如 2010 年. y. Nat. 工 程 師 Pete Warden 在 短 短 數 個 小 時 內 即 爬 取 2 億 個 Facebook 用 戶 頁. er. io. sit. 面 , 擷 取 該 些 用 戶 公 開 的 的 名 稱 、 地 理 位 置 、 交 友 訊 息 、 興 趣 等 等 56 。 當 然 這 樣 明 目 張 膽 的 網 路 爬 蟲 行 為 立 刻 招 致 Facebook 的 警 告 函 , 該 位. al. n. v i n 工 程 師 忌 憚 Facebook 提 起C 訴訟之可能,自行停止了網路爬蟲的行為。 hengchi U. 53. Counsel for Amicus Curiae Scraping Hub, Ltd., Brief for Amicus Curiae Scraping Hub, Ltd. In Support of Affirmance, at 6.. 54. Elkin-Koren, supra note 33, at 207.. 55. Daniel Keamey, Network Effects and the Emerging Doctrine of Cybertrespass, 23(1) YALE L. & POL’Y REV. 313, 317 (2005).. 56. 此事件較詳細討論可見於 Bloomberg Law 文章:Jim Snell & Derek Care, Use of Online Data in the Big Data Era: Legal Issues Raised by the Use of Web Crawling and Scraping Tools For Analytics Purposes, BLOOMBERG BNA (Aug. 28, 2013), https://www.bna.com/legal-issues-raised-by-the-useof-web-crawling-and-scraping-tools-for-analytics-purposes. 19. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(27) 對於資料持有者而言,爬蟲程式既非正常人類使用者,對於網站 的廣告或內容曝光給目標客群並無助益,如又佔用大量流量,自非 資 料持有者所樂見,因此許多程式語言教學皆強調,為了長期擷取資料, 網路爬蟲程式應儘量模擬一般使用者,減緩訪問網站的速度與次數 , 以 防 免 法 律 困 擾 57。 第三項 智慧財產權之侵害 網路爬蟲技術擷取目標網站的資料,視其資料性質是否含有他人 著作或商標等智慧財產權,加以擷取、利用,可能侵害他人的智慧財. 政 治 大. 產 權 5859。 雖 然 顯 示 機 票 價 格 資 料 的 聚 合 網 站 , 只 是 顯 示 一 事 實 或 單 純. 立. 數據資料,資料來源也原本已經公開,因此不涉及著作權或營業秘密. ‧ 國. 學. 之問題;但如果擷取網頁內含著作權保護的標的,例如新聞聚合網站, 擷取的目標資料形式是文字、攝影圖片等,即可能涉及著作權法下重. ‧. 製權及公開傳輸權等問題。如果在自己網頁上呈現含有資料來源網站. y. Nat. sit. 的 Logo、 商 標 , 可 能 使 消 費 誤 解 商 品 來 源 , 或 誤 認 兩 網 站 間 有 合 作 關. n. al. er. io. 係,此時亦有可能構成商標侵權。. Ch. engchi. i n U. v. 57. E.g., MITCHELL, supra note 16, at 178.. 58. 雖然網路爬蟲的確有可能成為侵害營業秘密的一種手段,然而網路爬蟲造成營業秘密的侵 害,是建立在資料擷取方先行侵入資料庫的行為,例如行為人先取得目標網站或資料庫的密 碼、或突破網站所設置的防火牆,進入網站,再以網路爬蟲技術擷取該資料庫內容。本文認 為前述行為與網路爬蟲技術的本身並無直接關係,再者,本文較關注爬蟲技術對於「公開網 頁」上的資料擷取行為,既然該等資料已經公開,任何人連上網路即得以見聞,即已喪失 「秘密性」(我國營業秘密法第 2 條),則不可能該當營業秘密法下的營業秘密要件。. 59. 參照我國專利法第 58 條與 TRIPs 第 28 條第 1 項規定,專利權法所賦予專利權人的排他權, 係指排除他人未經其同意而「實施」該發明之權;而對於專利物的「實施」係指製造、販 賣、要約販賣、使用或為上述目的而進口專利物之行為;然而,網路爬蟲不論有無取得事先 授權,其行為僅是取得資料,即便網路爬蟲擷取的標的是專利說明書的內容,也不足以構成 專利權的「實施」,故專利法與網路爬蟲技術較無關聯。 20. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(28) 又例如搜尋引擎使用的網路爬蟲,其擷取的標的是目標網頁的 HTML 文 件 , 建 立 網 址 超 連 結 的 索 引 , 理 論 上 不 涉 及 著 作 的 利 用 ; 然 而,為了讓搜尋引擎使用者更精確、快速的找到網頁連結,有些搜尋 引 擎 不 只 是 複 製 網 頁 標 記 , 而 是 把 網 頁 以 快 照 方 式 ( 又 稱 快 取 , Cache) 60 儲 存 一 份 副 本 在 自 己 資 料 庫 , 以 利 在 超 鏈 結 失 效 的 狀 況 下 , 仍 能 快. 速 地 從 自 己 資 料 庫 回 應 使 用 者 搜 尋 需 求 61 ; 而 儲 存 包 含 所 有 網 頁 內 容 的 網 頁 快 照 行 為 , 亦 有 可 能 會 構 成 著 作 權 侵 權 62 。 簡 而 言 之 , 網 路 爬 蟲的利用存有潛在的智慧財產侵害問題。 第四項 傷害商業競爭秩序. 立. 政 治 大. 有論者認為,網路爬蟲行為就算不侵害智慧財產權,也有害於市. ‧ 國. 學. 場競爭關係,因為網路爬蟲行為是取用他人付出努力與投資所取得的 資料,可能使得未來資料持有者失去繼續投資的動機。容忍這種商業. ‧. 手段,也暗示著當市場上有新的產品出現,另一事業不需要自己從零. y. Nat. sit. 開始構思新產品,只要能夠擷取他人網站上資料,即可以架設一個類. er. io. 似 的 網 站 , 長 遠 來 看 , 有 害 網 路 產 業 的 競 爭 關 係 63。. al. n. v i n 舉例而言,透過網路C 爬蟲技術擷取資料,代表事業無須自行產生 hengchi U. 原始資料,即可加以利用。如果一家企業將歷史銷售紀錄應用資料分. 析技術探察使用者的消費模式,又依據庫存量、銷售預測、比較競爭. 60. 後續章節將討論網頁快照之法律問題,參第三章第四節、第四章第二節。. 61. 楊智傑,搜尋引擎與合理使用:美國案例與 Google 圖書館計畫,智慧財產月刊,125 期,頁 42,2009 年 5 月。. 62. 關於網頁快照之討論請見第三章第四節第一項,與第四章第二節。. 63. Howard A. Shelanski, Information, Innovation, and Competition Policy for the Internet, 161 U. PA. L. REV. 1663, 1700 (2013). 21. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(29) 商 品 價 格 來 設 定 最 精 準 的 定 價 64 ; 此 時 , 其 他 競 爭 者 可 以 用 網 路 爬 蟲 技術,直接擷取呈現在該企業網站上的商品價格資料,並調整成相對 應的訂價,完全不需要取得該家企業原本加以分析的資料本身,亦可 以 達 到 同 樣 的 精 準 定 價 效 果 65 。 由 此 觀 之 , 如 果 資 料 持 有 者 不 能 實 質 地控制網站的瀏覽者,或不能限制對資料(與形成的資料庫)的訪問 與存取,可能傷害其投資在軟、硬體的資料庫建置的誘因。. 第 三節. 網 路爬 蟲相 關法 律爭 議. 政 治 大 基於以上或有好壞 立的 影 響 , 資 料 持 有 者 努 力 採 取 各 種 技 術 手 段 ,. ‧ 國. 學. 或是以法律主張維護網站不受網路爬蟲的擷取。首先,最常見的技術 手段當屬「爬蟲協議」,然其法律定位仍曖昧不明;而在進入法律適. ‧. er. io. sit. Nat. 第 一 項 爬 蟲 協 議 ( Robot Exclusion Protocol). y. 用之前,需先釐清「資料」本身的權利內涵為何。. 在毫無限制的恣意網路爬蟲行為容易造成伺服器流量阻塞、損及. al. n. v i n 商業利 益的情 況下 ,資料C 持有者開始思考如何可以解決這種問題,通 hengchi U. 64. Jeffrey Dastin, Amazon trounces rivals in battle of the shopping “bots”, REUTERS (May 10, 2017, 01:17 PM), https://www.reuters.com/article/us-amazon-com-bots-insight/amazon-trounces-rivals-inbattle-of-the-shopping-bots-idUSKBN1860FK (last visited July 3, 2018).. 65. Rubinfeld & Gal, supra note 4, at 373-74. 22. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(30) 常 會 在 網 站 載 有 使 用 者 服 務 條 款 ( Terms of service) 66, 以 聲 明 或 契 約 的方式限制網站使用者的爬蟲行為;或在設計網頁時,透過技術文件 限 制 資 訊 擷 取 —通 常 該 項 技 術 文 件 係 指 俗 稱 的 「 爬 蟲 協 議 」 ( Robot Exclusion Protocol) 6768。 爬 蟲 協 議 發 展 的 背 景 , 源 自 於 1993 至 1994 年 已 經 開 始 有 運 用 程 式 自 動 、 大 量 擷 取 網 站 內 容 69, 因 此 網 路 社 群 在 1994 年 6 月 30 日 召 開 當 時 最 有 公 信 力 的 會 議 The Robot Mailing List Conference 70, 討 論 如 何 建 立 一 套 資 料 抓 取 的 原 則 , 以 因 應 方 興 未 艾 的 網 路 爬 蟲 運 作 71。. 立. 學. 例如,Facebook 使用條款第 3 條:「您不會收集用戶的內容或資訊,或以其他方式在未經我. ‧ 國. 66. 政 治 大. 們事先許可下,使用自動化方式登入 Facebook(如網頁收割機器人、機器人、蜘蛛程式或擷 取程式)」以及第 12 條:「除非您在開放源代碼許可授權下或我們給予您明確書面許可的. ‧. 情況下,獲得了以下相關行動的明確許可,否則,您不得修改、建立衍生作品、反彙編或以 其他方式嘗試提取我 們的原始碼」, https://www.facebook.com/terms.php (最後瀏覽日 :. y. Nat. sit. 2018/03/24);又例如 Amazon 的 Conditions of Use 在 LICENSE AND ACCESS 條款載. io. er. 有:”Amazon or its content providers grant you a limited, non-exclusive, non-transferable, nonsublicensable license to access and make personal and non-commercial use of the Amazon Services.. al. n. v i n C any collection and use of any producthlistings, e n gdescriptions, h i Uor prices; any derivative use of any c Amazon Service or its contents; any downloading or copying of account information for the benefit This license does not include any resale or commercial use of any Amazon Service, or its contents;. of another merchant; or any use of data mining, robots, or similar data gathering and extraction tools.”,https://www.amazon.com/gp/help/customer/display.html?nodeId=508088(最後瀏覽日: 2018/03/24)。 67. 直譯為「機器人排除標準」,亦有翻譯為機器人協議。有學者強調為求精準,主張應稱為 「爬蟲訪問控制政策」,惟業界通俗稱呼既為「爬蟲協議」,本文從之。參張金平,有關爬 蟲協議的國外案例評析,電子知識產權,頁 80,2012 年 12 期。. 68. 除了爬蟲協議之外,在設計網頁時也可以使用功能類似的技術文件「meta 標籤」(metatag),與爬蟲協議功能類似,亦是一種指示網路爬蟲抓取或索引網頁內容範圍的程式語言。. 69. MITCHELL, supra note 16, at 223.. 70. The Robot Mailing List Conference 是由一名工程師 Martjn Koster 所發起,現在仍可以取得早 期論壇的討論紀錄,http://www.robotstxt.org/mailinglist.html(最後瀏覽日:2018/07/03)。. 71. 王夢璇,「爬蟲協議」法律問題研究,北京化工大學學位論文,頁 4,2016 年。 23. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(31) 「爬蟲協議」是一種程式語法,在網站的根目錄上建立一個以 Robots.txt 命 名 的 文 檔 , 告 知 資 料 擷 取 方 ( 例 如 搜 尋 引 擎 、 或 其 他 類 型 的 網 路 爬 蟲 ) 哪 幾 個 頁 面 與 特 定 內 容 , 允 許 或 禁 止 被 機 器 人 讀 取 72 , 其呈現之方式例如下圖三。其設置目的有兩點: 1.. 保護網站內容安全、隱私及網路安全,避免網路爬蟲惡意. 擷取敏感資訊。 2.. 避免搜尋引擎等網路爬蟲抓取資料耗費流量過大,而導致. 該 網 站 的 其 他 用 戶 無 法 進 入 , 伺 服 器 癱 瘓 73。. 政 治 大 每個網站的網站使用者條款,可能分別使用不同的字詞稱呼網路 立. 爬蟲行為,相對地,使用爬蟲協議這種程式語言較能夠被網路爬蟲解. ‧ 國. 學. 讀 , 得 以 有 效 地 和 訪 問 網 站 的 網 路 爬 蟲 溝 通 網 站 的 訪 問 政 策 74。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 三 京 東 網 站 爬 蟲 協 議 示 意 圖 75. 72. 寧立志、王德夫,「爬蟲協議」的定性及其競爭法分析,江西社會科學,2016 年 1 期,頁 161,2016 年。. 73. 王夢璇,前揭註 71,頁 4;楊華權,論爬蟲協議對互聯網競爭關係的影響,知識產權,頁 1617,2014 年 1 月。. 74. MITCHELL, supra note 16, at 223.. 75. 京東為中國前三大電子商務平台,京東網站之爬蟲協議,https://www.jd.com/robots.txt(最後 瀏覽日:2018/07/03)。 24. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(32) 在 程 式 碼 中 , 「 User-agent」 指 向 某 請 求 瀏 覽 網 站 的 網 路 爬 蟲 , 再 透 過 「 allow 」 值 和 「 disallow 」 值 , 允 許 或 禁 止 該 特 定 網 路 爬 蟲 可 以 擷 取 的 網 頁 範 圍 ; 而 「 *」 和 「 /」 的 寫 作 方 式 則 是 表 現 「 所 有 的 」 、 或「任何的」。以圖三為例,此為中國電子商務網站京東網站的爬蟲 協 議 檔 案 , 「 User-agent: Etao Spider 」 即 表 示 針 對 一 淘 網 的 爬 蟲 , 「 Disallow: /」 代 表 京 東 網 站 設 定 一 淘 網 為 黑 名 單 , 且 所 有 的 京 東 網 頁 均不可以擷取。 另外,為了避免爬蟲程式過於快速與頻繁的擷取網站資料,在爬. 政 治 大 delay」 表 現 ; 例 如 , 程 立式 設 計 為 Crawl-delay:10, 代 表 網 路 爬 蟲 每 次. 蟲 協 議 中 亦 可 以 以 程 式 碼 限 制 網 路 爬 蟲 的 擷 取 速 度 , 程 式 以 「 Crawl-. ‧ 國. 學. 擷 取 資 料 的 間 隔 時 間 為 10 秒 。. 問題在於,爬蟲協議只是一套網路社群遵循的程式寫作慣例,雖. ‧. 然大多數的知名搜尋引擎遵守網站的爬蟲協議,並沒有強制力要求網. y. Nat. sit. 路 爬 蟲 遵 守 爬 蟲 協 議 76 。 這 個 性 質 影 響 爬 蟲 協 議 的 法 律 效 果 , 究 竟 違. n. al. er. io. 反爬蟲協議擷取網站資料,是否構成規避網站所設置的「技術保護措. i n U. v. 施」?以及違反爬蟲協議,是否即該當不正競爭行為?本文將於第三 章及第四章分別討論。. Ch. engchi. 第二項 資料之性質 網路爬蟲行為所搜集之客體為網頁所呈現的內容,更精確的來說, 是蒐集網頁上載有的資料,因此有必要須進一步討論,何謂資料?資 料是否有「所有權」可言?. 76. See MITCHELL, supra note 16, at 223. 25. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(33) 資 料 ( Data ) 泛 指 任 何 儲 存 為 電 子 格 式 的 資 訊 , 資 料 的 產 生 可 能 來自感測器、線上交易紀錄、網路點擊流量、網站使用者活動的紀錄, 或 來 圖 片 、 影 像 、 電 子 郵 件 等 等 各 種 可 以 數 位 化 呈 現 的 資 料 77。 依蒐集的主體區分,網路上的資料可以分為「公領域資料」 ( Public Sector Data ) 與 「 私 領 域 資 料 」 ( Private Sector Data ) 78 。 「公領域資料」指稱的為政府等公部門所蒐集的資料,例如健康保險 資料、即時高速公路流量資訊等等,近年開放資料的風潮在民主國家 間十分盛行,原因就是希望釋放這些政府蒐集自民間的資料回到民間,. 政 治 大 台 北 市 政 府 資 料 開 放 平立 台 data.taipei, 希 望 藉 由 公 部 門 提 供 原 始 資 料 , 讓人民得以加值利用,甚至利用資料分析監督政府施政效率。例如,. ‧ 國. 學. 使 民 間 得 以 發 揮 創 意 、 利 用 技 術 , 提 升 城 市 治 理 效 能 79; 而 「 g0v 零 時 政府」是一個致力於利用資訊技術促進公民參與的線上社群,他們提. ‧. 出多項開放政府專案,利用網路爬蟲等自動化技術擷取政府單位的預. sit. y. Nat. 算資料,加以處理、分析、美化複雜而繁瑣的原始資料列表,使一般. al. n. 重要加值技術。. er. io. 民 眾 也 易 於 理 解 80 。 因 此 , 網 路 爬 蟲 技 術 可 說 是 擷 取 公 開 網 頁 資 料 的. Ch. engchi. i n U. v. 「私領域資料」指稱非政府單位所蒐集的資料,包含企業蒐集自 銷售、鋪貨、物流等內部資料,或是蒐集自網站使用者的點擊紀錄等, 還有網頁上公開呈現的商品價格資料、圖片、文字、影片等等。網路. 77. 分析:大量資料在現實世界中的使用,IBM 商業價值研究院與牛津大學賽德商學院合編,頁 4,http://www.sysage.com.tw/Guest/getFile.aspx?fileid=119(最後瀏覽日:2018/07/03)。. 78. Kingsley Jones & CIFR Research Fellow, Submission to the Productivity Commission: Data Availability and Use, 10 (2016), http://apo.org.au/system/files/67132/apo-nid67132-33036.pdf.. 79. Data.Taipei 臺北市政府資料開放平台網站,http://data.taipei/opendata/aboutus(最後瀏覽日: 2018/07/03)。. 80. g0v 零時政府網站,https://g0v.tw/zh-TW/about.html(最後瀏覽日:2018/07/03)。 26. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(34) 爬 蟲 技 術 不 僅 可 以 擷 取 到 公 開 網 頁 81 的 資 料 , 如 果 先 行 取 得 或 破 解 使 用者密碼,亦有可能突破防火牆擷取閉鎖的私人網頁資料。 從資料本身含有的資訊區分,資料又可以分為個人資料,與非個 人 資 料 82 。 基 於 對 隱 私 權 的 保 障 與 重 視 , 大 部 分 的 工 業 化 國 家 將 個 人 資料保護視為重要公共政策,並訂定相關法律、監督機關和行為規範 83。 以 我 國 而 言 , 大 法 官 解 釋 第. 603 號 將 「 個 人 資 料 之 自 主 控 制 」 定 義. 為 隱 私 權 的 保 護 內 涵 , 屬 於 憲 法 第 22 條 所 保 障 之 基 本 權 利 , 為 維 護 人 性尊嚴、個人主體性之維護及完整人格發展所不可或缺,台灣也因此. 政 治 大. 訂有《個人資料保護法》限制公部門或私部門搜集與利用個人資料。. 立. 相 對 而 言 , 非 個 人 資 料 又 被 稱 作 工 業 資 料 ( Industrial Data ) 84 ,. ‧ 國. 學. 指 的 是 機 器 感 測 蒐 集 的 , 或 商 業 活 動 所 產 生 的 匿 名 化 的 資 料 85 。 首 先 , 非個人資料對於數位經濟的市場潛能、資料分析技術的發展具有重大. ‧. 意 義 。 根 據 2017 年 歐 盟 發 佈 的 報 告 指 出 , 2016 年 資 料 經 濟 市 場 價 值 約. y. Nat. sit. 為 600 億 歐 元 , 較 前 年 增 長 幅 度 為 9.5%, 2020 年 則 有 望 超 過 1060 億. n. al. er. io. 歐 元 的 規 模 86 。 體 認 到 非 個 人 資 料 的 流 通 的 經 濟 意 義 , 歐 盟 委 員 會 於. i n U. v. 2017 年 9 月 13 日 提 出 《 非 個 人 資 料 自 由 流 動 規 則 ( 草 案 ) 》. Ch. engchi. 81. 同參前揭註 15。. 82. Arguments Against Data Ownership: Ten questions and answers, MAX PLANCK INSTITUTE INNOVATION. AND. FOR. COMPETITION, 1, https://www.ip.mpg.de/fileadmin/ipmpg/content/forschung/A. rgumentarium-Dateneigentum_eng.pdf. 83. OECD, GUIDELINES ON THE PROTECTION OF PRIVACY AND TRANSBORDER FLOWS OF PERSONAL DATA (Sept. 23, 1980), http://www.oecd.org/sti/ieconomy/oecdguidelinesontheprotectionofprivacyandtran sborderflowsofpersonaldata.htm (amended on July 11, 2013 by C(2013)79).. 84. Gintare Surblyte, Data as a Digital Resource, MAX PLANCK INSTITUTE. FOR INNOVATION. &. COMPETITION Research Paper No. 16-12, 3 (2016). 85. Id. at 6.. 86. European Commission, Building A European Data Economy, COM(2017), 2, 28.02.2017. 27. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(35) ( Regulation on the free flow of non -personal data) 87, 草 案 第 一 條 即 說 明此規則的立法目的,在於促進非個人資料的開放性和自由流動,避 免各歐盟會員國不一致的法律與不當的限制阻礙資料經濟的蓬勃發展 88 。 再 者 , 非 個 人 資 料 的 蒐 集 與 利 用 上 亦 無 侵 害 隱 私 等 疑 慮 , 目 前 並. 無 法 律 特 別 加 以 管 制 89。 至 於 一 種 稱 為 半 個 人 資 料 ( semi-personal data) 的資料類型,則是指原本屬於個人資料,而後經過匿名化處理或去識 別化處理,此種資料的性質則仍取決於是否仍能與個人識別產生連結, 定 其 究 為 個 人 或 非 個 人 資 料 90。. 政 治 大 有 著 非 對 立 性 ( non-rivalrous 立 ) 以 及 非 排 他 性 ( non-excludable ) 的 特. 至於非個人資料本身的權利性質,從資料的本質出發,數位資料. ‧ 國. 學. 徵 91 , 任 何 人 利 用 資 料 , 並 不 減 損 該 資 料 , 並 且 也 不 影 響 其 他 人 同 時 利 用 該 資 料 的 可 能 性 , 有 著 明 顯 的 公 共 財 ( Public goods ) 特 質 92。 資. ‧. 料可輕易被完美複製,並且無實體的特性,和一般民法概念下的所有. er. io. sit. y. Nat. al. n. v i n C h for a Regulation of U European Commission (2013b), Proposal e n g c h i The European Parliament And Of The Council on a framework for the free flow of non-personal data in the European Union, COM(2017). 87. 495 final, 13 September 2017. 88. Art. 1: “This Regulation seeks to ensure the free movement of data other than personal data within the Union by laying down rules relating to data localization requirements, the availability of data to competent authorities and data porting for professional users.”; Dominic Broy, The European Commission's Proposal for a Framework for the Free Flow of Non-Personal Data in the EU, 3 EUR. DATA PROT. L. REV. 380, 382 (2017).. 89. Surblyte, supra note 84, at 3.. 90. Id. at 7.. 91. Kingsley Jones & CIFR Research Fellow, supra note 78, at 33; Grosheide, supra note 46, at 40.. 92. 沈宗倫,資料庫著作權保護的檢討與新視界—以原創性為中心,月旦法學雜誌,188 期, 頁 7,2011 年 1 月;See, WILLIAM FISHER, PROMISES TO KEEP — TECHNOLOGY, LAW AND THE FUTURE OF ENTERTAINMENT, 199-200 (2004). 28. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(36) 權賦予擁有者對財產排他的使用、收益和處分的權利,扞格不入,難 以 構 成 民 法 意 義 下 的 財 產 權 93。 既然與傳統財產權並不相同,在目前法制架構下,應僅有呈現於 網站上的各種文字、圖形、聲音、影像、電腦軟體等屬於著作時,受 到著作權保護;於呈現商標或標章時,受到商標法保護;於傳輸資訊 的技術應用上,因有專利與營業秘密保護之可能性,落於私有財的範 疇 94 ; 除 此 之 外 , 資 料 本 身 如 果 僅 是 單 純 「 0 」 與 「 1 」 的 集 合 組 成 , 僅 為 數 位 化 的 事 實 紀 錄 , 並 非 人 類 智 慧 的 結 晶 95 , 自 非 屬 智 慧 財 產 保. 政 治 大. 護的標的,而應屬於一種公共資源,應鼓勵非個人資料的流通與加值. 立. 學. ‧ 國. 利用。. 第三項 網路爬蟲與限制資訊流通的法律. ‧. 回顧網際網路的特色,任何人皆可突破國境與時差傳輸資料,在. y. Nat. 網路上架設網站也不需要經過層層審核,學者認為這種「去中心化」. er. io. sit. ( decentralized) 的 性 質 , 使 網 際 網 路 本 身 是 一 個 追 求 資 訊 流 通 ( free flow of information) 的 空 間 96。. n. al. Ch. engchi. i n U. v. 資訊自由流通有著憲法上的意義,雖然憲法並無明文保護「資訊 自 由 權 」 , 然 憲 法 意 義 下 的 言 論 自 由 權 , 保 障 人 民 接 收 訊 息 ( right to receive information) , 與 獲 取 資 訊 ( right to obtain information) 的 權. 93. 梅夏英,數據的法律屬性及其民法定位,中國社會科學,2016 年 9 期,頁 169-170,2016 年。. 94. 馮震宇,網路法基本問題研究(一),頁 17,1999 年。. 95. 參見梅夏英,前揭註 93,頁 167-168。需注意其討論的 Data 只包含數位化的電子資料,並且 在其討論範圍下,定義文字、影音都屬於「信息(information,我國普遍稱資訊)」與本文 稍有不同,但是其亦承認資料是資訊的載體,兩者並非截然區分。. 96. Elkin-Koren, supra note 33, at 183; 另參李劍非,著作權與網路資訊自由,頁 180-181,2001 年 11 月。 29. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

參考文獻

相關文件

Good Data Structure Needs Proper Accessing Algorithms: get, insert. rule of thumb for speed: often-get

In this section we define a general model that will encompass both register and variable automata and study its query evaluation problem over graphs. The model is essentially a

我畢業於國立大學科技法律研究所,大學時代則就讀國立大學法律

12 日本政府認為 IoT、Big Data 以及人工智慧等破壞式創新技術的出現,目前世界正處於「第四 次工業革命」之重大變革,而究竟 IoT、Big

分區技能競賽 資訊與網路技術. 正式賽

Recent preclinical data by Nardone et al (2015) indicate that olaparib may enhance endocrine therapy efficacy and circumvents resistance; as a consequence, addition of olaparib to

健行學校財團法人健行科技大學 清雲科技大學 台灣首府學校財團法人台灣首府大學 致遠管理學院 大華學校財團法人大華科技大學 大華技術學院 醒吾學校財團法人醒吾科技大學

Following the supply by the school of a copy of personal data in compliance with a data access request, the requestor is entitled to ask for correction of the personal data