論大數據時代資料蒐集之智慧財產法與競爭法爭議—以網路爬蟲技術為中心 - 政大學術集成

全文

(1)國立政治大學商學院科技管理與智慧財產研究所碩士學位論文. 論大數據時代資料蒐集之智慧財產法與競爭法爭議—以網路爬蟲技術為中心政治. 大. ‧. ‧ 國. 學. 立 Law and Competition Law Regimes on Intellectual Property Data Collection in the Era of Big Data: Focusing on Web Scraping. n. er. io. sit. y. Nat. al. Ch. e. i. i n U. v. n g c h 博士指導教授：鄭菀瓊研究生：徐. 寧撰. 中華民國一零七年七月. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(2) 中文摘要在大數據時代下，資料成為兵家必爭之地，為了擷取、分析、並利用資料、幫助企業進行更好的商業決策，有效率且自動化擷取資料的電腦程式工具 —網路資料爬梳（ Web Scraping）技術應運而生，成為企業從外部獲取資料不可或缺的技術之一。然而，網路資料爬梳經常涉及未經授權擷取公開網站上載有的資料，另作商業用途，可能因而侵害資料持有者的智慧財產權，或被指. 政治大的合法性與個案情況高度相關，在法律適用尚未釐清的狀態之下，恐立. 控為「搭便車」，構成破壞競爭秩序等不正競爭行為。資料蒐集行為. 將阻礙網路產業與資料蒐集與分析為核心的商業模式。. ‧ 國. 學. 本論文聚焦在企業運用網路爬蟲擷取公開網頁資料，在智慧財產. ‧. 權部分以著作權為焦點，回顧網路爬蟲涉及的 Kelly v. Arriba， Field v.. sit. y. Nat. Google 與 AP v. Meltwater 等實務案例，討論著作權保護之現況與侷限；. al. er. io. 在不正競爭防止法部分，藉回顧中國著名網路企業百度、大眾點評、. v. n. 奇虎 360 等公司間的爭議，及美國 Yelp 與 Google 爭議，與我國的近年. Ch. engchi. i n U. 發生的房仲訴屋比案比較，梳理網路資料爬梳技術相關法律議題的發展現況，並參考各國法院值得借鏡的處理態度，試圖平衡資訊流通自由與市場參與者各方之利益，建立大數據環境中網路爬蟲的治理模式。. 關鍵字：大數據、資料擷取、網路爬蟲、不正競爭防止、著作權法. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(3) 英文摘要 In the era of Big Data, an unprecedented scale of digital data is being generated, which leads to an explosion of “publicly available” content on websites. In order to obtain those data from the Web, an automatic and efficient data extraction technology, commonly referred to as “web scraping”, has been created. It has become one of the indispensable technologies to gain access to data sources outside of a firm.. 政治大 for commercial purposes. Data scrapers thus face potential legal liabilities for 立. Web scraping, however, often involves unauthorized use of scraped data. copyright infringement or considered in contravention of unfair competition. ‧ 國. 學. law. As the lawfulness associated with web scraping is highly fact sensitive,. ‧. legal uncertainty might hinder innovative data-driven business models.. sit. y. Nat. This paper examines the commercial use of web scraping technologies. al. er. io. which retrieves data from public websites. It examines copyright infringement. v. n. claims in cases such as Kelly v. Arriba, Field v. Google, and AP v. Meltwater.. Ch. engchi. i n U. It then reviews the leading cases in the United States, China, and Taiwan involving famous digital companies such as Google, Yelp, and Baidu . Lastly, the paper explores and provides recommendations on how to govern web scraping to better achieve the balance between free flow of information, and the interests of different market participants.. Keywords：Big Data, Data Extraction, Web Scraping, Unfair Competition, Copyright Infringement. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(4) 目次第一章. 緒論 .................................................................................... 1. 第一節. 研究動機與研究目的 ................................................................... 1. 第二節. 研究方法 ......................................................................................... 3. 第三節. 研究範圍與限制 ............................................................................ 3. 第四節. 本文架構 ......................................................................................... 5. 網路資料爬梳與法律疑義 .................................................... 7. 第一節. 爬蟲技術 ......................................................................................... 7. 第一項. 定義與背景 ............................................................................... 7. 第二項. 爬蟲技術常見利用類型 ....................................................... 14. 第二節. 第一項. 造成目標網站的伺服器負荷 .............................................. 19. 學. ‧ 國. 第二項第三項. 智慧財產權之侵害 ................................................................ 20. 第四項. 傷害商業競爭秩序 ................................................................ 21. ‧. 網路爬蟲相關法律爭議 ............................................................ 22 資料之性質 ............................................................................. 25 網路爬蟲與限制資訊流通的法律 ..................................... 29. io. 第三項. y. 第二項. 爬蟲協議（ Robot Exclusion Protocol） ......................... 22. Nat. 第一項. sit. 第三節. al. v i n 網站經營涉C 及之體與無體財U 產權 ...................................... 32 h有 en gchi. 網路爬蟲與智慧財產權 ..................................................... 32. n. 第三章. 政治大促進資訊流通與技術創新 .................................................. 17 立. 網路爬蟲之影響 .......................................................................... 17. er. 第二章. 第一節. 第一項. 有體財產權 ............................................................................. 32. 第二項. 無體財產權 ............................................................................. 35. 第二節. 保護模式一：資料庫特別權 ................................................... 39. 第一項. 歐盟資料庫保護指令簡介 .................................................. 41. 第二項. 資料庫保護指令與網路爬蟲 .............................................. 43. 第三項. 小結 ........................................................................................... 46. 第三節. 保護模式二：編輯著作 ............................................................ 47. 第一項. 資料庫可能構成編輯著作 .................................................. 47. 第二項. 爬蟲協議不屬技術保護措施 .............................................. 50. 第四節. 資料擷取方之法律抗辯 ............................................................ 55. 第一項. 合理使用 .................................................................................. 55. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(5) 第二項. 默示授權 .................................................................................. 60. 第三項. 禁反言 ...................................................................................... 63. 第五節第四章. 主張著作權的困境 ..................................................................... 65. 網路爬蟲與不正競爭 ......................................................... 69. 第一節. 智慧財產權與不正競爭防止法 ............................................... 70. 第二節. 百度訴奇虎 360 案（中國） ................................................... 72. 第一項. 案件事實 .................................................................................. 73. 第二項. 重要爭點 .................................................................................. 74. 第一款. 競爭關係之認定 ............................................................ 75. 第二款. 爬蟲協議屬於公認的商業道德 ................................. 76. 第三款. 不正競爭的行為認定 ................................................... 77. 政治大第三節 Yelp 與 Google 爭議（美國） ................................................ 82 立第一項案例事實 .................................................................................. 82 案例評析 .................................................................................. 78. 學. ‧ 國. 第三項. 第二項. 重要爭點 .................................................................................. 83. 第三項. 案例評析 .................................................................................. 86 以 FTC 法處理爬蟲爭議較少見 ................................ 86. 第二款. 美國法院曾創設不當取用原則 ................................. 88. y. 他國相似案例：大眾點評訴百度案 ........................ 90. sit. Nat. 第三款第一項. al. er. 經濟新報訴全曜公司案（台灣） .......................................... 92. io. 第四節. ‧. 第一款. 案例事實 .................................................................................. 92. 第二款. 上訴人投入努力，擁有一定經濟利益 .................... 96. 第三款. 高度抄襲之判斷 ............................................................ 97. 第四款. 顯失公平競爭行為認定 ............................................... 98. 第三項第五節. n. v i n 第二項重要爭點C .................................................................................. 93 hengchi U 第一款競爭關係之認定 ............................................................ 95. 案例評析 .................................................................................. 98. 房仲訴屋比案（台灣） .......................................................... 100. 第一項. 案件事實 ................................................................................ 100. 第二項. 重要爭點 ................................................................................ 101. 第一款. 建立比價平台非屬不正競爭行為 ........................... 101. 第二款. 兩造並無競爭關係 ...................................................... 102. 第三項. 案例評析 ................................................................................ 103. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(6) 第六節. 競爭關係認定標準轉嚴 ............................................. 104. 第二款. 強調言論自由 ............................................................... 106. 第三款. 聚合網站類似搜尋引擎之比喻 ............................... 107. 網路爬蟲之管制邏輯與建議 ................................................. 108. 第一項. 不正競爭法概括條款之比較 ............................................ 109. 第二項. 網路環境下不正競爭行為判斷標準 .............................. 113. 第三項. 網路爬蟲之合法性取決於利用模式 .............................. 117. 第一款. 違反爬蟲協議之法律效果 ........................................ 117. 第二款. 直接複製、呈現擷取資料 ........................................ 118. 第三款. 擷取後轉化利用資料 ................................................. 119. 結論與建議 ...................................................................... 121. 學 ‧. Nat. y. 第三節. io. sit. 第二節. 政治大對於資料持有者的策略建議 ................................................. 127 立對於資料擷取者的策略建議 ................................................. 130 規範取向的選擇 ........................................................................ 121. n. al. er. 第一節. ‧ 國. 第五章. 第一款. Ch. engchi. i n U. v. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(7) 圖次圖一資料庫知識發現流程圖 ………………………………………………8 圖二網路爬蟲簡易架構 …………………………………………………...10 圖三京東網站爬蟲協議示意圖 …………………………………………….24. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(8) 第一章緒論第一節. 研究動機與研究目的. 大數據正在劇烈改變我們的生活， 2014 年經濟合作暨發展組織（ The Organization for Economic Cooperation and Development, OECD ）發布報告指出 1，資料是創新的驅動力，深刻影響包含教育、公衛、醫療、商業、司法等公私領域，並催生以資料為核心的商業模式（ Datadriven economy）。透過大數據分析所帶來的新知識，可以顛覆各個領. 政治大過去，要進行資料立相關性的統計與分析，多必須倚賴人工進行收. 域的生態，有機會創造前所未見的新產品與服務。. ‧ 國. 學. 錄，然而，這樣的資料蒐集方式需耗費大量人力成本、整理的資料規模也有限，又可能因為人為主觀選擇，增加後續分析的母體資料客觀. ‧. 性的疑慮，因此，市場亟需自動化、大量蒐集資料的技術，以利後續. sit. y. Nat. 資料分析，創造資料的利用價值。而網路資料爬梳（ Web Scraping ）. al. er. io. 就是網路產業經常使用的一種技術，透過網路爬蟲. v. n. （ Crawler/Scraper ）等自動化程式，其以浩瀚的網際網路作為資料的. Ch. engchi. i n U. 來源，研究人員、新聞工作者得應用爬蟲技術觀察人類的行為模式、預測投票傾向等等，企業也能以網路上蒐集之資料為基礎，推出創新服務與應用。. 1. See generally, OECD, D ATA - DRI VE N I NNOVATI ON. FOR. G ROWTH. AND. W E LL - BE I NG (2015),. https://read.oecd-ilibrary.org/science-and-technology/data-driven-innovation_978926 4229358-en#page8. 1. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(9) 然而，運用爬蟲技術來取得資料，與許多網路所孕育的新興商業行為一樣，尚未有完整的法律加以應對，也因為其利用模式不斷推陳出新，創造新的法律爭議。隨著資訊科技與網際網路發展，資料對於網路企業的重要性日漸提高，網路資料爬梳技術的採用不僅有助於公開資訊的自由流通；擷取公開網站上的資料加值利用，產出具有商業價值的新資訊，還與過去逐字抄襲他網站之網頁內容，不啻構成智慧財產權侵害或不正競爭行為之利用模式，有所不同。在科技發展下，是否可以在未經同意或. 政治大的網頁內容，挪作己用立？究竟何種資料利用模式才是爬蟲行為的合理. 授權，自由擷取公開可獲得的／公開可存取的（ Publicly Accessible ） 2. ‧ 國. 學. 法律界線、我國的法制又要如何面對資訊時代下資料取用的法律議題？此疑義對資料擷取方，與網站經營者都帶來法律上的不安定性。. ‧. 由此，讓本文好奇，法律如何面對資訊社會與此相關的系列爭議. y. Nat. sit. —現在的界線是什麼樣（ what）、未來的界線怎麼劃（ how）、以及. n. al. er. io. 為什麼如此（ why）？為回應以上問題，本文首先將介紹網路爬蟲擷. i n U. v. 取網頁資料的運作模式與其影響，進而討論以著作權法主張網路資料. Ch. engchi. 爬梳構成侵權行為的管制現況與其界線，而後探討以不正競爭法制規範網路資料爬梳之案例，以及最後，探討管制的適切性，以供我國立法與司法解釋實務參考。. 2. Teresa Scassa, Sharing Data in the Platform Economy: A Public Interest Argument for Access to Platform Data, 50(4) UBC L. REV. 1017, Fn. 119 (2017). 該文特別強調 Public Accessible 和 Public Available 的差別。 2. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(10) 第二節. 研究方法. 本文採取之研究方法以案例探討為主、文獻回顧為輔，試圖歸納出爬蟲行為的合法界線。在案例探討部分，主要選擇網路產業較為活躍的美國、中國，與歐盟，探討有關自動化資料擷取程式的案例，觀察主管機關或法院對此一行為的規範趨勢，兼及論述相關內國法規範，討論規範之共同之處，並分析判斷標準，歸納法制之優缺點，藉此與我國最新案例發展. 政治大在文獻回顧部分，立將研讀與整理國內外對於網路爬蟲與第三方資. 相互比較，以期作為我國立法與司法實務之借鏡。. ‧ 國. 學. 料蒐集相關之研究報告、期刊論文，釐清第三方資料擷取所涉及的法律議題、其規範現況與學說爭論，試圖建立一系統性論述，以回答本. ‧. 文提出的核心問題。. er. io. sit. y. Nat. 研究範圍與限制v i l C n he gchi U 大數據相關法律議題包含巨n 量資料的取得、儲存、分析，及其所. n. 第三節 a. 3. 使用的技術、資料分析結果的利用等 4；本文主要欲聚焦於大數據分析. 3. Big Data 亦有翻譯為「巨量資料」，根據美國國家標準技術研究所（NIST）定義，大數據的特徵包含聚集龐大資料量（Volume）、即時性（Velocity）、多樣性（Variety）、變化性（Veracity）的資料。何謂大數據概念下的巨量規模，未有明確定義，可能是指大量到兆位元組（TB）、千兆位元組（PB）的規模，重點在強調經過大數據的儲存、處理與分析，可以挖掘出未知的新資訊；See, NIST Big Data Public Working Group, NIST Big Data Interoperability Framework: Volume 1, Definitions, 4 (2015), https://bigdatawg.nist.gov/_uploadf iles/NIST.SP.15001.pdf.. 4. See generally, Daniel L. Rubinfeld & Michal S. Gal, Access Barriers to Big Data, 59 ARIZ. L. REV. 339 (2017). 本文從大數據產業的價值鏈點出各階段的法律議題。 3. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(11) 的過程中的第一步 —資料的取得階段，探討第三方透過爬蟲技術擷取資料，並加以利用時所涉及的法律議題。本文設定之主要研究目標為網站內容提供者可能提起的法律主張，以及相對地，哪一種網路爬蟲利用類型較可能獲得違法的評價，藉以勾勒網路資料爬梳的合法性邊界。一、網路爬蟲擷取的資料標的為網頁上的資料，為呈現雙方的相對關係，本文將網頁內容的提供方 5稱為資料持有者（ Data Host）或是網站經營者（ Website Operator ）；而網路資料爬梳技術的. 政治大. 採用方，稱為資料擷取者（ Data Scraper） 6。. 立. 二、本文將聚焦於網站經營者關於著作權法、與不正競爭防止法的. ‧ 國. 學. 法律主張，以適用法律時之爭議為主軸，輔以不同國家之案例加以討論。網路爬蟲擷取資料的行為亦可能涉及違反網站所載. ‧. 使用者條款，或類似的線上定型化契約，惟本文不擬討論線上. y. Nat. er. io. sit. 契約有效性等契約法問題。. 三、本文擬僅聚焦於民間企業如何利用爬蟲技術這種自動化資料搜. al. n. v i n 集工具，最大化其競而來的法律風險。因此， C爭h力，以及隨之U engchi 擷取資料的目的如為學術研究等非商業利用，以及資料持有方. 5. 網路內容服務業者（Internet Content Provider／Host Providers）可以包括營業機構或個人，利用網路服務提供者（ISP）提供之網際網路通路，提供網際網路儲存空間給自己或其使用者；ICP 之定義與類型請見 Jan Bernd Nordemann, Liability for Copyright Infringements on the Internet: Host Providers (Content Providers) — The German Approach, 2(1) J. INTELL. PROP. INFO. TECH. & ELEC. COM. L. 37 (2011).. 6. 此稱呼係參考 Jeffrey Kenneth Hirschey, Symbiotic Relationships: Pragmatic Acceptance of Data Scraping, 29 BERKELEY TECH. L.J. 897 (2014) 一文的用字。 4. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(12) 對於資料擷取的反制行為，是否有濫用市場優勢地位等競爭法上疑慮，即非本研究討論的範圍。四、網路爬蟲的運用，基本上可分為三個階段，分別是在目標網頁擷取資料、存取到自己的資料庫、以及後續利用 7，在不同的程式語言設計下，網路爬蟲可能尚有不同強度與功能，然簡化為此三步驟已足夠進行法律分析、討論其主要爭議。五、本文在探討爬蟲行為是否構成智慧財產權的侵害與不當競爭等議題上，暫排除對於個人資料的討論，僅探討非個人資料作為. 政治大. 本文爬蟲行為擷取標的，特先敘明。. 立. ‧ 國. 學. 第四節. 本文架構. ‧. y. Nat. 本文之研究架構以網路爬蟲擷取資料為中心，共分為五章；第一. er. io. sit. 章為緒論，闡述本文的研究動機、目的，並界定研究範圍，說明研究所遇限制，並介紹本文論述架構，俾使讀者對本文有一概略了解。. n. al. Ch. engchi. i n U. v. 第二章進入網路資料爬梳之介紹，歸納常見的網路爬蟲商業利用型態，並於第二章第二節說明其所帶來的商業價值，與利弊影響；又，對於擷取網頁資料的管制由許多不同法規形塑而成，故於第二章第三節點出相關的管制法規 —包含著作權法與不正競爭防止法。本文以第三章及第四章分析目前處理網路資料爬梳的法律框架：第三章主要聚焦於網站經營者主張智慧財產權相關規定保護網頁資料. 7. 將搜尋引擎的網路爬蟲技術拆解步驟分別討論，可見於廖先志、金鍾誠，論搜尋引擎以程式在網路上自動抓取資料時可能面臨之法律問題及其解決之道，圖書館學與資訊科學，33 卷 1 期，頁 58，2007 年 4 月。 5. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(13) 的可能性，第三章第一節指出探討實體財產權主張的侷限；並特別在第三章第二節，討論設有「不具原創性」資料庫保護法制的國家對網路爬蟲的規範情況；而在第三章第四節、第五節討論與網路資料爬梳技術相關的著作權法律的保護範圍與例外，最後帶出主張著作權法在保護不具原創性網頁資料的困境。第四章則以不正競爭防止法規制為中心，第四章第一節至第五節，以網路爬蟲資料利用的實務案例為出發，探討美國、中國等資料分析產業蓬勃發展的國家所衍生的案件與法律適用，也回顧我國對於此技. 政治大章第六節比較各國規範立，並提出本文對網路爬蟲相關案例的分類處理. 術的規範趨勢；並在個案介紹之後，提出本文之觀察與分析。在第四. ‧ 國. 學. 的必要，以及判斷標準的建議。. 第五章為本文的結論，統整前述各個章節，並點出網站經營者可. ‧. 以採取的經營策略。. n. er. io. sit. y. Nat. al. Ch. engchi. 6. i n U. v. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(14) 第二章網路資料爬梳與法律疑義第一節. 爬蟲技術. 第一項定義與背景未經處理的原始資料（ Raw Data） 89本身只是毫無使用價值的雜訊，唯有對資料進行分析、計算，找出資料之間的規律或是相關性，才能將資料（ Data）能轉化為資訊（ Information）、知識（ Knowledge）及行動（ Action） 10；換言之，處理過的資料才有使用上的價值。這種在. 政治大；例如，企業蒐集大量消費者在網頁點擊. 大量資料中自動搜尋先前未知的、具有關聯性知識的分析過程，稱為. 立. 資料探勘（ Data Mining ） 11. ‧ 國. 學. 購買的習慣，分析之後發覺消費的行為模式，藉此得知消費者真實的喜好，甚至能預測消費者行為，進而用以提升行銷的精準度與廣告成. ‧. 效；這種規模與效用是單憑人工整理與肉眼觀察所難以達到的。如圖. n. al. i n U. v. Data 亦有譯作「數據」，本文為求用詞一貫，除 Big Data 在我國通稱為「大數據」以外，都使用「資料」一詞翻譯 Data。. 9. er. io. sit. y. Nat. 8. Ch. engchi. 資料（Data）可以廣泛指稱各種可以以數位形式收錄於資料庫的檔案，包含文字、圖像、聲音、影像、事實、數字、數據等等，詳細討論請見下述第一章第三節第二項；See, Jean-Paul Triaille et al., Study on the legal framework of text and data mining (TDM), 8 (2014), http://ec.europa.eu/internal_market/copyright/docs/studies/1403study2en.pdf.. 10. See, Indranil Bose & Radha K. Mahapatra, Business Data Mining — A Machine Learning Perspective, 39 INFO. & MGMT. 211, 211 (2001); Ali M. Al-Khouri, Data Ownership: Who Owns “My Data”?, 2(1) INT’L J. MGMT. & INFO. TECH., 1 (2012); Chaim Zins, Conceptual approaches for defining data, information, and knowledge, 58(4) J. AM. SOC’Y. FOR INFO.. SCI. & TECH. 479, 485. (2007). 11. Data Mining 又常譯作資料採礦、資料挖掘；將此技術應用到全球資訊網上，又可稱為網路探勘（Web Mining），亦即針對網站內容、網頁架構、網站使用度等面向進行分析與統計，得以了解資料潛藏的關聯性，或更了解使用者行為。參見陳惠貞，2017 新趨勢計算機概論，頁 14-23。 7. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(15) 一所示，資料探勘屬於資料庫知識發現（ Knowledge Discover y in Databases, KDD）中的重要步驟。. 立. 政治大. 圖一資料庫知識發現流程圖 12. ‧ 國. 學. 圖一顯示的是資料分析與應用的基本架構，簡而言之，進行資料. ‧. 分析前，首先必須有資料來源；接下來選擇所需要的資料之後，需進. y. Nat. 行資料的前置處理與資料轉換，是為資料清理（ Data Cleaning ）的過. er. io. sit. 程 13 ，包含資料合併、堆疊、刪除不需要的變數，調整資料的單位為一致等等；然後才能進行資料探勘，整理出分析的結果。然而一整張. al. n. v i n 的數據報表含意是難以理C 解的，所以需要經過解釋、與視覺化資料來 hengchi U 呈現隱含的知識與意義。. 在整個資料分析的過程中，第一步驟即是取得欲處理與分析的目標資料。取得資料的方式可能來自事業內部或是外部：如果事業內部有許多資料來源，例如電子商務平台從客戶交易與互動中蒐集大量資料，自然透過資料庫管理，進行大數據分析、加值利用資料就不成問. 12. Usama Fayyad et al., The KDD Process for Extracting Useful Knowledge from Volumes of Data, 39(11) COMM. OF THE ACM 27, 29 (1996).. 13. Id. at 28, 30. 8. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(16) 題；但是對於尚未吸引足夠使用者，又無完整資料庫的新創事業，如何從外部取得資料來源即是一個重要的問題。其中，網際網路成為人們獲取外部資料的重要管道 14 。網際網路上的公開網頁 15（ Public Website ）含有大量的資料，其涵蓋新聞、商品資料、財金資料、商家評論、活動與交通票券，甚至公告、各種文書等生活各方面的資料，如果能進一步善加利用、分析，將可以產生巨大的商業價值、催生新的商業服務。而欲取得他人經營的網站上的資料，可採用不同種資料採集的方. 政治大. 式：其中一種是直接和目標網站內容提供者請求利用，介接該網站經. 立. 營者自行開放的應用程式介面（ Application Programming Interface,. ‧ 國. 學. API），即可取得便於使用的標準化格式資料 16。提供 API 是一種網站經營常見的資料使用策略，以 Facebook 的「開放平台」 17功能為例，. ‧. 讓用戶或第三方業者可以介接 Facebook 的 API，以 Facebook 的資料為. y. Nat. sit. 基礎，另行開發應用程式與加值服務，例如，在 Facebook 網站上提供. n. al. er. io. 遊戲應用程式、心理測驗，或在第三方經營的網誌上加入按讚、分享. i n U. v. 到 Facebook 頁面的按鈕等，使 Facebook 可執行的服務更加多元。然. 14. Ch. engchi. Pamela Samuelson, Mapping the Digital Public Domain: Threats and Opportunities, 66 L. & CONTEMP. PROBS. 147, 167 (2003).. 15. 根據 The Computer Desktop Encyclopedia 的定義，「公開網頁」是指任何有網路連線與瀏覽器的人都可以訪問的網際網路位址；相對而言，私人網頁則是指特定人士，或經過註冊的人輸入密碼始可訪問的網站，例如企業內部的網路（Intranet）架設防火牆與網際網路相隔，參見 THE COMPUTER DESKTOP ENCYCLOPEDIA, http://lookup.computerlanguage.com/host_app/search?ci d=C999999&term=public+website&lookup.x=0&lookup.y=0 (last visited July 3, 2018).. 16. RYAN MITCHELL, WEB SCRAPING. WITH. PYTHON: COLLECTING DATA. FROM THE. MODERN WEB, 49. (2015). 17. FACEBOOK FOR DEVELOPERS, https://developers.facebook.com/policy/?locale=zh_TW (last visited July 3, 2018). 9. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(17) 而， API 是資料持有者所設定，各該網站經營者可以控制第三方所能接取的資料內容、種類與數量，所以在目標網站 API 所提供的資料格式不合使用目的，或根本沒有開放 API 等情況下，就無法取得資料。此時，技術上不待資料持有方同意或事先取得授權，即可進行資料採集的一種方法，就是網路資料爬梳（ Web Scraping） 18。. 立. 政治大. ‧. ‧ 國. 學 er. io. sit. y. Nat. al. v. n. 圖二網路爬蟲簡易架構（筆者自繪）. Ch. engchi. i n U. 一般使用者瀏覽網頁的原理，簡單來說，是使用者透過網際網路連線到網站，向網站的伺服器發出請求（ request ），伺服器回傳（ response ）並發送給使用者瀏覽器，瀏覽器就依據該網站的原始碼（例如 HTML 檔案 19），呈現網頁的圖案與文字；而「網路資料爬梳」. 18. Web Scraping 中文也有譯作網路資料爬梳、網頁資料抓取、網頁擷取、網頁抓取、網頁爬蟲、網絡爬蟲、網頁挖取等，未有統一的正式翻譯；網路爬蟲的技術，英文也有稱為 screen scraping（螢幕擷取）或 web harvesting（網頁收割）等，參見 supra note 16, at Preface, x.. 19. 超文字檔案標記語言（HyperText Markup Language, HTML），是一種主要用來製作網頁內容與外觀的標記語言，用來定義網頁與文件的結構，瀏覽器接收到 HTML 文件，就會轉譯為使用者看得懂的網頁；參見陳惠貞，前揭註 11，頁 8-28。 10. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(18) 技術，如上圖二所示，係透過普遍稱為「網路爬蟲」的網路程式（ Scraper 或 Crawler） 20，快速且自動化地從網際網路上搜尋、篩選，向目標網站的網址（ Universal Resource Locator, URL）的伺服器溝通、要求資料，在分析後，大量擷取特定資料，儲存於自己的資料庫的技術 21 。網路爬蟲程式可以設定擷取資料的來源，可以不設定特定對象，擷取全網際網路的網頁；也可以設定特定幾個網頁，擷取特定的資料。換言之，網路爬蟲擷取資料的方式其實就像一般使用者一樣，經由對網站請求（ request） —回傳（ response）的過程訪問網站，只是. 政治大. 利用程式自動化操作。本文整理網路爬蟲技術之特點如下：. 立. 1. 網路爬蟲之技術門檻易跨越. ‧ 國. 學. 依據 Distill Networks 的 2016 年報告 22，網路爬蟲技術技術發展得. ‧. 越來越成熟、利用範圍與規模也持續擴大，成為普通人也都能輕易下. y. Nat. 載並操作擷取網頁資料的新產品，學習寫作爬蟲程式也在開發者社群. n. al. er. io. sit. 非常流行 23 ，在網路上不僅有許多開發好的程式供自由運用，還有許. 20. Ch. engchi. i n U. v. Crawler 與 Scraper 指稱的網路爬蟲功能稍有不同，簡言之，網際網路彷彿是一張互相連結的大網，搜尋引擎經常使用 Crawler，首先給定一個或是多個起始的網址，Crawler 再透過該網頁含有的 URL 不斷連結、擴散到其他網頁，尋找各網頁上相關的資料、建立索引；而 Scraper 網路爬蟲是針對特定的網站分析、並擷取網頁的 HTML 原始碼，得以獲取所需要的資料。. 21. Hirschey, supra note 6, at 904-05.. 22. The 2016 Economics of The Rise of Advanced Persistent Bots Web Scraping Report, DISTILL NETWORKS, 7, https://forum.equinix.com/assets/images/files/distil-networks-2016-economics-of-we b-scraping.pdf (last visited July 3, 2018).. 23. See, Hirschey, supra note 6, at 904. 11. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(19) 多免費教學資源 24，也有第三方公司提供的爬蟲程式產品 25，所以接近利用爬蟲技術的門檻並不高。 2. 效率高運用網路爬蟲，使用者可以自動分析並下載特定的資料。使用者只要設定一網址，對於目標伺服器要求（ Request）特定資料，並取得回應（ Response），接著透過不同的程式寫作技巧 26，即可篩選出自己想要的資料內容，自動下載檔案。功能上，爬蟲程式可以設定機器人「自動登入」網站，開始擷取資料；或是在使用者必須按「下一頁」. 政治大. 類型的網站，網路爬蟲也能做到自動翻頁 27 ，節省使用者一一點選網. 立. 頁的時間。另外，可以設定擷取資料的頻率，一次爬取數千個網站資. ‧. ‧ 國. 學 er. io. sit. y. Nat. al. v i n C 橘， https://buzzorange.com/techorange/2017/08/04/python出爬蟲、抓取網頁資料，科技報h engchi U scraping/（最後瀏覽日：2018/07/03）；大數學堂網站提供 Scrapy 爬蟲、Crawler 爬蟲多個入 n. 24. 搜尋網路爬蟲教學資源，即可尋找到例如：附範例與完整程式碼！手把手帶著你用 Python 做. 門與實戰演練教學影片，http://www.largitdata.com（最後瀏覽日：2018/07/03），甚至出版商 O’Reily 直接將 Ryan Mitchell 所著 Web Scraping with Python, 2nd Edition 免費提供於網站， https://www.safaribooksonline.com/library/view/web-scraping-with/9781491985564/ch01.html （最後瀏覽日：2018/07/03）。 25. 例如 Kimono、import.io 等網站提供網路爬蟲產品，使用者無須自己寫出程式碼，只需要按照操作指令鍵入，即可開始運用網路爬蟲爬梳資料。. 26. 參見 Engine Bai，Python x 網路爬蟲，http://enginebai.logdown.com/posts/834887/webcrawler （最後瀏覽日：2018/07/03）提到搜尋、正則、字串處理、切分、取代等程式寫作技巧，可以達到篩選資料的功能。. 27. 詳細翻頁技術操作方式可參考 UncleChen 的博客，python 利用 beautifulsoup+selenium 自動翻頁抓取網頁內容，http://unclechen.github.io/2016/12/11/python 利用 beautifulsoup+selenium 自動翻頁抓取網頁內容/（最後瀏覽日：2018/07/03）。 12. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(20) 料庫，並在各個網站資料庫中篩選、擷取想要的特定資料 28 ，可見網路爬蟲蒐集資料的規模與速度，遠遠超過人力所能及。舉例而言， Google 搜尋引擎的「 GoogleBot」就是一廣為人知的網路爬蟲 29，之所以 Google 能夠提供好的搜尋服務，係建立在 GoogleBot 強大的爬蟲程式設計與演算法，使其有辦法「爬」過最多的網頁、篩選出最具相關性的網頁內容，提供給使用者。 3. 節省成本. 政治大，並非自己重新產生網站內容，甚至不需要. 運用爬蟲蒐集資料可以大幅降低資料蒐集的成本，例如，常見的聚合網站（ Aggregator） 30. 立. 經過目標網頁的同意，技術上仍可以做到直接擷取他人網頁的資料，. ‧ 國. 學. 節省與目標資料網站洽談合作的交易成本，也避免技術整合的困難。. ‧. 綜合以上特點，可得知爬蟲技術的應用有助於提高資料採集的效. sit. y. Nat. 率，使用者可以尋找到更多資料分析所需的原料，在網路上，自動蒐. al. er. io. 集資料的技術已有悠久的運用歷史，資料經濟的浪潮越發蓬勃，由於. v. n. 此工具進入門檻不高、成本較低，且越發精準的資料分析技術是市場. Ch. engchi. i n U. 所需，在可預見的未來，仍會繼續為市場廣泛利用。. 28. MITCHELL, supra note 16, Preface, x.; Sean O'Reilly, Nominative Fair Use and Internet Aggregators: Copyright and Trademark Challenges Posed by Bots, Web Crawlers and Screen-Scraping Technologies, 19 LOY. CONSUMER L. REV. 273, 274 (2007).. 29. Google 網站對於 GoogleBot 的說明，請見 https://support.google.com/webmasters/answer /182072?hl=zh-Hant（最後瀏覽日：2018/07/03）。. 30. 詳如下述第二項第二款說明。 13. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(21) 第二項爬蟲技術常見利用類型網路爬蟲的用途十分廣泛與興盛，根據統計，網路爬蟲資料擷取行為占據了網際網路總流量的 46% 31，而在大數據技術不斷演進下，可以想見未來可能出現的網路爬蟲商業模式難以窮盡列舉，以下僅整理目前利用網路爬蟲技術常見的幾種商業模式：第一款搜索引擎類爬蟲人的時間與注意力有限，要求使用者記得數個網址，直接造訪個. 政治大輸入的特定詞彙（ Query），準確地引導使用者到含有相關資訊的網站。立別網站尋找想要的資訊並不實際，此時搜尋引擎的功能是依據使用者. ‧ 國. 學. 網路爬蟲是搜尋引擎的重要構成部分，主要使用 crawler 爬蟲為架構。運作上，搜尋引擎使用的這種類型的爬蟲，係從固定的網址. ‧. （ URL）為始點，找出網頁中所含的超連結（ hyperlink），再不斷分. sit. y. Nat. 別沿著各個超連結，繼續剖析下一個網頁，取回資料，不斷遞迴重複. al. er. io. 這個過程 32 。在每連結到一個網頁時，搜尋即儲存該網頁內容於自己. v. n. 的資料庫，以建立索引（ index ）因應使用者搜尋的需求 33。搜尋引擎. Ch. engchi. i n U. 亦可依其功能細分為不同種類，以常見的進行文字搜尋與檢索的搜尋引擎，搜尋引擎的運作為「取得資訊 —儲存 —建立索引」的過程 34。. 31. John Delaney & Aaron Rubin, Morrison & Foerster's Predictions on Intersection of Technology and Law — From Web Scraping to Blockchain, INTELLECTUAL PROPERTY WATCH (Jan. 4, 2018), http://www.ip-watch.org/2018/01/12/morrison-foersters-2018-predictions-intersection-technology-l aw-web-scraping-blockchain/.. 32. MITCHELL, supra note 16, at 31.. 33. Niva Elkin-Koren, Let the Crawlers Crawl: On Virtual Gatekeepers and the Right to Exclude Indexing, 26 U. DAYTON L. REV. 179, 187 Footnote 23 (2001).. 34. 廖先志、金鍾誠，前揭註 7，頁 54。 14. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(22) 第二款聚合網站類爬蟲聚合網站（ Aggregator ）簡而言之，是整合散見在各網站的內容或服務，讓使用者降低一一訪問數個網站的時間成本，可以在單一網站上得到所需資訊 35 。聚合網站上所聚集的資料可能是任何網頁上的資料，端視市場的需求而有各種可能，例如新聞報導、金融資料、股票收盤價格、商品價格等。常見的新聞報導聚合網站如 Google 新聞 36 、美國赫芬頓郵報（ Huffington Post） 37等，或我國的 LINE TODAY 38，通常本身沒有組. 政治大. 織建立記者團隊、也不提供第一手採訪取得的內容，而是從不同的來. 立. 源擷取其他傳媒所產生的新聞，以「轉載」的方式呈現新聞在單一網. ‧ 國. 學. 站上 39 。透過網路爬蟲技術也可以聚合金融資訊，提供帳戶整合（ Account Aggregation）的服務 40；例如北美地區的新創公司 Mint.com. ‧. 理財平台 41 ，讓使用者只要一次登入，即可以在一個平台上管理自己. y. Nat. sit. 數個金融帳戶（ financial account），查看不同銀行帳號的交易紀錄與. n. al. er. io. 帳戶餘額等資訊，不僅節省使用者時間，還可以提供進一步的分析與. i n U. v. 管理功能，有利網路銀行業務的發展。另外常見的聚合網站是如. 35. Ch. engchi. See, Kimberley A. Isbell, The Rise of the News Aggregator: Legal Implications and Best Practices, BERKMAN CENTER RESEARCH PUBLICATION No. 2010-10, 2 (2010); Monika Jasiewicz, Copyright Protection in an Opt-Out World: Implied License Doctrine and News Aggregators, 122 YALE L.J., 837, 837 (2012).. 36. Google 新聞，https://news.google.com/?hl=zh-TW&gl=TW&ceid=TW:zh-Hant（最後瀏覽日： 2018/07/03）。. 37. 赫芬頓郵報從未印刷紙本報紙，聘雇編輯群負責錄寫主流媒體新聞，更特別的是大量向各領域名人、政治人物邀稿，不區分專欄與網誌的界線的經營方式在當時十分創新。. 38. LINE Today 網站，https://today.line.me/tw/pc（最後瀏覽日：2018/07/03）。. 39. Isbell, supra note 35, at 2.. 40. O'Reilly, supra note 28, at 273.. 41. Mint 官方網站，https://www.mint.com/（最後瀏覽日：2018/07/03）。 15. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(23) Trivago 或是 Kayak 42等提供使用者「旅遊計劃工具」的聚合網站，透過搜尋眾多機票與飯店網站，為旅客提供機票、飯店、租車等相關資訊，方便旅客找到最便宜的價格組合。聚合網站類型的爬蟲運作方式與搜尋引擎爬蟲並無太大差異，搜尋引擎爬蟲擷取資料、儲存至資料庫，最後建立索引目錄以利使用者查詢；聚合網站亦有相同的擷取資料、儲存至資料庫步驟，僅是後續並無建立索引，而是將擷取來的資料內容，依據使用者需求整理、呈現在網站上而已。第三款資料分析類爬蟲. 立. 政治大. 前兩種網路爬蟲發展比較久遠，皆是擷取資料而後分析、整理，. ‧ 國. 學. 以近乎相同（例如搜尋引擎類），或只是簡化原本網站資料的形式. ‧. （例如聚合網站類），提供服務給自己的網站使用者。然而，近期蓬. y. Nat. 勃發展的商業模式，是擷取資料後用於資料分析目的的網路爬蟲。此. er. io. sit. 類網路爬蟲利用方式與前兩者不同，其擷取目標網站資料之後，並不建立索引、也不單單是簡化原網站資料呈現於自己網站，而是將擷取. al. n. v i n 來的資料進一步進行資料C 分析，進而提供與原本網站不相關聯的、或 hengchi U 是原本網站並未提供的資訊。. 近幾年，美國矽谷出現了不少以資料探勘為核心業務的新創企業，這些公司本身並沒有自己內部蒐集或產生的資料，而是依賴諸如 Facebook、 Twitter、 LinkedIn 等握有大量資料的網路平臺，從這些網. 42. KAYAK 官方網站， https://www.tw.kayak.com/?ispredir=true Kayak （最後瀏覽日： 2018/07/03）。 16. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(24) 路平台公司公開網頁擷取資料，進行分析處理後，以資料分析結果營利。截至目前最新的美國實務案例， 2017 年的 hiQ v. LinkedIn 43案，即屬此一利用類型。該案原告 hiQ 公司是以資料探勘為主要業務的新創企業，其商業模式是以網路爬蟲擷取 LinkedIn 專業人才社群網站上公開的會員資料 44 ，然擷取資料的目的並不是用來建立另一競爭性人力資源平台，而是透過資料分析技術，由頻繁更新公開檔案內容的行為預測該員工另覓新工作的可能，並販售此一分析結果給其雇主 45。. 政治大. 立. 網路爬蟲之影響. ‧ 國. 學. 第二節. 在個案利用目的不同之下，網路爬蟲帶來對資料持有者，以及社. ‧. 會大眾各有利弊的影響，以下分述之：. y. Nat. er. io. al. sit. 第一項促進資訊流通與技術創新. v. n. 資料對於現代資訊社會至關重要，文化與資訊的自由流通有賴大眾得以近用各種資訊. i n U. C h也因此，資訊流通自由（ free engchi. 46 ，. flow of. information）在現代社會有著勝於以往的重要性，無論是為了監督政. 43. hiQ Labs, Inc. v. LinkedIn Corp., 273 F.Supp.3d 1099 (N.D. Cal. 2017)，該案正在第九巡迴上訴法院審理中。因為加州北區聯邦地方法院准予 hiQ 禁制令，命 LinkedIn 必須允許網路爬蟲擷取網頁公開資料，有利於網路爬蟲方的判決結果，使另一聚合網站 3Taps 公司，亦對 LinkedIn 公司提起確認訴訟，主張網路爬蟲擷取公開資料的行為不會違反聯邦電腦詐欺與濫用法（CFAA），見：3Taps Inc. v. LinkedIn Corp., No. 18-00855 (C.D. Cal. filed Feb. 8, 2018).. 44. hiQ, 273 F.Supp.3d at 1104.. 45. Id.. 46. F.W. Grosheide, Database Protection — The European Way, 8 WASH. U. J.L. & POL’. Y. 39, 41. (2002). 17. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(25) 府政策、民間企業，或為了確保市場的效率運作，都建立在能有意義地接近並利用資訊 47 。以知識經濟角度來理解政府公開資料（ Open Government Data），其倡議不僅是促使政府施政透明化以及促進公共參與；政府開放原始資料，移轉給民間更有效率地加值利用資料，更可進一步加速服務與產品的創新應用，有助於促進資訊自由流通，促進產業發展 48。網路爬蟲技術是有助於資訊流動的工具 49，例如 The San Francisco Chronicle 報紙的調查報導記者透過網路爬蟲，擷取 Airbnb 上房屋物件. 政治大有效率地近用資料，立對於產業界更有重要意義，例如大型零售商. 的資料，評估 Airbnb 對舊金山房屋租賃市場的影響 50。透過網路爬蟲. ‧ 國. 學. Amazon、 Walmart ，皆需要透過網路爬蟲擷取競爭對手網站上的商品價格資料 51 ，以利於調整自己的定價策略、訂定最適價格；對於網路. ‧. 產業的新進業者而言，其受限於有限的資源，難以在短時間內自己建. sit. y. Nat. 立規模足夠龐大的資料庫，然而透過技術擷取公開網頁上的大量資料. al. er. io. 加以分析利用，這些新進業者可以填補目前市場尚未提供的需求，有. v. n. 助於降低新業者進入市場之進入門檻 52 。網路爬蟲的利用也可能有助. 47. Ch. engchi. i n U. Elkin-Koren, supra note 33, at 208-09; Jamie Williams, “Scraping” is Just Automated Access, and Everyone Does It, ELECTRONIC FRONTIER FOUNDATION (Apr. 17, 2018), https://www.eff.org/deepli nks/2018/04/scraping-just-automated-access-and-everyone-does-itu.. 48. Scassa, supra note 2, at 1046; 戴豪君、顧振豪，建構資料開放之良善法制環境，國土及公共治理季刊，3 卷 4 期，頁 18，2015 年 12 月。. 49. Rubinfeld & Gal, supra note 4, at 374.. 50. Williams, supra note 47.. 51. REUTERS, How Amazon's Bot Army is Trouncing Walmart in E-Commerce Wars, FORTUNE (May 10, 2017), http://fortune.com/2017/05/10/amazon-bots/.. 52. Rubinfeld & Gal, supra note 4, at 374. 18. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(26) 於技術創新 53 ，因為網路爬蟲擷取網頁資料以後，可以用於資料分析，並找出連原本資料持有者也尚未發現、尚未商業化的知識。綜上所述，如果賦予資料持有者過大的權利限制網路爬蟲擷取、加值利用資料，可能危害資訊自由流通 54 ，提高新競爭者進入市場門檻，不利技術創新。第二項造成目標網站的伺服器負荷網路爬蟲通常會消耗目標網站的大量流量，造成目標網站伺服器. 政治大的本質，就是近用他人所營運的網站，要求資料，而此技術之所以可立. 的負荷，減慢網頁運作的速度 55。以自動化程式 —網路爬蟲擷取資料. 以達到有效率的資料蒐集，來自資料擷取者將瀏覽網站的頻率寫入程. ‧ 國. 學. 式碼中，指定爬蟲程式擷取資料的速度。如果目標網站沒有特別的限. ‧. 制，技術上爬蟲訪問網站的頻率可達到難以想像的高速，例如 2010 年. y. Nat. 工程師 Pete Warden 在短短數個小時內即爬取 2 億個 Facebook 用戶頁. er. io. sit. 面，擷取該些用戶公開的的名稱、地理位置、交友訊息、興趣等等 56 。當然這樣明目張膽的網路爬蟲行為立刻招致 Facebook 的警告函，該位. al. n. v i n 工程師忌憚 Facebook 提起C 訴訟之可能，自行停止了網路爬蟲的行為。 hengchi U. 53. Counsel for Amicus Curiae Scraping Hub, Ltd., Brief for Amicus Curiae Scraping Hub, Ltd. In Support of Affirmance, at 6.. 54. Elkin-Koren, supra note 33, at 207.. 55. Daniel Keamey, Network Effects and the Emerging Doctrine of Cybertrespass, 23(1) YALE L. & POL’Y REV. 313, 317 (2005).. 56. 此事件較詳細討論可見於 Bloomberg Law 文章：Jim Snell & Derek Care, Use of Online Data in the Big Data Era: Legal Issues Raised by the Use of Web Crawling and Scraping Tools For Analytics Purposes, BLOOMBERG BNA (Aug. 28, 2013), https://www.bna.com/legal-issues-raised-by-the-useof-web-crawling-and-scraping-tools-for-analytics-purposes. 19. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(27) 對於資料持有者而言，爬蟲程式既非正常人類使用者，對於網站的廣告或內容曝光給目標客群並無助益，如又佔用大量流量，自非資料持有者所樂見，因此許多程式語言教學皆強調，為了長期擷取資料，網路爬蟲程式應儘量模擬一般使用者，減緩訪問網站的速度與次數，以防免法律困擾 57。第三項智慧財產權之侵害網路爬蟲技術擷取目標網站的資料，視其資料性質是否含有他人著作或商標等智慧財產權，加以擷取、利用，可能侵害他人的智慧財. 政治大. 產權 5859。雖然顯示機票價格資料的聚合網站，只是顯示一事實或單純. 立. 數據資料，資料來源也原本已經公開，因此不涉及著作權或營業秘密. ‧ 國. 學. 之問題；但如果擷取網頁內含著作權保護的標的，例如新聞聚合網站，擷取的目標資料形式是文字、攝影圖片等，即可能涉及著作權法下重. ‧. 製權及公開傳輸權等問題。如果在自己網頁上呈現含有資料來源網站. y. Nat. sit. 的 Logo、商標，可能使消費誤解商品來源，或誤認兩網站間有合作關. n. al. er. io. 係，此時亦有可能構成商標侵權。. Ch. engchi. i n U. v. 57. E.g., MITCHELL, supra note 16, at 178.. 58. 雖然網路爬蟲的確有可能成為侵害營業秘密的一種手段，然而網路爬蟲造成營業秘密的侵害，是建立在資料擷取方先行侵入資料庫的行為，例如行為人先取得目標網站或資料庫的密碼、或突破網站所設置的防火牆，進入網站，再以網路爬蟲技術擷取該資料庫內容。本文認為前述行為與網路爬蟲技術的本身並無直接關係，再者，本文較關注爬蟲技術對於「公開網頁」上的資料擷取行為，既然該等資料已經公開，任何人連上網路即得以見聞，即已喪失「秘密性」（我國營業秘密法第 2 條），則不可能該當營業秘密法下的營業秘密要件。. 59. 參照我國專利法第 58 條與 TRIPs 第 28 條第 1 項規定，專利權法所賦予專利權人的排他權，係指排除他人未經其同意而「實施」該發明之權；而對於專利物的「實施」係指製造、販賣、要約販賣、使用或為上述目的而進口專利物之行為；然而，網路爬蟲不論有無取得事先授權，其行為僅是取得資料，即便網路爬蟲擷取的標的是專利說明書的內容，也不足以構成專利權的「實施」，故專利法與網路爬蟲技術較無關聯。 20. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(28) 又例如搜尋引擎使用的網路爬蟲，其擷取的標的是目標網頁的 HTML 文件，建立網址超連結的索引，理論上不涉及著作的利用；然而，為了讓搜尋引擎使用者更精確、快速的找到網頁連結，有些搜尋引擎不只是複製網頁標記，而是把網頁以快照方式（又稱快取， Cache） 60 儲存一份副本在自己資料庫，以利在超鏈結失效的狀況下，仍能快. 速地從自己資料庫回應使用者搜尋需求 61 ；而儲存包含所有網頁內容的網頁快照行為，亦有可能會構成著作權侵權 62 。簡而言之，網路爬蟲的利用存有潛在的智慧財產侵害問題。第四項傷害商業競爭秩序. 立. 政治大. 有論者認為，網路爬蟲行為就算不侵害智慧財產權，也有害於市. ‧ 國. 學. 場競爭關係，因為網路爬蟲行為是取用他人付出努力與投資所取得的資料，可能使得未來資料持有者失去繼續投資的動機。容忍這種商業. ‧. 手段，也暗示著當市場上有新的產品出現，另一事業不需要自己從零. y. Nat. sit. 開始構思新產品，只要能夠擷取他人網站上資料，即可以架設一個類. er. io. 似的網站，長遠來看，有害網路產業的競爭關係 63。. al. n. v i n 舉例而言，透過網路C 爬蟲技術擷取資料，代表事業無須自行產生 hengchi U. 原始資料，即可加以利用。如果一家企業將歷史銷售紀錄應用資料分. 析技術探察使用者的消費模式，又依據庫存量、銷售預測、比較競爭. 60. 後續章節將討論網頁快照之法律問題，參第三章第四節、第四章第二節。. 61. 楊智傑，搜尋引擎與合理使用：美國案例與 Google 圖書館計畫，智慧財產月刊，125 期，頁 42，2009 年 5 月。. 62. 關於網頁快照之討論請見第三章第四節第一項，與第四章第二節。. 63. Howard A. Shelanski, Information, Innovation, and Competition Policy for the Internet, 161 U. PA. L. REV. 1663, 1700 (2013). 21. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(29) 商品價格來設定最精準的定價 64 ；此時，其他競爭者可以用網路爬蟲技術，直接擷取呈現在該企業網站上的商品價格資料，並調整成相對應的訂價，完全不需要取得該家企業原本加以分析的資料本身，亦可以達到同樣的精準定價效果 65 。由此觀之，如果資料持有者不能實質地控制網站的瀏覽者，或不能限制對資料（與形成的資料庫）的訪問與存取，可能傷害其投資在軟、硬體的資料庫建置的誘因。. 第三節. 網路爬蟲相關法律爭議. 政治大基於以上或有好壞立的影響，資料持有者努力採取各種技術手段，. ‧ 國. 學. 或是以法律主張維護網站不受網路爬蟲的擷取。首先，最常見的技術手段當屬「爬蟲協議」，然其法律定位仍曖昧不明；而在進入法律適. ‧. er. io. sit. Nat. 第一項爬蟲協議（ Robot Exclusion Protocol）. y. 用之前，需先釐清「資料」本身的權利內涵為何。. 在毫無限制的恣意網路爬蟲行為容易造成伺服器流量阻塞、損及. al. n. v i n 商業利益的情況下，資料C 持有者開始思考如何可以解決這種問題，通 hengchi U. 64. Jeffrey Dastin, Amazon trounces rivals in battle of the shopping “bots”, REUTERS (May 10, 2017, 01:17 PM), https://www.reuters.com/article/us-amazon-com-bots-insight/amazon-trounces-rivals-inbattle-of-the-shopping-bots-idUSKBN1860FK (last visited July 3, 2018).. 65. Rubinfeld & Gal, supra note 4, at 373-74. 22. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(30) 常會在網站載有使用者服務條款（ Terms of service） 66，以聲明或契約的方式限制網站使用者的爬蟲行為；或在設計網頁時，透過技術文件限制資訊擷取 —通常該項技術文件係指俗稱的「爬蟲協議」（ Robot Exclusion Protocol） 6768。爬蟲協議發展的背景，源自於 1993 至 1994 年已經開始有運用程式自動、大量擷取網站內容 69，因此網路社群在 1994 年 6 月 30 日召開當時最有公信力的會議 The Robot Mailing List Conference 70，討論如何建立一套資料抓取的原則，以因應方興未艾的網路爬蟲運作 71。. 立. 學. 例如，Facebook 使用條款第 3 條：「您不會收集用戶的內容或資訊，或以其他方式在未經我. ‧ 國. 66. 政治大. 們事先許可下，使用自動化方式登入 Facebook（如網頁收割機器人、機器人、蜘蛛程式或擷取程式）」以及第 12 條：「除非您在開放源代碼許可授權下或我們給予您明確書面許可的. ‧. 情況下，獲得了以下相關行動的明確許可，否則，您不得修改、建立衍生作品、反彙編或以其他方式嘗試提取我們的原始碼」， https://www.facebook.com/terms.php （最後瀏覽日：. y. Nat. sit. 2018/03/24）；又例如 Amazon 的 Conditions of Use 在 LICENSE AND ACCESS 條款載. io. er. 有：”Amazon or its content providers grant you a limited, non-exclusive, non-transferable, nonsublicensable license to access and make personal and non-commercial use of the Amazon Services.. al. n. v i n C any collection and use of any producthlistings, e n gdescriptions, h i Uor prices; any derivative use of any c Amazon Service or its contents; any downloading or copying of account information for the benefit This license does not include any resale or commercial use of any Amazon Service, or its contents;. of another merchant; or any use of data mining, robots, or similar data gathering and extraction tools.”，https://www.amazon.com/gp/help/customer/display.html?nodeId=508088（最後瀏覽日： 2018/03/24）。 67. 直譯為「機器人排除標準」，亦有翻譯為機器人協議。有學者強調為求精準，主張應稱為「爬蟲訪問控制政策」，惟業界通俗稱呼既為「爬蟲協議」，本文從之。參張金平，有關爬蟲協議的國外案例評析，電子知識產權，頁 80，2012 年 12 期。. 68. 除了爬蟲協議之外，在設計網頁時也可以使用功能類似的技術文件「meta 標籤」（metatag），與爬蟲協議功能類似，亦是一種指示網路爬蟲抓取或索引網頁內容範圍的程式語言。. 69. MITCHELL, supra note 16, at 223.. 70. The Robot Mailing List Conference 是由一名工程師 Martjn Koster 所發起，現在仍可以取得早期論壇的討論紀錄，http://www.robotstxt.org/mailinglist.html（最後瀏覽日：2018/07/03）。. 71. 王夢璇，「爬蟲協議」法律問題研究，北京化工大學學位論文，頁 4，2016 年。 23. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(31) 「爬蟲協議」是一種程式語法，在網站的根目錄上建立一個以 Robots.txt 命名的文檔，告知資料擷取方（例如搜尋引擎、或其他類型的網路爬蟲）哪幾個頁面與特定內容，允許或禁止被機器人讀取 72 ，其呈現之方式例如下圖三。其設置目的有兩點： 1.. 保護網站內容安全、隱私及網路安全，避免網路爬蟲惡意. 擷取敏感資訊。 2.. 避免搜尋引擎等網路爬蟲抓取資料耗費流量過大，而導致. 該網站的其他用戶無法進入，伺服器癱瘓 73。. 政治大每個網站的網站使用者條款，可能分別使用不同的字詞稱呼網路立. 爬蟲行為，相對地，使用爬蟲協議這種程式語言較能夠被網路爬蟲解. ‧ 國. 學. 讀，得以有效地和訪問網站的網路爬蟲溝通網站的訪問政策 74。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖三京東網站爬蟲協議示意圖 75. 72. 寧立志、王德夫，「爬蟲協議」的定性及其競爭法分析，江西社會科學，2016 年 1 期，頁 161，2016 年。. 73. 王夢璇，前揭註 71，頁 4；楊華權，論爬蟲協議對互聯網競爭關係的影響，知識產權，頁 1617，2014 年 1 月。. 74. MITCHELL, supra note 16, at 223.. 75. 京東為中國前三大電子商務平台，京東網站之爬蟲協議，https://www.jd.com/robots.txt（最後瀏覽日：2018/07/03）。 24. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(32) 在程式碼中，「 User-agent」指向某請求瀏覽網站的網路爬蟲，再透過「 allow 」值和「 disallow 」值，允許或禁止該特定網路爬蟲可以擷取的網頁範圍；而「 *」和「 /」的寫作方式則是表現「所有的」、或「任何的」。以圖三為例，此為中國電子商務網站京東網站的爬蟲協議檔案，「 User-agent: Etao Spider 」即表示針對一淘網的爬蟲，「 Disallow: /」代表京東網站設定一淘網為黑名單，且所有的京東網頁均不可以擷取。另外，為了避免爬蟲程式過於快速與頻繁的擷取網站資料，在爬. 政治大 delay」表現；例如，程立式設計為 Crawl-delay:10，代表網路爬蟲每次. 蟲協議中亦可以以程式碼限制網路爬蟲的擷取速度，程式以「 Crawl-. ‧ 國. 學. 擷取資料的間隔時間為 10 秒。. 問題在於，爬蟲協議只是一套網路社群遵循的程式寫作慣例，雖. ‧. 然大多數的知名搜尋引擎遵守網站的爬蟲協議，並沒有強制力要求網. y. Nat. sit. 路爬蟲遵守爬蟲協議 76 。這個性質影響爬蟲協議的法律效果，究竟違. n. al. er. io. 反爬蟲協議擷取網站資料，是否構成規避網站所設置的「技術保護措. i n U. v. 施」？以及違反爬蟲協議，是否即該當不正競爭行為？本文將於第三章及第四章分別討論。. Ch. engchi. 第二項資料之性質網路爬蟲行為所搜集之客體為網頁所呈現的內容，更精確的來說，是蒐集網頁上載有的資料，因此有必要須進一步討論，何謂資料？資料是否有「所有權」可言？. 76. See MITCHELL, supra note 16, at 223. 25. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(33) 資料（ Data ）泛指任何儲存為電子格式的資訊，資料的產生可能來自感測器、線上交易紀錄、網路點擊流量、網站使用者活動的紀錄，或來圖片、影像、電子郵件等等各種可以數位化呈現的資料 77。依蒐集的主體區分，網路上的資料可以分為「公領域資料」（ Public Sector Data ）與「私領域資料」（ Private Sector Data ） 78 。「公領域資料」指稱的為政府等公部門所蒐集的資料，例如健康保險資料、即時高速公路流量資訊等等，近年開放資料的風潮在民主國家間十分盛行，原因就是希望釋放這些政府蒐集自民間的資料回到民間，. 政治大台北市政府資料開放平立台 data.taipei，希望藉由公部門提供原始資料，讓人民得以加值利用，甚至利用資料分析監督政府施政效率。例如，. ‧ 國. 學. 使民間得以發揮創意、利用技術，提升城市治理效能 79；而「 g0v 零時政府」是一個致力於利用資訊技術促進公民參與的線上社群，他們提. ‧. 出多項開放政府專案，利用網路爬蟲等自動化技術擷取政府單位的預. sit. y. Nat. 算資料，加以處理、分析、美化複雜而繁瑣的原始資料列表，使一般. al. n. 重要加值技術。. er. io. 民眾也易於理解 80 。因此，網路爬蟲技術可說是擷取公開網頁資料的. Ch. engchi. i n U. v. 「私領域資料」指稱非政府單位所蒐集的資料，包含企業蒐集自銷售、鋪貨、物流等內部資料，或是蒐集自網站使用者的點擊紀錄等，還有網頁上公開呈現的商品價格資料、圖片、文字、影片等等。網路. 77. 分析：大量資料在現實世界中的使用，IBM 商業價值研究院與牛津大學賽德商學院合編，頁 4，http://www.sysage.com.tw/Guest/getFile.aspx?fileid=119（最後瀏覽日：2018/07/03）。. 78. Kingsley Jones & CIFR Research Fellow, Submission to the Productivity Commission: Data Availability and Use, 10 (2016), http://apo.org.au/system/files/67132/apo-nid67132-33036.pdf.. 79. Data.Taipei 臺北市政府資料開放平台網站，http://data.taipei/opendata/aboutus（最後瀏覽日： 2018/07/03）。. 80. g0v 零時政府網站，https://g0v.tw/zh-TW/about.html（最後瀏覽日：2018/07/03）。 26. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(34) 爬蟲技術不僅可以擷取到公開網頁 81 的資料，如果先行取得或破解使用者密碼，亦有可能突破防火牆擷取閉鎖的私人網頁資料。從資料本身含有的資訊區分，資料又可以分為個人資料，與非個人資料 82 。基於對隱私權的保障與重視，大部分的工業化國家將個人資料保護視為重要公共政策，並訂定相關法律、監督機關和行為規範 83。以我國而言，大法官解釋第. 603 號將「個人資料之自主控制」定義. 為隱私權的保護內涵，屬於憲法第 22 條所保障之基本權利，為維護人性尊嚴、個人主體性之維護及完整人格發展所不可或缺，台灣也因此. 政治大. 訂有《個人資料保護法》限制公部門或私部門搜集與利用個人資料。. 立. 相對而言，非個人資料又被稱作工業資料（ Industrial Data ） 84 ，. ‧ 國. 學. 指的是機器感測蒐集的，或商業活動所產生的匿名化的資料 85 。首先，非個人資料對於數位經濟的市場潛能、資料分析技術的發展具有重大. ‧. 意義。根據 2017 年歐盟發佈的報告指出， 2016 年資料經濟市場價值約. y. Nat. sit. 為 600 億歐元，較前年增長幅度為 9.5%， 2020 年則有望超過 1060 億. n. al. er. io. 歐元的規模 86 。體認到非個人資料的流通的經濟意義，歐盟委員會於. i n U. v. 2017 年 9 月 13 日提出《非個人資料自由流動規則（草案）》. Ch. engchi. 81. 同參前揭註 15。. 82. Arguments Against Data Ownership: Ten questions and answers, MAX PLANCK INSTITUTE INNOVATION. AND. FOR. COMPETITION, 1, https://www.ip.mpg.de/fileadmin/ipmpg/content/forschung/A. rgumentarium-Dateneigentum_eng.pdf. 83. OECD, GUIDELINES ON THE PROTECTION OF PRIVACY AND TRANSBORDER FLOWS OF PERSONAL DATA (Sept. 23, 1980), http://www.oecd.org/sti/ieconomy/oecdguidelinesontheprotectionofprivacyandtran sborderflowsofpersonaldata.htm (amended on July 11, 2013 by C(2013)79).. 84. Gintare Surblyte, Data as a Digital Resource, MAX PLANCK INSTITUTE. FOR INNOVATION. &. COMPETITION Research Paper No. 16-12, 3 (2016). 85. Id. at 6.. 86. European Commission, Building A European Data Economy, COM(2017), 2, 28.02.2017. 27. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(35) （ Regulation on the free flow of non -personal data） 87，草案第一條即說明此規則的立法目的，在於促進非個人資料的開放性和自由流動，避免各歐盟會員國不一致的法律與不當的限制阻礙資料經濟的蓬勃發展 88 。再者，非個人資料的蒐集與利用上亦無侵害隱私等疑慮，目前並. 無法律特別加以管制 89。至於一種稱為半個人資料（ semi-personal data）的資料類型，則是指原本屬於個人資料，而後經過匿名化處理或去識別化處理，此種資料的性質則仍取決於是否仍能與個人識別產生連結，定其究為個人或非個人資料 90。. 政治大有著非對立性（ non-rivalrous 立）以及非排他性（ non-excludable ）的特. 至於非個人資料本身的權利性質，從資料的本質出發，數位資料. ‧ 國. 學. 徵 91 ，任何人利用資料，並不減損該資料，並且也不影響其他人同時利用該資料的可能性，有著明顯的公共財（ Public goods ）特質 92。資. ‧. 料可輕易被完美複製，並且無實體的特性，和一般民法概念下的所有. er. io. sit. y. Nat. al. n. v i n C h for a Regulation of U European Commission (2013b), Proposal e n g c h i The European Parliament And Of The Council on a framework for the free flow of non-personal data in the European Union, COM(2017). 87. 495 final, 13 September 2017. 88. Art. 1: “This Regulation seeks to ensure the free movement of data other than personal data within the Union by laying down rules relating to data localization requirements, the availability of data to competent authorities and data porting for professional users.”; Dominic Broy, The European Commission's Proposal for a Framework for the Free Flow of Non-Personal Data in the EU, 3 EUR. DATA PROT. L. REV. 380, 382 (2017).. 89. Surblyte, supra note 84, at 3.. 90. Id. at 7.. 91. Kingsley Jones & CIFR Research Fellow, supra note 78, at 33; Grosheide, supra note 46, at 40.. 92. 沈宗倫，資料庫著作權保護的檢討與新視界—以原創性為中心，月旦法學雜誌，188 期，頁 7，2011 年 1 月；See, WILLIAM FISHER, PROMISES TO KEEP — TECHNOLOGY, LAW AND THE FUTURE OF ENTERTAINMENT, 199-200 (2004). 28. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.

(36) 權賦予擁有者對財產排他的使用、收益和處分的權利，扞格不入，難以構成民法意義下的財產權 93。既然與傳統財產權並不相同，在目前法制架構下，應僅有呈現於網站上的各種文字、圖形、聲音、影像、電腦軟體等屬於著作時，受到著作權保護；於呈現商標或標章時，受到商標法保護；於傳輸資訊的技術應用上，因有專利與營業秘密保護之可能性，落於私有財的範疇 94 ；除此之外，資料本身如果僅是單純「 0 」與「 1 」的集合組成，僅為數位化的事實紀錄，並非人類智慧的結晶 95 ，自非屬智慧財產保. 政治大. 護的標的，而應屬於一種公共資源，應鼓勵非個人資料的流通與加值. 立. 學. ‧ 國. 利用。. 第三項網路爬蟲與限制資訊流通的法律. ‧. 回顧網際網路的特色，任何人皆可突破國境與時差傳輸資料，在. y. Nat. 網路上架設網站也不需要經過層層審核，學者認為這種「去中心化」. er. io. sit. （ decentralized）的性質，使網際網路本身是一個追求資訊流通（ free flow of information）的空間 96。. n. al. Ch. engchi. i n U. v. 資訊自由流通有著憲法上的意義，雖然憲法並無明文保護「資訊自由權」，然憲法意義下的言論自由權，保障人民接收訊息（ right to receive information），與獲取資訊（ right to obtain information）的權. 93. 梅夏英，數據的法律屬性及其民法定位，中國社會科學，2016 年 9 期，頁 169-170，2016 年。. 94. 馮震宇，網路法基本問題研究（一），頁 17，1999 年。. 95. 參見梅夏英，前揭註 93，頁 167-168。需注意其討論的 Data 只包含數位化的電子資料，並且在其討論範圍下，定義文字、影音都屬於「信息（information，我國普遍稱資訊）」與本文稍有不同，但是其亦承認資料是資訊的載體，兩者並非截然區分。. 96. Elkin-Koren, supra note 33, at 183; 另參李劍非，著作權與網路資訊自由，頁 180-181，2001 年 11 月。 29. DOI:10.6814/THE.NCCU.TIIPM.015.2018.F08.