快速大数据分析

(1)

(2)

(3)

(4)

图灵程序设计丛书

人民邮电出版社

北　　京

Learning Spark

Lightning-Fast Data Analysis

[美] Holden Karau [美] Andy Konwinski [美] Patrick Wendell [加] Matei Zaharia 著

王道远译英特尔大数据技术中心审校

Spark快速大数据分析

Beijing • Cambridge • Farnham • Köln • Sebastopol • Tokyo

O’Reilly Media, Inc.授权人民邮电出版社出版

(5)

内容提要

本书由Spark 开发者及核心成员共同打造，讲解了网络大数据时代应运而生的、能高效迅

捷地分析处理数据的工具——Spark，它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法，学会交互、迭代和增量式分析，解决分区、数据本地化和自定义序列化等问题。

本书适合大数据时代所有需要进行数据分析的人员阅读。

定价：59.00元

读者服务热线：(010)51095186转600　印装质量热线：(010)81055316 反盗版热线：(010)81055315

广告经营许可证：京崇工商广字第 0021 号 著　　　　[美] Holden Karau Andy Konwinski 　　　　　　　 Patrick Wendell

　　　　　[加] Matei Zaharia 译　　　　王道远

审　　校　英特尔大数据技术中心责任编辑　岳新欣

执行编辑　张　曼责任印制　杨林杰

人民邮电出版社出版发行　　北京市丰台区成寿寺路11号

邮编　100164　　电子邮件　315@ptpress.com.cn 网址　http://www.ptpress.com.cn

北京　　　　　　印刷开本：800×1000　1/16 印张：14.513

字数：343千字 2015年 9 月第 1 版

印数：1 — 3 500册 2015年 9 月北京第 1次印刷

著作权合同登记号图字：01-2015-3678号

◆

(6)

版权声明

© 2015 by O’Reilly Media, Inc.

Simpliﬁed Chinese Edition, jointly published by O’Reilly Media, Inc. and Posts & Telecom Press, 2015. Authorized translation of the English edition, 2015 O’Reilly Media, Inc., the owner of all rights to publish and sell the same.

All rights reserved including the rights of reproduction in whole or in part in any form.

英版由 O’Reilly Media, Inc. 出版，2015。

简中版由人民邮电出版社出版， 2015。英版的译 O’Reilly Media, Inc. 的权。简中版的出版和出版权和权的所有者——O’Reilly Media, Inc.

的。

版权所有，书，本书的任分和任式制。

(7)

O’Reilly Media 图书、、、和会等方式新。

自 1978 年开，O’Reilly 发的者和者。开

，而要的技术 —— 大的号社

会新技的应用。作技术社区中的者，O’Reilly 的发了新的

、造和发大。

O’Reilly 件开发人员带的书第网 GNN

了远的开代会，开件运了 Make ，

而成 DIY 的要地式人的带。

O’Reilly 的会和会集了和高远的领，共同出开

新的。作技术人的，O’Reilly 的

的计算用。书出版、者，

O’Reilly 的了的理 —— 发新的量。

O’Reilly Radar

Wired O’Reilly

Business 2.0 O’Reilly Conference

CRN O’Reilly

Irish Times

Tim 人

Yogi Berra Tim

Linux Journal

O’Reilly Media, Inc.介绍

(8)

1 Spark 数据分析

...1

1.1　Spark ...1

1.2　大的件 ...2

1.2.1 Spark Core ...2

1.2.2 Spark SQL...3

1.2.3 Spark Streaming ...3

1.2.4 MLlib ...3

1.2.5 GraphX...3

1.2.6 ...4

1.3　Spark 的用和用 ...4

1.3.1 ...4

1.3.2 ...5

1.4　Spark 简 ...5

1.5　Spark 的版本和发 ...6

1.6　Spark 的存次...6

2 Spark

...7

2.1　 Spark...7

(9)

2.2　Spark 中 Python 和 Scala 的 shell ...9

2.3　Spark 核心简 ...12

2.4　应用 ...14

2.4.1 SparkContext ...15

2.4.2 ...16

2.5　 ...19

3 RDD

...21

3.1　RDD ...21

3.2　 RDD ...23

3.3　RDD 作 ...24

3.3.1 ...24

3.3.2 ...26

3.3.3 ...27

3.4　 Spark 数...27

3.4.1 Python ...27

3.4.2 Scala ...28

3.4.3 Java ...29

3.5　的化作和行作 ...30

3.5.1 RDD ...30

3.5.2 RDD ...37

3.6　化( 存) ...39

3.7　 ...40

4

...41

4.1　 ...41

4.2　 Pair RDD ...42

4.3　Pair RDD 的化作 ...42

4.3.1 ...45

4.3.2 ...49

4.3.3 ...50

4.3.4 ...51

4.4　Pair RDD 的行作 ...52

4.5　数据分区进 ...52

4.5.1 RDD ...55

4.5.2 ...56

4.5.3 ...57

4.5.4 PageRank ...57

4.5.5 ...59

4.6　 ...61

(10)

5 数据

...63

5.1　 ...63

5.2　件式 ...64

5.2.1 ...64

5.2.2 JSON ...66

5.2.3 ...68

5.2.4 SequenceFile ...71

5.2.5 ...73

5.2.6 Hadoop 出 ...73

5.2.7 ...77

5.3　件 ...78

5.3.1 / ...78

5.3.2 Amazon S3 ...78

5.3.3 HDFS ...79

5.4　Spark SQL 中的化数据 ...79

5.4.1 Apache Hive ...80

5.4.2 JSON ...80

5.5　数据 ...81

5.5.1 Java ...81

5.5.2 Cassandra ...82

5.5.3 HBase ...84

5.5.4 Elasticsearch ...85

5.6　 ...86

6 Spark

...87

6.1　简 ...87

6.2　加 ...88

6.2.1 ...90

6.2.2 ...91

6.3　量 ...91

6.4　分区进行作 ...94

6.5　序的道 ...96

6.6　数 RDD 的作 ...99

6.7　 ...100

7 Spark

...101

7.1　简 ...101

7.2　Spark 运行时 ...101

7.2.1 ...102

(11)

7.2.2 ...103

7.2.3 ...103

7.2.4 ...104

7.2.5 ...104

7.3　用spark-submit 应用 ...105

7.4　打代 ...107

7.4.1 Maven Java Spark ...108

7.4.2 sbt Scala Spark ...109

7.4.3 ... 111

7.5　Spark 应用应用 ...111

7.6　集理 ...112

7.6.1 ...112

7.6.2 Hadoop YARN ... 115

7.6.3 Apache Mesos ... 116

7.6.4 Amazon EC2 ... 117

7.7　合适的集理 ...120

7.8　 ...121

8 Spark

...123

8.1　用 SparkConf Spark ...123

8.2　Spark 执行的成分：作、任和 ...127

8.3　 ...131

8.3.1 Spark ...131

8.3.2 ...134

8.4　能量 ...135

8.4.1 ...135

8.4.2 ...136

8.4.3 ...137

8.4.4 ...138

8.5　 ...139

9 Spark SQL

...141

9.1　 Spark SQL ...142

9.2　应用中用 Spark SQL ...144

9.2.1 Spark SQL...144

9.2.2 ...145

9.2.3 SchemaRDD ...146

9.2.4 ...148

9.3　读和存数据 ...149

9.3.1 Apache Hive ...149

(12)

9.3.2 Parquet ...150

9.3.3 JSON ...150

9.3.4 RDD ...152

9.4　JDBC/ODBC ...153

9.4.1 Beeline ...155

9.4.2 ...156

9.5　用自定义数 ...156

9.5.1 Spark SQL UDF ...156

9.5.2 Hive UDF ...157

9.6　Spark SQL 能 ...158

9.7　 ...159

10 Spark Streaming

...161

10.1　简的子 ...162

10.2　 ...164

10.3　化作 ...167

10.3.1 ...167

10.3.2 ...169

10.4　出作 ...173

10.5　 ...175

10.5.1 ...175

10.5.2 ...176

10.5.3 ...179

10.6　24/7 运行 ...180

10.6.1 ...180

10.6.2 ...181

10.6.3 ...182

10.6.4 ...182

10.6.5 ...183

10.7　Streaming 用 ...183

10.8　能量 ...184

10.8.1 ...184

10.8.2 ...184

10.8.3 ...185

10.9　 ...185

11 MLlib

...187

11.1　 ...187

11.2　要 ...188

11.3　学 ...189

(13)

11.4　数据 ...192

11.5　算法 ...194

11.5.1 ...194

11.5.2 ...196

11.5.3 ...197

11.5.4 ...202

11.5.5 ...203

11.5.6 ...204

11.5.7 ...206

11.6　能量 ...206

11.6.1 ...206

11.6.2 ...207

11.6.3 RDD ...207

11.6.4 ...207

11.6.5 ...207

11.7　 API ...208

11.8　 ...209

...210

(14)

年大数据，有人问大数据要。处数据的时代，

大量的能、、及网时生新的数据。

，有 90% 的数据年生的。 2020 年，有 500 台的互

生 Zeta 字的数据。带的海量数据本，而用

数据。大数据解决方的大它快速处理大、的数据集，

方法快、地生成。

大数据解决方要件，存、计算和网络等件，数据处理

，用的计和计算算法、数据化的分析。中，

数据处理了分要的作用。张地，数据处理大数据 CPU

计算，大人。

2009 年，Matei Zaharia 加大学分校的 AMPLab 进行时了 Spark 大数据处理和计算。同的数据处理，Spark 存的本

primitive 应用序带了 100 的能。Spark 用序数据加

集存中用，适用大数据和学，成用的大数据

。 Cloudera 和 MapR 的大数据发行版发时加了 Spark。

，Spark Hadoop 和大数据生发生，地的大数

据分析需，：Spark Spark 核心，发了 Spark streaming、SQL、MLlib、

GraphX、SparkR 等。学 Spark 和它的件有大数据处理速

，能开发者和数据学地分析应用。、、交

，Spark 的大数据解决方所的量进的成，带

的加速决制定。

年中，的有会本书的作者合作， Apache Spark 社区成，

英特尔化大数据和 Spark 应用。 Spark 快速大数据分析的出版开发者和

(15)

数据学了丰的 Spark 。要的，本书简地开发者用

Spark，而了 Spark 的成，了化大数据应

用。大本书，具，本书的化方法和路，它

能出的大数据应用。

2015 7

Big data is getting hot in recent years. Quite often, folks ask why big data is a big deal. We are in the era of data explosion, with the emergence of smart phones, tablets, wearables, IoT devices, etc. Ninety percent of the data in the world today was generated in just the past two years. By 2020, we will see >50B devices connected and Zeta byte data created. It is not the quantity of the data that is revolutionary. It is that we can now do something with it that's revolutionary. The power of big data solutions is they can process large and complex data sets very fast, generate better and faster insights than conventional methods.

A big data solution suite can consist of several critical components, from the hardware layer like storage, compute and network, to data processing engine, to analytics layer where business insights are generated using improved statistical & computational algorithms and data visualization. Among all, the data processing engine is one most critical player. It is not over- stating that the data processing engine for big data is like CPU for a computer or brain for a human being.

Spark was initially started for the purpose of creating a big data processing and computing framework, when Matei Zaharia was doing his Ph.D. research at UC Berkeley AMPLab in 2009.

Different from the traditional data processing framework, Spark's in-memory primitives provide performance up to 100 times faster for certain applications. By allowing user programs to load data into a cluster's memory and query it repeatedly, Spark is well-suited for big data and machine learning use cases. Spark is becoming one best adopted among all big data modules. Big Data Distributions like Cloudera, MapR now all include Spark into their distributions.

Spark is now evolving the Hadoop and big data ecosystem to better support the end-to-end

big data analytics needs, e.g. Spark grew beyond Spark core to Spark streaming, SQL, MLlib,

GraphX, SparkR, etc. Learning Spark and its internals will not just help improve the processing

speed for big data, but also help developers and data scientists create analytics applications with

more ease. With big data solutions like Spark, we expect to see signiﬁcant improvement with

(16)

business insights which will help expedite the decision making—like we've never seen before, from enterprise, healthcare, transportation, and retail.

Over the years, my organization had the opportunities to work with authors of this book, contribute to Apache Spark, and optimize various Big Data and Spark application on Intel Architecture. The publication of Learning Spark offers developers and data scientists extensive knowledge on Spark. Moreover, Learning Spark does not simply try to tell the developers how to use Spark, it also addresses the internals and shows various examples of how to improve your big data applications. I recommend Learning Spark—that this book, and, more speciﬁcally, the method it espouses, will change your big data application for the better.

Ziya Ma, General Manager of the global Big Data Technologies organization, SSG STO, Intel Corp.

Santa Clara, California, July 2015

(17)

译者序

大数据年的。，互网发，生的

，而的数据量的数增。，人学会了分析数据有

价的。有时，的，的数据法有效保所有的，

出的有效。用，而数据大，需要进数据处理

的。人工计用的计算件进行分析， MapReduce ，

数据增，处理数据的方式。，件的发

存计算成了能， Spark 由出，它的字，，迅速了

工的。

Spark 快速大数据分析本 Spark 学者的书，它有，而

用的具用法。，本书 Spark 的用法，它 Spark 的

核心和本理有的，读者能所。

Spark 用计算，用 Spark 的应用价所。欣

地，的互网用 Spark 造出了量的价。本书的读

者 Spark 应用中，数据海的。

本书成，开方。人民邮电出版社图的、岳新欣

、张曼，本译的出版了大。本人所的英特尔

发有大数据，中、、、张分责了本书分的审校

工作，、、本书的译工作了。 Databricks 的学

，成了出版社的合作。译的中，自人的理解和

。

本书所，Spark 大的件，及方方的，本书的译增加了

。译者保译的，由学有，会有处。而

大数据作新学，术有定成的译法。Spark 发中，本

(18)

书英据 Spark 1.2 编，而译者量了 Spark 1.4 译时的新

版本的化。读者发了本书中的处，。的

电子邮：me@daoyuan.wang。

2015

(19)

序

Spark 作代大数据处理，的时，

。Spark 大数据的 Hadoop MapReduce 的进要

方：， Spark 速快次， Spark 丰的 API 带了大的用，

Spark 处理应用，交互式、式计算、学、图计算等

应用，同应用的需。

能地 Spark 的开发中， Spark 路， Spark

的成的大数据开。， Spark 成 Apache 会

的。， Spark 人 Matei Zaharia 及 Spark 开发者 Patrick Wendell、Andy Konwinski 和 Holden Karau 由高。

成了本书的著作工作。

Spark 的迅速行，的问题时出。本书共有 11 ，

学 Spark 的数据学、学生、开发者计的具，大大解了

Spark 的问题。有大数据方的读者，本书

作大数据领的。地本书能领和读者进大数据

人的新领，年。

Databricks AMPlab Ion Stoica

(20)

前言

行数据分析行，行的工作者需要的数据分析工具。

Spark 应运而生，迅速了。作 MapReduce 的者，Spark 要有。

， Spark 用。由高 API 了集本的，所要

的计算本，需自的记本电开发 Spark 应用。次，Spark 快，

交互式用和算法。， Spark 用，用它成的运算，

SQL 、本处理、学等，而 Spark 出，需要学

的分处理需。大 Spark 作学大数据的

的。

本书要 Spark，读者能 Spark。能本书中学 Spark

的电运行，交互式作学 Spark 的 API。会讲解用 Spark 作数据作和分式执行时的。，本书会带 Spark 高的序

，学、处理、图计算和 SQL 。本书能了解 Spark。

有台电有大的集， Spark 能成运的数据分析工具。

本书的读者数据学和工。的，能用

Spark 解决能会有法解决的问题。Spark 了能丰的数据

作 MLlib ，数据学用自的计学，数据集

大所能处理的数据问题。同时，工本书中学和用

Spark 编用的分式序运应用。工和数据学能本书中学

自需要的具技能，而能自领中用 Spark 解决大分式问题。

(21)

数据学数据中发及。数据学有计学者数学，中的大数 Python 、R 、SQL 等数据分析工具。本书中，会讲 Spark 中学和高数据分析的序，会 Python

者 SQL 的应用作 Spark 用进行。数据学，读

本书，能快速和大数据的同时，用的方式解

决问题。

本书的第读者件工。工，的 Java Python，

的编，本书能会 Spark 集，用 Spark

shell，及编 Spark 应用序解决需要行处理的问题。 Hadoop，

HDFS 进行交互及理集的领中领了。有

Hadoop 用心，会本书中讲解本的分式执行的。

数据分析工，读本书，应 Python、Java、Scala 者

的编有本了解。，有了数据存的解决方

，所会讲数据存，会的数据存

读和保存数据。用编心，有的学

理解，的中列了。

本书，次阅读的序的。的开，会

本中的数据学要，而工有用。

，书中的所有读者能有定的。

会带，自的电的 Spark，用 Spark

能有本的。等了 Spark 的和 Spark 的，会

Spark shell。Spark shell 开发 Spark 应用时有用的工具。会 Spark API、 Spark 应用运行集，及 Spark 所的高的序

， SQL 数据和 MLlib 学。

有 Python 的数据学， Learning Python O’Reilly 和 Head First Python O’Reilly 。有了定的 Python ， Dive Into Python http://www.diveintopython.net/ 进加 Python 的理解。

工，读本书高自的数据分析技能，O’Reilly 出版的

Machine Learning for Hackers 和 Doing Data Science 的书。

(22)

本书要学者而，计理解 Spark 理的人

本加的书。

本书用了列版定。

• 新术。

• 等字

Constant width

序，及中出的量、数、数据、数据、量、

和字等。

• 加等字 Constant width bold

应由用的本。

图。

本书中所有的代 GitHub 。 https://github.com/databricks/

learning-spark 中和出代。代 Java、Scala 和 Python 的版本。

Java 版本的代 Java 6 及高版本。Java 8 了 lambda 的

新法，方地编数而简化Spark 代。由

有开用Java 8，决定的大数中用新法。

Java 8 的法，阅Databricks Java 8 法的

http://databricks.com/blog/2014/04/14/spark-with-java-8.html 。有

序会 Java 8 ，发本书的GitHub 代中。

(23)

本书要成工作的。，本书了代，它用的

序中。用了大分代，需。，用本书

的代序需，分发 O’Reilly 图书的需要

用本书中的代问题需，书中大量的代的

中需要。

制要用本书时加用。用书、

作者、出版社和 ISBN。： Web Development with Node and Express by Ethan Brown (O’Reilly). Copyright 2014 Ethan Brown, 978-1-491-94930-6.

自代的用法出了的， permissions@

oreilly.com 。

Safari ^® Books Online

Safari Books Online http://www.safaribooksonline.com 应运而生的数字图书。它同时图书和的式出版

技术和作的作。技术、件开发人员、Web

计、人和等，开、解决问题、学

和时， Safari Books Online 作的道。

、和人，Safari Books Online 合和的定价。用能的数据问 O’Reilly Media、Prentice Hall Professional、Addison-Wesley Professional、Microsoft Press、Sams、Que、Peachpit Press、Focal Press、Cisco Press、John Wiley & Sons、Syngress、Morgan Kaufmann、IBM Redbooks、Packt、Adobe Press、FT Press、Apress、Manning、New Riders、McGraw-Hill、

Jones & Bartlett、Course Technology 及出版社的千图书、和式出版的书。要了解 Safari Books Online 的，网。

本书的价和问题发出版社。

美：

O’Reilly Media, Inc.

1005 Gravenstein Highway North

Sebastopol, CA 95472

(24)

中：

北京市区大 2 号成大 C 807 100035

技术北京有

O’Reilly 的本书有网，本书的，、

代及。本书的网地址：

http://bit.ly/web_dev_node_express

本书的和技术问题，发电子邮件：bookquestions@oreilly.com。

要了解 O’Reilly 图书、、会和新的，问网： http://www.oreilly.com

Facebook 的地址：http://facebook.com/oreilly 的 Twitter ：http://twitter.com/oreillymedia

的 YouTube 地址：http://www.youtube.com/oreillymedia

Joseph Bradley、Dave Bridgeland、Chaz Chandler、Mick Davies、Sam DeHority、Vida Ha、Andrew Gal、Michael Gregson、Jan Joeppen、Stephan Jou、Jeff Martinez、Josh Mahonin、Andrew Or、Mike Patterson、Josh Rosen、Bruce Szalwinski、Xiangrui Meng、

Reza Zadeh 等审阅者，本书的作出了的。

特 David Andrzejewski、David Buttler、Juliet Hougland、Marek Kolodziej、Taka Shinagawa、

Deborah Siegel、Normen Müller 、 Ali Ghodsi、Sameer Farooqui 等人，大分

了的，出了要的进处。

要编辑和编分的题。第 10 Tathagata Das 的合作共同成的。Tathagata 了大的，的工作

、问、进版及技术的。Michael Armbrust 审校了 Spark

SQL 。第 11 中，Joseph Bradley MLlib 了。Reza

Zadeh 的分了图和代。Xiangrui Meng、Joseph Bradley 和

Reza Zadeh MLlib 了编审和技术的。

(25)

第 1 章

Spark数据分析导论

本会 Spark 。 Spark 和件有定了解，

第 2 开读。

1.1 Spark

Spark 用快速而通用的集计算的台。

速方，Spark 了用的 MapReduce 计算，而高效地计算

式，交互式和处理。处理大数据集时，速要的。速快

进行交互式的数据作，次作需要等数分数时。

Spark 的要特能存中进行计算，而快。

进行的计算，Spark MapReduce 加高效。

的，Spark 适用需要同的分式台的，处理、

迭代算法、交互式、处理。的同的计算， Spark

简而地处理整合。而的合，的数据分析

中有义的。， Spark 的特大大了需要台分

理的。

Spark 所的丰。了 Python、Java、Scala 和 SQL 的简用的

API 及的丰的序，Spark 能和大数据工具合用。，

Spark 运行 Hadoop 集，问 Cassandra 的任 Hadoop 数据。

(26)

1.2 大

Spark 集成的件。Spark 的核心由计算任成的、运行

工作者计算集群的应用进行、分发及的计算。由

Spark 的核心有速快和用的特， Spark 同应用

计的高件， SQL 和学等。件互用，

件中用序，合用的件。

件合的计理有。，件中所有的序和高件

的进中。， Spark 的核心新了化时，SQL 和

学序能自能。次，运行件的代价了。需要运

行 5 10 的件了，需要运行件。代价

的、、、等。 Spark 件中增加新的件，

用 Spark 的能用新加的件。新的数据分析所需

要的、学新的件的代价简化成了需要 Spark。

，合的理的大，能出合同处理的应用。

，用 Spark，应用中数据中的数据用学算法进行

时分。同时，数据分析 SQL 时数据，数据

化的件进行作。，有的数据工和数据学

Python shell 问数据，进行时分析。人的处理应用问

数据。IT 需要。

Spark 的件图 1-1 所，次简要它。

MLib 学

GraghX 图计算 Spark SQL

化数据

Spark Streaming

时计算

图 1-1：Spark 软件栈

1.2.1 Spark Core

Spark Core 了 Spark 的本能，任、存理、、存

(27)

交互等。Spark Core 中了弹性分布式数据集 resilient distributed dataset，简

RDD 的 API 定义。RDD 分计算行作的元集合，

Spark 要的编。Spark Core 了和作集合的 API。

1.2.2 Spark SQL

Spark SQL Spark 用作化数据的序。 Spark SQL，用 SQL 者 Apache Hive 版本的 SQL 方 HQL 数据。Spark SQL 数据，

Hive 、Parquet 及 JSON 等。了 Spark 了 SQL ，Spark SQL 开发者 SQL 和的 RDD 编的数据作方式合，用 Python、Java

Scala，开发者的应用中同时用 SQL 和的数据分析。 Spark

所的丰的计算进行的合，Spark SQL 开数据工具

中而出。Spark SQL Spark 1.0 中的。

Spark SQL ，加大学分校 Apache Hive 运行 Spark

，时的作 Shark。，由 Spark SQL Spark 和 API 的合， Shark Spark SQL 所代。

1.2.3 Spark Streaming

Spark Streaming Spark 的时数据进行式计算的件。生中的网

，网络中用交的新成的列，数据。 Spark

Streaming 了用作数据的 API， Spark Core 中的 RDD API 高应。

，序员编应用时的学，作存中的数据，

作时数据，序员能应自。计，Spark Streaming Spark Core 同的、量及。

1.2.4 MLlib

Spark 中的学 ML 能的序，作 MLlib。MLlib

了学算法，分、、、同等，了、数据

等的能。MLlib 了的学，用的

化算法。所有方法计集的。

1.2.5 GraphX

GraphX 用作图社交网络的图的序，进行行的图计算。

Spark Streaming 和 Spark SQL ，GraphX 了 Spark 的 RDD API，能用

和任的有图。GraphX 图的作进行图

(28)

分的

subgraph

和作所有的

mapVertices

，及用图算法 PageRank 和计数。

1.2.6 而，Spark 计高效地计算数千计算计

算。了的要，同时大，Spark 集群管理器 cluster

manager 运行， Hadoop YARN、Apache Mesos，及 Spark 自带的简

，作。要有任集理的 Spark， Spark

自带的而有了有 Hadoop YARN Mesos

的集， Spark 集理的，的应用同能运行集。第

7 会同的及合适的集理。

1.3 Spark

Spark 用集计算的用计算，用的应用序。中

了本书的大读者人：数据学和工。分析及

用 Spark 的方式，发用 Spark 的用，

用大分 ——数据科学应用和数据处理应用。

，领和用式的分的。人有数据学和工的能

，有的时数据学的进行，成工，地编

的数据处理序。，分开大和应的用有义的。

1.3.1 数据

数据学年出的新学，的数据分析领。有的定义，

数据科学家 data scientist 要责分析数据的人。数据学有

能具 SQL、计、学等方的，及定的用 Python、

Matlab R 进行编的能。数据方分析和的式，数

据转换 data wrangling ，数据学中的要技术有所了解。

数据学用的技能分析数据，问题发。的工作

会用时分析，所用交互式 shell 代应用的，

时和简代的运行。Spark 的速及简的 API 能

大，而 Spark 的序的算法能用。

Spark 列件数据学任。Spark shell Python 和 Scala 的

，方地进行交互式数据分析。Spark SQL 的 SQL shell，

(29)

shell 中用 SQL 数据，的 Spark 序者 Spark shell 进行 SQL 。学和数据分析 MLlib 序。，Spark 能

用 R 者 Matlab 成的序。数据学用 R Pandas 等数据分析工具时所能处理的数据集，而有了 Spark，能处理大数据的问题。

的，数据学的工作需要应用中。具问题应用

的能、高应用的定，生进行，成应用的分。

，数据学成的，能会生中的

，合网应用中，用。，数据学的工作化

生中的应用的工作由的工者工成的，而数据

学。

1.3.2 数据

Spark 的要用工的。，工定义用 Spark 开发

生中的数据处理应用的件开发者。开发者有本的件工，

、计及的编，有计算的，能用工

技术计和件，用。

工，Spark 开发用集行执行的序了捷。，Spark

需要开发者分式编的问题，需网络和

序。Spark 工了的快速的任，及应用

进行、审和能。 API 化的特分式的集用

序进行开发及本地大大简化。

Spark 用所 Spark 开发的数据处理应用， Spark 了丰的

能，学和用，成定。

1.4 Spark

Spark 由大而的开社区开发和的，社区中的开发者自

同的。者所的第次用 Spark，会 Spark

的。Spark 2009 年作加大学分校 RAD

AMPLab 的生。中的人员用 Hadoop MapReduce。

发 MapReduce 迭代计算和交互计算的任效。，Spark 开

交互式和迭代算法计的，同时存式存和高效的制。

2009 年， Spark 的学术会发，同年 Spark 式生。，

MapReduce，Spark 任了 10 20 的能。

(30)

Spark 的分用自加分校的，中著的有 Mobile

Millennium。作学领的，用 Spark 区

的交。了的时，开用 Spark。，

有 50 自加了用 Spark 的列 https://cwiki.apache.org/

conﬂuence/display/SPARK/Powered+By+Spark 。 Spark 社区的社区 Spark Meetups http://www.meetup.com/spark-users/ 和 Spark 会 http://spark-summit.org/ 中，

大分特有的 Spark 应用。了加大学分校，

Spark 作出的要有 Databricks、及英特尔。

2011 年，AMPLab 开 Spark 开发高的件， Shark Spark 的 Hive

¹

和

Spark Streaming。件和件数据分析工具 BDAS，

https://amplab.cs.berkeley.edu/software/ 。

Spark 2010 年 3 月开， 2013 年 6 月交了 Apache 会，成了 Apache 开会的。

1.5 Spark

自出，Spark 的，Spark 社区保的

。版本号的迭，Spark 的者增。Spark 1.0 了 100 开

序员开发。速地，Spark 社区保的发新

版本的。2014 年 5 月，Spark 1.0 式发，而本书要 Spark 1.1.0 及

的版本。，大数版本的 Spark 中适用，而大数能运行版

本的 Spark 。

1.6 Spark

Spark 任 Hadoop 分式件 HDFS 的件读分式数据集，

Hadoop 的，本地件、 S3、Cassandra、Hive、

HBase 等。需要的，Hadoop Spark 的要件，Spark 任

了 Hadoop 的存。Spark 的 Hadoop 式本件、SequenceFile、

Avro、Parquet 等。会第 5 读和存时数据进行交互。

1：Shark Spark SQL 所代。

(31)

第 2 章

Spark下载与入门

本中，会 Spark 本地式运行它。本 Spark 的所有学

者的，数据学和工读。

Spark Python、Java Scala 用

¹

。要用本书需要高的编技，

需要中的法有本的了解。会能中出的

代。

Spark 本用 Scala 的，运行 Java JVM 。要的电集运行 Spark，要的工作 Java 6 者新的版本。用 Python ，

需要 Python 解 2.6 版本。Spark Python 3

²

。

2.1 Spark

用 Spark 的第和解。编译版本的 Spark 开。问 http://

spark.apache.org/downloads.html， Pre-built for Hadoop 2.4 and later Hadoop 2.4 及新版本编译的版本， Direct Download 。

的 TAR 件，件 spark-1.2.0-bin-hadoop2.4.tgz.

1：Spark 1.4.0 加了R 。

2：Spark 1.4.0 Python 3。——译者

(32)

Windows 用 Spark 带有的路，能会问

题。所需要 Spark 带的路， C:\spark 的

中。

需要 Hadoop，有了 Hadoop 集的 HDFS，

应版本的 Spark。 http://spark.apache.org/downloads.html 所需要的

，会的件有同。代编译。

GitHub 新代， Source Code 代进

行。

大数 Unix ， OSX 和 Linux，有 tar的行工具，

用解 TAR 件。的作有 tar，网

络的TAR 解工具。，用的 Windows，

7-Zip.

了 Spark ，要进行解，的 Spark 发行版中有。

打开，工作路的 Spark 所的，解开。会

出和同了 .tgz 的新件。工作路

新有。用成：

cd ~

tar -xf spark-1.2.0-bin-hadoop2.4.tgz cd spark-1.2.0-bin-hadoop2.4

ls

tar

所的行中，

x

记定

tar

执行解作，

f

记定的

件。

ls

列出了 Spark 中的。地 Spark 中的

要的件及的字和作用。

• README.md

用 Spark 的简的用。

• bin

用和 Spark 进行方式的交互的列执行件，本会讲的 Spark shell。

• core、streaming、python……

• Spark 要件的代。

• examples

和运行的 Spark 序，学 Spark 的 API 有。

(33)

要 Spark 数量大的件和的，会本书的分中

讲解它中的大分。，， Spark 的 Python 和

Scala 版本的 shell。运行 Spark 自带的代开，编、编译运行自简的 Spark 序。

本所的，Spark 本地式运行，分式式，

需要用台。Spark 运行式，了本地式，运行

Mesos YARN ，运行 Spark 发行版自带的。会第 7

讲式。

2.2 Spark中Python Scala shell

Spark 带有交互式的 shell，作时数据分析。用 R、Python、Scala 所的 shell，作的 shell Bash 者 Windows 中的，会 Spark shell 。而和 shell 工具的， shell 工具中能用的和存作数据，而 Spark shell 用分式存的存者的数据进行交互，处理的分发由 Spark 自制成。

由 Spark 能工作数据读存中，所分式计算

成，处理 TB 的数据的计算。需要

shell 中成的交互式的时分析适合 Spark。Spark Python 及 Scala 的增版 shell，集的。

本书中大数代 Spark 的所有版本，交互式shell

分了Python 和 Scala 版本的。shell 学 API 有

的，读者 Python 和 Scala 版本的子中进行，

Java 开发者，的API 的。

Spark shell 的大处简的方法用的 shell 作简的数据分析。 Spark 方中的快速 http://spark.apache.org/docs/latest/

quick-start.html 中的。

第打开 Spark shell。要打开 Python 版本的 Spark shell，所的 PySpark Shell，进的 Spark ：

bin/pyspark

Windows 中运行

bin\pyspark

。要打开 Scala 版本的 shell，：

bin/spark-shell

(34)

等数，shell 会出。Shell 时，会出。有的时，

由出了，需要，的 shell 。

图 2-1 PySpark shell 时的子。

图 2-1：默认日志选项下的 PySpark shell

shell 中出的而人分心，的制出的

量。需要 conf log4j.properties 的件理。Spark 开发者 Spark 中加了件的版，作 log4j.properties.template。

要，版件制 conf/log4j.

properties 作件，行：

log4j.rootCategory=INFO, console

的定，及的：

log4j.rootCategory=WARN, console

时打开 shell，会出大大图 2-2 。

(35)

图 2-2：降低日志级别后的 PySpark shell

IPython

IPython Python 用者的增版Python shell，能自

等用的能。 http://ipython.org 。要

量IPYTHON的 1，用IPython 了：

IPYTHON=1 ./bin/pyspark

要用IPython Notebook， Web 版的 IPython，运行：

IPYTHON_OPTS="notebook" ./bin/pyspark

Windows ，量运行行：

set IPYTHON=1 bin\pyspark

Spark 中，分式数据集的作的计算图，计算会自地

集行进行。的数据集弹性分布式数据集 resilient distributed dataset ，简 RDD。RDD Spark 分式数据和计算的本。

地 RDD ，用 shell 本地本件 RDD 作

简的时计。 2-1 Python 版的子， 2-2 Scala 版的。

(36)

2-1：Python 行数计

>>> lines = sc.textFile("README.md") # lines的RDD

>>> lines.count() # 计RDD中的元数 127

>>> lines.first() # RDD中的第元， README.md的第行 u'# Apache Spark'

2-2：Scala 行数计

scala> val lines = sc.textFile("README.md") // lines的RDD lines: spark.RDD[String] = MappedRDD[...]

scala> lines.count() // 计RDD中的元数 res0: Long = 127

scala> lines.first() // RDD中的第元， README.md的第行 res1: String = # Apache Spark

要出任 shell， Ctrl-D。

能的出中了行：INFO SparkUI: Started

SparkUI at http://[ipaddress]:4040。由地址问Spark 用

，任和集的。会第7 中。

2-1 和 2-2 中，量

lines

RDD，电的本地的本件

出的。 RDD 运行行作，计数据集中的元数

本的行数，者出第元。会中 RDD。

，时了解 Spark 的本。

2.3 Spark 心

用 shell 运行了的第 Spark 序，时 Spark 编作的了解了。

， Spark 应用由驱动器程序 driver program 发集的行作。序应用的

main

数，定义了集的分式数据集，

分式数据集应用了作。的子，的序 Spark shell 本

，需要要运行的作了。

序

SparkContext

问 Spark。代计算集的

。shell 时自了

SparkContext

，作

sc

的量。

2-3 中的方法出

sc

它的。

(37)

2-3：量

sc

>>> sc

<pyspark.context.SparkContext object at 0x1025b8f90>

有了 SparkContext，用它 RDD。 2-1 和 2-2 中，用了

sc.textFile()

代件中行本的 RDD。行进行

作，

count()

。

要执行作，序要理执行器 executor 。，

集运行

count()

作，同的会计件的同分的行数。由

本地式运行 Spark shell，所有的工作会执行， shell 集进行行的数据分析。图 2-3 了 Spark 集运行。

序

工作

工作执行执行

任

任任

任

图 2-3：Spark 分布式执行涉及的组件

，有用数的 API，应作运行集。，

的 README ，出件中特定的行。 Python

，具代 2-4 Python 版本和 2-5 Scala 版本所。 2-4：Python 版本的子

>>> lines = sc.textFile("README.md")

>>> pythonLines = lines.filter(lambda line: "Python" in line)

>>> pythonLines.first() u'## Interactive Python Shell'

2-5：Scala 版本的子

scala> val lines = sc.textFile("README.md") // lines的RDD lines: spark.RDD[String] = MappedRDD[...]

scala> val pythonLines = lines.filter(line => line.contains("Python"))

(38)

pythonLines: spark.RDD[String] = FilteredRDD[...]

scala> pythonLines.first()

res0: String = ## Interactive Python Shell

Spark 数

如果你对例 2-4 和例 2-5 中的

lambda

或者

=>

语法不熟悉，可以把它们理解为 Python 和 Scala 中定义内联函数的简写方法。当你在这些语言中使用 Spark 时，你也可以单独定义一个函数，然后把函数名传给 Spark。比如，在 Python 中可以这样做：

def hasPython(line):

return "Python" in line

pythonLines = lines.filter(hasPython)

在 Java 中向 Spark 传递函数也是可行的，但是在这种情况下，我们必须把函数定义为

实现了

Function

接口的类。例如：

JavaRDD<String> pythonLines = lines.filter(

new Function<String, Boolean>() {

Boolean call(String line) { return line.contains("Python"); } }

);

Java 8 提供了类似 Python 和 Scala 的 lambda 简写语法。下面就是一个使用这种语法的代码的例子：

JavaRDD<String> pythonLines = lines.filter(line -> line.contains("Python"));

我们会在 3.4 节更深入地讨论如何向 Spark 传递函数。

会地讲 Spark API，， Spark API 的地方

filter

数的作会集行执行。，Spark 会自

数

line.contains("Python")

发执行。，的

序中编，代自运行。第 3 会讲 RDD API。

2.4 的 Spark 中的分序中用 Spark。了交互式运行

，Spark Java、Scala Python 的序中用。 shell 中用的要区需要自行化 SparkContext。，用的 API 了。

Spark 的中。 Java 和 Scala 中，需要的应用加

spark-core

工件的 Maven 。编书时，Spark 的新版本 1.2.0，应的

Maven ：

(39)

groupId = org.apache.spark artifactId = spark-core_2.10 version = 1.2.0

Maven 行的理工具，用任 Java 的，共

中的序。用 Maven 的工，用能问 Maven 的

工具进行， Scala 的 sbt 工具者 Gradle 工具。用的集成开发

Eclipse Maven 加工中。

Python 中，应用成 Python 本，需要用 Spark 自带的

bin/spark-

submit

本运行。

spark-submit

本会 Python 序的 Spark 。本

Spark 的 PythonAPI 了运行。需要 2-6 所的运行本。 2-6：运行 Python 本

bin/spark-submit my_script.py

， Windows 需要用代。

2.4.1 SparkContext

成了应用 Spark 的，需要的序中 Spark

SparkContext。

SparkConf

的应用，

SparkConf SparkContext 。 2-7 2-9 中，用分了

。

2-7： Python 中化 Spark

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local").setAppName("My App") sc = SparkContext(conf = conf)

2-8： Scala 中化 Spark

import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.SparkContext._

val conf = new SparkConf().setMaster("local").setAppName("My App") val sc = new SparkContext(conf)

2-9： Java 中化 Spark

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaSparkContext;

SparkConf conf = new SparkConf().setMaster("local").setAppName("My App");

JavaSparkContext sc = new JavaSparkContext(conf);

(40)

子了 SparkContext 的本的方法，需数：

• 集群 URL： Spark 集。子中用的

local

，

特 Spark 运行而需集。

• 应用名：子中用的

My App

。集时，

集理的用中的应用。

有加数用应用的运行方式加要发集的代。会

本书的中。

化 SparkContext ，用的所有方法用本件

RDD 它。

， Spark 用 SparkContext 的

stop()

方法，者出应用

System.exit(0)

者

sys.exit()

。

快速应电运行的 Spark 应用了。要了解高

的，第 7 会讲的应用集，的应用打，

代自发工作。而， Spark 方的快速

http://spark.apache.org/docs/latest/quick-start.html 了。

2.4.2 作本讲大数据的书，有数计的子，能成的。

数计，分式，由要工作读合

数据，数计成了用的子。学用 sbt 及 Maven

打简的数计的。所有的，了

简的，保了本的。 learning-spark-examples/mini-complete- example ，的工。Java 版本 2-10 和 Scala 版本

2-11 的子分所。

2-10：Java 版本的数计应用时需要

// Java版本的Spark Context

SparkConf conf = new SparkConf().setAppName("wordCount");

JavaSparkContext sc = new JavaSparkContext(conf);

// 读的数据

JavaRDD<String> input = sc.textFile(inputFile);

// 分

JavaRDD<String> words = input.flatMap(

new FlatMapFunction<String, String>() { public Iterable<String> call(String x) { return Arrays.asList(x.split(" "));

}});

(41)

// 计数

JavaPairRDD<String, Integer> counts = words.mapToPair(

new PairFunction<String, String, Integer>(){

public Tuple2<String, Integer> call(String x){

return new Tuple2(x, 1);

}}).reduceByKey(new Function2<Integer, Integer, Integer>(){

public Integer call(Integer x, Integer y){ return x + y;}});

// 计出的数存本件，发

counts.saveAsTextFile(outputFile);

2-11：Scala 版本的数计应用时需要

// Scala版本的Spark Context

val conf = new SparkConf().setAppName("wordCount") val sc = new SparkContext(conf)

// 读的数据

val input = sc.textFile(inputFile)

// 它分成

val words = input.flatMap(line => line.split(" "))

// 计数

val counts = words.map(word => (word, 1)).reduceByKey{case (x, y) => x + y}

// 计出的数存本件，发

counts.saveAsTextFile(outputFile)

用简的 sbt 2-12 Maven 2-13 件应用。

由 Spark Core 工作的 classpath 中了，所 Spark Core 的

记

provided

，用 assembly 方式打应用时，会

spark-core

打 assembly 中。

2-12：sbt 件

name := "learning-spark-mini-example"

version := "0.0.1"

scalaVersion := "2.10.4"

// 加序

libraryDependencies ++= Seq(

"org.apache.spark" %% "spark-core" % "1.2.0" % "provided"

)

2-13：Maven 件

<groupId>com.oreilly.learningsparkexamples.mini</groupId>

<artifactId>learning-spark-mini-example</artifactId>

<name>example</name>

<groupId>org.apache.spark</groupId>

(42)

<artifactId>spark-core_2.10</artifactId>

<scope>provided</scope>

</dependency>

</dependencies>

<java.version>1.6</java.version>

</properties>

<build>

<plugin> <groupId>org.apache.maven.plugins</groupId>

<artifactId>maven-compiler-plugin</artifactId>

<source>${java.version}</source>

<target>${java.version}</target>

</configuration> </plugin> </plugin>

</plugins>

</pluginManagement>

</build>

</project>

spark-core 记了provided，了制 assembly 方式打

应用时的行。第7 中会。

定了方式，打用

bin/spark-submit

本执行的

应用了。

spark-submit

本 Spark 所要用的列量。 mini-

complete-example 中，用 Scala 2-14 者 Java 2-15 进行。 2-14：Scala 运行

sbt clean package

$SPARK_HOME/bin/spark-submit \

--class com.oreilly.learningsparkexamples.mini.scala.WordCount \ ./target/... (as above) \

./README.md ./wordcounts

2-15：Maven 运行

mvn clean && mvn compile && mvn package

$SPARK_HOME/bin/spark-submit \

--class com.oreilly.learningsparkexamples.mini.java.WordCount \ ./target/learning-spark-mini-example-0.0.1.jar \

./README.md ./wordcounts

要了解应用序 Spark 的子， Spark 方中的快速

http://spark.apache.org/docs/latest/quick-start.html 。第 7 中会地讲解

打 Spark 应用。

(43)

2.5 本中，讲了的本地式运行 Spark，及 Spark 的用方式，

交互式方式和应用进行用。简了 Spark 编的核心

：序 SparkContext 和列 RDD，进行行作。

中，会加地作 RDD。

(44)

第 3 章

RDD编程

本 Spark 数据的核心 —— 分式数据集 Resilient Distributed Dataset，简 RDD 。RDD 分式的元集合。 Spark 中，数据的所有作

RDD、化有 RDD 及用 RDD 作进行。而，Spark 会自 RDD 中的数据分发集，作行化执行。

由 RDD Spark 的核心，数据学和工应读读本。

读者交互式 shell 2.2 中。，本中的代

本书的 GitHub https://github.com/databricks/learning-spark 中。

3.1 RDD

Spark 中的 RDD 的分式集合。 RDD 分分区，

分区运行集中的同。RDD Python、Java、Scala 中任的，用自定义的。

用用方法 RDD：读数据集，序分发

序中的集合 list 和 set 。本书的中用

SparkContext.

textFile()

读本件作字 RDD 的， 3-1 所。

3-1： Python 中用

textFile()

字的 RDD

>>> lines = sc.textFile("README.md")

出，RDD 的作：转化操作 transformation 和行动操作

(45)

action 。转化操作会由 RDD 生成新的 RDD。，据数

据的化作。的本件中，用生成存

Python 的字的新的 RDD， 3-2 所。 3-2：用化作

filter()

>>> pythonLines = lines.filter(lambda line: "Python" in line)

方，行动操作会 RDD 计算出，序中，

存存 HDFS 中。

first()

用的行作，它

会 RDD 的第元， 3-3 所。 3-3：用

first()

行作

化作和行作的区 Spark 计算 RDD 的方式同。任时定义新的 RDD， Spark 会惰性计算 RDD。它有第次行作中用

时，会计算。开能会有，大数据领

有道理的。， 3-2 和 3-3，本件定义了数据，中

Python 的行出。 Spark 运行

lines = sc.textFile(...)

时件中

所有的行读存，会存，而要中的

数据。， Spark 了解了的化作，它计算时需

要的数据。，行作

first()

中， Spark 需要件第

的行，而需要读件。

，， Spark 的 RDD 会次它进行行作时新计算。

行作中用同 RDD，用

RDD.persist()

Spark RDD 存

。 Spark 数据化同的地方，用的会 3-6 中列出。

第次化的 RDD 计算，Spark 会 RDD 的保存存中分区方式

存集中的，的行作中，用数据了。

RDD 存而存中。进行化能有，

大数据集有义的：会用 RDD，有要存

，Spark 数据计算出。

¹

作中，会用

persist()

数据的分读存中，

分数据。，次 README 件中 Python 的行进行计算，

出 3-4 所的本。

1：任时能进行算 RDD 的。保存RDD 数据的台

时，Spark 用特算出的分区，用的。

(46)

3-4： RDD 化存中

>>> pythonLines.persist

>>> pythonLines.count() 2

的， Spark 序 shell 会方式工作。

(1) 数据出 RDD。

(2) 用

^ﬁlter()

的化作 RDD 进行化，定义新的 RDD。

(3) Spark 需要用的中 RDD 执行

persist()

作。

(4) 用行作

count()

和

ﬁrst()

等发次行计算，Spark 会计算进行

化执行。

cache() 用存用persist() 的。

会解， Spark 中的 RDD 作。

3.2 RDD

Spark 了 RDD 的方式：读数据集，及序中集合进

行行化。

RDD 简的方式序中有的集合 SparkContext 的

parallelize()

方法， 3-5 3-7 所。方式学 Spark 时有用，它 shell 中

快速出自的 RDD， RDD 进行作。，需要的，了开发

和时，方式用，方式需要的数据集台

的存中。

3-5：Python 中的

parallelize()

方法

lines = sc.parallelize(["pandas", "i like pandas"])

3-6：Scala 中的

parallelize()

方法

val lines = sc.parallelize(List("pandas", "i like pandas"))

(47)

3-7：Java 中的

parallelize()

方法

JavaRDD<String> lines = sc.parallelize(Arrays.asList("pandas", "i like pandas"));

用的方式存中读数据 RDD。数据集的读会第 5

。，了用本件读存字的 RDD 的方法

SparkContext.textFile()

，用法 3-8 3-10 所。

3-8：Python 中的

textFile()

方法

lines = sc.textFile("/path/to/README.md")

3-9：Scala 中的

textFile()

方法

val lines = sc.textFile("/path/to/README.md")

3-10：Java 中的

textFile()

方法

JavaRDD<String> lines = sc.textFile("/path/to/README.md");

3.3 RDD

，RDD 作：转化操作和行动操作。RDD 的化作新的 RDD 的作，

map()

和

filter()

，而行作序

的作，会发的计算，

count()

和

first()

。Spark

化作和行作的方式，理解进行的作的要的。

特定的数化作行作，它的

：化作的 RDD，而行作的的数据。

3.3.1 RDD 的化作新 RDD 的作。会 3.3.3 讲，化出的 RDD

的，有行作中用 RDD 时会计算。化作元

的，，化作次会作 RDD 中的元。所有的

化作的。

子，定有件 log.txt，有，出中的。

用的化作

filter()

。次，会用 Spark

的的 API 分 3-11 3-13 。 3-11：用 Python

filter()

化作

inputRDD = sc.textFile("log.txt")

errorsRDD = inputRDD.filter(lambda x: "error" in x)

3-12：用 Scala

filter()

化作

val inputRDD = sc.textFile("log.txt")

val errorsRDD = inputRDD.filter(line => line.contains("error"))

(48)

3-13：用 Java

filter()

化作

JavaRDD<String> inputRDD = sc.textFile("log.txt");

JavaRDD<String> errorsRDD = inputRDD.filter(

new Function<String, Boolean>() {

public Boolean call(String x) { return x.contains("error"); } }

});

，

filter()

作会有的

inputRDD

中的数据。，作会新

的 RDD。

inputRDD

的序中用，中的。

，要

inputRDD

中出所有 warning 的行。，用

化作

union()

打印出 error warning 的行数。中用 Python 作了，

union()

数的用法所有中的。

3-14：用 Python 进行

union()

化作

errorsRDD = inputRDD.filter(lambda x: "error" in x) warningsRDD = inputRDD.filter(lambda x: "warning" in x) badLinesRDD = errorsRDD.union(warningsRDD)

union() filter()

的同它作 RDD 而。化作作任

数量的 RDD。

要 3-14 中等价的，的方法出要 error 要

warning 的行， inputRDD进行次。

要的，化作，有的 RDD 中生出新的 RDD，Spark 会用谱系图 lineage graph 记同 RDD 的。Spark 需要用需

计算 RDD，图化的 RDD 分数据时所的数据。

图 3-1 了 3-14 中的图。

图 3-1：日志分析过程中创建出的 RDD 谱系图

(49)

3.3.2 了化作有的 RDD 出新的 RDD，有时，

数据集进行的计算。行作第的 RDD 作，它会的

序，者存中。由行作需要生成的出，它

会制执行用的 RDD 的化作。

中用的的子，能出

badLinesRDD

的。

，需要用行作：用

count()

计数，用

take()

收集

RDD 中的元， 3-15 3-17 所。 3-15： Python 中用行作进行计数

print "Input had " + badLinesRDD.count() + " concerning lines"

print "Here are 10 examples:"

for line in badLinesRDD.take(10):

print line

3-16： Scala 中用行作进行计数

println("Input had " + badLinesRDD.count() + " concerning lines") println("Here are 10 examples:")

badLinesRDD.take(10).foreach(println)

3-17： Java 中用行作进行计数

System.out.println("Input had " + badLinesRDD.count() + " concerning lines") System.out.println("Here are 10 examples:")

for (String line: badLinesRDD.take(10)) { System.out.println(line);

}

子中，序中用

take()

了 RDD 中的量元。本地

元，打印出。RDD 有

collect()

数，用

RDD 中的数据。的序 RDD 的，本地处理

数据时，用它。记，有的数据集能台的存中

时，能用

collect()

，，

collect()

能用大数据集。

大数，RDD 能

collect()

收集进中，它大。

时，要数据 HDFS Amazon S3 的分式的存中。

用

saveAsTextFile()

、

saveAsSequenceFile()

，者任的行作 RDD 的

数据自带的式保存。会第 5 讲解出数据的。

需要的，用新的行作时， RDD 会开计算。要

效的行，用中化，会 3.6 中。

(50)

3.3.3 ，RDD 的化作的。用行作 Spark 会

开计算。新用能有处，用 Haskell

等数式者 LINQ 的数据处理的人，会有。

RDD 用化作用

map()

时，作会执行。

，Spark 会记所要执行的作的。应 RDD 作存

特定数据的数据集，而 RDD 作化作出的、记

计算数据的列。数据读 RDD 的作同的。，用

sc.textFile()

时，数据有读进，而要时会读。和化作的，

读数据的作有能会次执行。

化作的，时运行行作制

Spark 执行 RDD 的化作，用count()。所的序

进行分的简方法。

Spark 用，作合计算数据的。

Hadoop MapReduce 的中，开发者大量时作合，

MapReduce 的数。而 Spark 中，出的能用

简的作的能。，用用的作的序，

作理。

3.4 Spark 数

Spark 的大分化作和分行作，需要用的数计算。

的要中， Spark 数的方式有区。

3.4.1 Python

Python 中，有方式数 Spark。的数时，用

lambda 式， 3-2 和 3-18 所。了 lambda 式，

数定义的数。

3-18： Python 中数

word = rdd.filter(lambda s: "error" in s) def containsError(s):

return "error" in s

word = rdd.filter(containsError)

(51)

数时需要心的，Python 会数所的序列化出

。的的成员，者了中字的用时

self.field

，Spark 会发工作，能的大

3-19 。有时，的 Python 道序列化的，会

的序。

3-19：带字用的数

class SearchFunctions(object):

def __init__(self, query):

self.query = query def isMatch(self, s):

return self.query in s

def getMatchesFunctionReference(self, rdd):

# 问题： "self.isMatch"中用了 self return rdd.filter(self.isMatch)

def getMatchesMemberReference(self, rdd):

# 问题： "self.query"中用了 self return rdd.filter(lambda x: self.query in x)

代的方，所需要的字中出量中，

量， 3-20 所。

3-20：带字用的 Python 数

class WordFunctions(object):

...

def getMatchesNoReference(self, rdd):

# ：需要的字量中

query = self.query

return rdd.filter(lambda x: query in x)

3.4.2 Scala

Scala 中，定义的数、方法的用方法 Spark，

Scala 的数式 API 。要，所的数及用

的数据需要序列化的了 Java 的 Serializable 。， Python ，

的方法者字时，会的用。 Scala 中，

会 Python 用

self

出用。 3-20 中 Python 执行

的作，需要的字量中，字的

， 3-21 所。 3-21：Scala 中的数

class SearchFunctions(val query: String) { def isMatch(s: String): Boolean = { s.contains(query)

}

def getMatchesFunctionReference(rdd: RDD[String]): RDD[String] = {

(52)

// 问题："isMatch" "this.isMatch"，要 "this"

rdd.map(isMatch) }

def getMatchesFieldReference(rdd: RDD[String]): RDD[String] = { // 问题："query" "this.query"，要 "this"

rdd.map(x => x.split(query)) }

def getMatchesNoReference(rdd: RDD[String]): RDD[String] = {

// ：需要的字出量中

val query_ = this.query rdd.map(x => x.split(query_)) }

}

Scala 中出了

NotSerializableException

，问题了序列

化的中的数字。记，序列化量中的数的。

3.4.3 Java

Java 中，数需要作了 Spark 的

org.apache.spark.api.java.function

中的任

数的。据同的，定义了同的。

本的数列 3-1 中，同时了的数，需要特

的数据时用， 3.5.2 中的 Java 。表3-1：标准Java函数接口

Function<T, R> R call(T)

收出，用

map()

和

filter()

等作中

Function2<T1, T2, R> R call(T1, T2)

收出，用

aggregate()

和

fold()

等作中

FlatMapFunction<T, R> Iterable<R> call(T)

收任出，用

flatMap()

的作中

的数定义用 3-22 ，具

3-23 。

3-22： Java 中用进行数

RDD<String> errors = lines.filter(new Function<String, Boolean>() { public Boolean call(String x) { return x.contains("error"); } });

3-23： Java 中用具进行数

class ContainsError implements Function<String, Boolean>() { public Boolean call(String x) { return x.contains("error"); } }

RDD<String> errors = lines.filter(new ContainsError());

快速大数据分析

图 灵 程 序 设 计 丛 书

人 民 邮 电 出 版 社

北 京

Learning Spark

Lightning-Fast Data Analysis

[美] Holden Karau [美] Andy Konwinski [美] Patrick Wendell [加] Matei Zaharia 著

王道远 译 英特尔大数据技术中心 审校

Spark快速大数据分析

Beijing • Cambridge • Farnham • Köln • Sebastopol • Tokyo

O’Reilly Media, Inc.授权人民邮电出版社出版

内 容 提 要

版权声明

© 2015 by O’Reilly Media, Inc.

Simpliﬁed Chinese Edition, jointly published by O’Reilly Media, Inc. and Posts & Telecom Press, 2015. Authorized translation of the English edition, 2015 O’Reilly Media, Inc., the owner of all rights to publish and sell the same.

All rights reserved including the rights of reproduction in whole or in part in any form.

英 版由 O’Reilly Media, Inc. 出版，2015。

简 中 版由人民邮电出版社出版， 2015。英 版的 译 O’Reilly Media, Inc. 的 权。 简 中 版的出版和 出版权和 权的所有者——O’Reilly Media, Inc.

的 。

版权所有， 书 ，本书的任 分和 任 式 制。

O’Reilly Media 图书、 、 、 和会 等方式 新 。

自 1978 年开 ，O’Reilly 发 的 者和 者。 开

，而 要的技术 —— 大 的 号 社

会 新 技的应用。作 技术社区中 的 者，O’Reilly 的发 了 新的

、 造和发 大。

O’Reilly 件开发人员带 的 书 第 网 GNN

了 远的开 代 会， 开 件运 了 Make ，

而成 DIY 的 要 地 式 人的 带。

O’Reilly 的会 和 会集 了 和高 远 的 领 ，共同 出开

新 的 。作 技术人 的 ，O’Reilly 的

的计算 用 。 书 出版、 者 ，

O’Reilly 的 了 的理 —— 发 新的 量。

O’Reilly Radar

Wired O’Reilly

Business 2.0 O’Reilly Conference

CRN O’Reilly

Irish Times

Tim 人

Yogi Berra Tim

Linux Journal

O’Reilly Media, Inc.介绍

目录

1 Spark 数据分析

2 Spark

3 RDD

4

5 数据

6 Spark

7 Spark

8 Spark

9 Spark SQL

10 Spark Streaming

11 MLlib

推荐序

年 大数据 ， 有人问 大数据 要。 处 数据 的时代，

大量 的 能 、 、 及 网 时 生新的数据。

，有 90% 的数据 年 生的。 2020 年， 有 500 台的互

生 Zeta 字 的数据。带 的 海量数据本 ，而 用

数据。大数据解决方 的 大 它 快速处理大 、 的数据集，

方法 快、 地生成 。

大数据解决方 要 件， 存 、计算和网络等 件 ， 数据处理

， 用 的 计和计算算法、数据 化 的分析 。 中 ，

数据处理 了 分 要的作用。 张地 ，数据处理 大数据 CPU

计算 ， 大 人 。

2009 年，Matei Zaharia 加 大学 分校的 AMPLab 进行 时 了 Spark 大数据处理和计算 。 同 的数据处理 ，Spark 存的 本

primitive 应用 序带 了 100 的 能 。Spark 用 序 数据加

集 存中用 ， 适用 大数据和 学 ， 成 用的大数据

。 Cloudera 和 MapR 的大数据发行版 发 时 加了 Spark。

，Spark Hadoop 和大数据生 发生 ， 地 的大数

据分析需 ， ：Spark Spark 核心，发 了 Spark streaming、SQL、MLlib、

GraphX、SparkR 等 。学 Spark 和它的 件 有 大数据处理速

， 能 开发者和数据 学 地 分析应用。 、 、交

，Spark 的大数据解决方 所 的 量 进 的 成，带

的 加速决 制定。

年中， 的 有 会 本书的作者合作， Apache Spark 社区 成 ，

英特尔 化 大数据和 Spark 应用。 Spark 快速大数据分析 的出版 开发者和

数据 学 了丰 的 Spark 。 要的 ， 本书 简 地 开发者 用

Spark，而 了 Spark 的 成， 了 化大数据应

用。 大 本书， 具 ， 本书 的 化方法和 路， 它

能 出 的大数据应用。

图灵程序设计丛书

人民邮电出版社

北　　京

王道远译英特尔大数据技术中心审校

内容提要

英版由 O’Reilly Media, Inc. 出版，2015。

简中版由人民邮电出版社出版， 2015。英版的译 O’Reilly Media, Inc. 的权。简中版的出版和出版权和权的所有者——O’Reilly Media, Inc.

的。

版权所有，书，本书的任分和任式制。

O’Reilly Media 图书、、、和会等方式新。

自 1978 年开，O’Reilly 发的者和者。开

，而要的技术 —— 大的号社

会新技的应用。作技术社区中的者，O’Reilly 的发了新的

、造和发大。

O’Reilly 件开发人员带的书第网 GNN

了远的开代会，开件运了 Make ，

而成 DIY 的要地式人的带。

O’Reilly 的会和会集了和高远的领，共同出开

新的。作技术人的，O’Reilly 的

的计算用。书出版、者，

O’Reilly 的了的理 —— 发新的量。

年大数据，有人问大数据要。处数据的时代，

大量的能、、及网时生新的数据。

，有 90% 的数据年生的。 2020 年，有 500 台的互

生 Zeta 字的数据。带的海量数据本，而用

数据。大数据解决方的大它快速处理大、的数据集，

方法快、地生成。

大数据解决方要件，存、计算和网络等件，数据处理

，用的计和计算算法、数据化的分析。中，

数据处理了分要的作用。张地，数据处理大数据 CPU

计算，大人。

2009 年，Matei Zaharia 加大学分校的 AMPLab 进行时了 Spark 大数据处理和计算。同的数据处理，Spark 存的本

primitive 应用序带了 100 的能。Spark 用序数据加

集存中用，适用大数据和学，成用的大数据

。 Cloudera 和 MapR 的大数据发行版发时加了 Spark。

，Spark Hadoop 和大数据生发生，地的大数

据分析需，：Spark Spark 核心，发了 Spark streaming、SQL、MLlib、

GraphX、SparkR 等。学 Spark 和它的件有大数据处理速

，能开发者和数据学地分析应用。、、交

，Spark 的大数据解决方所的量进的成，带

的加速决制定。

年中，的有会本书的作者合作， Apache Spark 社区成，

英特尔化大数据和 Spark 应用。 Spark 快速大数据分析的出版开发者和

数据学了丰的 Spark 。要的，本书简地开发者用

Spark，而了 Spark 的成，了化大数据应

用。大本书，具，本书的化方法和路，它

能出的大数据应用。

大数据年的。，互网发，生的

，而的数据量的数增。，人学会了分析数据有

价的。有时，的，的数据法有效保所有的，

出的有效。用，而数据大，需要进数据处理

的。人工计用的计算件进行分析， MapReduce ，

数据增，处理数据的方式。，件的发

存计算成了能， Spark 由出，它的字，，迅速了

工的。

Spark 快速大数据分析本 Spark 学者的书，它有，而

用的具用法。，本书 Spark 的用法，它 Spark 的

核心和本理有的，读者能所。

Spark 用计算，用 Spark 的应用价所。欣

地，的互网用 Spark 造出了量的价。本书的读

者 Spark 应用中，数据海的。

本书成，开方。人民邮电出版社图的、岳新欣

、张曼，本译的出版了大。本人所的英特尔

发有大数据，中、、、张分责了本书分的审校

工作，、、本书的译工作了。 Databricks 的学

，成了出版社的合作。译的中，自人的理解和

本书所，Spark 大的件，及方方的，本书的译增加了

。译者保译的，由学有，会有处。而

大数据作新学，术有定成的译法。Spark 发中，本

书英据 Spark 1.2 编，而译者量了 Spark 1.4 译时的新

版本的化。读者发了本书中的处，。的

电子邮：me@daoyuan.wang。

Spark 作代大数据处理，的时，

。Spark 大数据的 Hadoop MapReduce 的进要

方：， Spark 速快次， Spark 丰的 API 带了大的用，

Spark 处理应用，交互式、式计算、学、图计算等

应用，同应用的需。

能地 Spark 的开发中， Spark 路， Spark

的成的大数据开。， Spark 成 Apache 会

的。， Spark 人 Matei Zaharia 及 Spark 开发者 Patrick Wendell、Andy Konwinski 和 Holden Karau 由高。