Elasticsearch

5.5　数据

5.5.4 Elasticsearch

Spark 用Elasticsearch-Hadoop https://github.com/elastic/elasticsearch-hadoop Elasticsearch 中读数据。Elasticsearch 开的、 Lucene 的。

Elasticsearch 和的大，它会的路，

而 SparkContext 中的。Elasticsearch 的OutputFormat 有用 Spark 所的，所用saveAsHadoopDataSet 代，需要

5-46： Scala 中用 Elasticsearch 出

val jobConf = new JobConf(sc.hadoopConfiguration)

jobConf.set("mapred.output.format.class", "org.elasticsearch.hadoop.

mr.EsOutputFormat")

jobConf.setOutputCommitter(classOf[FileOutputCommitter])

jobConf.set(ConfigurationOptions.ES_RESOURCE_WRITE, "twitter/tweets") jobConf.set(ConfigurationOptions.ES_NODES, "localhost")

FileOutputFormat.setOutputPath(jobConf, new Path("-")) output.saveAsHadoopDataset(jobConf)

5-47： Scala 中用 Elasticsearch

def mapWritableToInput(in: MapWritable): Map[String, String] = { in.map{case (k, v) => (k.toString, v.toString)}.toMap

}

val jobConf = new JobConf(sc.hadoopConfiguration)

jobConf.set(ConfigurationOptions.ES_RESOURCE_READ, args(1)) jobConf.set(ConfigurationOptions.ES_NODES, args(2)) val currentTweets = sc.hadoopRDD(jobConf,

classOf[EsInputFormat[Object, MapWritable]], classOf[Object], classOf[MapWritable])

// map

// MapWritable[Text, Text] Map[String, String]

val tweets = currentTweets.map{ case (key, value) => mapWritableToInput(value) }

和，Elasticsearch 有，作的有效。

出而，Elasticsearch 进行，尔会出的

数据，要存字的数据，定

https://www.elastic.co/guide/en/elasticsearch/reference/current/indices-put-mapping.html 。

5.6

本，应能数据读 Spark 中，计算所的方

式存。了数据用的同式，及它应的数

据处理的方式。掌握了读和保存大数据集的方法，会

用编高效大的Spark 序的方法。

第 6 章

Spark编程进阶

6.1

本有及的Spark 编的进特，会的共量：

累加器 accumulator 广播变量 broadcast variable 。加用进行合，而量用高效分发大的。有的RDD 化作的，

数据需要大代价的任了作。了用的工具，本会

Spark 序交互的方式，用R 编的本进行交互。

本会用电作者的作，出的应用。

的的号。号由分的，有自的号号，

所据号应的。有作者的地理，用

定。 6-1 了。本书的代中需要

中进行处理的号列。

6-1： JSON 式的，中字

{"address":"address here", "band":"40m","callsign":"KK6JLK","city":"SUNNYVALE",

"contactlat":"37.384733","contactlong":"-122.032164",

"county":"Santa Clara","dxcc":"291","fullname":"MATTHEW McPherrin",

"id":57779,"mode":"FM","mylat":"37.751952821","mylong":"-122.4208688735",...}

要用的第 Spark 特共量。共量 Spark 任中用的特

的量。中，用Spark 共量的进行计数，

及分发张大的。

任需要时进行，需要数据者数生成时，数 file = sc.textFile(inputFile)

# Accumulator[Int] 化 0 blankLines = sc.accumulator(0) def extractCallSigns(line):

global blankLines # 问量 if (line == ""):

blankLines += 1 return line.split(" ")

callSigns = file.flatMap(extractCallSigns)

callSigns.saveAsTextFile(outputDir + "/callsigns") print "Blank lines: %d" % blankLines.value

6-3： Scala 中加行 val sc = new SparkContext(...) val file = sc.textFile("file.txt")

val blankLines = sc.accumulator(0) // Accumulator[Int] 化 0 val callSigns = file.flatMap(line => {

if (line == "") { println("Blank lines: " + blankLines.value) 6-4： Java 中加行

JavaRDD<String> rdd = sc.textFile(args[1]);

final Accumulator<Integer> blankLines = sc.accumulator(0);

JavaRDD<String> callSigns = rdd.flatMap(

new FlatMapFunction<String, String>() { public Iterable<String> call(String line) { if (line.equals("")) {

blankLines.add(1);

}

return Arrays.asList(line.split(" "));

}});

callSigns.saveAsTextFile("output.txt")

System.out.println("Blank lines: "+ blankLines.value());

中，了作blankLines的Accumulator[Int] ，

中行时加1。执行化作，打印出加中的。，

• 中用SparkContext.accumulator(initialValue)方法，出存有

的加。 org.apache.spark.Accumulator[T] ，中T

initialValue的。

的计数时方，有需要时，者需要

validSignCount = sc.accumulator(0) invalidSignCount = sc.accumulator(0) def validateSign(sign):

global validSignCount, invalidSignCount

if re.match(r"\A\d?[a-zA-Z]{1,2}\d{1,4}[a-zA-Z]{1,3}\Z", sign):

validSignCount += 1

validSigns = callSigns.filter(validateSign)

contactCount = validSigns.map(lambda sign: (sign, 1)).reduceByKey(lambda (x, y): x + y)

# 制计算计数

contactCount.count()

if invalidSignCount.value < 0.1 * validSignCount.value:

contactCount.saveAsTextFile(outputDir + "/contactCount") else:

print "Too many errors: %d in %d" % (invalidSignCount.value, validSignCount.

value)

加要处理，对于要在行动操作中使用的累加器，Spark

只会把每个任务对各累加器的修改应用一次。，要计

算时的加，它 foreach() 的行作中。

对于在RDD 转化操作中使用的累加器，就不能保证有这种情况了。化作中加

能会发生次新。子，存有用的RDD 第

次 LRU 存中新用时，的次新会发生。会制

RDD 据进行算，而作用会中的化作的加进行

新，次发中。化作中，加用的。

版本的Spark 能会行成新次加的，版本

1.2.0 会进行次新，化作中的加时用。

6.2.2

，学了用加法作Spark 的加 Accumulator[Int] 。 Spark Double、Long和Float 的加。，Spark 了自定义

加和合作的API 要加的中的大，而加。自

定义加需要 AccumulatorParam， Spark API http://spark.apache.org/docs/

latest/api/scala/index.html#package 中有所。要作同时交和合，

用任作代数的加法。了和，数据的大。

任的a 和 b，有 a op b = b op a， 作op 交。任的a、b 和 c，有 (a op b) op = a op (b op )， 作op

合。，sum和max 交合， Spark 加中

的用作。

6.3

Spark 的第共量广播变量，它序高效地所有工作发

大的读， Spark 作用。，的应用需要所有发

大的读，学算法中的大的特量，量用

。

，Spark 会自中所有用的量发工作。方，

效。有：，的任发制任进行化的次，

能会多个行作中用同量， Spark 会作分发。

子，要 Spark 序，号的应的。的

，由用自的号，所方法行的。用 Spark ，代 6-6 所。

6-6： Python 中

# RDD contactCounts中的号的应。号

# 读代进行

signPrefixes = loadCallSignTable()

def processSignCount(sign_count, signPrefixes):

country = lookupCountry(sign_count[0], signPrefixes) count = sign_count[1]

return (country, count)

countryContactCounts = (contactCounts

.map(processSignCount)

signPrefixes = sc.broadcast(loadCallSignTable()) def processSignCount(sign_count, signPrefixes):

country = lookupCountry(sign_count[0], signPrefixes.value) count = sign_count[1]

return (country, count)

countryContactCounts = (contactCounts

.map(processSignCount)

val signPrefixes = sc.broadcast(loadCallSignTable())

val countryContactCounts = contactCounts.map{case (sign, count) =>

val country = lookupInArray(sign, signPrefixes.value) (country, count)

final Broadcast<String[]> signPrefixes = sc.broadcast(loadCallSignTable());

JavaPairRDD<String, Integer> countryContactCounts = contactCounts.mapToPair(

new PairFunction<Tuple2<String, Integer>, String, Integer> (){

public Tuple2<String, Integer> call(Tuple2<String, Integer> callSignCount) { String sign = callSignCount._1();

String country = lookupCountry(sign, callSignInfo.value());

return new Tuple2(country, callSignCount._2());

}}).reduceByKey(new SumInts());

countryContactCounts.saveAsTextFile(outputDir + "/countries.txt");

所，用量的简。

(1) T的用SparkContext.broadcast 出 Broadcast[T] 。

任序列化的。

val theArray = broadcastArray.value; theArray(0) = newValue 的

。工作执行时，行 newValue 数的第元，工作

的任效。用spark.serializer 序列化

化序列化第8 中会用Kryo 快的序列化，的数

据自的序列化方式 Java 用java.io.Externalizable 序列

urls = map(lambda x: "http://73s.com/qsos/%s.json" % x, signs) #

requests = map(lambda x: (x, http.request('GET', x)), urls) #

result = map(lambda x: (x[0], json.loads(x[1].data)), requests)

# 的

return filter(lambda x: x[1] is not None, result) def fetchCallSigns(input):

""" 号"""

return input.mapPartitions(lambda callSigns : processCallSigns(callSigns)) contactsContactList = fetchCallSigns(validSigns)

6-11： Scala 中用共 JSON 解析

val contactsContactLists = validSigns.distinct().mapPartitions{

signs =>

val mapper = createMapper() val client = new HttpClient() client.start()

// http

signs.map {sign =>

createExchangeForSign(sign)

// 应

}.map{ case (sign, exchange) =>

(sign, readExchangeCallLog(mapper, exchange)) }.filter(x => x._2 != null) // 的

}

6-12： Java 中用共 JSON 解析 // 用mapPartitions 用工作

JavaPairRDD<String, CallLog[]> contactsContactLists = validCallSigns.mapPartitionsToPair(

new PairFlatMapFunction<Iterator<String>, String, CallLog[]>() {

public Iterable<Tuple2<String, CallLog[]>> call(Iterator<String> input) { // 列出

ArrayList<Tuple2<String, CallLog[]>> callsignLogs = new ArrayList<>();

ArrayList<Tuple2<String, ContentExchange>> requests = new ArrayList<>();

ObjectMapper mapper = createMapper();

HttpClient client = new HttpClient();

try {

client.start();

while (input.hasNext()) {

requests.add(createRequestForSign(input.next(), client));

}

for (Tuple2<String, ContentExchange> signExchange : requests) { callsignLogs.add(fetchResultFromRequest(mapper, signExchange));

}

mapPartitionsWithIndex() 分区序号，及分区中

的元的迭代

的元的迭代 f: (Int, Itera tor[T]) → Iter ator[U]

foreachPartitions() 元迭代 f: (Iterator[T]) →

Unit

了的工作，用mapPartitions() 的开。有时需要

同的数据合。第3 中，计算时，方法

数 RDD 元 RDD，中所处理的元数。，

分区次元，而用元执行作， 6-13 和 6-14。

6-13： Python 中用mapPartitions() def combineCtrs(c1, c2):

return (c1[0] + c2[0], c1[1] + c2[1]) def basicAvg(nums):

"""计算 """

nums.map(lambda num: (num, 1)).reduce(combineCtrs) 6-14： Python 中用mapPartitions()

def partitionCtr(nums):

"""计算分区的sumCounter"""

sumCount = [0, 0]

sumCount = nums.mapPartitions(partitionCtr).reduce(combineCtrs) return sumCount[0] / float(sumCount[1])

6.5 道

6-15：R 的序

#!/usr/bin/env Rscript library("Imap") f <- file("stdin") open(f)

while(length(line <- readLines(f,n=1)) > 0) { # 处理行

contents <- Map(as.numeric, strsplit(line, ",")) mydist <- gdist(contents[[1]][1], contents[[1]][2], contents[[1]][3], contents[[1]][4],

units="m", a=6378137.0, b=6356752.3142, verbose = FALSE) write(mydist, stdout())

}

distScript = "./src/R/finddistance.R"

distScriptName = "finddistance.R"

sc.addFile(distScript) def hasDistInfo(call):

""" 次有计算时需的字 """

requiredFields = ["mylat", "mylong", "contactlat", "contactlong"]

return all(map(lambda f: call[f], requiredFields)) def formatCall(call):

""" 新的式新 R 序解析"""

return "{0},{1},{2},{3}".format(

call["mylat"], call["mylong"],

call["contactlat"], call["contactlong"]) pipeInputs = contactsContactList.values().flatMap(

lambda calls: map(formatCall, filter(hasDistInfo, calls))) distances = pipeInputs.pipe(SparkFiles.get(distScriptName)) print distances.collect()

6-17： Scala 中用pipe() 用finddistance.R的序

// 用 R 序计算次的

// 本加需要本次作中的件的列中 val distScript = "./src/R/finddistance.R"

val distScriptName = "finddistance.R"

sc.addFile(distScript)

val distances = contactsContactLists.values.flatMap(x => x.map(y =>

s"$y.contactlay,$y.contactlong,$y.mylat,$y.mylong")).pipe(Seq(

SparkFiles.get(distScriptName))) println(distances.collect().toList)

6-18： Java 中用pipe() 用finddistance.R的序

// 用 R 序计算次的

// 本加需要本次作中的件的列中

String distScript = "./src/R/finddistance.R";

String distScriptName = "finddistance.R";

sc.addFile(distScript);

JavaRDD<String> pipeInputs = contactsContactLists.values() .map(new VerifyCallLogs()).flatMap(

new FlatMapFunction<CallLog[], String>() { public Iterable<String> call(CallLog[] calls) { ArrayList<String> latLons = new ArrayList<String>();

for (CallLog call: calls) {

JavaRDD<String> distances = pipeInputs.pipe(SparkFiles.get(distScriptName));

System.out.println(StringUtils.join(distances.collect(), ","));

SparkContext.addFile(path)，件列，工作 Spark 作

中列中的件。件自的本地件子中所的

，者自HDFS Hadoop 所的件，者 HTTP、HTTPS FTP 的 URI

地址。作中的行作发时，件会，工作

SparkFiles.getRootDirectory 它。用SparkFiles.get(Filename)

定件。，保pipe()能工作本的方法。

用的远制工具本件的。

所有 SparkContext.addFile(path) 加的件存同中，

所有要用的字。

本问，RDD 的pipe()方法 RDD 中的元地本道。

有版本的findDistance，行数的式收定的SEPARATOR。

的，的方法成工作，用第。

• rdd.pipe(Seq(SparkFiles.get("ﬁnddistance.R"), ","))

• rdd.pipe(SparkFiles.get("ﬁnddistance.R") + " ,")

第方法中，用定的数序列的式本

而第方法中，它作字， Spark 会字

解定的数序列。

需要的， pipe() 定行量。需要量应的

作 pipe()的第数进，Spark 会。

应理解了用pipe()、处理RDD 中的元，及

的本分发集，能工作本。

6.6 数 RDD

Spark 数数据的RDD 了的计作。会第11

的的计方法和学方法的。

Spark 的数作式算法的，次元的方式出。

计数据会用stats()时次数据计算出， StatsCounter

。 6-2 列出了StatsCounter 的用方法。

表6-2：StatsCounter中可用的汇总统计数据

count() RDD 中的元数

mean() 元的

sum() 和

max() 大

min()

variance() 元的方

sampleVariance() 中计算出的方

stdev()

sampleStdev() 的

计算计数据中的， RDD 用应的方法， rdd.

mean() 者rdd.sum()。

6-19 6-21 中，会用计数据中。由会

次用同 RDD 次用计算计数据，次用，应

RDD 存。的中，中远的

。

6-19：用 Python

# 要 String RDD 数字数据，能

# 用计数

distanceNumerics = distances.map(lambda string: float(string)) stats = distanceNumerics.stats()

stddev = std.stdev() mean = stats.mean()

reasonableDistances = distanceNumerics.filter(

lambda x: math.fabs(x - mean) < 3 * stddev) print reasonableDistances.collect()

6-20：用 Scala

// 要，有地能的

// 要字 RDD 它

val distanceDouble = distance.map(string => string.toDouble) val stats = distanceDoubles.stats()

val stddev = stats.stdev val mean = stats.mean

val reasonableDistances = distanceDoubles.filter(x => math.abs(x-mean) < 3 * stddev) println(reasonableDistance.collect().toList)

6-21：用 Java

// 要 String RDD DoubleRDD，能用计数

JavaDoubleRDD distanceDoubles = distances.mapToDouble(new DoubleFunction<String>() { public double call(String value) {

return Double.parseDouble(value);

}});

final StatCounter stats = distanceDoubles.stats();

final Double stddev = stats.stdev();

final Double mean = stats.mean();

JavaDoubleRDD reasonableDistances =

distanceDoubles.filter(new Function<Double, Boolean>() { public Boolean call(Double x) {

scala 及src/main/java/com/oreilly/learningsparkexamples/java/ChapterSixExample.java 中。

6.7

本中，了Spark 编中的进特，用特的序

高效、大。会 Spark 应用，及 Spark 的SQL 、

计算和学。，会开的序，会

用所学的能，自的Spark 应用带和发。

第 7 章

在集群上运行 Spark

7.1

，本书讲用Spark shell 学 Spark，序运行 Spark 本

地式。而Spark 的大处增加数量用集式运行，

序的计算能。编用集行执行的Spark 应用所用的 API 本书

所的。，数据集用本地式快速开发

的应用，需代大集运行。

本分式Spark 应用的运行，集运行Spark 应用时的

。Spark 的集理 Hadoop YARN、Apache Mesos，有 Spark 自带的集理运行，所 Spark 应用能适应用集，能用

共的计算。会用的和方法进行。同时，会

Spark 应用、、等方的。读本，应能学会

运行分式Spark 序的技能。会 Spark 应用进行和能。

7.2 Spark

集运行spark ，了解 Spark 分式中的图7-1 ，有理解集运行Spark 的具。

分式，Spark 集用的 / 。 Spark 集中，有

责中，分式工作。中驱动器 Driver ，

应的工作执行器 executor 。和大量的执行

进行，它作的Java 进运行。和所有的执行

Spark 应用 application 。

Spark 序

集理 Mesos、

YARN 集理

集工作集工作集工作

执行进执行进执行进

图7-1：分布式 Spark 应用中的组件

Spark 应用作集群管理器 Cluster Manager 的集中的

。Spark 自带的集理集理。Spark 能运行 Hadoop YARN 和 Apache Mesos 大开集理。

7.2.1

Spark 执行的序中的main()方法的进。它执行用编的用 SparkContext、 RDD，及进行 RDD 的化作和行作的代。，

Spark shell 时，了 Spark 序记，Spark shell 会加作sc的SparkContext 。序，Spark 应用

了。

序 Spark 应用中有责。

• 把用户程序转为任务

Spark 序责用序理执行的元，元任务

task 。，所有的Spark 序同的：序数据

列RDD，用化作生出新的RDD，用行作收集存 RDD 中的数据。Spark 序式地出了由作成的辑的有向无环图

Directed Acyclic Graph，简 DAG 。序运行时，它会辑图理执行计。

Spark 会辑执行计作化，的化执行，

作合中等。 Spark 辑计列步骤 stage 。而

由任务成。任会打集中。任 Spark 中的工作

元，用序要成千的任。

• 为执行器节点调度任务

有了理执行计，Spark 序执行进任的。执行

进，会进册自。，进应用中所有的执行

有的记。执行代能处理任和存 RDD 数据的进。

Spark 序会据的执行集合，所有任数据所分

合适的执行进。任执行时，执行进会存数据存，而

进同会存数据的，用的任，

量数据的网络。

序会 Spark 应用的运行时的网出，

4040 。，本地式，问http://localhost:4040 网了。

会第8 加地讲解Spark 的网用及Spark 的作制。

7.2.2

Spark 执行工作进，责 Spark 作中运行任，任互。

Spark 应用时，执行同时， Spark 应用的生

而存。有执行发生了，Spark 应用执行。执行进

有大作用：第，它责运行成Spark 应用的任，进

第，它自的理 Block Manager 用序中要存的RDD

存式存。RDD 存执行进的，任运行时分用存数据

加速运算。

中

本书中，大分本地式运行Spark。本地式，Spark

序和执行序同 Java 进中运行。特执行

序运行用的进中。

7.2.3

，了和执行的。，和

执行的 Spark 集理执行，而特

，集理。集理 Spark 中的式件。

，了Spark 自带的集理，Spark 运行集理， YARN 和 Mesos。

Spark 中用驱动器节点和执行器节点的执行Spark

应用的进。而主节点 master 和工作节点 worker 的用

分集理中的中心化的分和分式的分。

，所要心。，Hadoop YARN 会作理

Resource Manager 的进，及列作理 Node

Manager 的工作进。而 YARN 的工作，Spark

运行执行进，运行进。

7.2.4

用的集理，用Spark 的本spark-submit

在文檔中快速大数据分析 (頁 107-0)

5.5 数据