Java

3.4　 Spark 数

3.4.3 Java

def getMatchesFieldReference(rdd: RDD[String]): RDD[String] = { // 问题："query" "this.query"，要 "this"

rdd.map(x => x.split(query)) }

def getMatchesNoReference(rdd: RDD[String]): RDD[String] = {

// ：需要的字出量中

val query_ = this.query rdd.map(x => x.split(query_)) }

}

Scala 中出了NotSerializableException，问题了序列

化的中的数字。记，序列化量中的数的。

3.4.3 Java

Java 中，数需要作了Spark 的org.apache.spark.api.java.function 中的任

数的。据同的，定义了同的。

Function2<T1, T2, R> R call(T1, T2) 收出，用 aggregate()

和fold()等作中

FlatMapFunction<T, R> Iterable<R> call(T) 收任出，用 flatMap()

的作中

的数定义用 3-22 ，具

3-23 。

3-22： Java 中用进行数

RDD<String> errors = lines.filter(new Function<String, Boolean>() { public Boolean call(String x) { return x.contains("error"); } });

3-23： Java 中用具进行数

class ContainsError implements Function<String, Boolean>() { public Boolean call(String x) { return x.contains("error"); } }

RDD<String> errors = lines.filter(new ContainsError());

具的决人。发具大序时

。用数的处它的造数加数， 3-24 所。

3-24：带数的 Java 数

class Contains implements Function<String, Boolean>() { private String query;

public Contains(String query) { this.query = query; } public Boolean call(String x) { return x.contains(query); } }

RDD<String> errors = lines.filter(new Contains("error"));

Java 8 中，用lambda 式简地数。由本书作时，

Java 8 新，的用了版本的Java，的法定义

数。，用lambda 式，的会 3-25 所。

3-25： Java 中用 Java 8 地 lambda 式进行数

RDD<String> errors = lines.filter(s -> s.contains("error"));

用Java 8 的 lambda 式， Oracle 的 http://docs.oracle.

com/javase/tutorial/java/javaOO/lambdaexpressions.html 及Databricks Spark 中用lambda 式的 http://databricks.com/blog/2014/04/14/spark-with-java-8.html 。

和lambda 式用方法中的任 ﬁnal 量，

Python 和 Scala 中量 Spark。

3.5

本会 Spark 中大分的化作和行作。特定数据的RDD

加作，，数字的RDD 计数作，而式的

RDD 据合数据的作。会中讲

RDD ，及应的特作。

3.5.1 RDD

讲讲化作和行作任数据的RDD 。

能会用的用的化作 map()和filter() 图3-2 。化作

map() 收数，数用 RDD 中的元，数的作

RDD 中应元的。而化作filter() 收数， RDD 中数的元新的RDD 中。

图3-2：从输入 RDD 映射与筛选得到的 RDD

用map() 的：的URL 集合中的 URL 应的

出，简数字方。map()的需要和

。有字 RDD，的map() 数用字解析

Double 的，时的 RDD RDD[String]，而出

RDD[Double]。

简的子，用map() RDD 中的所有数方 3-26 3-28 所。 3-26：Python 版计算 RDD 中的方

nums = sc.parallelize([1, 2, 3, 4])

squared = nums.map(lambda x: x * x).collect() for num in squared:

print "%i " % (num)

3-27：Scala 版计算 RDD 中的方

val input = sc.parallelize(List(1, 2, 3, 4)) val result = input.map(x => x * x)

println(result.collect().mkString(",")) 3-28：Java 版计算 RDD 中的方

JavaRDD<Integer> rdd = sc.parallelize(Arrays.asList(1, 2, 3, 4));

JavaRDD<Integer> result = rdd.map(new Function<Integer, Integer>() { public Integer call(Integer x) { return x*x; }

});

System.out.println(StringUtils.join(result.collect(), ","));

有时，元生成出元。能的作作flatMap()。

和map() ， flatMap()的数分应用了 RDD 的元。

的元，而序列的迭代。出的RDD 由迭代

成的。的迭代问的所有元的RDD。flatMap()的简

用的字分， 3-29 3-31 所。

3-29：Python 中的flatMap() 行数据分 lines = sc.parallelize(["hello world", "hi"]) words = lines.flatMap(lambda line: line.split(" ")) words.first() # "hello"

3-30：Scala 中的flatMap() 行数据分

val lines = sc.parallelize(List("hello world", "hi")) val words = lines.flatMap(line => line.split(" ")) words.first() // "hello"

3-31：Java 中的flatMap() 行数据分

JavaRDD<String> lines = sc.parallelize(Arrays.asList("hello world", "hi"));

JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() { public Iterable<String> call(String line) {

return Arrays.asList(line.split(" "));

} });

words.first(); // "hello"

图3-3 中了flatMap()和map()的区。 flatMap() 作的迭代

，了由列中的元成的RDD，而由列成的RDD。

图3-3：RDD 的ﬂatMap()和map()的区别 2.

RDD 本义的集合，它数学的集合作，合和

交作。图3-4 了作。，作要作的RDD 同数据的。

的RDD 中的集合元的，有的元。

要的元，用RDD.distinct() 化作生成同元的新

RDD。需要，distinct() 作的开大，它需要所有数据网络进行

shufﬂe ，保元有。第4 会数据，及数据。

图3-4：一些简单的集合操作

简的集合作 union(other)，它会 RDD 中所有元的 RDD。

用有用，处理自数据的件。数学中的union() 作

同的，的RDD 中有数据，Spark 的union() 作会数据

有要， distinct() 同的效。

Spark 了intersection(other)方法， RDD 中有的元。intersection()

运行时会所有的元 RDD 的元会。

intersection() union()的，intersection()的能要，它需要

网络数据发共有的元。

有时需要数据。subtract(other) 数收 RDD 作数，

由存第 RDD 中而存第 RDD 中的所有元成的RDD。和

intersection() ，它需要数据。

计算 RDD 的，图3-5 所。cartesian(other) 化作会

所有能的(a, b) ，中a RDD 中的元，而b 自 RDD。

所有能的合的时有用，计算用的

。 RDD 自的，用用的应用

中。要特的，大 RDD 的开大。

图3-5：两个 RDD 的笛卡儿积

3-2 和 3-3 了的RDD 化作。

表3-2：对一个数据为{1, 2, 3, 3}的RDD进行基本的RDD转化操作

map() 数应用 RDD 中的元

distinct() rdd.distinct() {1, 2, 3}

sample(withRe placement, fra ction, [seed])

RDD ，及 rdd.sample(false, 0.5) 定的

表3-3：对数据分别为{1, 2, 3}和{3, 4, 5}的RDD进行针对两个RDD的转化操作

union() 生成 RDD 中所有元

的RDD

rdd.union(other) {1, 2, 3, 3, 4, 5}

intersection() RDD 共同的元的 RDD rdd.intersection(other) {3}

subtract() RDD 中的

Integer sum = rdd.reduce(new Function2<Integer, Integer, Integer>() { public Integer call(Integer x, Integer y) { return x + y; }

});

fold()和reduce() ，收 reduce() 收的数同的数，加 sumCount = nums.aggregate((0, 0),

(lambda acc, value: (acc[0] + value, acc[1] + 1),

(lambda acc1, acc2: (acc1[0] + acc2[0], acc1[1] + acc2[1])))) return sumCount[0] / float(sumCount[1])

3-36：Scala 中的aggregate()

val result = input.aggregate((0, 0))(

(acc, value) => (acc._1 + value, acc._2 + 1),

(acc1, acc2) => (acc1._1 + acc2._1, acc1._2 + acc2._2)) val avg = result._1 / result._2.toDouble

3-37：Java 中的aggregate()

class AvgCount implements Serializable { public AvgCount(int total, int num) { this.total = total;

this.num = num;

}

public int total;

public int num;

public double avg() {

return total / (double) num;

} }

Function2<AvgCount, Integer, AvgCount> addAndCount = new Function2<AvgCount, Integer, AvgCount>() { public AvgCount call(AvgCount a, Integer x) {

Function2<AvgCount, AvgCount, AvgCount> combine = new Function2<AvgCount, AvgCount, AvgCount>() { public AvgCount call(AvgCount a, AvgCount b) { a.total += b.total;

a.num += b.num;

return a;

} };

AvgCount initial = new AvgCount(0, 0);

AvgCount result = rdd.aggregate(initial, addAndCount, combine);

System.out.println(result.avg());

本RDD 的作，出它的行。count()用

元的数，而countByValue() 应的计数的。 3-4

了行作。

表3-4：对一个数据为{1, 2, 3, 3}的RDD进行基本的RDD行动操作

collect() RDD 中的所有元 rdd.collect() {1, 2, 3, 3}

count() RDD 中的元数 rdd.count() 4

countByValue() 元 RDD 中出的次数 rdd.countByValue() {(1, 1),

(2, 1),

RDD 中任元 rdd.takeSample(false, 1) 定的

reduce(func) 行合RDD 中所有数据

SparkContext._ 用式。 SparkContext 的Scala http://spark.

apache.org/docs/latest/api/scala/index.html#org.apache.spark.SparkContext$ 中所列出的式

。式式地 RDD ， DoubleRDDFunctions 数数据的RDD 和PairRDDFunctions RDD ，有了 mean()和

variance() 的的数。

式大，会阅读代的人。 RDD 用了 mean()

的数，能会发 RDD 的Scala http://spark.apache.org/docs/latest/api/scala/

index.html#org.apache.spark.rdd.RDD 中本有mean() 数。用所能成，

式 RDD[Double] DoubleRDDFunctions。 Scala 中

数时，要了的用中的数。

DoubleFlatMapFunction<T> Function<T, Iterable<Double>> 用 flatMapToDouble，生成DoubleRDD

DoubleFunction<T> Function<T, Double> 用 mapToDouble，生成

DoubleRDD

PairFlatMapFunction<T, K, V> Function<T, Iterable<Tuple2<K, V>>> 用 flatMapToPair，生成PairRDD<K, V>

PairFunction<T, K, V> Function<T, Tuple2<K, V>> 用 mapToPair，生成 PairRDD<K, V>

3-28 生成 JavaDoubleRDD、计算RDD 中元的方的，

3-38 所。用DoubleRDD 有的数了， mean()和variance()。 3-38：用 Java DoubleRDD

JavaDoubleRDD result = rdd.mapToDouble(

new DoubleFunction<Integer>() { public double call(Integer x) { return (double) x * x;

} });

System.out.println(result.mean());

3. Python

Python 的 API Java 和 Scala 有所同。 Python 中，所有的数本的

RDD 中，作应的RDD 数据，会运行时。

3.6 ( )

所，Spark RDD 的，而有时能次用同 RDD。简地 RDD 用行作，Spark 次会算RDD 及它的所有。迭代算法中

大，迭代算法会次用同数据。 3-39 RDD 作次计

数、 RDD 出的子。

3-39：Scala 中的次执行

val result = input.map(x => x*x) println(result.count())

println(result.collect().mkString(","))

了次计算同 RDD， Spark 数据进行化。 Spark 化

存 RDD 时，计算出 RDD 的会分保存它所出的分区数据。有化数据的发生，Spark 会需要用存的数据时算的数据分区。

的会的执行速，数据。

出同的的， RDD 同的化 3-6 所。 Scala

3-40 和 Java 中， ^persist()会数据序列化的式存 JVM 的中。 Python 中，会序列化要化存的数据，所化

序列化的存 JVM 中。数据者存时，

用序列化的数据。

表3-6：org.apache.spark.storage.StorageLevel和pyspark.StorageLevel中的持久化级别；如有必要，可以通过在存储级别的末尾加上“_2”来把持久化数据存为两份

　　内　　

MEMORY_ONLY 高

MEMORY_ONLY_SER 高

MEMORY_AND_DISK 高中等分分数据存中，

MEMORY_AND_DISK_SER 高分分数据存中，

。存中存序列化的数据

DISK_ONLY 高

存能，用Tachyon http://tachyon-project.org/ 作

。 Spark 的存有，

Tachyon 运行Spark 的 http://tachyon-project.org/Running-Spark-on-Tachyon.html 。

3-40： Scala 中用^persist() val result = input.map(x => x * x) result.persist(StorageLevel.DISK_ONLY) println(result.count())

println(result.collect().mkString(","))

，第次 RDD 用行作用了persist()方法。persist()

用本会发制。

要存的数据，存中，Spark 会自用用 LRU 的存

的分区存中。数据存存中的存，次要用

的分区时，分区需要新计算。用存的存的

分区，的分区会。，心的作存

了数据而打。，存要的数据会有用的数据出存，带

算的时开。

，RDD 有方法作unpersist()，用方法化的RDD

存中。

3.7

本中，了RDD 运行及RDD 的作。读了，

—— 学了Spark 的所有核心。进行行合、分等作时，

需要用式的RDD。会讲解式的RDD 的特作。

，会数据的出，及用SparkContext 的进题。

第 4 章

键值对操作

RDD Spark 中作所需要的数据。本作

RDD。 RDD 用进行合计算。要 ETL 、

化、作数据化式。 RDD 了新的作

计的，数据中同的分，同的RDD 进行分合等。

本会用用制 RDD 分的高特：分区。有时，

用的分区方式问的数据同，大大应用的

开。会带的能。会用PageRank 算法分区的作用。分

式数据集的分区方式和本地数据集合适的数据 ——

，数据的分会地序的能。

4.1

Spark 的RDD 了有的作。 RDD pair RDD¹。Pair

RDD 序的成要，它了行作新进行数据分

的作。，pair RDD reduceByKey()方法，分应的数据，

有join()方法， RDD 中同的元合，合 RDD。

RDD 中字代件时、用 ID 者的字，

用字作 pair RDD 作中的。

1： pair RDD RDD ，发义，译中保 pair RDD 。——译者

4.2 Pair RDD

Spark 中有 pair RDD 的方式。第 5 会讲，存的数据式会

读时由数据成的pair RDD。，需要的RDD

pair RDD 时，用map() 数，的数需要。会由本行成的RDD 行的第的pair RDD。

RDD 的方法同的中会有所同。 Python 中，了的

数据能数中用，需要由元成的RDD 4-1 。

4-1： Python 中用第作出 pair RDD pairs = lines.map(lambda x: (x.split(" ")[0], x))

Scala 中，了的数据能数中用，同需要元

4-2 。式元 RDD 加的数。

4-2： Scala 中用第作出 pair RDD val pairs = lines.map(x => (x.split(" ")(0), x))

Java 有自带的元， Spark 的 Java API 用用scala.Tuple2

元。简：Java 用 new Tuple2(elem1, elem2) 新的元

， ._1()和._2()方法问中的元。

Java 用需要用的Spark 数 pair RDD。，要用mapToPair() 数

代版的map() 数， 3.5.2 中的 Java 有的。

4-3 中简的子。

4-3： Java 中用第作出 pair RDD PairFunction<String, String, String> keyData =

new PairFunction<String, String, String>() { public Tuple2<String, String> call(String x) { return new Tuple2(x.split(" ")[0], x);

} };

JavaPairRDD<String, String> pairs = lines.mapToPair(keyData);

用Scala 和 Python 存中的数据集 pair RDD 时，需要由元成

的集合用SparkContext.parallelize()方法。而要用Java 存数据集 pair RDD

的，需要用SparkContext.parallelizePairs()。

4.3 Pair RDD

Pair RDD 用所有 RDD 的用的化作。3.4 中的所有有数

的同适用 pair RDD。由 pair RDD 中元，所需要的数应

groupByKey() 具有同的进行分 rdd.groupByKey() {(1,

[2]),

rdd.mapValues(x => x+1) {(1, 3), (3, 5), (3, 7)}

flatMapValues(func) pair RDD 中的应用

迭代的数，

的元生成

应的记。

用号化

rdd.flatMapValues(x => (x to 5)) {(1, 2), (1,

sortByKey() 据序的RDD rdd.sortByKey() {(1,

2), (3, 4), (3, 6)}

表4-2：针对两个pair RDD的转化操作（rdd = {(1, 2), (3, 4), (3, 6)}other = {(3, 9)}）

subtractByKey RDD 中 other RDD 中的同的元

rdd.subtractByKey(other) {(1, 2)}

join RDD 进行 rdd.join(other) {(3, (4, 9)), (3,

(6, 9))}

rightOuterJoin RDD 进行作，保第

RDD 的存

rdd.rightOuterJoin(other) {(3,(Some(4),9)), (3,(Some(6),9))}

leftOuterJoin RDD 进行作，保第

RDD 的存

rdd.leftOuterJoin(other) {(1,(2,None)), (3, (4,Some(9))), (3, (6,Some(9)))}

cogroup RDD 中有同的数据分 rdd.cogroup(other) {(1,([2],[])), (3,

([4, 6],[9]))}

的会 pair RDD 的数。

Pair RDD RDD 元 Java Scala 中的 Tuple2 Python 中的元，

同 RDD 所的数。，中的pair RDD，

20 字的行， 4-4 4-6 及图4-1 所。 4-4：用 Python 第元进行

result = pairs.filter(lambda keyValue: len(keyValue[1]) < 20) 4-5：用 Scala 第元进行

pairs.filter{case (key, value) => value.length < 20}

4-6：用 Java 第元进行

Function<Tuple2<String, String>, Boolean> longWordFilter = new Function<Tuple2<String, String>, Boolean>() { public Boolean call(Tuple2<String, String> keyValue) { return (keyValue._2().length() < 20);

} };

JavaPairRDD<String, String> result = pairs.filter(longWordFilter);

图4-1：根据值筛选

有时，问pair RDD 的分，时作元。由的

用式， Spark 了mapValues(func) 数，能 map{case (x, y): (x,

func(y))}。子中用数。

次 pair RDD 的作，合作开。

4.3.1

数据集式的时，合具有同的元进行计的

作。讲解 RDD 的fold()、combine()、reduce()等行作，pair RDD

有应的的化作。Spark 有的作，合具有同的。

作 RDD，它化作而行作。

reduceByKey() reduce() 它收数，用数进行合。

reduceByKey()会数据集中的进行行的作，作会同的合

。数据集中能有大量的，所 reduceByKey() 有用序

的行作。，它会由和应出的成的新的RDD。

foldByKey() fold() 它用 RDD 和合数中的数据

同的作。 fold() ，foldByKey() 作所用的合数

元进行合，元。

4-7 和 4-8 所，用reduceByKey()和mapValues() 计算的应的图4-2 。和用^fold()和map()计算 RDD 的。

，用加用的数同的，会讲。

4-7： Python 中用reduceByKey()和mapValues()计算应的

rdd.mapValues(lambda x: (x, 1)).reduceByKey(lambda x, y: (x[0] + y[0], x[1] + y[1])) 4-8： Scala 中用reduceByKey()和mapValues()计算应的

rdd.mapValues(x => (x, 1)).reduceByKey((x, y) => (x._1 + y._1, x._2 + y._2))

图4-2：求每个键平均值的数据流

MapReduce 中的合 combiner 的读者能，

用reduceByKey()和foldByKey()会计算的

自台进行本地合。用需要定合。化的

combineByKey() 自定义合的行。

用 4-9 4-11 中的方法解决的分式计数问题。

用中讲的flatMap() 生成、数字1 的pair RDD，

4-7 和 4-8 中，用reduceByKey() 所有的进行计数。

4-9：用 Python 计数 rdd = sc.textFile("s3://...")

words = rdd.flatMap(lambda x: x.split(" "))

result = words.map(lambda x: (x, 1)).reduceByKey(lambda x, y: x + y) 4-10：用 Scala 计数

val input = sc.textFile("s3://...")

val words = input.flatMap(x => x.split(" "))

val result = words.map(x => (x, 1)).reduceByKey((x, y) => x + y) 4-11：用 Java 计数

JavaRDD<String> input = sc.textFile("s3://...")

JavaRDD<String> words = rdd.flatMap(new FlatMapFunction<String, String>() { public Iterable<String> call(String x) { return Arrays.asList(x.split(" ")); } });

JavaPairRDD<String, Integer> result = words.mapToPair(

new PairFunction<String, String, Integer>() {

public Tuple2<String, Integer> call(String x) { return new Tuple2(x, 1); } }).reduceByKey(

new Function2<Integer, Integer, Integer>() {

在文檔中快速大数据分析 (頁 52-0)

3.4 Spark 数

3.4.3 Java

3.4.3 Java

3.5

3.5.1 RDD

3.6 ( )

3.7

第 4 章

键值对操作

4.1

4.2 Pair RDD

4.3 Pair RDD

4.3.1

3.4　 Spark 数