PageRank

4.5　数据分区进

4.5.4 PageRank

PageRank RDD 分区中的的算法，它进行分析。PageRank 算法 Google 的 · Larry Page 的字的，用据

的，集合中的要量。算法用网进行

序，，用序技社交网络中有的用。

PageRank 执行次的迭代算法，它 RDD 分区作的的用。

算法会数据集：由(pageID, linkList)的元成，的

的列由(pageID, rank)元成，的序。它

进行计算。

(1) 的序化 1.0。

val links = sc.objectFile[(String, Seq[String])]("links") .partitionBy(new HashPartitioner(100)) .persist()

// 的序化 1.0 由用mapValues，生成的RDD

// 的分区方式会和"links"的

var ranks = links.mapValues(v => 1.0) // 运行10 PageRank迭代

for(i <- 0 until 10) {

val contributions = links.join(ranks).flatMap { case (pageId, (links, rank)) =>

links.map(dest => (dest, rank / links.size)) }

ranks = contributions.reduceByKey((x, y) => x + y).mapValues(v => 0.15 + 0.85*v) }

序 0.15 + 0.85 * contributionsReceived。

代本简，序了保RDD 高效的方式进

化 PageRank 的的MapReduce 了的网

络开。

(2) 出同的，用links的persist()方法，它保存中次迭代用。

(3) 第次 ranks时，用mapValues()而 map() 保 RDD links

的分区方式，它进行的第次作会开。

(4) 中， reduceByKey() 用mapValues() reduceByKey()的

分区的了，，次中作的次 links进行

作时会加高效。

了大化分区化的作用，应需元的时量

用mapValues() ﬂatMapValues()。

4.5.5 分

Spark 的HashPartitioner RangePartitioner 能大数用， Spark 自定义的Partitioner 制RDD 的分区方式。

用领进开。

子，要网的集合运行中的PageRank 算法。，

的ID RDD 中的的URL。用简的数进行分区时，

有的URL 的 http://www.cnn.com/WORLD 和 http://www.cnn.com/US 能

会分同的。而，道同的网有能互。

由 PageRank 需要次迭代中它所有的发，

分同分区中会。用自定义的分区据而

URL 分区。

要自定义的分区，需要 org.apache.spark.Partitioner 方法。

• numPartitions: Int：出的分区数。

• getPartition(key: Any): Int：定的分区编号 0 numPartitions-1 。

• equals()：Java 等的方法。方法的要，Spark 需要用

方法的分区和分区同， Spark

RDD 的分区方式同。

有问题需要，的算法 Java 的hashCode()方法时，方法有能会

数。需要分，保getPartition() 远数。

4-26 了编的的分区，分区 URL 中的

分。

4-26：Scala 自定义分区方式

class DomainNamePartitioner(numParts: Int) extends Partitioner { override def numPartitions: Int = numParts

override def getPartition(key: Any): Int = {

val domain = new Java.net.URL(key.toString).getHost() val code = (domain.hashCode % numPartitions)

if(code < 0) {

override def equals(other: Any): Boolean = other match { case dnp: DomainNamePartitioner =>

dnp.numPartitions == numPartitions

DomainNamePartitioner，成时自进行和Java 中的instanceof()

的。

用自定义的Partitioner 的：要它 partitionBy()方法。Spark 中

有数据的方法， join()和groupByKey()，它收的

return hash(urlparse.urlparse(url).netloc) rdd.partitionBy(20, hash_domain)　# 20 分区

，所的数会 RDD 的分区数区分开。要

RDD 用同的分区方式，应用同数，数，而

RDD 新的数。

4.6

本学了用Spark 的的数作数据。第3 中讲的技

同适用 pair RDD。中会读和保存数据。

第 5 章

数据读取与保存

本工和数据学用。工会了解的出式，有

适合用处理序的式。数据学能心数据的有的式。

5.1

学了 Spark 中分发的数据执行的作。，所的

本地集合者件中进行数据读和保存的。有时，数据量能大法

台中，时需要的数据读和保存的方法了。

Spark 出。分 Spark 本 Hadoop 生而，特

Spark Hadoop MapReduce 所用的InputFormat和OutputFormat 问数据，而大分的件式存 S3、HDFS、Cassandra、HBase 等

。¹ 5.2.6 了用式。

，出的高 API 会用。运的，Spark 及生

了方。本会的数据。

• 文件格式与文件系统

存本地件分式件 NFS、HDFS、Amazon S3 等中的数据，Spark 问同的件式，本件、JSON、SequenceFile，

及protocol buffer。会式的用法，及Spark 同件

的和。

1：InputFormat和OutputFormat MapReduce 中用数据的Java API。

• Spark SQL中的结构化数据源

第9 会 Spark SQL ，它 JSON 和 Apache Hive 的化数据

，了加简高效的API。处会地用Spark

SQL，而大分第9 讲解。

• 数据库与键值存储

本会 Spark 自带的和第方，它用 Cassandra、HBase、

Elasticsearch 及JDBC 。

的大数方法 Spark 所的编，有

Java 和 Scala。会出。

5.2

Spark 件式的读和保存方式简。本件的化的件，

JSON 式的化的件， SequenceFile 的化的件，Spark 5-1 。Spark 会据件应的处理方式。

的，用。

表5-1：Spark支持的一些常见格式

本件的本件，行记

JSON 化的本的式，化大数要行记

CSV 的本的式，电子应用中用

SequenceFiles 用数据的 Hadoop 件式

Protocol buffers 快速、的式

件用 Spark 作中的数据存共的代读。的时

它会效，它 Java 序列化

了Spark 中的出制，数据成数据用Hadoop 的新

件API。由 Hadoop 要用数据，所能用，有式

了。会的式，用的 null 。

5.2.1

Spark 中读本件。本件读 RDD 时，的行

会成 RDD 的元。的本件次读 pair RDD，

中件，件。

需要用件路作数用SparkContext 中的textFile() 数，读本件， 5-1 5-3 所。要制分区数的，定minPartitions。

5-1： Python 中读本件

input = sc.textFile("file:///home/holden/repos/spark/README.md") 5-2： Scala 中读本件

val input = sc.textFile("file:///home/holden/repos/spark/README.md") 5-3： Java 中读本件

JavaRDD<String> input = sc.textFile("file:///home/holden/repos/spark/README.md")

件数据所有分的的式出，用方式处

理。用textFile 数，作数，它会分读 RDD

中。有时有要道数据的分分自件件中的时

数据，有时同时处理件。件，用SparkContext.

wholeTextFiles()方法，方法会 pair RDD，中件的件。

wholeTextFiles() 件特定时的数据时有用。有同

数据的件，地出的， 5-4 所。

5-4： Scala 中件的

val input = sc.wholeTextFiles("file://home/holden/salesFiles") val result = input.mapValues{y =>

val nums = y.split(" ").map(x => x.toDouble) nums.sum / nums.size.toDouble

}

Spark 读定中的所有件，及路中用字

part-*.txt 。大数据集存件中，特有

用，同中存的件成记件的时。

出本件简。 5-5 中的saveAsTextFile()方法收路，

RDD 中的路应的件中。Spark 的路作，会

出件。，Spark 行出了。方法中，

能制数据的分出件中，有出式制。

5-5： Python 中数据保存本件 result.saveAsTextFile(outputFile)

5.2.2 JSON

。Python 中用的的 https://docs.python.org/2/library/json.html，

5-6 ，而 Java 和 Scala 中会用Jackson http://jackson.codehaus.org/， 5-7 和

5-8 。所，它能，而用简。

解析了大量的时，应 Scala http://engineering.ooyala.com/blog/

comparing-scala-json-libraries Java http://geokoder.com/java-json-libraries-comparison 中的JSON 。

5-6： Python 中读化的JSON import json

data = input.map(lambda x: json.loads(x))

Scala 和 Java 中，记读代的中。中能需

case class Person(name: String, lovesPandas: Boolean) //

...

// 解析特定的case class。用flatMap，问题时列 None

// 处理，而有问题时元的列 Some(_)

val result = input.flatMap(record => { try {

Some(mapper.readValue(record, classOf[Person])) } catch {

case e: Exception => None }})

5-8： Java 中读 JSON

class ParseJson implements FlatMapFunction<Iterator<String>, Person> { public Iterable<Person> call(Iterator<String> lines) throws Exception { ArrayList<Person> people = new ArrayList<Person>();

ObjectMapper mapper = new ObjectMapper();

while (lines.hasNext()) { String line = lines.next();

try {

people.add(mapper.readValue(line, Person.class));

} catch (Exception e) {

JavaRDD<String> input = sc.textFile("file.json");

JavaRDD<Person> result = input.mapPartitions(new ParseJson());

处理式的记有能会的问题， JSON 5-9： Python 保存 JSON

(data.filter(lambda x: x["lovesPandas"]).map(lambda x: json.dumps(x)) .saveAsTextFile(outputFile))

5-10： Scala 中保存 JSON

result.filter(p => P.lovesPandas).map(mapper.writeValueAsString(_)) .saveAsTextFile(outputFile)

5-11： Java 中保存 JSON

class WriteJson implements FlatMapFunction<Iterator<Person>, String> { public Iterable<String> call(Iterator<Person> people) throws Exception { ArrayList<String> text = new ArrayList<String>();

ObjectMapper mapper = new ObjectMapper();

while (people.hasNext()) { Person person = people.next();

text.add(mapper.writeValueAsString(person));

}

return text;

} }

JavaRDD<Person> result = input.mapPartitions(new ParseJson()).filter(

new LikesPandas());

JavaRDD<String> formatted = result.mapPartitions(new WriteJson());

formatted.saveAsTextFile(outfile);

，有的作本数据的制和JSON ，用Spark 地读和保存JSON 数据了。

5.2.3 分分

号分 CSV 件行有定数的字，字用号开制分

件， TSV 件中用制开。记行，，有时

行。CSV 件和TSV 件有时的，要处理行、义

字、 ASCII 字、数等方。CSV 生字，所需要合

和分解特定的字。

JSON 中的字的，的记有的字，能应的

序号。法用第行中列的作字。

1. CSV

读 CSV/TSV 数据和读 JSON 数据，需要件作本件读数

据，数据进行处理。由式的，同的同版本有时会用同的方

式处理数据。

JSON ，CSV 有同的，中用。同，

Python 会用自带的csv https://docs.python.org/2/library/csv.html 。 Scala 和 Java 中用opencsv http://opencsv.sourceforge.net/ 。

Hadoop InputFormat 中的CSVInputFormat http://docs.oracle.com/cd/E27101_01/

appdev.10/e20858/oracle/hadoop/loader/examples/CSVInputFormat.html

用 Scala 和 Java 中读 CSV 数据。它行的记。

的CSV 的所有数据字有行，用textFile()读解析数据， 5-12 5-14 所。

5-12： Python 中用^textFile()读 CSV import csv

import StringIO

...

def loadRecord(line):

"""解析行CSV记 """

input = StringIO.StringIO(line)

reader = csv.DictReader(input, fieldnames=["name", "favouriteAnimal"]) return reader.next()

val input = sc.textFile(inputFile) val result = input.map{ line =>

val reader = new CSVReader(new StringReader(line));

reader.readNext();

}

5-14： Java 中用textFile()读 CSV import au.com.bytecode.opencsv.CSVReader;

import Java.io.StringReader;

...

public static class ParseLine implements Function<String, String[]> { public String[] call(String line) throws Exception {

CSVReader reader = new CSVReader(new StringReader(line));

return reader.readNext();

} }

JavaRDD<String> csvFile1 = sc.textFile(inputFile);

JavaPairRDD<String[]> csvData = csvFile1.map(new ParseLine());

字中有行，需要读件，解析， 5-15 5-17

input = StringIO.StringIO(fileNameContents[1])

reader = csv.DictReader(input, fieldnames=["name", "favoriteAnimal"]) return reader

fullFileData = sc.wholeTextFiles(inputFile).flatMap(loadRecords)

5-16： Scala 中读 CSV

case class Person(name: String, favoriteAnimal: String) val input = sc.wholeTextFiles(inputFile)

val result = input.flatMap{ case (_, txt) =>

val reader = new CSVReader(new StringReader(txt));

reader.readAll().map(x => Person(x(0), x(1))) }

5-17： Java 中读 CSV public static class ParseLine

implements FlatMapFunction<Tuple2<String, String>, String[]> {

public Iterable<String[]> call(Tuple2<String, String> file) throws Exception { CSVReader reader = new CSVReader(new StringReader(file._2()));

return reader.readAll();

} }

JavaPairRDD<String, String> csvData = sc.wholeTextFiles(inputFile);

JavaRDD<String[]> keyedRDD = csvData.flatMap(new ParseLine());

有分件，需要用wholeFile()方法，能需要 5-18： Python 中 CSV

def writeRecords(records):

""" 出 CSV记 """

output = StringIO.StringIO()

writer = csv.DictWriter(output, fieldnames=["name", "favoriteAnimal"]) for record in records:

writer.writerow(record) return [output.getvalue()]

pandaLovers.mapPartitions(writeRecords).saveAsTextFile(outputFile) 5-19： Scala 中 CSV

pandaLovers.map(person => List(person.name, person.favoriteAnimal).toArray) .mapPartitions{people =>

val stringWriter = new StringWriter();

val csvWriter = new CSVWriter(stringWriter);

csvWriter.writeAll(people.toList) Iterator(stringWriter.toString) }.saveAsTextFile(outFile)

能，的子能道所要出的所有字时用。而，

字运行时由用决定的，要用的方法了。简的方法所

有的数据，同的，分出。

5.2.4 SequenceFile

SequenceFile 由有的件成的用Hadoop 式。SequenceFile

件有同记，Spark 用它定件中的，记的

。 Spark 用高效地行读 SequenceFile 件。SequenceFile Hadoop MapReduce 作中用的出式，所用有的Hadoop

，数据有能 SequenceFile 的式用的。

由 Hadoop 用了自定义的序列化， SequenceFile 由 Hadoop 的 Writable 的元成。 5-2 列出了的数据及它应的Writable 。的法的加 Writable ，它 org.apache.hadoop.

io.Writable http://hadoop.apache.org/docs/r2.4.1/api/org/apache/hadoop/io/Writable.html 的子。法要出的数据应的Writable 自定义的case class ，

org.apache.hadoop.io.Writable中的readfields和write 自的Writable 。

Hadoop 的 RecordReader 会记用同，用RDD

的cache会，需要用简的map() 作

存。有， Hadoop Writable 有 java.io.Serializable

，了它能 RDD 中用，要用map() 它。²³

表5-2：Hadoop Writable类型对应表

Int Integer IntWritable VIntWritable² Long Long LongWritable VLongWritable²

Float Float FloatWritable

Double Double DoubleWritable Boolean Boolean BooleanWritable Array[Byte] byte[] BytesWritable

String String Text

Array[T] T[] ArrayWritable<TW>³ List[T] List<T> ArrayWritable<TW>³ Map[A, B] Map<A, B> MapWritable<AW, BW>³

2：和存定的式。存数字12 据的和存数字2**30 据的。

有大量的数据，应用的 VIntWritable和VLongWritable，它存

数时用的。

3：用Writable 。

Spark 1.0 及版本中，SequenceFile 能 Java 和 Scala 中用， Spark 1.1 加了 Python 中读和保存SequenceFile 的能。要，需要用Java Scala 自定义Writable 。Spark 的 Python API 能 Hadoop 中存的本 Writable Python ，量用的getter 方法处理的。

1. SequenceFile

Spark 有用读 SequenceFile 的。 SparkContext 中，用sequenceFile(path,

keyClass, valueClass, minPartitions)。，SequenceFile 用Writable ，

keyClass和valueClass 数用的Writable 。子，要

SequenceFile 中读人员及所的数。子中，keyClass Text，

而valueClass IntWritable VIntWritable。了方， 5-20 5-22 中

用IntWritable。

5-20： Python 读 SequenceFile val data = sc.sequenceFile(inFile,

"org.apache.hadoop.io.Text", "org.apache.hadoop.io.IntWritable") 5-21： Scala 中读 SequenceFile

val data = sc.sequenceFile(inFile, classOf[Text], classOf[IntWritable]).

map{case (x, y) => (x.toString, y.get())}

5-22： Java 中读 SequenceFile

public static class ConvertToNativeTypes implements

PairFunction<Tuple2<Text, IntWritable>, String, Integer> {

public Tuple2<String, Integer> call(Tuple2<Text, IntWritable> record) { return new Tuple2(record._1.toString(), record._2.get());

} }

JavaPairRDD<Text, IntWritable> input = sc.sequenceFile(fileName, Text.class, IntWritable.class);

JavaPairRDD<String, Integer> result = input.mapToPair(

new ConvertToNativeTypes());

Scala 中有方的数自 Writable 应的Scala

。用sequenceFile[Key, Value](path, minPartitions) Scala

生数据的RDD，而需定keyClass和valueClass。

2. SequenceFile

Scala 中数据出 SequenceFile 的法。， SequenceFile 存的

，所需要由出 SequenceFile 的成的PairRDD。进行了 Scala 的生 Hadoop Writable 的式，所要

出的 Scala 的生，用saveSequenceFile(path)保存的PairRDD，它

会出数据。和能自 Writable ，者用

VIntWritable ，数据进行作，保存进行。

的子人员及所的数， 5-23 所。

5-23： Scala 中保存 SequenceFile

val data = sc.parallelize(List(("Panda", 3), ("Kay", 6), ("Snail", 2))) data.saveAsSequenceFile(outputFile)

Java 中保存 SequenceFile 要， JavaPairRDD 有saveAsSequenceFile() 方法。要用Spark 保存自定义 Hadoop 式的能。5.2.6 会用 Java SequenceFile 保存数据。

5.2.5

件 SequenceFile 的简，它存的RDD。和

SequenceFile 的，件用Java 序列化出的。

了的 —— 增了字 —— 生成的件

读了。件用Java 序列化，它同的同版本有定

的，需要序员。

件用Java 序列化有要的地方。，和的SequenceFile 同，

同的，件的出和Hadoop 的出。次，件式同的

，件用 Spark 作的。，Java 序列化有能。

要保存件，需 RDD 用saveAsObjectFile 行了。读件简

：用SparkContext 中的objectFile() 数收路，应的RDD。

了解了用件的，能道会有人要用它。用

件的要它用保存任而需要的工作。

件 Python 中法用， Python 中的 RDD 和 SparkContext saveAsPickleFile()

和pickleFile()方法作代。用了Python 的 pickle 序列化。，件的

同适用 pickle 件：pickle 能，定义，生的数据件能法读出。

5.2.6 Hadoop

了Spark 的式，任 Hadoop 的式交互。Spark 新

Hadoop 件API，了大的。⁴ 1. Hadoop

要用新版的Hadoop API 读件，需要 Spark 。newAPIHadoopFile

收路及。第式，代式。的数

hadoopFile() 用用的API 的Hadoop 式。第的，

的。需要定的Hadoop ， conf 。

KeyValueTextInputFormat 简的Hadoop 式，用本件中读

数据 5-24 所。行会处理，和用制开。

式存 Hadoop 中，所需工中加的能用它。

5-24： Scala 中用式 API 读 KeyValueTextInputFormat()

val input = sc.hadoopFile[Text, Text, KeyValueTextInputFormat](inputFile).map{

case (x, y) => (x.toString, y.toString) }

学了读本件加解析读 JSON 数据的方法。，

用自定义Hadoop 式读 JSON 数据。需要的，

的。Twitter 的 Elephant Bird https://github.com/

在文檔中快速大数据分析 (頁 80-0)

4.5 数据分区 进