SchemaRDD

9.2　应用中用 Spark SQL

9.2.3 SchemaRDD

读数据和执行会 SchemaRDD。SchemaRDD 和数据中的的

。理，SchemaRDD 由Row 成的RDD，带列数据

的。Row 本数据和字等的数的。

会分中进 Row 的。

需要特的，的Spark 版本中 1.3 及，SchemaRDD 字能会

DataFrame。本书编成时中。

SchemaRDD RDD，所应用有的RDD 化作， map()和

filter()。而，SchemaRDD 了的能。要的，任

SchemaRDD 册时，用HiveContext.sql SQLContext.sql 它进行了。 SchemaRDD 的registerTempTable()方法， 9-9 9-11 所。

时用的HiveContext SQLContext 中的时量，的应用

出时时存了。

SchemaRDD 存本数据，存由成的和数。

SchemaRDD 用HiveQL 法 https://cwiki.apache.org/conﬂuence/display/Hive/LanguageManual+

DDL 定义的。 9-1 列出了的数据。³ 表9-1：SchemaRDD中可以存储的数据类型

TINYINT Byte Byte/^byte ^int/^long ( -128 127 )

SMALLINT Short Short/^short ^int/^long ( -32768 32767

)

INT Int Int/^int ^int ^long

BIGINT Long Long/^long ^long

FLOAT Float Float /^ﬂoat ^float

DOUBLE Double Double/^double ^float

3：编译时 ^-Phive打开Hive ，需打开-Phive-thriftserver 。——译者

DECIMAL Scala.math.BigDecimal java.math.BigDecimal decimal.Decimal

STRING String String string

BINARY Array[Byte] byte[] bytearray

BOOLEAN Boolean Boolean/^boolean ^bool

TIMESTAMP java.sql.TimeStamp java.sql.TimeStamp datetime.datetime

ARRAY<DATA_TYPE> Seq List list、tuple array

MAP<KEY_TYPE,VAL_TYPE> Map Map dict

STRUCT<COL1:

COL1_TYPE, ...>

Row Row Row

，， Spark SQL 中的Row 。所有

互。，有成的数，的。

Row

Row SchemaRDD 中的记，本定的字数。 Scala/Java 中，

Row 有列getter 方法，字的。的方法get

Scala 中的apply ，读列的序号 Object Scala 中的Any

的，由的。 Boolean、Byte、Double、Float、Int、

Long、Short和String ，有应的getType()方法，作应的

。，getString(0)会字 0 的作字， 9-12 和 9-13 所。

9-12： Scala 中问 topTweet SchemaRDD 中的 text 列第列 val topTweetText = topTweets.map(row => row.getString(0))

9-13： Java 中问 topTweet SchemaRDD 中的 text 列第列

JavaRDD<String> topTweetText = topTweets.toJavaRDD().map(new Function<Row, String>() { public String call(Row row) {

return row.getString(0);

}});

Python 中，由有式的，Row 有同。用row[i] 问第i 元。，Python 中的Row row.column_name的式用字问

中的字， 9-14 所。定具的列，会 9.3.3 中讲

出。

9-14： Python 中问 topTweet SchemaRDD 中的 text 列 topTweetText = topTweets.map(lambda row: row.text)

9.2.4

Spark SQL 的存制 Spark 中的有同。由道列的，所

Spark 加高效地存数据。了保用存的方式进行存而

存，应用的hiveCtx.cacheTable("tableName")方法。存数据时，

Spark SQL 用列式存式存中数据。存的会

序的生保存中，所进出，需要新存数据。和存

RDD 时的，同的数据次运行任时，应数据

存。

Spark 1.2 中，RDD 有的cache()方法会发次 cacheTable()

方法的用。

用HiveQL/SQL 存。需要运行CACHE TABLEtableName UNCACHE

TABLEtableName 存者有的存。用方式 JDBC 的

行中用。

存的SchemaRDD RDD 的方式 Spark 的应用用中，图 9-2 所。

图9-2：Spark SQL 的 SchemaRDD 用户界面

会 9.6 Spark SQL 中的存制能的。

9.3 数据

Spark SQL 化数据，的读，数据

中读 Row 。数据 Hive 、JSON 和 Parquet 件。，用 SQL 数据中的数据用了分字时，Spark SQL 能地

用的字，而 SparkContext.hadoopFile中简地数据。

数据，序中定，的RDD 化

SchemaRDD。 Python 者Java 运行SQL 加简。需要计算

数时，SQL 加简要同时出年、大年、的用

ID 数等。，自地 RDD 和自 Spark SQL 数据的 SchemaRDD 进行作。本中，会讲解数据及用RDD 的方式。

9.3.1 Apache Hive

Hive 中读数据时，Spark SQL 任 Hive 的存式 SerDe ，本件、RCFiles、ORC、Parquet、Avro，及 Protocol Buffer。

要 Spark SQL 的Hive ，需要 Hive 。需要的hive-site.xml 件制 Spark 的 ./conf/ 。 Spark SQL 而有 hive-site.xml 件， Spark SQL 会用本地的Hive 元数据，同

地数据读 Hive 中进行。

9-15 9-17 了张Hive 。Hive 有列，分 key

和value 字。会本的。

9-15：用 Python Hive 读

from pyspark.sql import HiveContext hiveCtx = HiveContext(sc)

rows = hiveCtx.sql("SELECT key, value FROM mytable") keys = rows.map(lambda row: row[0])

9-16：用 Scala Hive 读

import org.apache.spark.sql.hive.HiveContext val hiveCtx = new HiveContext(sc)

val rows = hiveCtx.sql("SELECT key, value FROM mytable") val keys = rows.map(row => row.getInt(0))

9-17：用 Java Hive 读

import org.apache.spark.sql.hive.HiveContext;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.SchemaRDD;

HiveContext hiveCtx = new HiveContext(sc);

SchemaRDD rows = hiveCtx.sql("SELECT key, value FROM mytable");

JavaRDD<Integer> keys = rdd.toJavaRDD().map(new Function<Row, Integer>() { public Integer call(Row row) { return row.getInt(0); }

});

9.3.2 Parquet

Parquet http://parquet.apache.org/ 行的列式存式，高效地存具有字的记。Parquet 式 Hadoop 生中用，它 Spark SQL 的数据。Spark SQL 了读和存 Parquet 式件的方法。

， HiveContext.parquetFile 者SQLContext.parquetFile 读数据，

9-18 所。

9-18：Python 中的 Parquet 数据读

# 有name和favouriteAnimal字的Parquet 件中读数据 rows = hiveCtx.parquetFile(parquetFile)

names = rows.map(lambda row: row.name) print "Everyone"

print names.collect()

Parquet 件册 Spark SQL 的时，张运行。

9-18 中读了数据， 9-19 所的数据进行。

9-19：Python 中的 Parquet 数据

# 者

tbl = rows.registerTempTable("people")

pandaFriends = hiveCtx.sql("SELECT name FROM people WHERE favouriteAnimal =

\"panda\"")

print "Panda friends"

print pandaFriends.map(lambda row: row.name).collect()

，用saveAsParquetFile() SchemaRDD 的 Parquet 式保存，

9-20 所。

9-20：Python 中的 Parquet 件保存

pandaFriends.saveAsParquetFile("hdfs://...")

要读 JSON 数据，要用hiveCtx中的jsonFile()方法， 9-22 9-24

所。数据中出的，生成的SchemaRDD 用

printSchema方法 9-25 。

9-21：记 {"name": "Holden"}

{"name": "Sparky The Bear", "lovesPandas":true,"knows": {"friends":["holden"]}}

9-22： Python 中用 Spark SQL 读 JSON 数据 input = hiveCtx.jsonFile(inputFile)

9-23： Scala 中用 Spark SQL 读 JSON 数据 val input = hiveCtx.jsonFile(inputFile) 9-24： Java 中用 Spark SQL 读 JSON 数据

SchemaRDD input = hiveCtx.jsonFile(jsonFile);

9-25：printSchema() 出的 root

|-- knows: struct (nullable = true) | |-- friends: array (nullable = true)

| | |-- element: string (containsNull = false) |-- lovesPandas: boolean (nullable = true)

|-- name: string (nullable = true)

9-26 中生成的。

9-26：的分 root

|-- contributorsIDs: array (nullable = true) | |-- element: string (containsNull = false) |-- createdAt: string (nullable = true)

|-- inReplyToScreenName: string (nullable = true) |-- inReplyToStatusId: long (nullable = true) |-- inReplyToUserId: long (nullable = true) |-- isFavorited: boolean (nullable = true)

|-- isPossiblySensitive: boolean (nullable = true) |-- isTruncated: boolean (nullable = true)

| | |-- expandedURL: string (nullable = true) |-- retweetCount: integer (nullable = true) ...

的，会自而地问字和数字问题。

用Python，数据册了张SQL ， . 问的

元 toplevel.nextlevel 。而 SQL 中用[element] 定

问数中的元， 9-27 所。

9-27：用 SQL 数据及数元

select hashtagEntities[0].text from tweets LIMIT 1;

9.3.4 RDD

happyPeopleRDD = sc.parallelize([Row(name="holden", favouriteBeverage="coffee")]) happyPeopleSchemaRDD = hiveCtx.inferSchema(happyPeopleRDD)

happyPeopleSchemaRDD.registerTempTable("happy_people")

用Scala 的，的式会处理的 9-29 。

9-29： Scala 中 case class SchemaRDD

case class HappyPerson(handle: String, favouriteBeverage: String) ...

// 了人的，它成SchemaRDD

val happyPeopleRDD = sc.parallelize(List(HappyPerson("holden", "coffee")))

// ：处发生了式

// 等价 sqlCtx.createSchemaRDD(happyPeopleRDD) happyPeopleRDD.registerTempTable("happy_people")

Java 中，用applySchema() RDD SchemaRDD，需要 RDD 中的数据带有有的getter 和 setter 方法，序列化， 9-30 所。

9-30： Java 中 JavaBean SchemaRDD class HappyPerson implements Serializable { private String name;

private String favouriteBeverage;

public HappyPerson() {}

public HappyPerson(String n, String b) { name = n; favouriteBeverage = b;

}

public String getName() { return name; } public void setName(String n) { name = n; }

public String getFavouriteBeverage() { return favouriteBeverage; } public void setFavouriteBeverage(String b) { favouriteBeverage = b; } };

...

ArrayList<HappyPerson> peopleList = new ArrayList<HappyPerson>();

peopleList.add(new HappyPerson("holden", "coffee"));

JavaRDD<HappyPerson> happyPeopleRDD = sc.parallelize(peopleList);

SchemaRDD happyPeopleSchemaRDD = hiveCtx.applySchema(happyPeopleRDD, HappyPerson.class);

happyPeopleSchemaRDD.registerTempTable("happy_people");

Spark SQL 的 JDBC Hive 中的 HiveServer2 。由用了Thrift ，它 Thrift server 。，JDBC 需要Spark 打开Hive 的编译。⁴

Spark 中的sbin/start-thriftserver.sh 9-31 。

本的数大 spark-submit 同 7.3 。，会

4：codegen 打开时，有能会， Spark SQL 需要分析编译代，，作能

codegen 所带的能。——译者

localhost:10000 进行，量 HIVE_SERVER2_THRIFT_PORT

和HIVE_SERVER2_THRIFT_BIND_HOST ， Hive hive.

server2.thrift.port和hive.server2.thrift.bind.host 。行

数--hiveconf property=value Hive 。

9-31： JDBC

./sbin/start-thriftserver.sh --master sparkMaster

Spark 自带了Beeline 序，用它 JDBC ， 9-32 和图 9-3 所。简的SQL shell 运行。

9-32：用 Beeline JDBC

holden@hmbp2:~/repos/spark$ ./bin/beeline -u jdbc:hive2://localhost:10000 Spark assembly has been built with Hive, including Datanucleus jars on classpath scan complete in 1ms

Connecting to jdbc:hive2://localhost:10000 Connected to: Spark SQL (version 1.2.0-SNAPSHOT) Driver: spark-assembly (version 1.2.0-SNAPSHOT) Transaction isolation: TRANSACTION_REPEATABLE_READ Beeline version 1.2.0-SNAPSHOT by Apache Hive 0: jdbc:hive2://localhost:10000> show tables;

+---+

| result | +---+

| pokes | +---+

1 row selected (1.182 seconds) 0: jdbc:hive2://localhost:10000>

图9-3：启动 JDBC 服务器并使用 Beeline 客户端连接

JDBC 时，JDBC 会台运行所有出定

件中。用JDBC 进行的中了问

题，的。

工具 ODBC Spark SQL。Spark SQL 的 ODBC 由Simba http://www.simba.com/ 制作， Spark 应处 DataBricks Cloud、Datastax 及MapR 。它会 Microstrategy Tableau 的能工具所用的工具 Spark SQL 。由 Spark SQL 用了和

Hive 同的及，大数 Hive 的能工具

有的Hive Spark SQL 。

9.4.1 Beeline

Beeline 中，用的HiveQL 、列及数据。

Hive 册 https://cwiki.apache.org/conﬂuence/display/Hive/LanguageManual 中

HiveQL 的所有法，的作。

，要本地数据张数据，用CREATE TABLE 。用LOAD DATA

进行数据读。Hive 读带有定分的本件， CSV 等式的件，

9-33 所。 9-33：读数据

> CREATE TABLE IF NOT EXISTS mytable (key INT, value STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY , ;

> LOAD DATA LOCAL INPATH learning-spark-examples/files/int_string.csv INTO TABLE mytable;

要列数据，用SHOW TABLES 9-34 所。 DESCRIBE

tableName 张的。

9-34：列数据

> SHOW TABLES;

mytable

Time taken: 0.052 seconds

要存数据，用CACHE TABLE tableName 。存用UNCACHE

TABLE tableName 的存。需要的，，存的会

JDBC 的所有共。

， Beeline 中计简，运行EXPLAIN ， 9-35 所。

9-35：Spark SQL shell 执行EXPLAIN

spark-sql> EXPLAIN SELECT * FROM mytable where key = 1;

== Physical Plan ==

Filter (key#16 = 1)

HiveTableScan [key#16,value#17], (MetastoreRelation default, mytable, None), None Time taken: 0.551 seconds

计，Spark SQL HiveTableScan 用了作。

， SQL 数据进行。Beeline shell 用共的

存数据进行快速的数据有用的。

9.4.2

用Spark SQL 的 JDBC 的同序共存

的数据。JDBC Thrift 序，共成了能。

中所，需要册数据运行CACHE ，用存了。

Spark SQL shell

了JDBC ，Spark SQL 作的进用的简

shell， ./bin/spark-sql 。 shell 会

conf/hive-site.xml 中的 Hive 的元数据。存的元数据，Spark SQL

会本地新。本要本地开发有用。共的集

，应用JDBC ，用 beeline进行。

9.5 数

用自定义数， UDF，用Python/Java/Scala 册自定义数， SQL

中用。方法用，用的SQL 用高能，

用用册的数而需自编了。 Spark SQL 中，编

UDF 简。Spark SQL 有自的UDF ，有的Apache Hive UDF。

9.5.1 Spark SQL UDF

用Spark 的编编数， Spark SQL 的方法进

，捷地册自的UDF。 Scala 和 Python 中，用生的数和 lambda 法的，而 Java 中，需要应的UDF 。UDF 能数据

，用时的数。

Python 和 Java 中，需要用 9-1 中列出的 SchemaRDD 应的定

。Java 中的应 org.apache.spark.sql.api.java.DataType中，而 Python 中需要 DataType 。

9-36 和 9-37 中，用计算字的简的UDF，

用它计算的。

9-36：Python 版本字 UDF

# 字的UDF

hiveCtx.registerFunction("strLenPython", lambda x: len(x), IntegerType()) lengthSchemaRDD = hiveCtx.sql("SELECT strLenPython('text') FROM tweets LIMIT 10") 9-37：Scala 版本的字 UDF

registerFunction("strLenScala", (_: String).length)

val tweetLength = hiveCtx.sql("SELECT strLenScala('tweet') FROM tweets LIMIT 10") Java 中定义 UDF 需要的import 。和定义RDD 数时，据

hiveCtx.udf().register("stringLengthJava", new UDF1<String, Integer>() { @Override

public Integer call(String str) throws Exception { return str.length();

}

}, DataTypes.IntegerType);

SchemaRDD tweetLength = hiveCtx.sql(

"SELECT stringLengthJava('text') FROM tweets LIMIT 10");

List<Row> lengths = tweetLength.collect();

for (Row row : result) {

System.out.println(row.get(0));

} Hive UDF，需用hiveCtx.sql("CREATE TEMPORARY FUNCTION name AS class.function")。

9.6 Spark SQL

本开所的，Spark SQL 的高及加的 Spark

SQL 数据加高效。

Spark SQL SQL 的用用的。Spark SQL 有件的合作

，列进行 9-40 所。用Spark SQL 需要第6 中

的特的进行作。

9-40：Spark SQL 列和

SELECT SUM(user.favouritesCount), SUM(retweetCount), user.id FROM tweets GROUP BY user.id

Spark SQL 用的了解高效地数据。存数据时，Spark SQL 用

存式的列式存。了存的，而能地了中

字时的数据读。

Spark SQL 中的分工作。

需 Spark 中读特定的记，的方法读数据集，执行

件。而， Spark SQL 中，的数据存读的记

，制件，Spark SQL 中的制件数据存

，而大大需要读的数据。

Spark SQL 的能有， 9-2 所列。

表9-2：Spark SQL中的性能选项

spark.sql.codegen false true时，Spark SQL 会

运行时编译 Java 进制代。

高大的能，进行

时会

spark.sql.inMemoryColumnarStorage.compressed false 自存中的列式存进行 spark.sql.inMemoryColumnarStorage.batchSize 1000 列式存时的处理的大。

大能会存的

spark.sql.parquet.compression.codec snappy 用编。的

uncompressed/^snappy/^gzip/^lzo

用JDBC 和Beeline shell 时， ^set 能的

， 9-41 所。

9-41：打开codegen 的Beeline beeline> set spark.sql.codegen=true;

SET spark.sql.codegen=true spark.sql.codegen=true Time taken: 1.196 seconds

的Spark SQL 应用中， Spark 中 Spark ， 9-42 所。 9-42： Scala 中打开codegen 的代

conf.set("spark.sql.codegen", "true")

的需要特的量。第 spark.sql.codegen，

Spark SQL 运行编译 Java 进制代。由生成了运行定

的代，codegen 大者的快。而，运行特快

1 2 的时时，codegen 有能会增加开， codegen 需要

编译的。⁵codegen 的能，所有大的

者运行的中用codegen。

时能需要的第 spark.sql.inMemoryColumnarStorage.batchSize。

存SchemaRDD 时，Spark SQL 会制定的大 1000 记分

，分。的处理大会，而处理大大的，

次处理的数据存所能的大时，有能会发问题。中的

记大数字者网大的字字，能需要

处理大存 OOM 的。的，的处

理大合适的， 1000 记时本法高的了。

9.7

，学了Spark 用Spark SQL 进行化和化数据处理的方式。了本的，第3 第6 中讲的作RDD 的方法同适用 Spark SQL

中的SchemaRDD。时，会 SQL 的编合用，分

用SQL 的简和编辑的。而用Spark SQL 时，Spark 执

行能据数据的进行化，中。

5：，codegen 打开时开的会， Spark SQL 需要化它的编译。所

codegen 的开应运行4 5 。

第 1 0 章

Spark Streaming

应用需要时处理收的数据，用时问计的应用、学

的应用，有自的应用。Spark Streaming Spark 应用而计的

。它用用和处理的API 编式计算应用，大

量用处理应用的技术代。

和Spark RDD 的，Spark Streaming 用离散化流 discretized stream 作

，作DStream。DStream 时而收的数据的序列。，时区收的数据作 RDD 存，而 DStream 由 RDD 所成的序列

化。DStream ， Flume、Kafka 者HDFS。

出的DStream 作，转化操作 transformation ，会生成新的 DStream，输出操作 output operation ，数据中。DStream

了 RDD 所的作的作，增加了时的新作，

。

和处理序同，Spark Streaming 应用需要进行保 24/7 工作。本

会检查点 checkpointing 制，数据存件 HDFS

的制， Spark Streaming 用工作的要方式。，会讲

时应用，及应用自式。

， Spark 1.1 ，Spark Streaming Java 和 Scala 中用。的Python Spark 1.2 中，本数据。本用Java 和 Scala 所有的 API，的 Python 适用的。

10.1

10-1：Spark Streaming 的 Maven groupId = org.apache.spark artifactId = spark-streaming_2.10 version = 1.2.0

StreamingContext 开，它计算能的要。StreamingContext 会出SparkContext，用处理数据。造数收用定时处理次新数据的批次间隔 batch interval 作，它 1 。，

用socketTextStream() 出本地7777 收的本数据的DStream。

在文檔中快速大数据分析 (頁 166-0)

9.2 应用中 用 Spark SQL