Yarn常用参数_MapReduce服务 MRS_组件操作指南_使用Yarn_华为云

(1)

组件操作指南

文档版本 01

发布日期 2021-12-28

(2)

非经本公司书面许可，任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部，并不得以任何形式传播。

商标声明

和其他华为商标均为华为技术有限公司的商标。

本文档提及的其他所有商标或注册商标，由各自的所有人拥有。

注意

您购买的产品、服务或特性等应受华为公司商业合同和条款的约束，本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定，华为公司对本文档内容不做任何明示或暗示的声明或保证。

由于产品版本升级或其他原因，本文档内容会不定期进行更新。除非另有约定，本文档仅作为使用指导，本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。

(3)

28.6 查看 Storm 拓扑日志... 1176 28.7 Storm 常用参数... 1177 28.8 配置 Storm 业务用户密码策略...1178 28.9 迁移 Storm 业务至 Flink... 1180 28.9.1 概述... 1180 28.9.2 完整迁移 Storm 业务...1180 28.9.3 嵌入式迁移 Storm 业务... 1182 28.9.4 迁移 Storm 对接的外部安全组件业务... 1182 28.10 Storm 日志介绍... 1183 28.11 性能调优... 1187 28.11.1 Storm 性能调优... 1187

29 使用 Tez...1190

29.1 使用前须知...1190 29.2 Tez 常用参数... 1190 29.3 访问 TezUI...1190 29.4 日志介绍... 1191 29.5 常见问题... 1193 29.5.1 TezUI 无法展示 Tez 任务执行细节... 1193 29.5.2 进入 Tez 原生界面显示异常... 1193 29.5.3 TezUI 界面无法查看 yarn 日志... 1194 29.5.4 TezUI HiveQueries 界面表格数据为空... 1195

30 使用 Yarn... 1196

30.1 Yarn 常用参数... 1196 30.2 创建 Yarn 角色... 1199 30.3 使用 Yarn 客户端...1201 30.4 配置 NodeManager 角色实例使用的资源... 1202 30.5 更改 NodeManager 的存储目录... 1203 30.6 配置 YARN 严格权限控制... 1207 30.7 配置 Container 日志聚合功能... 1208 30.8 启用 CGroups 功能... 1212 30.9 配置 AM 失败重试次数...1214 30.10 配置 AM 自动调整分配内存... 1215 30.11 配置访问通道协议... 1216 30.12 检测内存使用情况... 1217 30.13 配置自定义调度器的 WebUI... 1218 30.14 配置 YARN Restart 特性... 1218 30.15 配置 AM 作业保留... 1220 30.16 配置本地化日志级别... 1221 30.17 配置运行任务的用户... 1222 30.18 Yarn 日志介绍...1223 30.19 Yarn 性能调优...1226 30.19.1 抢占任务... 1226

(23)

30.19.2 任务优先级...1228 30.19.3 节点配置调优... 1229 30.20 Yarn 常见问题...1234 30.20.1 任务完成后 Container 挂载的文件目录未清除... 1234 30.20.2 作业执行失败时会抛出 HDFS_DELEGATION_TOKEN 到期的异常...1234 30.20.3 重启 YARN，本地日志不被删除...1234 30.20.4 为什么执行任务时 AppAttempts 重试次数超过 2 次还没有运行失败... 1235 30.20.5 为什么在 ResourceManager 重启后，应用程序会移回原来的队列... 1235 30.20.6 为什么 YARN 资源池的所有节点都被加入黑名单，而 YARN 却没有释放黑名单，导致任务一直处于运行状态... 1236 30.20.7 ResourceManager 持续主备倒换... 1236 30.20.8 当一个 NodeManager 处于 unhealthy 的状态 10 分钟时，新应用程序失败... 1237 30.20.9 Superior 通过 REST 接口查看已结束或不存在的 applicationID，返回的页面提示 Error Occurred. 1237 30.20.10 Superior 调度模式下，单个 NodeManager 故障可能导致 MapReduce 任务失败... 1237 30.20.11 当应用程序从 lost_and_found 队列移动到其他队列时，应用程序不能继续执行...1238 30.20.12 如何限制存储在 ZKstore 中的应用程序诊断消息的大小... 1239 30.20.13 为什么将非 ViewFS 文件系统配置为 ViewFS 时 MapReduce 作业运行失败...1239 30.20.14 开启 Native Task 特性后，Reduce 任务在部分操作系统运行失败... 1240

31 使用 ZooKeeper...1241

31.1 ZooKeeper 权限设置指南... 1241

32 附录...1245

32.1 修改集群服务配置参数... 1245 32.2 访问集群 Manager... 1249 32.2.1 访问 MRS Manager（MRS 3.x 之前版本）... 1249 32.2.2 访问 FusionInsight Manager（MRS 3.x 及之后版本）... 1255 32.3 使用 MRS 客户端... 1259 32.3.1 安装客户端（3.x 及之后版本）... 1259 32.3.2 安装客户端（3.x 之前版本）... 1264 32.3.3 更新客户端（3.x 及之后版本）... 1268 32.3.4 更新客户端（3.x 之前版本）... 1270

(24)

1 使用 Alluxio

1.1 配置底层存储系统

用户想要通过统一的客户端API和全局命名空间访问包括HDFS和OBS在内的持久化存储系统，从而实现了对计算和存储的分离时，可以在MRS Manager页面中配置Alluxio 的底层存储系统来实现。集群创建后，默认的底层存储地址是hdfs://hacluster/，即将 HDFS的根目录映射到Alluxio。

前提条件

● 已安装Alluxio服务的集群。

● 获取用户“admin”帐号密码。“admin”密码在创建MRS集群时由用户指定。

配置 HDFS 作为 Alluxio 的底层文件系统

说明

开启Kerberos认证的安全集群不支持该功能。

步骤1 请参考修改集群服务配置参数，进入Alluxio的“全部配置”页面。

步骤2 在左侧边栏中选择“Alluxio > 底层存储系统”，修改参数

“alluxio.master.mount.table.root.ufs”的值为“hdfs://hacluster/XXX/”。

例如：若想将“HDFS根目录/alluxio/”作为alluxio的根目录，则修改参数

“alluxio.master.mount.table.root.ufs”的值为“hdfs://hacluster/alluxio/”。

图1-1 HDFS 作为 Alluxio 的底层文件系统

步骤3 单击“保存配置”，并在弹出窗口中勾选“重新启动受影响的服务和实例。”

(25)

步骤4 单击“确定”重启Alluxio服务。

----结束

配置 Huawei OBS 作为 Alluxio 的底层文件系统

方法一：

步骤1 给集群配置有OBS OperateAccess权限的委托，具体请参见配置存算分离集群（委托方式）。

步骤2 请参考修改集群服务配置参数，进入Alluxio的“全部配置”页面。

步骤3 在左侧边栏中选择“Alluxio > 底层存储系统”，修改参数

“alluxio.master.mount.table.root.ufs”的值为“obs://<OBS_BUCKET>/

<OBS_DIRECTORY>/”。OBS_BUCKET为一个已有的OBS文件系统名，

OBS_DIRECTORY为该文件系统下的目录。

图1-2 OBS 作为 Alluxio 的底层文件系统

步骤4 单击“保存配置”，并在弹出窗口中勾选“重新启动受影响的服务和实例。”

步骤5 单击“确定”重启Alluxio服务。

----结束 方法二：

步骤1 给集群配置有OBS OperateAccess权限的委托，具体请参见配置存算分离集群（委托方式）。

步骤2 登录主Master节点，主节点请参考如何确认MRS Manger的主备管理节点。

步骤3 执行如下命令，配置环境变量。

source /opt/client/bigdata_env 说明

/opt/client为举例当前集群客户端的安装目录，请根据实际情况修改。

步骤4 执行如下命令将OBS容器内部的目录挂载到Alluxio的/obs目录。

alluxio fs mount /obs obs://<OBS_BUCKET>/<OBS_DIRECTORY>/

----结束

1.2 通过数据应用访问 Alluxio

访问Alluxio文件系统的端口号是19998，即地址为alluxio://<alluxio的master节点ip>:

19998/<PATH>，本节将通过示例介绍如何通过数据应用（Spark、Hive、Hadoop MapReduce和Presto）访问Alluxio。

(26)

使用 Alluxio 作为 Spark 应用程序的输入和输出

步骤1 以root用户登录集群的Master节点，密码为用户创建集群时设置的root密码。

source /opt/client/bigdata_env

步骤3 如果当前集群已启用Kerberos认证，执行如下命令认证当前用户。如果当前集群未启用Kerberos认证，则无需执行此命令。

kinit MRS集群用户 例如, kinit admin

步骤4 准备输入文件，将本地数据复制到Alluxio文件系统中。

如在本地/home目录下准备一个输入文件test_input.txt，然后执行如下命令，将 test_input.txt文件放入Alluxio中。

alluxio fs copyFromLocal /home/test_input.txt /input 步骤5 执行如下命令启动spark-shell。

spark-shell

步骤6 在spark-shell中运行如下命令。

val s = sc.textFile("alluxio://<Alluxio的节点名称>:19998/input") val double = s.map(line => line + line)

double.saveAsTextFile("alluxio://<Alluxio的节点名称>:19998/output") 说明

<Alluxio的节点名称>:19998，请根据实际情况替换为AlluxioMaster实例所在所有节点的节点名称与端口号，各个名称与端口之间以英文逗号间隔，例如：node-ana-coremspb.mrs-

m0va.com:19998,node-master2kiww.mrs-m0va.com:19998,node-master1cqwv.mrs- m0va.com:19998

步骤7 使用“Ctrl + C”退出spark-shell。

步骤8 通过alluxio命令行alluxio fs ls /查看alluxio根目录下存在一个输出目录/output，其中包含了输入文件input的双倍内容。

----结束

在 Alluxio 上创建 Hive 表

(27)

步骤4 准备输入文件，如在本地/home目录下准备一个输入文件hive_load.txt，内容为

1, Alice, company A 2, Bob, company B

步骤5 执行如以下命令，将hive_load.txt文件放入Alluxio中。

alluxio fs copyFromLocal /home/hive_load.txt /hive_input 步骤6 执行如下命令启动hive beeline。

beeline

步骤7 在beeline中运行如下命令，根据Alluxio中的输入文件进行创表。

CREATE TABLE u_user(id INT, name STRING, company STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;

LOAD DATA INPATH 'alluxio://<Alluxio的节点名称>:19998/hive_input' INTO TABLE u_user;

说明

步骤8 执行如下命令查看创建的表。

select * from u_user;

----结束

在 Alluxio 上运行 Hadoop Wordcount

步骤4 准备输入文件，将本地数据复制到Alluxio文件系统中。

如在本地/home目录下准备一个输入文件test_input.txt，然后执行如下命令，将 test_input.txt文件放入Alluxio中。

alluxio fs copyFromLocal /home/test_input.txt /input 步骤5 通过yarn jar执行wordcount作业。

yarn jar /opt/share/hadoop-mapreduce-examples-<hadoop版本号>-mrs-<mrs 集群版本号>/hadoop-mapreduce-examples-<hadoop版本号>-mrs-<mrs集群版本号>.jar wordcount alluxio://<Alluxio的节点名称>:19998/input alluxio://<Alluxio 的节点名称>:19998/output

(28)

说明

● <hadoop版本号>请根据实际情况替换。

● <mrs集群版本号>替换为MRS的大版本号，如MRS 1.9.2版本集群此处为mrs-1.9.0。

● <Alluxio的节点名称>:19998，请根据实际情况替换为AlluxioMaster实例所在所有节点的节点名称与端口号，各个名称与端口之间以英文逗号间隔，例如：node-ana-coremspb.mrs- m0va.com:19998,node-master2kiww.mrs-m0va.com:19998,node-master1cqwv.mrs- m0va.com:19998

步骤6 通过alluxio命令行alluxio fs ls /查看alluxio根目录下存在一个输出目录/output，包含了wordcount的结果。

----结束

使用 Presto 在 Alluxio 上查询表

步骤4 启动hive beeline在alluxio上创建表。

beeline

CREATE TABLE u_user (id int, name string, company string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LOCATION 'alluxio://<Alluxio的节点名称

>:19998/u_user';

insert into u_user values(1,'Alice','Company A'),(2, 'Bob', 'Company B');

说明

步骤5 启动Presto客户端，具体请参见使用客户端执行查询语句的步骤2~步骤8。

步骤6 在Presto客户端中执行查询语句select * from hive.default.u_user; 查询alluxio上创建表。

(29)

图1-3 Presto 查询 alluxio 上创建的表

----结束

1.3 Alluxio 常用操作

前期准备

1. 创建安装Alluxio组件的集群。

2. 以root用户登录集群的主Master节点，密码为用户创建集群时设置的root密码。

3. 执行如下命令，配置环境变量。

使用 Alluxio Shell

Alluxio shell包含多种与Alluxio交互的命令行操作。

● 要查看文件系统操作命令列表。

alluxio fs

● 使用ls命令列出 Alluxio 里的文件。例如列出根目录下所有文件。

alluxio fs ls /

● 使用copyFromLocal命令可以复制本地文件到 Alluxio 中。

alluxio fs copyFromLocal /home/test_input.txt /test_input.txt 命令执行后回显：

Copied file:///home/test_input.txt to /test_input.txt

● 再次使用ls命令列出Alluxio中的文件，可以看到刚刚拷贝的test_input.txt文件。

alluxio fs ls / 命令执行后回显：

12 PERSISTED 11-28-2019 17:10:17:449 100% /test_input.txt

输出显示test_input.txt 文件在 Alluxio 中，各参数含义为文件的大小、是否被持久化、创建日期、Alluxio中这个文件的缓存占比、文件名。

● 使用cat命令打印文件的内容。

alluxio fs cat /test_input.txt 命令执行后回显：

Test Alluxio

Alluxio 中的挂载功能

Alluxio 通过统一命名空间的特性统一了对存储系统的访问。详情请参考：https://

docs.alluxio.io/os/user/2.0/cn/advanced/Namespace-Management.html 这个特性允许用户挂载不同的存储系统到Alluxio命名空间中并且通过Alluxio命名空间无缝地跨存储系统访问文件。

(30)

1. 在 Alluxio 中创建一个目录作为挂载点。

alluxio fs mkdir /mnt

Successfully created directory /mnt

2. 挂载一个已有的OBS文件系统到Alluxio（前提：给集群配置有OBS

OperateAccess权限的委托，具体请参见配置存算分离集群（委托方式））。此处以obs-mrstest文件系统为例，请根据实际情况替换文件系统名。

alluxio fs mount /mnt/obs obs://obs-mrstest/data

Mounted obs://obs-mrstest/data at /mnt/obs

3. 通过Alluxio命名空间列出OBS文件系统中的文件。使用ls命令列出OBS挂载目录下 的文件。

alluxio fs ls /mnt/obs

38 PERSISTED 11-28-2019 17:42:54:554 0% /mnt/obs/hive_load.txt 12 PERSISTED 11-28-2019 17:43:07:743 0% /mnt/obs/test_input.txt

新挂载的文件和目录也可以通过Alluxio WebUI查看。

4. 挂载完成后，通过 Alluxio 统一命名空间，可以无缝地从不同存储系统中交互数据。例如，使用ls -R命令，递归地列举出一个目录下的所有文件。

alluxio fs ls -R /

0 PERSISTED 11-28-2019 11:15:19:719 DIR /app-logs 1 PERSISTED 11-28-2019 11:18:36:885 DIR /apps

1 PERSISTED 11-28-2019 11:18:40:209 DIR /apps/templeton

239440292 PERSISTED 11-28-2019 11:18:40:209 0% /apps/templeton/hive.tar.gz ...

1 PERSISTED 11-28-2019 19:00:23:879 DIR /mnt 2 PERSISTED 11-28-2019 19:00:23:879 DIR /mnt/obs

38 PERSISTED 11-28-2019 17:42:54:554 0% /mnt/obs/hive_load.txt 12 PERSISTED 11-28-2019 17:43:07:743 0% /mnt/obs/test_input.txt ...

输出显示了Alluxio文件系统根目录（默认值是HDFS的根目录，即hdfs://

hacluster/）中来源于挂载存储系统的所有文件。/app-logs和/apps目录在HDFS 文件系统中，/mnt/obs/目录在OBS 中。

用 Alluxio 加速数据访问

由于Alluxio利用内存存储数据，它可以加速数据的访问。例如：

1. 上传一个文件test_data.csv（文件是一份记录了食谱的样本）到obs-mrstest文件系统的/data目录下。通过ls命令显示文件状态：

alluxio fs ls /mnt/obs/test_data.csv

294520189 PERSISTED 11-28-2019 19:38:55:000 0% /mnt/obs/test_data.csv

输出显示了该文件在Alluxio中缓存占比为0%，即不在Alluxio内存中。

2. 统计该文件中单词"milk"出现的次数，并计算耗时。

time alluxio fs cat /mnt/obs/test_data.csv | grep -c milk

52180

real 0m10.765s user 0m5.540s sys 0m0.696s

3. 第一次读取数据后会将数据放在内存中，Alluxio再次读取时可以提高访问该数据的速度。例如：在通过cat命令获取文件后，用ls命令再查看文件的状态。

alluxio fs ls /mnt/obs/test_data.csv

294520189 PERSISTED 11-28-2019 19:38:55:000 100% /mnt/obs/test_data.csv

输出显示文件已经 100% 被加载到 Alluxio 中。

(31)

4. 再次访问该文件，统计单词“eggs”出现的次数，并计算耗时。

time alluxio fs cat /mnt/obs/test_data.csv | grep -c eggs

59510

real 0m5.777s user 0m5.992s sys 0m0.592s

对比两次耗时可以看出存储在Alluxio内存中的数据，数据访问耗时明显缩短。

(32)

2 使用 CarbonData（MRS 3.x 之前版本）

2.1 CarbonData 入门

MRS 3.x之前版本参考本章节，MRS 3.x及后续版本请参考使用CarbonData（MRS 3.x及之后版本）。

本章节介绍使用Spark CarbonData的基本流程，所有任务场景基于spark-beeline环境。CarbonData快速入门包含以下任务：

1. 连接到Spark

在对CarbonData进行任何操作之前，需要先连接到Spark。

2. 创建CarbonData表

连接CarbonData之后，需要创建CarbonData Table，用于加载数据和执行查询操作。

3. 加载数据到CarbonData表

用户从HDFS中的CSV文件加载数据到所创建的表中。

4. 在CarbonData中查询数据

在CarbonData表加载数据之后，用户可以执行所需的查询操作，例如groupby或者where等。

前提条件

已安装客户端，具体参见使用MRS客户端。

操作步骤

步骤1 连接到Spark CarbonData。

1. 根据业务情况，准备好客户端，使用root用户登录安装客户端的节点。

例如在Master2节点更新客户端，则在该节点登录客户端，具体参见使用MRS客户端。

2. 切换用户与配置环境变量。

sudo su - omm

(33)

3. 启用Kerberos认证的集群，执行以下命令认证用户身份。未启用Kerberos认证集群无需执行。

kinit Spark组件用户名 说明

用户需要加入用户组hadoop、hive，主组hadoop。

4. 执行以下命令，连接到Spark运行环境：

spark-beeline

步骤2 执行命令创建CarbonData表。

CarbonData表可用于加载数据和执行查询操作，例如执行以下命令创建CarbonData 表：

CREATE TABLE x1 (imei string, deviceInformationId int, mac string, productdate timestamp, updatetime timestamp, gamePointId double, contractNumber double)

STORED BY 'org.apache.carbondata.format' TBLPROPERTIES

('DICTIONARY_EXCLUDE'='mac','DICTIONARY_INCLUDE'='deviceInformationId' );

命令执行结果如下：

+---+--+

| result | +---+--+

+---+--+

No rows selected (1.551 seconds)

步骤3 从CSV文件加载数据到CarbonData表。

根据所要求的参数运行命令从CSV文件加载数据，且仅支持CSV文件。LOAD命令中配置的CSV列名，需要和CarbonData表列名相同，顺序也要对应。CSV文件中的数据的列数，以及数据格式需要和CarbonData表匹配。

文件需要保存在HDFS中。用户可以将文件上传到OBS，并在MRS管理控制台“文件管理”将文件从OBS导入HDFS，具体请参考导入导出数据。

如果集群启用了Kerberos认证，则需要在工作环境准备CSV文件，然后可以使用开源 HDFS命令，参考5将文件从工作环境导入HDFS，并设置Spark组件用户在HDFS中对文件有读取和执行的权限。

例如，HDFS的“tmp”目录有一个文件“data.csv”，内容如下：

x123,111,dd,2017-04-20 08:51:27,2017-04-20 07:56:51,2222,33333

执行导入命令：

LOAD DATA inpath 'hdfs://hacluster/tmp/data.csv' into table x1 options('DELIMITER'=',','QUOTECHAR'='"','FILEHEADER'='imei,

deviceinformationid,mac,productdate,updatetime,gamepointid,contractnumb er');

命令执行结果如下：

+---+--+

| Result |

(34)

+---+--+

No rows selected (3.039 seconds)

步骤4 在CarbonData中查询数据。

● 获取记录数

为了获取在CarbonData table中的记录数，可以执行以下命令。

select count(*) from x1;

● 使用Groupby查询

为了获取不重复的“deviceinformationid”记录数，可以执行以下命令。

select deviceinformationid,count (distinct deviceinformationid) from x1 group by deviceinformationid;

● 使用条件查询

为了获取特定deviceinformationid的记录，可以执行以下命令。

select * from x1 where deviceinformationid='111';

说明

在执行数据查询操作后，如果查询结果中某一列的结果含有中文字等其他非英文字符，会导致查询结果中的列不能对齐，这是由于不同语言的字符在显示时所占的字宽不尽相同。

步骤5 执行以下命令退出Spark运行环境。

!quit ----结束

2.2 CarbonData 表简介

简介

CarbonData表与RDBMS中的表类似，RDBMS数据存储在由行和列构成的表中。

CarbonData表存储的也是结构化的数据，具有固定列和数据类型。CarbonData中的数据存储在表实体文件中。

支持的数据类型

CarbonData表支持以下数据类型：

● Int

● String

● BigInt

● Decimal

● Double

● TimeStamp

表2-1对所支持的数据类型和对应的范围进行了详细说明。

(35)

表2-1 CarbonData 数据类型

数据类型描述

Int 4字节有符号整数，从-2,147,483,648到2,147,483,647。

说明非字典列如果是Int类型，会在内部存储为BigInt类型。

String 最大支持字符长度为100000。

BigInt 使用64-bit存储数据，支持从-9,223,372,036,854,775,808到 9,223,372,036,854,775,807。

Decimal 默认值是(10,0)，最大值是(38,38)。

说明

当进行带过滤条件的查询时，为了得到准确的结果，需要在数字后面加上 BD。例如，select * from carbon_table where num =

1234567890123456.22BD。

Double 使用64-bit存储数据，从4.9E-324到1.7976931348623157E308。

TimeStamp 默认格式为“yyyy-MM-dd HH:mm:ss”。

说明

所有Integer类型度量均以BigInt类型进行处理与显示。

2.3 创建 CarbonData 表

操作场景

使用CarbonData前需先创建表，才可从表中加载数据和查询数据。

使用自定义列创建表

可通过指定各列及其数据类型来创建表。启用Kerberos认证的分析集群创建

CarbonData表时，如果用户需要在默认数据库“default”以外的数据库创建新表，则需要在Hive角色管理中为用户绑定的角色添加指定数据库的“Create”权限。

命令示例：

CREATE TABLE IF NOT EXISTS productdb.productSalesTable ( productNumber Int,

productName String, storeCity String, storeProvince String, revenue Int)

STORED BY 'org.apache.carbondata.format' TBLPROPERTIES (

(36)

'table_blocksize'='128',

'DICTIONARY_EXCLUDE'='productName', 'DICTIONARY_INCLUDE'='productNumber');

上述命令所创建的表的详细信息如下：

表2-2 表信息定义

参数描述

productSalesTable 待创建的表的名称。该表用于加载数据进行分析。

表名由字母、数字、下划线组成。

productdb 数据库名称。该数据库将与其中的表保持逻辑连接以便于识别和管理。

数据库名称由字母、数字、下划线组成。

productNumber productName storeCity storeProvince revenue

表中的列，代表执行分析所需的业务实体。

列名（字段名）由字母、数字、下划线组成。

说明CarbonData暂不支持设置列是否允许为空、默认值以及主键。

table_blocksize CarbonData表使用的数据文件的block大小，默认值为 1024，取值范围为1～2048，单位为MB。

● 如果“table_blocksize”值太小，数据加载时将生成过多的小数据文件，可能会影响HDFS的使用性能。

● 如果“table_blocksize”值太大，数据查询时索引匹配的block数据量较大，导致读取并发度不高，从而降低查询性能。

一般情况下，建议根据数据量级别来选择大小。例如：GB 级别用256，TB级别用512，PB级别用1024。

DICTIONARY_EXCLUD

E 设置指定列不生成字典，适用于数值复杂度高的列。系统

默认为String类型的列做字典编码，但是如果字典值过多，

会导致字典转换操作增加造成性能下降。

一般情况下，列的数值复杂度高于5万，可以被认定为高复杂度，则需要排除掉字典编码，该参数为可选参数。

说明在非字典列中，只支持String和Timestamp数据类型。

DICTIONARY_INCLUD

E 设置指定列生成字典，适用于数值复杂度低的列，可以提

升字典列上的groupby性能，为可选参数。一般情况下，

字典列的复杂度不应该高于5万。

(37)

2.4 删除 CarbonData 表

操作场景

用户根据业务使用情况，可以删除不再使用的CarbonData表。删除表后，其所有的元数据以及表中已加载的数据都会被删除。

操作步骤

步骤1 运行如下命令删除表。

DROP TABLE [IF EXISTS] [db_name.]table_name;

“db_name”为可选参数。如果没有指定“db_name”，那么将会删除当前数据库下名为“table_name”的表。

例如执行命令，删除数据库“productdb”下的表“productSalesTable”：

DROP TABLE productdb.productSalesTable;

步骤2 执行以下命令查询表是否被删除：

SHOW TABLES;

----结束

Yarn常用参数_MapReduce服务 MRS_组件操作指南_使用Yarn_华为云

组件操作指南

目 录

1 使用 Alluxio...1

2 使用 CarbonData（MRS 3.x 之前版本）... 9

3 使用 CarbonData（MRS 3.x 及之后版本）... 15

4 使用 ClickHouse...111

5 使用 DBService...165

6 使用 Flink... 168

7 使用 Flume...261

8 使用 HBase...408

9 使用 HDFS... 524

10 使用 Hive...612

11 使用 Hudi... 696

12 使用 Hue（MRS 3.x 之前版本）... 730

13 使用 Hue（MRS 3.x 及之后版本）... 743

14 使用 Impala... 777

15 使用 Kafka... 785

16 使用 KafkaManager... 828

17 使用 Kudu... 840

18 使用 Loader... 844

19 使用 Mapreduce... 866

20 使用 Oozie... 891

21 使用 OpenTSDB... 923

22 使用 Presto... 927

23 使用 Ranger（MRS 1.9.2）...934

24 使用 Ranger（MRS 3.x）... 947

25 使用 Spark... 999

26 使用 Spark2x...1012

27 使用 Sqoop... 1157

28 使用 Storm... 1171

29 使用 Tez...1190

30 使用 Yarn... 1196

31 使用 ZooKeeper...1241

32 附录...1245

1 使用 Alluxio

1.1 配置底层存储系统

前提条件

配置 HDFS 作为 Alluxio 的底层文件系统

配置 Huawei OBS 作为 Alluxio 的底层文件系统

1.2 通过数据应用访问 Alluxio

使用 Alluxio 作为 Spark 应用程序的输入和输出

在 Alluxio 上创建 Hive 表

在 Alluxio 上运行 Hadoop Wordcount

使用 Presto 在 Alluxio 上查询表

1.3 Alluxio 常用操作

前期准备

使用 Alluxio Shell

Alluxio 中的挂载功能

用 Alluxio 加速数据访问

2 使用 CarbonData（MRS 3.x 之前版本）

2.1 CarbonData 入门

前提条件

操作步骤

2.2 CarbonData 表简介

简介

支持的数据类型

2.3 创建 CarbonData 表

操作场景

使用自定义列创建表

2.4 删除 CarbonData 表

操作场景

操作步骤

目录