5.5.1 从 MRS 导入数据概述
从 MRS 导入数据到集群
MapReduce服务(MapReduce Service,简称MRS)是一个基于开源Hadoop生态环 境而运行的大数据集群,对外提供大容量数据的存储和分析能力,可解决用户的数据 存储和处理需求。有关MRS服务的详细信息,请参考《MapReduce服务用户指南》。
用户可以将海量业务数据,存储在MRS的分析集群,即使用Hive/Spark组件保存。
Hive/Spark的数据文件则保存在HDFS中。GaussDB(DWS) 支持在相同网络中,配置 一个GaussDB(DWS) 集群连接到MRS集群,然后将数据从HDFS中的文件读取到 GaussDB(DWS) 。
导入流程
从MRS导入数据到集群流程如下:
1. 在GaussDB(DWS) 集群创建一个MRS数据源连接,具体操作步骤请参见创建MRS 数据源连接。
说明
● 同一个网络下可以有多个MRS数据源, 但是GaussDB(DWS)集群每次只能和一个MRS 集群建立连接。
2. 创建一个HDFS外表,外表通过外部服务器的接口,从MRS集群查询数据。
具体操作步骤请参见《数据仓库服务数据库开发指南》中从MRS导入数据到集群 章节。
3. (可选)当MRS集群的HDFS配置发生变更时,在GaussDB(DWS) 服务中,需要 执行MRS数据源配置的更新操作,详情请参见更新MRS数据源配置。
5.5.2 创建 MRS 数据源连接
操作场景
GaussDB(DWS) 从MRS的HDFS读取数据前,需要先创建一个MRS数据源连接,作为 GaussDB(DWS) 集群与MRS集群的数据通道。
对系统的影响
● 一个GaussDB(DWS) 集群在创建MRS数据源连接时,不能同时创建第二个连接。
● 创建MRS数据源连接时,系统默认自动为GaussDB(DWS) 集群和MRS集群的安全 组增加出规则和入规则,允许相同子网中节点的访问。
● 启用Kerberos认证的MRS集群,系统会自动增加一个类型为“机机”的用户,属 于“supergroup”用户组。
前提条件
GaussDB(DWS) 集群已创建好,并记录集群所在的可用区、虚拟私有云和子网。
操作步骤
步骤1 登录华为云管理控制台。
步骤2 选择“服务列表 >大数据 > MapReduce服务”,打开MRS管理控制台,创建MRS集 群。
创建集群时,请按要求配置以下参数,其他配置无特别要求,具体操作请参见
《MapReduce服务用户指南》中的“自定义创建集群”章节:
● MRS集群的可用区、虚拟私有云和子网需要和GaussDB(DWS) 集群相同。
● MRS集群类型,需要为“分析集群”。
● MRS集群版本,支持“1.9.2”(主推)。
说明
当用户选择MRS集群版本为1.6.*、1.7.*、1.8.*、2.0.*(“*”代表的是数字)也同样支持。
● 组件选择,需要选择“Hive”、“Tez”和“Spark2x”。
说明
如果MRS集群启用Kerberos认证,则在MRS集群创建完成后,使用MRS Manager为
GaussDB(DWS) 准备一个用于连接的用户,类型需要为“人机”,且绑定用户组“hadoop”和 角色“Manager_administrator”。此用户必须在创建后通过MRS Manager页面修改过密码。
如果已有符合如上条件的MRS集群,则可跳过此步骤。
步骤3 选择“服务列表 > 大数据 > 数据仓库服务”,进入GaussDB(DWS) 管理控制台页面。
步骤4 在GaussDB(DWS) 管理控制台,单击“集群管理”。
步骤5 在集群列表,单击指定集群的名称,然后单击“MRS数据源”页签。
图5-12 MRS 数据源
步骤6 单击“创建MRS数据源连接”,填写配置参数。
图5-13 创建 MRS 数据源
表5-9 MRS 连接参数说明
参数名 说明
MRS数据源 表示GaussDB(DWS) 可以连接的MRS集群,默认显示当前用户可 连接的,与当前GaussDB(DWS) 集群在相同虚拟私有云和子网下 且为可用状态的分析型MRS集群。
选择一个MRS集群后,将自动显示已选择的MRS是否启用了 Kerberos认证。单击“查看MRS集群”可进入MRS查看该MRS集 群信息。
如果“MRS数据源”下拉框为空,用户可以单击“创建MRS集 群”进行创建。
描述 表示此连接的说明信息。
步骤7 单击“提交”保存连接。
创建连接需要一段时间,此时“配置状态”显示为“创建中”,成功后在MRS数据源 列表中可看到已创建的连接,且状态为“可用”。
说明
● 在“操作”列,可以单击“更新配置”,更新当前连接的“MRS集群状态”和“配置状 态”。在更新配置时,无法创建新的连接,且会检查安全组规则是否正常并自助修复。具体 请参见更新MRS数据源配置。
● 在“操作”列,可以单击“删除”将不再使用的连接删除释放。删除连接时,不会自动删除 安全组规则,请根据需要手工删除。
----结束
5.5.3 更新 MRS 数据源配置
操作场景
MRS的HDFS集群的如下参数配置变更时,可能造成GaussDB(DWS) 集群无法从HDFS 集群导入数据。使用HDFS集群导入数据前,需要执行MRS数据源配置的更新操作。
参数名 参数解释
dfs.client.read.shortcircuit 是否开启本地读。
dfs.client.read.shortcircuit.skip.c
hecksum 本地读时是否跳过数据校验。
dfs.client.block.write.replace-datanode-on-failure.enable 向HDFS写数据块发生失败时,是否替换新的节 点作为副本存储位置。
dfs.encrypt.data.transfer 是否开启数据加密。
说明此参数仅对启用Kerberos认证的集群有效。
dfs.encrypt.data.transfer.algorit
hm 指定密钥传输的加密解密算法。
dfs.encrypt.data.transfer.cipher.s
uites 指定实际存储数据传输的加密解密算法。
dfs.replication 默认数据副本个数。
dfs.blocksiz 默认数据块大小。
hadoop.security.authentication 安全认证模式。
hadoop.rpc.protection RPC通信保护模式。
dfs.domain.socket.path 本地使用的Domain socket路径。
前提条件
GaussDB(DWS) 集群已创建MRS数据源连接。
对系统的影响
更新MRS数据源连接时,GaussDB(DWS) 集群会自动重启并无法提供服务。
操作步骤
步骤1 在GaussDB(DWS) 管理管制台,单击“集群管理”。
步骤2 在集群列表,单击指定集群的名称,然后单击“MRS数据源”。
步骤3 在MRS数据源列表中,选中需要更新的MRS数据源,在“操作”列中,单击“更新配 置”。
更新当前连接的“MRS集群状态”和“配置状态”。在更新配置时,无法创建新的连 接,且会检查安全组规则是否正常并自助修复。
----结束