• 沒有找到結果。

场景介绍

本章节适用于将线下IDC机房或者公有云HBase集群中的数据(支持数据量在几十TB级 别或以下的数据量级)迁移到华为云MRS服务。本章节以通过华为云CDM服务进行数 据迁移为例介绍。

2-12 HBase 数据迁移示意

Hbase会把数据存储在HDFS上,主要包括Hfile文件和WAL文件,由配置项

hbase.rootdir指定在HDFS上的路径,华为云MRS的默认存储位置是/hbase文件夹下。

HBase自带的一些机制和工具命令也可以实现数据搬迁,例如:通过导出Snapshots快 照,Export/Import,CopyTable方式等,可以参考Apache官网。

本文主要介绍通过华为云CDM云迁移服务进行HBase数据搬迁。

方案优势

场景化迁移通过迁移快照数据然后再恢复表数据的方法,能大大提升迁移效率。

全量数据迁移

步骤1 登录CDM管理控制台。

步骤2 创建CDM集群,该CDM集群的安全组、虚拟私有云、子网需要和迁移目的端集群保持

一致,保证CDM集群和MRS集群之间网络互通。

步骤3 在“集群管理”页面单击待操作集群对应“操作”列的“作业管理”。

步骤4 在“连接管理”页签,单击“新建连接”,连接器类型选择“Hadoop发行版”。

步骤5 参考CDM服务的新建连接页面,添加到迁移源端集群的连接,其中Hadoop类型选择

“Apache Hadoop”。

说明

(可选)HBase迁移建议使用高权限用户,例如: 单击“显示高级属性”,新增迁移所需用户

“hadoop.user.name = 用户名(如omm用户)”。

2-13 到迁移源端集群的连接

步骤6 在“连接管理”页签,单击“新建连接”,连接器类型选择“Hadoop发行版”。

步骤7 参考CDM服务的新建连接页面,添加到迁移目的端集群的连接,其中Hadoop类型选 择“MRS”。

说明

(可选)HBase迁移建议使用高权限用户,例如: 单击“显示高级属性”,新增迁移所需用户

“hadoop.user.name = 用户名(如omm用户)”。

2-14 到迁移目的端集群的连接

步骤8 选择“作业管理”的“场景迁移”页签,单击“新建作业”。

说明

“场景迁移”仅2.9.0版本之前的CDM集群支持,若当前环境中无此页签,也可以创建表/文件迁 移作业或者整库迁移作业进行迁移,请参考创建CDM作业。

步骤9 进入作业参数配置界面。配置作业名称并选择迁移场景为“HBase快速迁移”。

步骤10 配置源端作业和目的端作业参数,并单击“下一步”。

2-15 HBase 作业配置

步骤11 选择要迁移的数据表, 并单击“下一步”。

步骤12 进入任务配置页面,不做修改,直接单击“保存”。

步骤13 选择“作业管理”的“场景迁移”页签,在待运行作业的“操作”列单击“运行”,

即可开始HBase数据迁移。

步骤14 迁移完成后,可以在目的端集群和源端集群,通过同样的查询语句,对比查询结果进 行验证。

例如:

● 在目的端集群和源端集群上通过查询BTable表的记录数来确认数据条数是否一 致,添加--endtime参数主要排除迁移期间源端集群上有数据更新的影响。

Hbase org.apache.hadoop.hbase.mapreduce.RowCounter BTable --endtime=1587973835000

2-16 查询 BTable 表的记录数

● 通过HBase shell的scan ' BTable ', {TIMERANGE=>[1587973235000, 1587973835000]} 查询指定时间段内的数据进行对比。

----结束

增量数据迁移

在业务割接前,如果源端集群上有新增数据,需要定期将新增数据搬迁到目的端集 群。一般每天更新的数据量在GB级别可以使用CDM的“整库迁移”指定时间段的方式 每天进行HBase新增数据迁移。

当前使用CDM的“整库迁移”功能时的限制:如果源HBase集群中被删除操作的数据

场景迁移的HBase连接器不能与“整库迁移”共用,因此需要单独配置“HBase”连接 器。

步骤1 参考全量数据迁移的步骤1~步骤7步骤新增两个“HBase”连接器,选择连接器类型时 分别为源端集群和目的端集群选择“MRS HBase”和“Apache HBase”。

2-17 HBase 增量迁移连接

步骤2 选择“作业管理”的“整库迁移”页签,单击“新建作业”。

步骤3 进入作业参数配置界面,作业相关信息配置完成后单击“下一步”。

● 作业名称:用户自定义作业名称,例如hbase-increase。

● 源端作业配置:源连接名称请选择步骤1中创建的到源端集群的连接名称,并展开 高级属性配置迁移数据的时间段。

● 目的端作业配置:目的连接名称请选择步骤1中创建的到目的端集群的连接名称,

其他不填写。

2-18 HBase 增量迁移作业配置

步骤4 选择要迁移的数据表, 并单击“保存”。

步骤5 选择“作业管理”的“整库迁移”页签,在待运行作业的“操作”列单击“运行”,

即可开始HBase数据增量迁移。

----结束