6.3.1 上传存量数据
1. 使用华为云专线,搭建用户本地数据中心与华为云VPC之间的专属连接通道。
2. 创建OBS桶,并记录OBS的访问域名、端口和AK、SK。
3. 创建CDM集群,如图6-2所示。
说明
DGC实例中已经包含一个CDM集群(试用版除外),如果该集群已经满足需求,您无需再 购买批量数据迁移增量包,可以跳过这部分内容。
如果您需要再创建新的CDM集群,请参考购买DGC增量包,完成购买批量数据迁移增量包 的操作。
– 实例类型:选择“cdm.xlarge”,该实例类型适用大部分迁移场景。
– 虚拟私有云:CDM集群的VPC,选择用户本地数据中心与云专线连通的 VPC。
– 子网、安全组:这里没有要求,任选一个即可。
– 自动关机、定时开关机:保持默认即可。
图6-2 创建集群
4. 集群创建完成后,选择集群后面的“作业管理 > 连接管理 > 新建连接”,进入选 择连接类型的界面,如图6-3所示。
图6-3 选择连接器类型
5. 连接H公司本地的Apache Hadoop HDFS文件系统时,连接类型选择“Apache HDFS”,然后单击“下一步”。
图6-4 创建 HDFS 连接
说明
● 名称:用户自定义连接名称,例如“hdfs_link”。
● URI:配置为H公司HDFS文件系统的Namenode URI地址。
● 认证类型:安全模式Hadoop选择Kerberos鉴权,通过获取客户端的principal和keytab 文件进行认证。
● Principal、Keytab文件:用于认证的帐号Principal和keytab文件,可以联系Hadoop管 理员获取。
6. 单击“保存”,CDM会自动测试连接是否可用。
– 如果可用则提示保存成功,系统自动跳转到连接管理界面。
– 如果测试不可用,需要重新检查连接参数是否配置正确,或者H公司防火墙 是否允许CDM集群的EIP访问数据源。
7. 再单击“新建连接”来创建OBS连接,连接类型选择“对象存储服务(OBS)”
后单击“下一步”,配置OBS连接参数,如图6-5所示。
图6-5 创建 OBS 连接
说明
● 名称:用户自定义连接名称,例如“obslink”。
● OBS终端节点:配置为OBS的域名或IP地址,例如“obs.myhuaweicloud.com”。
● 端口:OBS服务器的端口,例如“443”。
● OBS桶类型:根据实际情况下拉选择即可。
● 访问标识(AK)、密钥(SK):访问OBS数据库的AK、SK。可在管理控制台单击用户 名,选择“我的凭证 > 管理访问密钥”后获取。
8. 单击“保存”,系统回到连接管理界面。
9. 选择“表/文件迁移 > 新建作业”,创建迁移H公司贸易数据到OBS的作业, 如图
图6-6 创建作业
说明
● 作业名称:用户自定义作业名称。
● 源端作业配置:
● 源连接名称:选择5创建的HDFS连接“hdfs_link”。
● 源目录或文件:配置为H公司贸易数据在本地的存储路径,可以是一个目录,也
● 目的连接名称:选择7创建的OBS连接“obslink”。
● 桶名、写入目录:在OBS中储存贸易数据的路径,CDM会将文件写入到该路径 下。
图6-7 定时任务配置
3. 勾选“是否定时执行”,配置定时任务:
– “重复周期”配置为1天。
– “开始时间”配置为每天晚上0点1分执行。
这样CDM每天凌晨自动执行全量迁移,但因为“重复文件处理方式”选择了“跳 过重复文件”,相同名称且相同大小的文件不迁移,所以只会上传每天新增的文 件。
4. 单击“保存”,完成CDM的增量同步配置。