连接Apache Hadoop上的HDFS数据源时,相关参数如表4-24所示。
表4-24 Apache HDFS 连接参数
参数名 说明 取值样例
名称 连接的名称,根据连接的数据源类型,用户可
自定义便于记忆、区分的连接名。 hadoop_hdfs_li nk
URI 表示NameNode URI地址。 hdfs://
nn1.example.c om/
认证类型 访问集群的认证类型:
● SIMPLE:非安全模式选择Simple鉴权。
● KERBEROS:安全模式选择Kerberos鉴权。
KERBEROS
Principal 认证类型为“KERBEROS”时,需要填写 Principal。Principal即Kerberos安全模式下的用 户名,可以联系Hadoop管理员获取。此处填写 的Principal需要与Keytab文件保持一致。
-Keytab文件 认证类型为“KERBEROS”时,需要上传 Keytab文件。Keytab文件为认证凭据文件,可 以联系Hadoop管理员获取。获取Keytab文件 前,需要在集群上至少修改过一次此用户的密 码,否则下载获取的keytab文件可能无法使 用。另外,修改用户密码后,之前导出的 keytab将失效,需要重新导出。
-运行模式 选择HDFS连接的运行模式:
● EMBEDDED:连接实例与CDM运行在一 起,该模式性能较好。
● STANDALONE:连接实例运行在独立进程。
如果CDM需要对接多个Hadoop数据源
(MRS、Hadoop或CloudTable),并且既 有KERBEROS认证模式又有SIMPLE认证模 式,只能使用STANDALONE模式或者配置不 同的Agent。
说明:STANDALONE模式主要是用来解决版 本冲突问题的运行模式。当同一种数据连接 的源端或者目的端连接器的版本不一致时,
存在jar包冲突的情况,这时需要将源端或目 的端放在STANDALONE进程里,防止冲突导 致迁移失败。
● Agent:连接实例运行在Agent上。
STANDALONE
参数名 说明 取值样例 IP与主机名映射 运行模式选择“EMBEDDED”、
“STANDALONE”时,该参数有效。
如果HDFS配置文件使用主机名,需要配置IP与 主机的映射。格式:IP与主机名之间使用空格分 隔,多对映射使用分号或回车换行分隔。
10.1.6.9 hostname01 10.2.7.9 hostname02
Agent 运行模式选择“Agent”时,单击“选择”,选 择连接Agent中已创建的Agent。 -是否使用集群
配置 您可以通过使用集群配置,简化Hadoop连接参 数配置。
否
集群配置名 仅当“是否使用集群配置”为“是”时,此参 数有效。此参数用于选择用户已经创建好的集 群配置。
集群配置的创建方法请参见管理集群配置。
hdfs_01
4.5.10 配置 OBS 连接
OBS连接目的端OBS桶需添加读写权限,并在连接时不需要认证文件。
连接OBS时,相关连接参数如表4-25所示。
表4-25 OBS 连接的参数
参数名 说明 取值样例
名称 连接的名称,根据连接的数据源类型,用户可自定 义便于记忆、区分的连接名。
obs_link
OBS终端节
点 您可以通过以下任一方式获取Endpoint信息:
● OBS桶的Endpoint,可以进入OBS控制台概览 页,点击桶名称后查看桶的基本信息获取。
● 终端节点(Endpoint)即调用API的请求地址,
不同服务不同区域的终端节点不同。Endpoint可 从终端节点及区域说明获取。
这里支持用户输入桶级别的域名,例如:
test.xx.com,则在查询OBS桶的时候,只能查询到 test这个桶。
-端口 数据传输协议端口,https是443,http是80。 443 OBS桶类型 用户下拉选择即可,一般选择为“对象存储”。 对象存储 访问标识(AK) AK和SK分别为登录OBS服务器的访问标识与密钥。
您需要先创建当前帐号的访问密钥,并获得对应的 AK和SK。
-参数名 说明 取值样例 密钥(SK) 1. 登录控制台,在用户名下拉列表中选择“我的凭
证”。
2. 进入“我的凭证”页面,选择“访问密钥 > 新增 访问密钥”,如图4-31所示。
图4-31 单击新增访问密钥
3. 单击“确定”,根据浏览器提示,保存密钥文 件。密钥文件会直接保存到浏览器默认的下载文 件夹中。打开名称为“credentials.csv”的文 件,即可查看访问密钥(Access Key Id和Secret Access Key)。
说明
● 每个用户仅允许新增两个访问密钥。
● 为保证访问密钥的安全,访问密钥仅在初次生成时 自动下载,后续不可再次通过管理控制台界面获 取。请在生成后妥善保管。
-4.5.11 配置阿里云 OSS 连接
连接阿里云的OSS时,需要给CDM绑定公网。相关连接参数如表4-26所示。
表4-26 OSS 连接的参数
参数名 说明 取值样例
名称 连接的名称,根据连接的数据源类型,用
户可自定义便于记忆、区分的连接名。 oss_link OSS访问域名 阿里云OSS的外网Endpoint。
oss-cn-hangzhou.aliyuncs.c om
身份认证方式 选择身份认证方式:
● 访问密钥:使用长期密钥访问OSS。
● 临时访问凭证:使用临时密钥和安全令 牌访问OSS。
访问密钥
访问标识(AK) 登录OSS服务器的访问标识。 -密钥(SK) 登录OSS服务器的密钥。
-参数名 说明 取值样例 安全令牌 使用“临时访问凭证”时显示此参数,需
要配置阿里云STS(Security Token Service)提供的临时令牌。
-IP与域名映射 配置IP与域名的映射。 127.0.0.1
4.5.12 配置亚马逊对象存储 S3 连接
连接亚马逊对象存储S3时,相关参数如表4-27所示。目前仅支持从亚马逊对象存储S3 导出到OBS。
表4-27 亚马逊对象存储 S3 连接参数
参数名 说明 取值样例
名称 连接的名称,根据连接的数据源类型,用户可自
定义便于记忆、区分的连接名。 linkname 终端节点 亚马逊对象存储S3桶的终端节点。
-区域 亚马逊对象存储S3桶所隶属的区域。
-访问标识(Secretld) 访问亚马逊对象存储S3桶的凭证AK。
-密钥(SK) 访问凭证SK。
-4.5.13 配置七牛云 KODO/腾讯云 COS 连接
连接七牛云对象存储(KODO)或者腾讯云对象存储(COS)时,相关连接参数如表 4-28所示。
● 对象存储服务之间的迁移,推荐使用对象存储迁移服务OMS。
表4-28 KODO/COS 连接的参数
参数名 说明 取值样例
名称 连接的名称,根据连接的数据源类
型,用户可自定义便于记忆、区分的 连接名。
linkname
存储区域 KODO/COS所属的区域。 华东
访问标识(Secretld) KODO/COS的访问标识。
-参数名 说明 取值样例 优先使用自定义域
名下载对象 高级属性参数,KODO连接才有该参 数。
如果对象存储的桶有CDN或者其它自 定义域名,选择是否优先使用该自定 义域名从桶中下载对象。
是
单击“显示高级属性”,您可以配置是否“优先使用自定义域名下载对象”。开启 后,如果对象存储的桶有CDN或者其它自定义域名,优先使用该自定义域名从桶中下 载对象。
4.5.14 配置 FTP/SFTP 连接
FTP/SFTP连接适用于从线下文件服务器或ECS服务器上迁移文件到OBS或数据库。
说明
当前仅支持Linux操作系统的FTP 服务器。
连接FTP或SFTP服务器时,他们的连接参数相同,如表4-29所示。
表4-29 FTP/SFTP 连接参数
参数名 说明 取值样例
名称 连接的名称,根据连接的数据源类型,用户可自定
义便于记忆、区分的连接名。 ftp_link 主机名或IP FTP或SFTP服务器的IP地址或者主机名。 ftp.apache.org 端口 FTP或SFTP服务器的端口,默认值为21。 21
用户名 登录FTP或SFTP服务器的用户名。 cdm
密码 登录FTP或SFTP服务器的密码。
-4.5.15 配置 Redis/DCS 连接
Redis连接适用于用户在本地数据中心或ECS上自建的Redis,适用于将数据库或文件中 的数据加载到Redis。
DCS适用于将数据库或文件中的数据加载到华为云上的DCS缓存中,从第三方云Redis 服务迁移到DCS推荐使用备份恢复方式。
连接本地Redis数据库或DCS时,相关参数如表4-30所示。
表4-30 Redis 连接参数
参数名 说明 取值样例
名称 连接的名称,根据连接的数据源类型,用户可自定 义便于记忆、区分的连接名。
redis_link
Redis部署方
式 Redis部署方式:
● Single:表示单机部署。
● Cluster:表示集群部署。
● Proxy:表示通过代理部署。
Single
Redis服务器 列表
MongoDB服务器地址列表,输入格式为“数据库 服务器域名或IP地址:端口”。多个服务器列表间 以“;”分隔。
192.168.0.1:7 300;192.168.0 .2:7301
密码 连接Redis的密码。
-Redis数据库
索引 Redis分库的索引标识。
Redis的分库,相当于关系型数据库中的 database。分库总数可以在Redis配置文件中设 置,默认是16个,分库名称是一个整数(0~
15),不是一个字符串。
0
4.5.16 配置 DDS 连接
DDS连接适用于华为云上的文档数据库服务,常用于从DDS同步数据到大数据平台。
连接云服务DDS时,相关参数如表4-31所示。
表4-31 DDS 连接参数
参数名 说明 取值样例
名称 连接的名称,根据连接的数据源类型,用户可自定
义便于记忆、区分的连接名。 dds_link 服务器列表 服务器地址列表,输入格式为“数据库服务器域名
或IP地址:端口”。多个服务器列表间以“;”分 隔。
192.168.0.1:73 00;192.168.0.2 :7301
数据库名称 要连接的DDS数据库名称。 DB_dds
用户名 连接DDS的用户名。 cdm
密码 连接DDS的密码。
-4.5.17 配置 CloudTable 连接
表4-32 CloudTable 连接参数
参数名 说明 取值样例
名称 连接的名称,根据连接的数据源类型,用户可自定
义便于记忆、区分的连接名。 cloudtable_lin k
ZK链接地址 可通过CloudTable服务的集群管理界面获取该参数
值。
cloudtable-cdm-zk1.cloudtable.
com:2181,cloudtabl
e-cdm-zk2.cloudtable.
com:2181 IAM统一身
份认证
如果所需连接的CloudTable集群在创建时开启了
“IAM统一身份认证”,该参数需设置为“是”,
否则设置为“否”。
当选择IAM统一身份认证时,需要输入用户名、AK 和SK。
否
用户名 登录CloudTable集群的用户名。 admin AK 登录CloudTable集群的访问标识。
您需要先创建当前账号的访问密钥,并获得对应的 AK和SK。
-SK 登录CloudTable集群的密钥。
您需要先创建当前账号的访问密钥,并获得对应的 AK和SK。
-是否使用集
群配置 您可以通过使用集群配置,简化Hadoop连接参数 配置。
否
集群配置名 仅当“是否使用集群配置”为“是”时,此参数有 效。此参数用于选择用户已经创建好的集群配置。
集群配置的创建方法请参见管理集群配置。
hadoop_01
单击“显示高级属性”,然后单击“添加”,您可以添加客户端的配置属性。所添加 的每个属性需配置属性名称和值。对于不再需要的属性,可单击属性后的“删除”按 钮进行删除。
4.5.18 配置 CloudTable OpenTSDB 连接
连接CloudTable OpenTSDB时,相关参数如表4-33所示。
表4-33 CloudTable OpenTSDB 连接参数
参数名 说明 取值样例
名称 连接的名称,根据连接的数据源类型,用户可
自定义便于记忆、区分的连接名。 TSDB_link OpenTSDB链
接地址 OpenTSDB的ZK链接地址。 opentsdb-sp8afz7bgbps5 ur.cloudtable.co m:4242
安全模式 选择安全或非安全模式。
选择安全模式时,需要输入项目ID、用户名、
AK/SK。
AK/SK。