自动建表时的字段类型映射
4.6.3 配置作业源端参数
4.6.3.2 配置 HDFS 源端参数
作业中源连接为配置HDFS连接时,即从MRS HDFS、FusionInsight HDFS、Apache HDFS导出数据时,源端作业参数如表4-49所示。
表4-49 HDFS 作为源端时的作业参数
参数类型 参数名 说明 取值样例
基本参数 源连接名称 由用户下拉选择即可。 hdfs_to_cd m
参数类型 参数名 说明 取值样例
/user/cdm/
文件格式 传输数据时所用的文件格式,可选择 以下文件格式:
● CSV格式:以CSV格式解析源文 件,用于迁移文件到数据表的场
● Parquet格式:以Parquet格式解 析源文件,用于HDFS数据导到表 的场景。
CSV格式
列表文件 当“文件格式”选择为“二进制格 式”时,才有该参数。
打开列表文件功能时,支持读取OBS 桶中文件(如txt文件)的内容作为待 迁移文件的列表。该文件中的内容应 为待迁移文件的绝对路径(不支持目 录),例如直接写为如下内容:
/mrs/job-properties/
application_1634891604621_0014/
job.properties /mrs/job-properties/
application_1634891604621_0029/
job.properties
是
列表文件源连 接
当“列表文件”选择为“是”时,才 有该参数。可选择列表文件所在的 OBS连接。
OBS_test_li nk
列表文件OBS 桶
当“列表文件”选择为“是”时,才 有该参数。该参数表示列表文件所在 的OBS桶名。
01
列表文件或目
录 当“列表文件”选择为“是”时,才 有该参数。该参数表示列表文件所在 的OBS桶中的绝对路径或目录。
/0521/
Lists.txt
参数类型 参数名 说明 取值样例 高级属性 换行符 文件中的换行符,默认自动识别
“\n”、“\r”或“\r\n”。当“文 件格式”选择为“CSV格式”时,才 有该参数。
\n
字段分隔符 文件中的字段分隔符,使用Tab键作 为分隔符请输入“\t”。当“文件格 式”选择为“CSV格式”时,才有该 参数。
,
首行为标题行 “文件格式”选择“CSV格式”时才 有该参数。在迁移CSV文件到表时,
CDM默认是全部写入,如果该参数选 择“是”,CDM会将CSV文件的第一 行数据作为标题行,不写入目的端的
ok.txt
过滤类型 满足过滤条件的路径或文件会被传
*input
文件过滤器 “过滤类型”选择“通配符”时,用 通配符过滤目录下的文件,符合过滤 器规则的文件,允许进行迁移。支持 配置多个文件,中间使用“,”分隔。
*.csv
时间过滤 选择“是”时,可以根据文件的修改 时间,选择性的传输文件。
是
参数类型 参数名 说明 取值样例 起始时间 “过滤类型”选择“时间过滤器”
时,可以指定一个时间值,当文件的 修改时间大于该时间才会被传输,输 入的时间格式需为“yyyy-MM-dd HH:mm:ss”。
该参数支持配置为时间宏变量,例如
${timestamp(dateformat(yyyy-MM-dd HH:mm:ss,-90,DAY))}表 示:只迁移最近90天内的文件。
2019-07-01 00:00:00
终止时间 “过滤类型”选择“时间过滤器”
时,可以指定一个时间值,当文件的 修改时间小于该时间才会被传输,输 入的时间格式需为“yyyy-MM-dd HH:mm:ss”。
该参数支持配置为时间宏变量,例如
${timestamp(dateformat(yyyy-MM-dd HH:mm:ss))}表示:只迁移 修改时间为当前时间以前的文件。
2019-07-30 00:00:00
创建快照 如果选择“是”,CDM读取HDFS系 统上的文件时,会先对待迁移的源目 录创建快照(不允许对单个文件创建 快照),然后CDM迁移快照中的数 据。
需要HDFS系统的管理员权限才可以 创建快照,CDM作业完成后,快照会 被删除。
否
加密方式 “文件格式”选择“二进制格式”
时,该参数才显示。
如果源端数据是被加密过的,则CDM 支持解密后再导出。这里选择是否对 源端数据解密,以及选择解密算法:
● 无:不解密,直接导出。
● AES-256-GCM:使用长度为 256byte的AES对称加密算法,目 前加密算法只支持AES-256-GCM
(NoPadding)。该参数在目的 端为加密,在源端为解密。
详细使用方法请参见迁移文件时加解 密。
AES-256-GCM
参数类型 参数名 说明 取值样例 数据加密密钥
“加密方式”选择“AES-256-GCM”时显示该参数,密钥由长度 64的十六进制数组成,且必须与加密 时配置的“数据加密密钥”一致。如 果不一致系统不会报异常,只是解密 出来的数据会错误。
DD0AE00D FECD78BF0 51BCFDA25 BD4E320DB 0A7AC75A1 F3FC3D3C5 6A457DCD C1B 初始化向量
“加密方式”选择“AES-256-GCM”时显示该参数,初始化向量由 长度32的十六进制数组成,且必须与 加密时配置的“初始化向量”一致。
如果不一致系统不会报异常,只是解 密出来的数据会错误。
5C91687BA 886EDCD12 ACBC3FF19 A3C3F
MD5文件名后 缀
“文件格式”选择“二进制格式”
时,该参数才显示。
校验CDM抽取的文件,是否与源文件 一致,详细请参见MD5校验文件一致 性。
.md5
说明
HDFS文件编码只能为“UTF-8”,故HDFS不支持设置文件编码类型。