返回页首
任务的“集成模式”为“实时”时,可以选择MRS Kafka作为源端数据源。
1. 在创建任务页面中配置源端信息。
表4-28 源端 MRS Kafka 信息
参数 配置说明
源端实例 选择当前正在使用的ROMA Connect实例。
源端集成应用 选择MRS Kafka数据源所属的集成应用,在接入数据源时 已配置。
源端数据类型 选择“MRS Kafka”。
数据源名称 选择接入数据源中已配置的MRS Kafka数据源。
Topic名称 用户在MRS Kafka服务已创建的,名称是以T_开头的 Topic,不可随意自定义。
参数 配置说明
是否解析 获取到的源端数据是否由ROMA Connect做进一步的数据 解析。
● 若选择是,则ROMA Connect根据配置的解析规则,对 获取到的源端数据解析后再集成到目标端。
● 若选择否,则ROMA Connect会直接透传获取到的源端 数据,并集成到目标端。
数据根字段 仅当“是否解析”选择“是”时需要配置。
指从源端获取到的JSON格式数据中,元数据集上层公共字 段的路径。“数据根字段”与元数据的“解析路径”组 合,即为元数据的完整路径,具体请参见元数据路径配置 说明。
数据类型 选择从MRS Kafka数据源获取的数据格式类型,需要与 MRS Kafka实际存储的数据格式一致。当“是否解析”选 择“是”时,可选择“JSON”;当“是否解析”选择
“否”时,可选择“JSON”和“二进制文件”。
消费偏移设置 选择集成最早获取的消息数据还是最新获取的消息数据。
元数据 仅当“是否解析”选择“是”时需要配置。
指从源端获取到的JSON格式数据中,要集成到目标端的每 一个底层key-value型数据元素。
● 别名:对元数据的自定义名称。
● 类型:元数据的数据类型,需要与源端数据中对应字段 的数据类型一致。
● 解析路径:元数据的完整路径中,不包含数据根字段的 路径部分,具体请参见元数据解析路径配置说明。
时区 选择Kafka数据源使用的时区,以便ROMA Connect识别数 据的时间戳,默认为GMT+8:00时区(北京时间)。
元数据解析路径配置说明:
– JSON格式数据中不含数组。
如以下JSON格式数据,我们定义元素a的完整路径为a,元素b的完整路径为 a.b,元素c的完整路径为a.b.c,元素d的完整路径为a.b.d。元素c和d为底层 数据元素,即需要通过ROMA Connect集成到目标端的数据。
{ "a": { "b": { "c": "xx", "d": "xx"
} }}
此场景下,对于数据根字段和解析路径有三种配置方案:
▪
数据根字段不设置元数据c的解析路径需要设置为a.b.c,元素d的解析路径需设置为a.b.d。
▪
数据根字段设置为a元数据的解析路径从元素a的下层路径开始。元数据c的解析路径需要设 置为b.c,元素d的解析路径需设置为b.d。
▪
数据根字段设置为a.b元数据的解析路径从元素b的下层路径开始。元数据c的解析路径需要设 置为c,元素d的解析路径需设置为d。
– JSON格式数据中含数组。
如以下JSON格式数据,我们定义元素a的完整路径为a,元素b的完整路径为 a.b,元素c的完整路径为a.b[i].c,元素d的完整路径为a.b[i].d。元素c和d为 底层数据元素,即需要通过ROMA Connect集成到目标端的数据。
{ "a": { "b": [{
"c": "xx", "d": "xx"
}, {
"c": "yy", "d": "yy"
} ] }}
此场景下,对于数据根字段和解析路径有三种配置方案:
▪
数据根字段不设置元数据c的解析路径需要设置为a.b[i].c,元素d的解析路径需设置为 a.b[i].d。
▪
数据根字段设置为a元数据的解析路径从元素a的下层路径开始。元数据c的解析路径需要设 置为b[i].c,元素d的解析路径需设置为b[i].d。
▪
数据根字段设置为a.b元数据的解析路径从元素b的下层路径开始。元数据c的解析路径需要设 置为[i].c,元素d的解析路径需设置为[i].d。
源端为MRS Kafka的配置与Kafka的类似,配置示例可参考Kafka配置示例。
2. 完成源端信息配置后,继续进行下一部分配置,配置目标端数据信息。
OBS
返回页首
任务的“集成模式”为“定时”时,可以选择OBS(对象存储服务)作为源端数据 源。
1. 在创建任务页面中配置源端信息。
表4-29 源端 OBS 信息
参数 配置说明
源端实例 选择当前正在使用的ROMA Connect实例。
源端集成
Path 填写OBS数据源中,要获取数据所在的对象名。Path的值不能以 斜杠(/)结尾。
是否解析 获取到的源端数据是否由ROMA Connect做进一步的数据解析。
● 若选择是,则ROMA Connect根据OBS默认的排列顺序对文件 进行解析,默认时间最晚的文件最先解析,解析后再集成到目 标端。
● 若选择否,则ROMA Connect会直接透传获取到的源端数据,
并集成到目标端。
文件类型 仅当“是否解析”选择“是”时需要配置。
选择从OBS数据源获取的数据文件格式,文件格式支持“csv”、
“txt”、“zip”、“xls”、“xlsx ”。
字段分隔
填写数据文件中标题信息的行数,方便ROMA Connect识别文件 中的数据起始行。
参数 配置说明
元数据 仅当“是否解析”选择“是”时需要配置。
指从源端获取到的数据文件中,要集成到目标端的每一个数据字 段。元数据必须按照文件中的字段顺序填写。
● 别名:对元数据的自定义名称。
● 类型:元数据的数据类型,需要与源端数据中对应字段的数据 类型一致。
源端为OBS的配置示例如下图所示,id、name和info为从OBS数据源获取,并要 集成到目标端的数据字段。
图4-16 OBS 配置示例
2. 完成源端信息配置后,继续进行下一部分配置,配置目标端数据信息。
Oracle
返回页首
任务的“集成模式”为“定时”时,可以选择Oracle作为源端数据源。
1. 在创建任务页面中配置源端信息。
表4-30 源端 Oracle 信息
参数 配置说明
源端实例 选择当前正在使用的ROMA Connect实例。
源端集成应
用 选择Oracle数据源所属的集成应用,在接入数据源时已配置。
源端数据类
型 选择“Oracle”。
数据源名称 选择接入数据源中已配置的Oracle数据源。
插入SQL 选择是否使用SQL语句来获取源端数据。
● 开启,表示ROMA Connect根据填写的SQL语句来获取源端数 据。
● 不开启,表示ROMA Connect根据界面配置的条件来获取源端 数据。
若选择开启,则还需要填写查询数据的SQL语句。填写的语句必 须为select语句并包含where条件,不能使用insert、update、
delete、drop等语句。单击“检测SQL”,可以检测语句的有效 性。
例如,语句SELECT col01, col02 FROM table01 WHERE col02 IN('A', 'B', 'C') ORDER BY col01,表示从table01数据表中选取 col01和col02这两列的数据,筛选列col02中值为A、B或C的数据
选择Oracle数据源使用的时区,以便ROMA Connect识别数据的 时间戳,默认为GMT+8:00时区(北京时间)。
时间戳字段 仅当“是否增量迁移”选择开启且“插入SQL”不开启时需要配 置。
选择数据表中DATE、TIME或TIMESTAMP类型的字段作为源端数 据的时间戳,用来判断数据是否满足增量集成的条件。
参数 配置说明
为了避免源端生成数据时存在滞后,导致ROMA Connect查询源 端增量数据出现遗漏,可通过时间补偿进行调整。获取数据的结
扩展元数据 当数据库中某个字段的值为JSON格式,且需要采集该JSON格式 值中的底层key-value型数据元素时需要配置。 数据元素,即需要通过ROMA Connect集成到目标端的数据。
此场景下,元数据c的解析路径需要设置为a.b.c,元素d的解析路径需设置为
– JSON格式数据中含数组
如以下JSON格式数据,我们定义元素a的完整路径为a,元素b的完整路径为 a.b,元素c的完整路径为a.b[i].c,元素d的完整路径为a.b[i].d。元素c和d为 底层数据元素,即需要通过ROMA Connect集成到目标端的数据。
此场景下,元数据c的解析路径需要设置为a.b[i].c,元素d的解析路径需设置 为a.b[i].d。
{ "a": { "b": [{
"c": "xx", "d": "xx"
}, {
"c": "yy", "d": "yy"
} ] }}
说明
● 增量迁移不支持将源端数据表中的物理删除操作同步给目标端,建议在源端使用逻辑删 除。
● 对于源端的数据变更,需要同步更新数据行的时间戳,ROMA Connect通过时间戳与任 务执行时间点进行对比,识别需增量迁移的数据。
源端为Oracle的配置与MySQL的类似,配置示例可参考MySQL配置示例。
2. 完成源端信息配置后,继续进行下一部分配置,配置目标端数据信息。
PostgreSQL
返回页首
任务的“集成模式”为“定时”时,可以选择PostgreSQL作为源端数据源。
1. 在创建任务页面中配置源端信息。
表4-31 源端 PostgreSQL 信息
参数 配置说明
源端实例 选择当前正在使用的ROMA Connect实例。
源端集成应 用
选择PostgreSQL数据源所属的集成应用,在接入数据源时已配 置。
源端数据类 型
选择“PostgreSQL”。
数据源名称 选择接入数据源中已配置的PostgreSQL数据源。
参数 配置说明
插入SQL 选择是否使用SQL语句来获取源端数据。
● 开启,表示ROMA Connect根据填写的SQL语句来获取源端 数据。
● 不开启,表示ROMA Connect根据界面配置的条件来获取源 端数据。
若选择开启,则还需要填写查询数据的SQL语句。填写的语句必 须为select语句并包含where条件,不能使用insert、update、
delete、drop等语句。单击“检测SQL”,可以检测语句的有效 性。
例如,语句SELECT col01, col02 FROM table01 WHERE col02 IN('A', 'B', 'C') ORDER BY col01,表示从table01数据表 中选取col01和col02这两列的数据,筛选列col02中值为A、B或
选择PostgreSQL数据源使用的时区,以便ROMA Connect识别 数据的时间戳,默认为GMT+8:00时区(北京时间)。
参数 配置说明 时间补偿(毫
秒) 仅当“是否增量迁移”选择开启时需要配置。
为了避免源端生成数据时存在滞后,导致ROMA Connect查询源 端增量数据出现遗漏,可通过时间补偿进行调整。获取数据的结
扩展元数据 当数据库中某个字段的值为JSON格式,且需要采集该JSON格式 值中的底层key-value型数据元素时需要配置。 数据元素,即需要通过ROMA Connect集成到目标端的数据。
此场景下,元数据c的解析路径需要设置为a.b.c,元素d的解析路径需设置为 底层数据元素,即需要通过ROMA Connect集成到目标端的数据。
此场景下,元数据c的解析路径需要设置为a.b[i].c,元素d的解析路径需设置
{
"c": "yy", "d": "yy"
} ] }}
说明
● 增量迁移不支持将源端数据表中的物理删除操作同步给目标端,建议在源端使用逻辑删 除。
● 对于源端的数据变更,需要同步更新数据行的时间戳,ROMA Connect通过时间戳与任 务执行时间点进行对比,识别需增量迁移的数据。
● 对于源端的数据变更,需要同步更新数据行的时间戳,ROMA Connect通过时间戳与任 务执行时间点进行对比,识别需增量迁移的数据。