MRS Kafka - 创建实例_应用与数据集成平台 ROMA Connect_用户指南_实例管理_创建ROMA Connect实例

返回页首

任务的“集成模式”为“实时”时，可以选择MRS Kafka作为源端数据源。

1. 在创建任务页面中配置源端信息。

表4-28 源端 MRS Kafka 信息

参数配置说明

源端实例选择当前正在使用的ROMA Connect实例。

源端集成应用选择MRS Kafka数据源所属的集成应用，在接入数据源时已配置。

源端数据类型选择“MRS Kafka”。

数据源名称选择接入数据源中已配置的MRS Kafka数据源。

Topic名称用户在MRS Kafka服务已创建的，名称是以T_开头的 Topic，不可随意自定义。

参数配置说明

是否解析获取到的源端数据是否由ROMA Connect做进一步的数据解析。

● 若选择是，则ROMA Connect根据配置的解析规则，对获取到的源端数据解析后再集成到目标端。

● 若选择否，则ROMA Connect会直接透传获取到的源端数据，并集成到目标端。

数据根字段仅当“是否解析”选择“是”时需要配置。

指从源端获取到的JSON格式数据中，元数据集上层公共字段的路径。“数据根字段”与元数据的“解析路径”组合，即为元数据的完整路径，具体请参见元数据路径配置说明。

数据类型选择从MRS Kafka数据源获取的数据格式类型，需要与 MRS Kafka实际存储的数据格式一致。当“是否解析”选择“是”时，可选择“JSON”；当“是否解析”选择

“否”时，可选择“JSON”和“二进制文件”。

消费偏移设置选择集成最早获取的消息数据还是最新获取的消息数据。

元数据仅当“是否解析”选择“是”时需要配置。

指从源端获取到的JSON格式数据中，要集成到目标端的每一个底层key-value型数据元素。

● 别名：对元数据的自定义名称。

● 类型：元数据的数据类型，需要与源端数据中对应字段的数据类型一致。

● 解析路径：元数据的完整路径中，不包含数据根字段的路径部分，具体请参见元数据解析路径配置说明。

时区选择Kafka数据源使用的时区，以便ROMA Connect识别数据的时间戳，默认为GMT+8:00时区（北京时间）。

元数据解析路径配置说明：

– JSON格式数据中不含数组。

如以下JSON格式数据，我们定义元素a的完整路径为a，元素b的完整路径为 a.b，元素c的完整路径为a.b.c，元素d的完整路径为a.b.d。元素c和d为底层 数据元素，即需要通过ROMA Connect集成到目标端的数据。

{ "a": { "b": { "c": "xx", "d": "xx"

} }}

此场景下，对于数据根字段和解析路径有三种配置方案：

▪

^{数据根字段不设置}

元数据c的解析路径需要设置为a.b.c，元素d的解析路径需设置为a.b.d。

▪

^{数据根字段设置为a}

元数据的解析路径从元素a的下层路径开始。元数据c的解析路径需要设置为b.c，元素d的解析路径需设置为b.d。

▪

数据根字段设置为a.b

元数据的解析路径从元素b的下层路径开始。元数据c的解析路径需要设置为c，元素d的解析路径需设置为d。

– JSON格式数据中含数组。

如以下JSON格式数据，我们定义元素a的完整路径为a，元素b的完整路径为 a.b，元素c的完整路径为a.b[i].c，元素d的完整路径为a.b[i].d。元素c和d为 底层数据元素，即需要通过ROMA Connect集成到目标端的数据。

{ "a": { "b": [{

"c": "xx", "d": "xx"

}, {

"c": "yy", "d": "yy"

} ] }}

此场景下，对于数据根字段和解析路径有三种配置方案：

▪

^{数据根字段不设置}

元数据c的解析路径需要设置为a.b[i].c，元素d的解析路径需设置为 a.b[i].d。

▪

^{数据根字段设置为a}

元数据的解析路径从元素a的下层路径开始。元数据c的解析路径需要设置为b[i].c，元素d的解析路径需设置为b[i].d。

▪

数据根字段设置为a.b

元数据的解析路径从元素b的下层路径开始。元数据c的解析路径需要设置为[i].c，元素d的解析路径需设置为[i].d。

源端为MRS Kafka的配置与Kafka的类似，配置示例可参考Kafka配置示例。

2. 完成源端信息配置后，继续进行下一部分配置，配置目标端数据信息。

OBS

返回页首

任务的“集成模式”为“定时”时，可以选择OBS（对象存储服务）作为源端数据源。

1. 在创建任务页面中配置源端信息。

表4-29 源端 OBS 信息

参数配置说明

源端实例选择当前正在使用的ROMA Connect实例。

源端集成

Path 填写OBS数据源中，要获取数据所在的对象名。Path的值不能以斜杠（/）结尾。

是否解析获取到的源端数据是否由ROMA Connect做进一步的数据解析。

● 若选择是，则ROMA Connect根据OBS默认的排列顺序对文件进行解析，默认时间最晚的文件最先解析，解析后再集成到目标端。

● 若选择否，则ROMA Connect会直接透传获取到的源端数据，

并集成到目标端。

文件类型仅当“是否解析”选择“是”时需要配置。

选择从OBS数据源获取的数据文件格式，文件格式支持“csv”、

“txt”、“zip”、“xls”、“xlsx ”。

字段分隔

填写数据文件中标题信息的行数，方便ROMA Connect识别文件中的数据起始行。

参数配置说明

元数据仅当“是否解析”选择“是”时需要配置。

指从源端获取到的数据文件中，要集成到目标端的每一个数据字段。元数据必须按照文件中的字段顺序填写。

● 别名：对元数据的自定义名称。

● 类型：元数据的数据类型，需要与源端数据中对应字段的数据类型一致。

源端为OBS的配置示例如下图所示，id、name和info为从OBS数据源获取，并要集成到目标端的数据字段。

图4-16 OBS 配置示例

2. 完成源端信息配置后，继续进行下一部分配置，配置目标端数据信息。

Oracle

返回页首

任务的“集成模式”为“定时”时，可以选择Oracle作为源端数据源。

1. 在创建任务页面中配置源端信息。

表4-30 源端 Oracle 信息

参数配置说明

源端实例选择当前正在使用的ROMA Connect实例。

源端集成应

用选择Oracle数据源所属的集成应用，在接入数据源时已配置。

源端数据类

型选择“Oracle”。

数据源名称选择接入数据源中已配置的Oracle数据源。

插入SQL 选择是否使用SQL语句来获取源端数据。

● 开启，表示ROMA Connect根据填写的SQL语句来获取源端数据。

● 不开启，表示ROMA Connect根据界面配置的条件来获取源端数据。

若选择开启，则还需要填写查询数据的SQL语句。填写的语句必须为select语句并包含where条件，不能使用insert、update、

delete、drop等语句。单击“检测SQL”，可以检测语句的有效性。

例如，语句SELECT col01, col02 FROM table01 WHERE col02 IN('A', 'B', 'C') ORDER BY col01，表示从table01数据表中选取 col01和col02这两列的数据，筛选列col02中值为A、B或C的数据

选择Oracle数据源使用的时区，以便ROMA Connect识别数据的时间戳，默认为GMT+8:00时区（北京时间）。

时间戳字段仅当“是否增量迁移”选择开启且“插入SQL”不开启时需要配置。

选择数据表中DATE、TIME或TIMESTAMP类型的字段作为源端数据的时间戳，用来判断数据是否满足增量集成的条件。

参数配置说明

为了避免源端生成数据时存在滞后，导致ROMA Connect查询源端增量数据出现遗漏，可通过时间补偿进行调整。获取数据的结

扩展元数据当数据库中某个字段的值为JSON格式，且需要采集该JSON格式值中的底层key-value型数据元素时需要配置。数据元素，即需要通过ROMA Connect集成到目标端的数据。

此场景下，元数据c的解析路径需要设置为a.b.c，元素d的解析路径需设置为

– JSON格式数据中含数组

此场景下，元数据c的解析路径需要设置为a.b[i].c，元素d的解析路径需设置为a.b[i].d。

{ "a": { "b": [{

"c": "xx", "d": "xx"

}, {

"c": "yy", "d": "yy"

} ] }}

说明

● 增量迁移不支持将源端数据表中的物理删除操作同步给目标端，建议在源端使用逻辑删除。

● 对于源端的数据变更，需要同步更新数据行的时间戳，ROMA Connect通过时间戳与任务执行时间点进行对比，识别需增量迁移的数据。

源端为Oracle的配置与MySQL的类似，配置示例可参考MySQL配置示例。

2. 完成源端信息配置后，继续进行下一部分配置，配置目标端数据信息。

PostgreSQL

返回页首

任务的“集成模式”为“定时”时，可以选择PostgreSQL作为源端数据源。

1. 在创建任务页面中配置源端信息。

表4-31 源端 PostgreSQL 信息

参数配置说明

源端实例选择当前正在使用的ROMA Connect实例。

源端集成应用

选择PostgreSQL数据源所属的集成应用，在接入数据源时已配置。

源端数据类型

选择“PostgreSQL”。

数据源名称选择接入数据源中已配置的PostgreSQL数据源。

参数配置说明

插入SQL 选择是否使用SQL语句来获取源端数据。

● 开启，表示ROMA Connect根据填写的SQL语句来获取源端数据。

● 不开启，表示ROMA Connect根据界面配置的条件来获取源端数据。

若选择开启，则还需要填写查询数据的SQL语句。填写的语句必须为select语句并包含where条件，不能使用insert、update、

delete、drop等语句。单击“检测SQL”，可以检测语句的有效性。

例如，语句SELECT col01, col02 FROM table01 WHERE col02 IN('A', 'B', 'C') ORDER BY col01，表示从table01数据表 中选取col01和col02这两列的数据，筛选列col02中值为A、B或

选择PostgreSQL数据源使用的时区，以便ROMA Connect识别数据的时间戳，默认为GMT+8:00时区（北京时间）。

参数配置说明时间补偿(毫

秒) 仅当“是否增量迁移”选择开启时需要配置。

为了避免源端生成数据时存在滞后，导致ROMA Connect查询源端增量数据出现遗漏，可通过时间补偿进行调整。获取数据的结

此场景下，元数据c的解析路径需要设置为a.b.c，元素d的解析路径需设置为底层数据元素，即需要通过ROMA Connect集成到目标端的数据。

此场景下，元数据c的解析路径需要设置为a.b[i].c，元素d的解析路径需设置

{

"c": "yy", "d": "yy"

} ] }}

说明

● 增量迁移不支持将源端数据表中的物理删除操作同步给目标端，建议在源端使用逻辑删除。

● 对于源端的数据变更，需要同步更新数据行的时间戳，ROMA Connect通过时间戳与任务执行时间点进行对比，识别需增量迁移的数据。

在文檔中创建实例_应用与数据集成平台 ROMA Connect_用户指南_实例管理_创建ROMA Connect实例_华为云 (頁 96-113)