使用ROMA Connect进行数据集成的流程如下图所示。
图4-1 业务使用流程
1. 已创建实例和集成应用。
2. 接入数据源。
接入源端和目标端数据源,确保可以正常从源端读取数据以及向目标端写入数 据。
3. 创建集成任务。
数据集成任务规定了源端到目标端的数据集成规则,包括两端的数据类型、数据 字段的映射规则、数据集成的过滤条件等。ROMA Connect支持创建两种数据集 成任务:
– 创建数据集成任务:普通数据集成任务,有定时任务和实时任务两种集成模
式,支持所有默认类型的数据源,对于数据库类型数据源,只支持源端一个 数据表到目标端一个数据表的集成同步。
– 创建数据集成任务(组合任务):组合任务,通过CDC(Change Data
Capture,数据变更抓取)实现源端到目标端数据的实时同步及增量同步,支 持一个源端多个数据表到一个目标端多个数据表的集成同步。当前支持 Oracle、MySQL、SQL Server等几种关系型数据库,具体请参见数据库的
CDC配置。
4. 启动集成任务。
– 定时任务启动后,ROMA Connect按照任务计划进行数据集成。首次执行 时,会把所有符合条件的源端数据集成到目标端,后续根据任务配置,集成 符合条件的全量数据或只集成增量数据。
– 实时任务启动后,ROMA Connect会不断检测源端数据变更。首次执行时,
会把所有符合条件的源端数据集成到目标端,后续若检测到新增数据,则将 其集成到目标端。
4.2 接入数据源
在创建数据集成任务前,ROMA Connect需要先接入源端和目标端数据源,确保可以 正常从源端读取数据以及向目标端写入数据。
根据数据源类型的不同,数据源的接入配置有所差异,具体如下表所示。接入数据源 后,点击数据源名称可以查看数据源详情,数据源详情中可查看数据源相关的任务信 息。
说明
● ROMA Connect数据集成适用于异构数据源之间的数据类型转换和按需集成。对于业界主流 数据库之间的数据迁移、同步场景,建议使用数据复制服务DRS;对于关系型数据库、大数 据、文本等数据迁移到数据湖的场景,建议使用云数据迁移CDM。
● 当目标端数据源为FI Hive或MRS Hive时,源端数据源只能为API、MQS和SAP数据源。
表4-1 接入数据源
-数据源接入配置 普通任务支
-接入MRS HDFS数据 源
定时 定时,实时 -
-接入MRS HBase数据 源
定时 定时,实时 -
-接入MRS Kafka数据 源
-接入SQL Server数据 源
4.3.1 配置任务基本信息
概述
通过在ROMA Connect中创建数据集成任务,您可以实现不同数据源之间的数据集成 转换。ROMA Connect根据您在数据集成任务中的配置,决定如何将指定的源端的一 个数据表中的数据集成到目标端的一个数据表中。
数据集成任务的配置分为任务基本信息、制定计划(可选)、源端信息、目标端信 息、Mapping信息和异常数据存储(可选)、任务完成后执行(可选)几个部分,本 节及接下来的几个小节将对这几部分分别进行介绍。本节主要提供数据集成任务基本 信息和任务计划的配置说明。
前提条件
● ROMA Connect已接入源端和目标端数据源,具体请参考接入数据源。
● ROMA Connect具备向目标端数据源写入数据的权限。
● 若需要配置同步异常的数据存储,需要完成OBS数据源的接入配置,具体请参见 接入OBS数据源。