OBS 数据迁移到 DWS
步骤1 登录DGC控制台。选择对应工作空间的“数据集成”模块,进入数据集成页面。
图2-10 选择数据集成
步骤2 进入DGC数据集成主页面,选择并进入“作业管理”。
图2-11 作业管理
步骤3 在作业管理界面,选择“连接管理 - 新建连接”,进入创建连接页面。
步骤4 在创建连接页面,选择“对象存储服务(OBS)”,新建CDM到OBS的连接,数据连 接名称为“obs_link”。
表2-3 OBS 连接的参数
参数名 说明 取值样例
名称 连接的名称,根据连接的数据源类型,用户可自定 义便于记忆、区分的连接名。
obs_link
OBS终端节 点
您可以通过以下任一方式获取Endpoint信息:
● OBS桶的Endpoint,可以进入OBS控制台概览 页,点击桶名称后查看桶的基本信息获取。
● 终端节点(Endpoint)即调用API的请求地址,
不同服务不同区域的终端节点不同。Endpoint可 从终端节点及区域说明获取。
这里支持用户输入桶级别的域名,例如:
test.xx.com,则在查询OBS桶的时候,只能查询到 test这个桶。
-端口 数据传输协议端口,https是443,http是80。 443 OBS桶类型 用户下拉选择即可,一般选择为“对象存储”。 对象存储
参数名 说明 取值样例 访问标识(AK) AK和SK分别为登录OBS服务器的访问标识与密钥。
您需要先创建当前帐号的访问密钥,并获得对应的 AK和SK。
您可以通过如下方式获取访问密钥。
1. 登录控制台,在用户名下拉列表中选择“我的凭 证”。
2. 进入“我的凭证”页面,选择“访问密钥 > 新增 访问密钥”,如图2-12所示。
图2-12 单击新增访问密钥
3. 单击“确定”,根据浏览器提示,保存密钥文 件。密钥文件会直接保存到浏览器默认的下载文 件夹中。打开名称为“credentials.csv”的文 件,即可查看访问密钥(Access Key Id和Secret Access Key)。
说明
– 每个用户仅允许新增两个访问密钥。
– 为保证访问密钥的安全,访问密钥仅在初次生成时 自动下载,后续不可再次通过管理控制台界面获 取。请在生成后妥善保管。
-密钥(SK)
-图2-13 创建 OBS 连接
步骤5 在创建连接页面,选择“数据仓库服务(DWS)”,新建CDM到DWS的连接,数据连 接名称为“dws_link”。
表2-4 DWS 连接参数
参数名 说明 取值样例
名称 连接的名称,根据连接的数据源类型,用户可自定
义便于记忆、区分的连接名。 dws_link 数据库服务
器 单击输入框后的“选择”,可获取用户的DWS实例
列表。
-端口 配置为要连接的数据库的端口。DWS数据库端口默
认为8000。 8000
数据库名称 配置为要连接的数据库名称。 demo
用户名 待连接数据库的用户。该数据库用户需要有数据表
的读写权限,以及对元数据的读取权限。 dbadmin
密码 用户密码。
-使用Agent 是否选择通过Agent从源端提取数据。 否
图2-14 创建 DWS 连接
步骤6 CDM到OBS和DWS的连接创建成功后,单击“表/文件迁移”,再单击“新建作业”。
图2-15 新建作业
步骤7 按照如下步骤完成作业参数的配置。
1. 如图2-16所示,配置作业名为movies_obs2dws,配置源端作业参数,然后配置目 的端作业参数。
说明
图2-16 作业配置
2. 在源端、目的作业配置区域,单击“显示高级属性”,在“高级属性”中,系统 提供了默认值,请根据实际业务数据的格式设置各项参数。
例如,本例中根据数据源准备中的样例数据格式,源端高级属性需注意以下参数 的设置,其他参数均保留默认值即可,如图2-17所示。目的端高级属性无需配 置。
– 字段分隔符:默认值为逗号,本示例需要保留默认值。
– 使用包围符:由于IMDbURL有的原始数据中包含“,”,需要修改默认值为
“是”。
– 首行为标题行:默认值为“否”,本示例首行是标题行,修改默认值为
“是”。
图2-17 源端高级属性
3. 单击“下一步”后,请参考以下说明配置字段映射,如图2-18所示,配置完成 后,单击“下一步”。
字段映射:在本示例中,由于数据迁移的目标表字段顺序和原始数据的字段顺序 是一样的,因此这里不需要调整字段映射的顺序。
如果目标表字段顺序和原始数据不一致,请一一将源字段指向含义相同的目的字 段。请将鼠标移至某一个字段的箭头起点,当光标显示为“+”的形状时,按住鼠 标,将箭头指向相同含义的目的字段,然后松开鼠标。
图2-18 字段映射
4. 根据需要配置任务的重试和定时执行、高级属性等。在本示例中仅需开启脏数 据,其他配置项保持默认即可。
图2-19 任务配置
单击“显示高级属性”,可配置“抽取并发数”以及“是否写入脏数据”,如图 2-19所示。
– 抽取并发数:设置同时执行的抽取任务数。并发抽取数取值范围为1-1000,
若配置过大,则以队列的形式进行排队。
CDM迁移作业的抽取并发量,与集群规格和表大小有关。
▪
按集群规格建议每1CUs(1CUs=1核4G)配置为4。▪
表每行数据大小为1MB以下的可以多并发抽取,超过1MB的建议单线程 抽取数据。– 是否写入脏数据:建议配置为“是”,然后参考图2-19配置相关参数。脏数 据是指与目的端字段不匹的数据,该数据可以被记录到指定的OBS桶中。用 户配置脏数据归档后,正常数据可以写入目的端,迁移作业不会因脏数据中 断。
在本示例中,“OBS桶”配置为在数据源准备中创建的桶“fast-demo”,您 需要前往OBS控制台,在桶中创建一个目录,例如err_data,然后再将“脏数 据目录”配置为该目录。
步骤8 单击“保存并运行”完成作业的创建。
返回“表/文件迁移”页面后,可在作业列表中查看到新建的作业。
图2-20 迁移作业运行结果
步骤9 参考步骤6~步骤8,再新建名为ratings_obs2dws的迁移作业,将ratings.csv数据迁移 到DWS的ratings_item表中。待作业运行成功后,数据迁移结束。
图2-21 数据迁移结果
步骤10 数据迁移结束后,您也可以跳转到数据开发页面,新建一个DWS SQL脚本,并分别执 行以下SQL语句检查DWS中的movies_item和ratings_item表数据是否符合预期。
● 查看movies_item表数据:
SET SEARCH_PATH TO dgc;
SELECT * FROM movies_item;
● 查看ratings_item表数据:
SET SEARCH_PATH TO dgc;
SELECT * FROM ratings_item;
图2-22 查看 DWS 表数据
----结束