• 沒有找到結果。

进行数据访问权限控制_数据湖治理中心 DGC_用户指南_数据安全_使用教程_华为云

N/A
N/A
Protected

Academic year: 2022

Share "进行数据访问权限控制_数据湖治理中心 DGC_用户指南_数据安全_使用教程_华为云"

Copied!
1122
0
0

加載中.... (立即查看全文)

全文

(1)

用户指南

文档版本 12

发布日期 2022-01-18

(2)

版权所有 © 华为技术有限公司 2022。 保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传 播。

商标声明

和其他华为商标均为华为技术有限公司的商标。

本文档提及的其他所有商标或注册商标,由各自的所有人拥有。

注意

您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或 特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或暗示的声 明或保证。

由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文 档中的所有陈述、信息和建议不构成任何明示或暗示的担保。

(3)

目 录

1 DGC 使用简介...1

2 使用 DGC 前的准备... 5

3 管理中心...7

3.1 DGC 支持的数据源... 7

3.2 创建数据连接...10

3.3 资源迁移... 28

3.4 使用教程... 32

3.4.1 新建 MRS Hive 连接... 32

3.4.2 新建 DWS 连接... 37

3.4.3 新建 MySQL 连接... 41

4 数据集成(批量数据迁移)...46

4.1 批量数据迁移概述... 46

4.2 约束与限制... 48

4.3 支持的数据源...52

4.4 管理集群... 73

4.4.1 创建 CDM 集群... 73

4.4.2 解绑/绑定集群的 EIP... 74

4.4.3 关机/开机集群... 74

4.4.4 重启集群... 76

4.4.5 删除集群... 77

4.4.6 下载集群日志... 78

4.4.7 查看集群基本信息/修改集群配置...79

4.4.8 查看监控指标... 83

4.4.8.1 支持的监控指标... 83

4.4.8.2 设置告警规则...85

4.4.8.3 查看监控指标...86

4.5 管理连接... 87

4.5.1 新建连接... 87

4.5.2 管理驱动... 92

4.5.3 管理 Agent...93

4.5.4 管理集群配置... 96

4.5.5 配置关系数据库连接...103

(4)

4.5.6 配置 DLI 连接...109

4.5.7 配置 Hive 连接... 110

4.5.8 配置 HBase 连接...115

4.5.9 配置 HDFS 连接... 120

4.5.10 配置 OBS 连接... 125

4.5.11 配置阿里云 OSS 连接...126

4.5.12 配置亚马逊对象存储 S3 连接...127

4.5.13 配置七牛云 KODO/腾讯云 COS 连接... 127

4.5.14 配置 FTP/SFTP 连接... 128

4.5.15 配置 Redis/DCS 连接...128

4.5.16 配置 DDS 连接... 129

4.5.17 配置 CloudTable 连接... 129

4.5.18 配置 CloudTable OpenTSDB 连接... 130

4.5.19 配置 MongoDB 连接... 132

4.5.20 配置 Cassandra 连接...132

4.5.21 配置 DIS 连接... 133

4.5.22 配置 Kafka 连接... 133

4.5.23 配置 DMS Kafka 连接...135

4.5.24 配置 Elasticsearch/云搜索服务(CSS)连接... 135

4.6 管理作业... 136

4.6.1 新建表/文件迁移作业... 136

4.6.2 新建整库迁移作业... 145

4.6.3 配置作业源端参数... 150

4.6.3.1 配置对象存储源端参数... 150

4.6.3.2 配置 HDFS 源端参数... 155

4.6.3.3 配置 HBase/CloudTable 源端参数... 159

4.6.3.4 配置 Hive 源端参数... 160

4.6.3.5 配置 DLI 源端参数... 161

4.6.3.6 配置 FTP/SFTP 源端参数...162

4.6.3.7 配置 HTTP 源端参数... 166

4.6.3.8 配置关系数据库源端参数...167

4.6.3.9 配置 MongoDB/DDS 源端参数... 172

4.6.3.10 配置 Redis 源端参数... 173

4.6.3.11 配置 DIS 源端参数... 173

4.6.3.12 配置 Kafka/DMS Kafka 源端参数...174

4.6.3.13 配置 Elasticsearch 或云搜索服务源端参数...175

4.6.3.14 配置 OpenTSDB 源端参数... 177

4.6.4 配置作业目的端参数...177

4.6.4.1 配置 OBS 目的端参数... 178

4.6.4.2 配置 HDFS 目的端参数...182

4.6.4.3 配置 HBase/CloudTable 目的端参数...184

(5)

4.6.4.5 配置关系数据库目的端参数... 187

4.6.4.6 配置 DDS 目的端参数... 190

4.6.4.7 配置 DCS 目的端参数...191

4.6.4.8 配置云搜索服务目的端参数... 191

4.6.4.9 配置 DLI 目的端参数... 192

4.6.4.10 配置 DIS 目的端参数...193

4.6.4.11 配置 OpenTSDB 目的端参数... 193

4.6.5 配置定时任务...193

4.6.6 作业配置管理...197

4.6.7 管理单个作业...198

4.6.8 批量管理作业...200

4.7 云审计... 202

4.7.1 支持云审计的关键操作... 202

4.7.2 如何查看审计日志... 202

4.8 使用教程... 203

4.8.1 创建 MRS Hive 连接器...203

4.8.2 创建 MySQL 连接器...207

4.8.3 MySQL 数据迁移到 MRS Hive 分区表... 210

4.8.4 MySQL 数据迁移到 OBS... 220

4.8.5 MySQL 数据迁移到 DWS... 226

4.8.6 MySQL 整库迁移到 RDS 服务... 232

4.8.7 Oracle 数据迁移到云搜索服务... 237

4.8.8 Oracle 数据迁移到 DWS... 241

4.8.9 OBS 数据迁移到云搜索服务... 247

4.8.10 OBS 数据迁移到 DLI 服务...252

4.8.11 FTP/SFTP 文件增量迁移到 OBS 服务... 257

4.8.12 MRS HDFS 数据迁移到 OBS...263

4.8.13 Elasticsearch 整库迁移到云搜索服务...266

4.8.14 DDS 数据迁移到 DWS... 270

4.8.15 更多案例实践... 274

5 数据集成(实时数据接入)... 275

5.1 实时数据接入概述... 275

5.2 约束限制... 275

5.3 实时数据接入支持的数据源... 275

5.4 购买实时数据接入增量包... 276

5.5 实时数据接入快速入门...279

5.6 管理通道... 289

5.6.1 查看通道监控信息... 289

5.6.2 变更源数据类型... 291

5.6.3 管理源数据 Schema... 291

5.6.4 管理通道标签...295

5.6.5 管理 App... 296

(6)

5.6.6 授权管理... 297

5.6.7 弹性伸缩分区...298

5.7 使用 Agent 上传数据... 299

5.7.1 DIS Agent 概述... 299

5.7.2 安装前准备... 300

5.7.3 安装 DIS Agent... 302

5.7.4 配置 DIS Agent... 303

5.7.5 启动 DIS Agent... 309

5.7.6 验证 DIS Agent... 310

5.7.7 停止 DIS Agent... 312

5.8 使用 DIS Flume Plugin 上传与下载数据... 312

5.8.1 DIS Flume Plugin 概述... 312

5.8.2 安装 DIS Flume Plugin 前准备... 313

5.8.3 安装 Plugin...314

5.8.4 配置 Plugin...315

5.8.5 验证 Plugin...319

5.8.6 卸载 Plugin(可选)... 320

5.9 使用 DIS Logstash Plugin 上传与下载数据...321

5.9.1 DIS Logstash Plugin 概述... 321

5.9.2 安装 DIS Logstash Plugin 前准备...322

5.9.3 安装 DIS Logstash Plugin... 323

5.9.4 在线安装 DIS Logstash Plugin... 323

5.9.5 离线安装 DIS Logstash Plugin... 324

5.9.6 配置 DIS Logstash Plugin... 325

5.9.7 验证 DIS Logstash Plugin... 327

5.9.8 卸载 DIS Logstash Plugin(可选)...328

5.10 使用 Kafka Adapter 上传与下载数据... 328

5.10.1 Kafka Adapter 概述... 328

5.10.2 准备环境... 328

5.10.3 上传数据... 330

5.10.4 数据下载的消费模式... 334

5.10.5 下载数据之消费位移... 341

5.10.6 与原生 KafkaConsumer 接口适配说明... 342

5.11 使用 DIS Spark Streaming 下载数据...345

5.11.1 DIS Spark Streaming 概述...345

5.11.2 准备 DIS Spark Streaming 的相关环境... 346

5.11.3 自定义 SparkStreaming 作业... 347

5.12 转储通道数据到云服务... 352

5.12.1 新增转储任务... 352

5.12.2 转储至 OBS... 354

5.12.3 转储至 DLI...361

(7)

5.12.5 转储至 MRS... 365

5.13 事件通知... 368

5.13.1 事件通知概述... 368

5.13.2 订阅事件通知... 369

5.13.3 查看事件... 371

5.14 监控... 371

5.14.1 支持的监控指标... 371

5.14.2 设置告警规则... 373

5.14.3 查看监控指标... 374

6 规范设计... 376

6.1 规范设计概述... 376

6.2 数据规范使用流程... 380

6.3 准备工作... 382

6.3.1 添加审核人... 383

6.3.2 配置中心... 385

6.4 数据调研... 393

6.4.1 流程设计... 393

6.4.2 主题设计... 397

6.5 标准设计... 403

6.5.1 新建码表... 403

6.5.2 新建数据标准...414

6.6 模型设计... 422

6.6.1 关系建模... 423

6.6.1.1 逻辑模型设计... 423

6.6.1.2 物理模型设计... 432

6.6.2 维度建模... 442

6.6.2.1 新建维度... 442

6.6.2.2 管理维度表...449

6.6.2.3 新建事实表...455

6.7 指标设计... 466

6.7.1 业务指标... 466

6.7.2 技术指标... 471

6.7.2.1 新建原子指标... 471

6.7.2.2 新建衍生指标... 474

6.7.2.3 新建复合指标... 478

6.7.2.4 新建时间限定... 481

6.8 数据集市建设... 483

6.8.1 新建汇总表... 484

6.9 通用操作... 492

6.9.1 逆向数据库(关系建模)... 492

6.9.2 逆向数据库(维度建模)... 494

6.9.3 导入导出表... 496

(8)

6.9.4 关联质量规则...504

6.9.5 查看表...509

6.9.6 批量修改主题/目录/流程... 511

6.9.7 审核中心... 512

6.10 使用教程... 515

6.10.1 规范设计示例... 515

7 数据开发... 551

7.1 数据开发概述... 551

7.2 数据管理... 553

7.2.1 数据管理流程...553

7.2.2 新建数据连接...554

7.2.3 新建数据库... 555

7.2.4 (可选)新建数据库模式... 556

7.2.5 新建数据表... 558

7.3 脚本开发... 564

7.3.1 脚本开发流程...564

7.3.2 新建脚本... 565

7.3.3 开发脚本... 566

7.3.3.1 开发 SQL 脚本... 567

7.3.3.2 开发 Shell 脚本... 571

7.3.3.3 开发 Python 脚本... 574

7.3.4 管理脚本版本...577

7.3.5 管理脚本... 579

7.3.5.1 复制脚本... 579

7.3.5.2 复制名称与重命名脚本... 580

7.3.5.3 移动脚本... 584

7.3.5.4 导出导入脚本... 586

7.3.5.5 查看脚本引用... 587

7.3.5.6 删除脚本... 588

7.4 作业开发... 590

7.4.1 作业开发流程...590

7.4.2 新建作业... 591

7.4.3 开发作业... 594

7.4.4 调度作业... 598

7.4.5 管理作业版本...604

7.4.6 管理作业... 607

7.4.6.1 解决方案... 607

7.4.6.2 复制作业... 609

7.4.6.3 复制名称和重命名作业... 610

7.4.6.4 移动作业... 613

7.4.6.5 导出导入作业... 615

(9)

7.4.6.7 查看作业依赖关系图... 620

7.5 运维调度... 622

7.5.1 运维概览... 622

7.5.2 作业监控... 622

7.5.2.1 批作业监控...622

7.5.2.2 实时作业监控... 628

7.5.2.3 实例监控... 635

7.5.2.4 补数据监控...641

7.5.3 通知管理... 642

7.5.3.1 管理通知... 642

7.5.3.2 通知周期概览... 644

7.5.4 备份和还原资产... 646

7.6 配置管理... 649

7.6.1 主机连接管理...649

7.6.2 管理资源... 652

7.6.3 配置环境变量...658

7.6.4 管理作业标签...661

7.6.5 配置委托... 662

7.6.6 配置默认项... 669

7.7 节点参考... 670

7.7.1 节点概述... 670

7.7.2 节点数据血缘...670

7.7.2.1 方案概述... 671

7.7.2.2 配置数据血缘... 671

7.7.2.3 查看数据血缘... 673

7.7.3 CDM Job... 677

7.7.4 DIS Stream...683

7.7.5 DIS Dump...684

7.7.6 DIS Client... 686

7.7.7 Rest Client...688

7.7.8 Import GES... 695

7.7.9 MRS Kafka... 697

7.7.10 Kafka Client... 698

7.7.11 ROMA FDI Job...699

7.7.12 DLI Flink Job... 700

7.7.13 DLI SQL... 704

7.7.14 DLI Spark... 710

7.7.15 DWS SQL... 716

7.7.16 MRS Spark SQL... 722

7.7.17 MRS Hive SQL... 728

7.7.18 MRS Presto SQL... 734

7.7.19 MRS Spark... 740

(10)

7.7.20 MRS Spark Python...746

7.7.21 MRS Flink Job...751

7.7.22 MRS MapReduce... 753

7.7.23 CSS... 754

7.7.24 Shell... 756

7.7.25 RDS SQL... 758

7.7.26 ETL Job... 759

7.7.27 Python... 765

7.7.28 OCR...766

7.7.29 Create OBS... 768

7.7.30 Delete OBS... 769

7.7.31 OBS Manager... 770

7.7.32 Open/Close Resource... 776

7.7.33 CloudTableManager...777

7.7.34 Data Quality Monitor...779

7.7.35 Sub Job... 780

7.7.36 For Each... 781

7.7.37 SMN...783

7.7.38 Dummy...785

7.8 EL 表达式参考... 786

7.8.1 表达式概述... 786

7.8.2 基础操作符... 790

7.8.3 日期和时间模式... 791

7.8.4 Env 内嵌对象... 791

7.8.5 Job 内嵌对象... 792

7.8.6 StringUtil 内嵌对象...793

7.8.7 DateUtil 内嵌对象... 794

7.8.8 JSONUtil 内嵌对象...794

7.8.9 Loop 内嵌对象...795

7.8.10 OBSUtil 内嵌对象... 796

7.8.11 表达式使用示例... 796

7.9 使用教程... 799

7.9.1 周期调度作业依赖详解... 799

7.9.2 IF 条件判断教程... 803

7.9.3 获取 Rest Client 算子返回值教程... 809

7.9.4 For Each 算子使用介绍...811

7.9.5 开发一个 Spark 作业... 817

7.9.6 开发一个 DWS SQL 脚本作业... 820

7.9.7 开发一个 Hive SQL 脚本作业...824

7.9.8 开发一个 MRS Spark Python 作业...827

7.9.9 开发一个 MRS Flink 作业...832

(11)

8 数据质量... 835

8.1 业务指标监控... 835

8.1.1 业务指标监控概述... 835

8.1.2 新建指标... 836

8.1.3 新建规则... 838

8.1.4 新建业务场景...839

8.1.5 查看业务场景实例... 842

8.2 数据质量监控... 843

8.2.1 数据质量监控概述... 843

8.2.2 新建规则模板...844

8.2.3 新建质量作业...848

8.2.4 新建对账作业...855

8.2.5 查看规则实例...861

8.2.6 查看质量报告...862

8.3 使用教程... 867

8.3.1 新建一个业务场景... 867

8.3.2 新建一个质量作业... 870

8.3.3 新建一个对账作业实例... 873

9 数据资产... 878

9.1 数据地图... 878

9.1.1 简介... 878

9.1.2 资产总览... 878

9.1.3 数据目录... 879

9.1.4 标签管理... 882

9.2 数据权限... 885

9.2.1 数据权限简介...885

9.2.2 数据目录权限...885

9.2.3 数据表权限... 887

9.2.4 审批中心... 890

9.3 数据安全(待下线)... 891

9.3.1 数据安全简介...891

9.3.2 数据密级... 891

9.3.3 数据分类... 892

9.3.4 脱敏策略... 894

9.4 元数据采集... 896

9.4.1 元数据简介... 896

9.4.2 任务管理... 897

9.4.3 任务监控... 904

9.5 使用教程... 905

9.5.1 开发一个增量元数据采集任务... 905

9.5.2 通过数据地图查看数据血缘关系... 909

10 数据安全... 914

(12)

10.1 概述... 914

10.2 数据总览... 915

10.3 访问权限管理...917

10.3.1 权限管理简介... 917

10.3.2 查看 MRS Ranger 集群列表...921

10.3.3 配置资源权限... 924

10.3.4 查看权限报告... 946

10.4 敏感数据识别...947

10.4.1 敏感数据简介... 948

10.4.2 定义数据密级... 949

10.4.3 定义识别规则... 952

10.4.4 定义识别规则组... 960

10.4.5 发现敏感数据... 963

10.4.6 查看敏感数据分布...971

10.5 隐私保护管理...974

10.5.1 隐私保护简介... 974

10.5.2 管理脱敏策略... 975

10.5.3 管理静态脱敏任务...983

10.5.4 嵌入数据水印... 990

10.5.5 溯源数据水印... 996

10.6 使用教程... 1000

10.6.1 进行数据访问权限控制... 1000

10.6.2 通过数据水印对安全事件进行定位...1002

11 数据服务... 1005

11.1 数据服务概览... 1005

11.2 共享版与专享版数据服务的对比...1008

11.3 开发 API... 1012

11.3.1 准备工作... 1012

11.3.1.1 购买专享版集群... 1012

11.3.1.2 新建审核人...1016

11.3.2 创建 API...1017

11.3.2.1 配置模式生成 API...1017

11.3.2.2 脚本模式生成 API...1024

11.3.2.3 注册 API... 1028

11.3.3 调试 API...1030

11.3.4 发布 API...1032

11.3.5 管理 API...1033

11.3.5.1 设置 API 可见... 1033

11.3.5.2 停用\恢复 API... 1035

11.3.5.3 下线\删除 API... 1036

11.3.5.4 复制 API... 1038

(13)

11.3.5.6 导出\导入 API... 1040

11.3.6 流量控制... 1042

11.4 调用 API... 1046

11.5 审核中心操作说明...1049

12 错误码...1052

12.1 数据迁移错误码... 1052

12.2 数据开发错误码... 1067

12.2.1 30100 作业不存在...1067

12.2.2 30101 作业数量超出配额...1067

12.2.3 30102 作业名已存在... 1068

12.2.4 30103 CDM 集群不存在...1068

12.2.5 30104 MRS 集群不存在...1068

12.2.6 30105 资源不存在...1069

12.2.7 30106 节点类型不支持... 1069

12.2.8 30107 作业已经在运行... 1070

12.2.9 30109 作业启动失败... 1070

12.2.10 30110 补数据作业名已存在... 1070

12.2.11 30111 作业应该是周期的... 1071

12.2.12 30111 依赖的作业不合法... 1071

12.2.13 30113 补数据作业不存在... 1072

12.2.14 30114 补数据作业实例数超过阈值... 1072

12.2.15 30115 补数据任务没有在运行...1072

12.2.16 30116 作业的补数据实例已经在运行...1073

12.2.17 30117 启动作业失败... 1073

12.2.18 30118 停止作业失败... 1074

12.2.19 30119 停止作业失败,详细信息:xx...1074

12.2.20 30120 补数据作业名不合法... 1074

12.2.21 30121 补数据作业开始时间不应该大于结束时间...1075

12.2.22 30122 作业为空...1075

12.2.23 30123 作业指定的 MRS 集群不存在... 1076

12.2.24 30124 导入作业失败... 1076

12.2.25 30125 作业不包含该节点名... 1076

12.3 规范设计错误码... 1077

12.3.1 6149 主题导入提示父主题不存在...1077

12.3.2 6142 主题删除失败...1078

12.3.3 6129 同一维度重复引用失败... 1078

12.3.4 6134 表名前缀非法...1078

12.3.5 6147 码表维度已存在... 1078

12.3.6 6001 目录包含数据标准,无法删除...1079

12.3.7 6002 目录包含码表,无法删除... 1079

12.3.8 6141 自定义字段 XXX 重复...1079

12.3.9 6140 自定义字段 XXX 值不允许为空... 1080

(14)

12.3.10 6143 表别名:XXX 重复... 1080

12.3.11 6144 属性别名:XXX 重复... 1080

12.3.12 6146 主题别名:XXX 重复... 1081

12.4 数据质量错误码... 1081

12.4.1 2700 名称不合法,请检查...1081

12.4.2 2701 不允许修改调度中作业的调度信息...1081

12.4.3 2725 规则名称已经存在... 1082

12.4.4 2726 指定的目录不存在... 1082

12.4.5 2799 无法关闭实例结果... 1082

12.4.6 2801 无法从服务端获取数据... 1083

12.4.7 2809 排序参数个数非法... 1083

12.4.8 2810 质量评分的观察角度参数非法... 1083

12.4.9 2811 规则模板出现了不支持的 sql 语句...1084

12.4.10 2821 规则模板参数不匹配... 1084

12.4.11 2824 名称为 XXX 的规则模板已存在...1085

12.4.12 2825 规则模板不存在... 1085

12.4.13 0091 查看 SQL 语句失败... 1085

12.4.14 1403 禁止删除调度中或运行中的规则...1086

12.4.15 1404 删除规则模板失败,存在依赖的质量作业... 1086

12.5 数据资产错误码... 1086

12.5.1 2201 创建采集任务失败... 1086

12.5.2 2242 目录层级超过最大限制... 1087

12.5.3 3487 数据连接名称错误... 1087

12.5.4 3489 查询参数错误...1087

12.5.5 3303 当前实体存在关联实体,不可被删除... 1088

12.5.6 3486 标签删除失败...1088

12.5.7 2203 调度系统异常...1089

12.5.8 2247 目录不为空,不可被删除... 1089

12.5.9 1806 Cron 任务表达式无效... 1089

12.5.10 1810 结束时间早于当前时间... 1090

12.5.11 1821 立即执行作业失败...1090

12.5.12 1854 查询任务信息失败...1090

12.5.13 1881 服务资源配额不足...1091

12.5.14 1901 没有执行操作的权限... 1091

12.5.15 1910 获取令牌失败... 1091

12.5.16 2000 获取分类失败... 1092

12.5.17 2001 创建分类失败... 1092

12.5.18 2002 更新分类失败... 1092

12.5.19 2003 删除分类失败... 1093

12.5.20 2004 获取数据连接失败...1093

12.5.21 2006 获取数据库失败... 1093

(15)

12.5.23 2008 通过 ID 获取表失败... 1094

12.5.24 2013 创建实体失败... 1094

12.5.25 2014 查询实体失败... 1095

12.5.26 2018 添加分类至实体失败... 1095

12.5.27 2021 获取实体术语失败...1095

12.5.28 2024 获取词汇表失败... 1096

12.5.29 2025 创建词汇表失败... 1096

12.5.30 2038 获取数据连接统计信息失败... 1096

12.5.31 2040 获取实体定义失败...1097

12.5.32 2041 数据目录不存在此资产... 1097

12.5.33 2044 创建标签失败... 1097

12.5.34 2046 标签参数非法... 1098

12.5.35 2252 创建任务异常... 1098

12.5.36 2253 获取任务列表异常...1098

12.5.37 2255 更新任务异常... 1099

12.5.38 2256 删除任务异常... 1099

12.5.39 2257 批量删除任务异常...1099

12.5.40 2259 任务运行异常... 1100

12.5.41 2270 采集任务名称已存在,请使用另一个名字... 1100

12.5.42 2273 结束时间与开始时间的时间间隔应大于间隔时间... 1100

12.5.43 2274 生效起始时间不能晚于结束时间...1101

12.6 数据服务错误码... 1101

12.6.1 4241 创建集群失败...1101

12.6.2 4263 创建集群超时...1101

12.6.3 4246 集群不存在... 1102

12.6.4 4247 集群删除失败...1102

12.6.5 4252 名字已存在... 1102

12.6.6 4248 获取规格信息失败... 1103

12.6.7 4094 调用 API 失败...1103

12.6.8 4180 API 调试状态未成功...1103

12.6.9 4018 API 不存在... 1104

12.6.10 4037 获取数据连接失败...1104

12.6.11 4038 获取数据库失败... 1104

12.6.12 4039 获取表失败...1105

12.6.13 4075 SQL 执行失败... 1105

12.6.14 4155 API 状态必须是已发布... 1105

12.6.15 4271 API 调试失败... 1106

12.6.16 4031 APP 名称已存在... 1106

12.6.17 4044 API 参数错误... 1106

12.6.18 4063 APP 不存在... 1107

12.6.19 4042 获取审核人失败... 1107

12.6.20 4025 创建审核人失败... 1107

(16)

1 DGC 使用简介

数据湖治理中心DGC是具有数据全生命周期管理、智能数据管理能力的一站式治理运 营平台,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据 底座,帮助企业快速构建从数据接入到数据分析的端到端智能数据系统,消除数据孤 岛,统一数据标准,加快数据变现,实现数字化转型。

使用 DGC 的用户

根据人员的职能进行划分,使用DGC的用户主要可以分为以下四类。四类角色具有不 同的DGC权限,详情请参见DGC权限列表章节。

● 管理员

面向熟悉业务并具有管理、决策、审核权限的管理人员。管理员具有除创建工作 空间之外的其他所有DGC权限,包括开发者权限、审核人员权限、工作空间管 理、数据资产管理、配置管理等权限。例如,在规范设计、数据服务模块中,审 核人员可以对开发人员发布的数据模型、API等数据对象进行审核,把好质量关。

● 开发者

面向数据建模师、熟悉脚本开发的开发人员。DGC为开发者提供了从管理中心、

规范设计、数据集成、数据开发、数据质量、数据资产到数据服务的端到端开发 和运营流程,帮助您快速、简单且高效地构建一个智能数据系统。

数据系统构建完成后,其他开发人员就可以通过SDK的方式调用DGC提供的数据 服务API进行数据分析。

开发者具有除审核人员权限、工作空间及其成员管理等少数权限以外的大部分 DGC权限。

● 运维者

面向运维人员。运维者主要具有查看详细信息、运维调度、资源监控等权限。

DGC的数据资产360度全链路可视化,数据质量可检验,数据使用可控、可追溯,

帮助运维人员实现端到端的作业调度和监控,从数据采集到数据消费运维一条龙 服务。

● 访客

访客仅具备只读权限,可以查看详细信息。

DGC 使用流程简介

(17)

1-1 DGC 使用流程

使用DGC平台,通常包括以下步骤:

1-1 DGC 全流程开发

主流程 说明 子任务 操作指导

使用前的准

备 如果您是第一次使用DGC,需要 先完成注册华为云帐号、购买 DGC实例、创建工作空间、创建 用户并授予DGC权限、添加工作 空间成员和角色等一系列操作。

准备工作 DGC准备工作

获取数据源的连接地址等信息,

并确保数据源所在的主机和华为 云网络互通。

准备数据源 准备数据源

根据业务场景选择符合需求的云 服务作为数据湖,用于存储原始 数据和数据治理过程中的数据,

并进行数据开发、治理和运营。

准备数据湖 准备数据湖

根据自身的业务特点和源数据类 型,进行数据存储与分析系统的 选型,选取合适的云服务用于存 储源数据并进行数据查询和分 析。然后,创建该云服务相应的 数据连接。

创建数据连 接

创建数据连接

(18)

主流程 说明 子任务 操作指导 数据集成

(批量数据 迁移)

通过DGC平台将源数据上传或者 接入到云上。

批量数据迁移提供同构/异构数据 源之间批量数据迁移的服务,支 持自建和云上的文件系统,关系 数据库,数据仓库,NoSQL,大 数据云服务,对象存储等数据 源。

批量数据迁 移

支持的数据源 管理集群 管理连接 管理作业

数据集成

(实时数据 接入)

通过DGC平台将源数据上传或者 接入到云上。

实时数据接入可以将云下的实时 数据接入到云服务中。

实时数据接 入

按需计费方式购 买实时数据接入 的增量包 实时数据接入概 述

数据资产采

集 为了在DGC平台中对迁移到云上 的原始数据层进行管理和监控,

先对其元数据进行采集并监控。

元数据采集 元数据采集

规范设计 规范设计以关系建模、维度建模 理论支撑实现规范化、可视化、

标准化数据模型开发,定位于数 据治理流程设计落地阶段,输出 成果用于指导开发人员实践落地 数据治理方法论。

根据业务需求设计关系模型、维 度模型,在规范设计模块中,一 步一步建立模型中的对象,例如 维度、事实表、指标、汇总表 等。

规范设计实 施流程

数据规范使用流 程

添加审核人 添加审核人 主题设计 主题设计 码表管理 新建码表 制定数据标

新建数据标准

关系建模 关系建模 维度建模 维度建模 数据开发 可管理多种大数据服务,提供一

站式的大数据开发环境。

使用DGC数据开发,用户可进行 数据管理、数据集成、脚本开 发、作业开发、作业调度、运维 监控等操作,轻松完成整个数据 的处理分析流程。

数据管理 数据管理 脚本开发 脚本开发 作业开发 作业开发 运维调度 运维调度

数据质量监 控

对业务指标和数据指标进行监 控。您可从完整性、有效性、及 时性、一致性、准确性、唯一性 六个维度进行单列、跨列、跨行 和跨表的分析。支持数据的清洗 和标准化,能够根据数据标准自 动生成清洗和标准化的质量规 则。支持周期性的监控和清洗。

业务指标监 控

新建指标 新建规则 新建业务场景 数据质量监

新建规则模板 新建质量作业 新建对账作业

(19)

主流程 说明 子任务 操作指导 数据资产管

理 在DGC数据资产模块中,您可以 查看数据地图,还可以对数据资 产进行数据权限管理。

- 数据地图

数据权限 数据服务API

开发 统一管理对内对外的API服务,提 供快速将数据表生成数据API的能 力,同时支持将现有的API快速注 册到数据服务平台以统一管理和 发布。

开发API 准备工作 创建API 调试API 发布API 管理API 流量控制 调用API 调用API

(20)

2 使用 DGC 前的准备

在使用DGC前,您应首先进行数据与业务调研,选择合适的数据治理模型。

然后参考本章节,预先做好以下准备工作:

DGC准备工作

● 准备数据源

● 准备数据湖

DGC 准备工作

如果您是第一次使用DGC,请参考准备工作章节,完成购买DGC实例、创建工作空间 等一系列操作。然后找到对应的工作空间,即可开始数据开发与运营。

准备数据源

在实际业务中,源端数据源大多为云下的MySQL、PostgreSQL、HBase、Hive等类 型,您需要作如下准备:

● 确保数据源所在的主机可以访问公网。

● 获取数据源的公网连接地址、数据库端口、数据库管理员用户及密码等信息。

● 确保防火墙规则出方向已开放数据库端口,允许数据传输到云上。

准备好数据源之后,后续您可以通过数据集成将数据源迁移到数据湖底座中,然后再 通过DGC进行数据开发、治理和运营等活动。

准备数据湖

在使用DGC前,您需要根据业务场景选择符合需求的云服务作为DGC的数据湖底座,

用于存储原始数据和数据开发过程中的数据,并进行后续的数据开发、治理和运营等 活动。DGC平台当前支持的数据湖产品请参见DGC支持的数据源。

准备好数据湖之后,您可以通过创建数据连接将DGC与数据湖底座连接起来,然后进 行1和2的操作。1和2的操作样例可参考步骤2:准备工作章节。

1. 创建数据库

在使用DGC数据集成将数据迁移上云之前,我们需要在目的端数据湖中创建目标 数据库。根据数据湖治理落地流程,建议您在数据湖中为SDI层、DWI层、DWR

(21)

范设计中将涉及到的概念,此处可先简单了解,在规范设计时将深入了解与操 作。

您可以参考以下任一一种方式在数据湖中创建数据库。

– 您可以在DGC数据开发模块中,可视化方式创建数据库,具体操作请参见新 建数据库章节。

– 您可以通过在DGC数据开发模块或数据湖产品的SQL编辑器上,开发并执行 用于创建数据库的SQL脚本,从而创建数据库。在DGC数据开发模块开发脚 本的具体操作请参见开发SQL脚本章节;数据湖产品的SQL编辑器上的具体操 作请参见对应数据湖产品的帮助文档。

2. 创建数据表

在使用DGC数据集成将数据迁移上云之前,我们需要在目的端数据湖的SDI层数据 库中创建一个目标表,用于存储原始数据。批量数据迁移场景下,关系型数据库 之间的迁移和关系型数据库到Hive的迁移支持自动创建目标表,这种情况下可以 不预先预先在目的端数据库中创建目标表。

您可以参考以下任一一种方式在数据湖中创建原始数据表。如果表字段个数较 多,建议使用编写SQL脚本的方式创建表。

– 您可以在DGC数据开发模块中,可视化方式创建数据表,具体操作请参见新 建数据表章节。

– 您可以通过在DGC数据开发模块或数据湖产品的SQL编辑器上,开发并执行 用于创建数据表的SQL脚本,从而创建数据表。在DGC数据开发模块开发脚 本的具体操作请参见开发SQL脚本章节;数据湖产品的SQL编辑器上的具体操 作请参见对应数据湖产品的帮助文档。

(22)

3 管理中心

DGC管理中心提供了统一的配置和管理入口,可以管理数据连接、资源迁移等,根据 需要定制个性化的入口和展示。

3.1 DGC 支持的数据源

在使用DGC前,您需要根据业务场景选择符合需求的云服务或数据仓库作为数据湖,

用于存储原始数据和数据治理过程中的数据,并进行数据开发、服务和运营。DGC集 成了丰富的数据引擎,支持对接如DLI、DWS、MRS Hive等云上数据湖与数据库云服 务,也支持对接企业传统数据库,例如MySQL、PostgreSQL等。

DGC 支持的数据源

DGC支持的数据源可分为“数据集成组件支持的数据源”和“DGC其他组件支持的数 据源”。

● 数据集成组件支持的数据源。数据集成组件需要集成源数据到数据湖中,因此支 持的数据源范围更广。

批量数据迁移支持的数据源请参见批量数据迁移支持的数据源。注意,如需在批 量数据迁移中使用这些数据源,请先在批量数据迁移中创建对应的数据连接,这 些数据连接仅限于在批量数据迁移模块中使用。

实时数据接入支持的数据源,请参见实时数据接入支持的数据源。

● DGC其他组件支持的数据源,即为DGC所支持的数据湖底座。

其他组件支持的数据源如表3-1所示,数据源的介绍请参见数据源简介。注意,如 需在其他组件中使用这些数据源,请先前往DGC管理中心控制台创建数据连接,

这些数据连接不能在批量数据迁移模块中使用。

3-1 DGC 其他组件支持的数据源

数据源类型 管理

中心

规范设 计

数据 开发

数据 资产

[2]

数据质 量

数据服 务

数据 安全

[3]

数据仓库服务 √ √ √ √ √ √ √

(23)

数据源类型 管理 中心

规范设 计

数据 开发

数据 资产

[2]

数据质 量

数据服 务

数据 安全

[3]

数据湖探索(DLI) √ √ √ √ √ √ √

MapReduce服务

(MRS HBase) √ × × √ × × ×

MapReduce服务

(MRS Hive) √ √ √ √ √ × √

MapReduce服务

(MRS Kafka) √ × √ × × × ×

MapReduce服务

(MRS Ranger) √ × × × × × √

MySQL √ × × × √ √ ×

Oracle √ × × √ √ × ×

MapReduce服务

(MRS Spark) √ × √ × × × ×

云数据库 RDS √ √[1] √ √ √ √ ×

实时数据接入 DIS √ × √ √ × × ×

主机连接 √ × √ × × × ×

MapReduce服务

(MRS Presto) √ × √ × √ × ×

注释:

[1] 规范设计组件仅支持云数据库RDS中的PostgreSQL数据源。

[2] 数据资产组件除了上表中列出的数据源外,还支持采集以下数据源的元数据:

1. 关系型数据库如MySQL\PostgreSQL\达梦数据库DM等(可通过RDS连接器连接)

2. 云搜索服务CSS 3. 图引擎服务GES 4. 对象存储服务OBS

[3] 数据安全组件不支持对接MRS非安全集群或存算分离的场景。

(24)

数据源简介

3-2 数据源简介

数据源类型 简介

数据仓库服务(DWS) 华为云DWS是基于Shared-nothing分布式架构,具备 MPP大规模并行处理引擎,兼容标准ANSI SQL 99和 SQL 2003,同时兼容PostgreSQL/Oracle数据库生态,

为各行业PB级海量大数据分析提供有竞争力的解决方 案。

数据湖探索(DLI) 华为云DLI是完全兼容Apache Spark和Apache Flink生 态,实现批流一体的Serverless大数据计算分析服务。

DLI支持多模引擎,企业仅需使用SQL或程序就可轻松 完成异构数据源的批处理、流处理、内存计算、机器学 习等,挖掘和探索数据价值。

MapReduce服务(MRS

HBase) HBase是一个开源的、面向列(Column-Oriented)、

适合存储海量非结构化数据或半结构化数据的、具备高 可靠性、高性能、可灵活扩展伸缩的、支持实时数据读 写的分布式存储系统。

使用MRS HBase可实现海量数据存储,并实现毫秒级 数据查询。选择MRS HBase可以实现物流数据毫秒级 实时入库更新,并支持百万级时序数据查询分析。

MapReduce服务(MRS

Hive) Hive是一种可以存储、查询和分析存储在 Hadoop 中 的大规模数据的机制。Hive定义了简单的类 SQL 查询 语言,称为HiveQL,它允许熟悉SQL的用户查询数据。

使用MRS Hive可实现TB/PB级的数据分析,快速将线下 Hadoop大数据平台(CDH、HDP等)迁移上云,业务 迁移 “0”中断,业务代码 “0”改动。

MapReduce服务(MRS

Kafka) 华为云MapReduce服务可提供专属MRS Kafka集群。

Kafka是一个分布式的、分区的、多副本的消息发布-订 阅系统,它提供了类似于JMS的特性,但在设计上完全 不同,它具有消息持久化、高吞吐、分布式、多客户端 支持、实时等特性,适用于离线和在线的消息消费,如 常规的消息收集、网站活性跟踪、聚合统计系统运营数 据(监控数据)、日志收集等大量数据的互联网服务的 数据收集场景。

MapReduce服务(MRS

Ranger) Ranger提供一个集中式安全管理框架,提供统一授权 和统一审计能力。它可以对整个Hadoop生态中如 HDFS、Hive、HBase、Kafka、Storm等进行细粒度的 数据访问控制。用户可以利用Ranger提供的前端 WebUI控制台通过配置相关策略来控制用户对这些组件 的访问权限 。

MySQL MySQL是目前最受欢迎的开源数据库之一,其性能卓 越,架构成熟稳定,支持流行应用程序,适用于多领域 多行业,支持各种WEB应用,成本低,中小企业首选。

(25)

数据源类型 简介

ORACLE ORACLE数据库系统是以分布式数据库为核心的一组软 件产品,是目前最流行的客户/服务器(CLIENT/

SERVER)或B/S体系结构的数据库之一。

ORACLE数据库是目前世界上使用最为广泛的数据库管 理系统,作为一个通用的数据库系统,它具有完整的数 据管理功能;作为一个关系数据库,它是一个完备关系 的产品;作为分布式数据库它实现了分布式处理功能。

MapReduce服务(MRS

Spark) Spark是一个开源的,并行数据处理框架,能够帮助用 户简单的开发快速、统一的大数据应用,对数据进行协 处理、流式处理、交互式分析等等。

Spark提供了一个快速的计算、写入以及交互式查询的 框架。相比于Hadoop,Spark拥有明显的性能优势。

Spark提供类似SQL的Spark SQL语言操作结构化数据。

云数据库 RDS 华为云RDS是一种基于云计算平台的即开即用、稳定可 靠、弹性伸缩、便捷管理的在线关系型数据库服务。

注意,DGC平台目前仅支持RDS中的MySQL和 PostgreSQL数据库。

实时数据接入 DIS 使用实时数据接入通道,可实现跨空间作业调度。若使 用数据通道连接,可以向其他帐号的DIS通道发送消 息;若不使用,仅能给本帐号下所有region的通道发送 消息。

主机连接 通过主机连接,用户可以在DGC数据开发中连接到指定 的主机,通过脚本开发和作业开发在主机上执行Shell 脚本。主机连接保存连接某个主机的连接信息,当主机 的连接信息有变化时,只需在主机连接管理中编辑修 改,而不需要到具体的脚本或作业中逐一修改。

MapReduce服务(MRS

Presto) Presto是一个开源的用户交互式分析查询的SQL查询引 擎,用于针对各种大小的数据源进行交互式分析查询。

其主要应用于海量结构化数据/半结构化数据分析、海 量多维数据聚合/报表、ETL、Ad-Hoc查询等场景。

Presto允许查询的数据源包括Hadoop分布式文件系统

(HDFS),Hive,HBase,Cassandra,关系数据库甚 至专有数据存储。一个Presto查询可以组合不同数据 源,执行跨数据源的数据分析。

3.2 创建数据连接

通过配置数据源信息,可以建立数据连接。DGC基于管理中心的数据连接对数据湖底 座进行数据开发、治理、服务和运营。

约束限制

● RDS数据连接方式依赖于OBS。如果没有与DGC同区域的OBS,则不支持RDS数据 连接。

(26)

● 当所连接的数据湖发生变化(如MRS集群扩容等情况)时,您需要重新编辑并保 存该连接。

前提条件

● 在创建数据连接前,请确保您已创建所要连接的数据湖(如DGC所支持的数据 库、云服务等)。

– 在创建DWS类型的数据连接前,您需要先在DWS服务中创建集群,并且具有 KMS密钥的查看权限。

– 在创建MRS HBase、MRS Hive、MRS Kafka、MRS Ranger、MRS Spark、

MRS Presto类型的数据连接前,需确保您已购买MRS集群,并且在创建数据 链接时已购买选择所需要的组件。

– 在创建RDS类型的数据连接前,请确保您已创建RDS数据库实例。DGC平台 目前仅支持RDS中的MySQL和PostgreSQL数据库引擎。

● 在创建数据连接前,请确保待连接的数据湖与DGC实例之间网络互通。

– 如果数据湖为云下的数据库,则需要通过公网或者专线打通网络,确保数据 源所在的主机可以访问公网,并且防火墙规则已开放连接端口。

– 如果数据湖为云上服务(如DWS、MRS等),则网络互通需满足如下条件:

DGC实例(指DGC实例中的CDM集群)与云上服务处于不同区域的情况 下,需要通过公网或者专线打通网络。

DGC实例(指DGC实例中的CDM集群)与云上服务同区域情况下,同虚 拟私有云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私 有云但是子网或安全组不同,还需配置路由规则及安全组规则,配置路 由规则请参见如何配置路由规则章节,配置安全组规则请参见如何配置 安全组规则《虚拟私有云(VPC)使用指南》中的“安全组 > 添加安全组 规则”章节。

此外,您还必须确保该云服务的实例与DGC工作空间所属的企业项目必 须相同,如果不同,您需要修改工作空间的企业项目。

创建数据连接

1. 在DGC控制台首页,选择对应工作空间的“管理中心”模块,进入管理中心页 面。

3-1 选择管理中心

(27)

2. 在管理中心页面,单击“数据连接”,进入数据连接页面。

3-2 创建数据连接

3. 单击“创建数据连接”,在弹出的对话框中,选择“数据连接类型”,并参见表 3-3配置相关参数。

3-3 创建数据连接

3-3 数据连接

数据连接类型 参数说明

MRS Hive 请参见表3-4。

MRS HBase 请参见表3-5。

MRS Kafka 请参见表3-6。

MRS Ranger 请参见表3-13。

DWS 请参见表3-9。

DLI 请参见表3-10。

ORACLE 请参见表3-11 MRS Spark 请参见表3-7。

RDS 请参见表3-8。

RDS连接类型还支持创建与部分关系型数据库的连 接,如MySQL\PostgreSQL\达梦数据库 DM等。

MRS Presto 请参见表3-14。

DIS 请参见表3-12。

MySQL(待下线) 不建议使用MySQL(待下线)连接器,推荐使用RDS连 接MySQL数据源,请参见表3-8。

(28)

数据连接类型 参数说明

主机连接 关于主机连接的相关操作背景和使用方法请参见主机 连接管理。

4. 单击“测试”,测试数据连接的连通性。如果无法连通,数据连接将无法创建。

5. 测试通过后,单击“确定”,创建数据连接。

数据连接参数说明

3-4 MRS Hive 数据连接

参数 是否

必选

说明

数据连接名称 是 数据连接的名称,只能包含英文字母、数字、下划线和中 划线,且长度为1~50个字符。

标签 否 标识数据连接的属性。设置标签后,便于统一管理。可自 行设置标签,也可在下拉框中选择已在标签管理中创建的 标签。

说明

标签的名称,只能包含中文、英文字母、数字和下划线,不能以 下划线开头。且长度不能超过100个字符。

集群名 是 选择Hive所属的MRS集群。如果在下拉列表中无法显示 MRS集群,请检查MRS集群与DGC实例是否网络互通。

需确保MRS集群和DGC实例之间网络互通,网络互通需满 足如下条件:

● DGC实例(指DGC实例中的CDM集群)与MRS集群处 于不同区域的情况下,需要通过公网或者专线打通网 络。通过公网互通时,需确保CDM集群已绑定EIP,

MRS集群可以访问公网且防火墙规则已开放连接端口。

● DGC实例(指DGC实例中的CDM集群)与MRS集群同 区域情况下,同虚拟私有云、同子网、同安全组的不同 实例默认网络互通;如果同虚拟私有云但子网或安全组 不同,还需配置路由规则及安全组规则,配置路由规则 请参见如何配置路由规则章节,配置安全组规则请参见 如何配置安全组规则章节。

● 此外,还需确保该MRS集群与DGC工作空间所属的企业 项目相同,如果不同,您需要修改工作空间的企业项 目。

(29)

参数 是否 必选

说明

连接方式 是 选择所需的连接方式,推荐使用“通过代理连接”。

● 通过代理连接:通过Agent(即CDM集群)进行代理,

以MRS集群的用户名和密码访问MRS集群。代理连接方 式支持MRS所有版本的集群。

● MRS API连接:以MRS API的方式访问MRS集群。MRS API连接仅支持2.X版本的MRS集群。

选择MRS API连接时,有这些约束:

1. 无法查看表和字段。

2. 在SQL编辑器运行SQL时,只能以日志形式显示执行 结果。

3. 数据治理(如规范设计、数据质量、数据资产等组 件)功能无法使用MRS API连接。

用户名 否 MRS集群的用户名,通过代理连接的时候,是必选项。如 果使用新建的MRS用户进行连接,您需要先登录Manager 页面,并更新初始密码。

如果要创建MRS安全集群的数据连接,不能使用admin用 户。因为admin用户是默认的管理页面用户,这个用户无 法作为安全集群的认证用户来使用。您可以参考创建MRS 安全集群的kerberos认证用户创建一个新的MRS用户,然 后在创建MRS数据连接时,“用户名”和“密码”填写为 新建的MRS用户及其密码。

说明

● MRS 3.1.0及之后版本集群,所创建的用户至少需具备 Manager_viewer的角色权限才能在管理中心创建连接;如果 需要对应组件的进行库、表、数据的操作,还需要添加对应组 件的用户组权限。

● MRS 3.1.0版本之前的集群,所创建的用户需要具备

Manager_administrator或System_administrator权限,才能 在管理中心创建连接。

● 仅具备Manager_tenant或Manager_auditor权限,无法创建 连接。

密码 否 MRS集群的访问密码,通过代理连接的时候,是必选项。

KMS密钥 否 KMS密钥名称。通过代理连接的时候,是必选项。

绑定Agent 否 通过代理连接的时候,是必选项。

MRS为非全托管服务,DGC无法直接与非全托管服务进行 连接。CDM集群提供了DGC与非全托管服务通信的代理,

所以创建MRS的数据连接时,请选择一个CDM集群。如果 没有可用的CDM集群,请先通过批量数据迁移增量包进行 创建。

CDM集群作为网络代理,必须和MRS集群网络互通才可以 成功创建MRS连接,为确保两者网络互通,CDM集群必须 和MRS集群处于相同的区域、可用区、VPC和子网,安全 组规则需允许两者网络互通。

(30)

3-5 MRS HBase 数据连接

参数 是否

必选

说明

数据连接名称 是 数据连接的名称,只能包含英文字母、数字、下划线和中 划线,且长度为1~50个字符。

标签 否 标识数据连接的属性。设置标签后,便于统一管理。可自 行设置标签,也可在下拉框中选择已在标签管理中创建的 标签。

说明

标签的名称,只能包含中文、英文字母、数字和下划线,不能以 下划线开头。且长度不能超过100个字符。

集群名 是 选择HBase所属的MRS集群。如果在下拉列表中无法显示 MRS集群,请检查MRS集群与DGC实例是否网络互通。

需确保MRS集群和DGC实例之间网络互通,网络互通需满 足如下条件:

● DGC实例(指DGC实例中的CDM集群)与MRS集群处 于不同区域的情况下,需要通过公网或者专线打通网 络。通过公网互通时,需确保CDM集群已绑定EIP,

MRS集群可以访问公网且防火墙规则已开放连接端口。

● DGC实例(指DGC实例中的CDM集群)与MRS集群同 区域情况下,同虚拟私有云、同子网、同安全组的不同 实例默认网络互通;如果同虚拟私有云但子网或安全组 不同,还需配置路由规则及安全组规则,配置路由规则 请参见如何配置路由规则章节,配置安全组规则请参见 如何配置安全组规则章节。

● 此外,还需确保该MRS集群与DGC工作空间所属的企 业项目相同,如果不同,您需要修改工作空间的企业项 目。

用户名 是 MRS集群的用户名。

如果要创建MRS安全集群的数据连接,不能使用admin用 户。因为admin用户是默认的管理页面用户,这个用户无 法作为安全集群的认证用户来使用。您可以参考创建MRS 安全集群的kerberos认证用户创建一个新的MRS用户,然 后在创建MRS数据连接时,“用户名”和“密码”填写为 新建的MRS用户及其密码。

说明

● MRS 3.1.0及之后版本集群,所创建的用户至少需具备 Manager_viewer的角色权限才能在管理中心创建连接;如果 需要对应组件的进行库、表、数据的操作,还需要添加对应组 件的用户组权限。

● MRS 3.1.0版本之前的集群,所创建的用户需要具备

Manager_administrator或System_administrator权限,才能 在管理中心创建连接。

● 仅具备Manager_tenant或Manager_auditor权限,无法创建 连接。

密码 是 MRS集群的访问密码。

(31)

参数 是否 必选

说明

KMS密钥 是 KMS密钥名称。

绑定Agent 是 MRS为非全托管服务,DGC无法直接与非全托管服务进行 连接。CDM集群提供了DGC与非全托管服务通信的代理,

所以创建MRS的数据连接时,请选择一个CDM集群。如果 没有可用的CDM集群,请先通过批量数据迁移增量包进行 创建。

CDM集群作为网络代理,必须和MRS集群网络互通才可以 成功创建MRS连接,为确保两者网络互通,CDM集群必须 和MRS集群处于相同的区域、可用区、VPC和子网,安全 组规则需允许两者网络互通。

3-6 MRS Kafka 数据连接

参数 是否

必选

说明

数据连接名称 是 数据连接的名称,只能包含英文字母、数字、下划线和中 划线,且长度为1~50个字符。

标签 否 标识数据连接的属性。设置标签后,便于统一管理。可自 行设置标签,也可在下拉框中选择已在标签管理中创建的 标签。

说明

标签的名称,只能包含中文、英文字母、数字和下划线,不能以 下划线开头。且长度不能超过100个字符。

集群名 是 选择Kafka所属的MRS集群。如果在下拉列表中无法显示 MRS集群,请检查MRS集群与DGC实例是否网络互通。

需确保MRS集群和DGC实例之间网络互通,网络互通需满 足如下条件:

● DGC实例(指DGC实例中的CDM集群)与MRS集群处 于不同区域的情况下,需要通过公网或者专线打通网 络。通过公网互通时,需确保CDM集群已绑定EIP,

MRS集群可以访问公网且防火墙规则已开放连接端口。

● DGC实例(指DGC实例中的CDM集群)与MRS集群同 区域情况下,同虚拟私有云、同子网、同安全组的不同 实例默认网络互通;如果同虚拟私有云但子网或安全组 不同,还需配置路由规则及安全组规则,配置路由规则 请参见如何配置路由规则章节,配置安全组规则请参见 如何配置安全组规则章节。

● 此外,还需确保该MRS集群与DGC工作空间所属的企 业项目相同,如果不同,您需要修改工作空间的企业项 目。

(32)

参数 是否 必选

说明

用户名 是 MRS集群的用户名。

如果要创建MRS安全集群的数据连接,不能使用admin用 户。因为admin用户是默认的管理页面用户,这个用户无 法作为安全集群的认证用户来使用。您可以参考创建MRS 安全集群的kerberos认证用户创建一个新的MRS用户,然 后在创建MRS数据连接时,“用户名”和“密码”填写为 新建的MRS用户及其密码。

说明

● MRS 3.1.0及之后版本集群,所创建的用户至少需具备 Manager_viewer的角色权限才能在管理中心创建连接;如果 需要对应组件的进行库、表、数据的操作,还需要添加对应组 件的用户组权限。

● MRS 3.1.0版本之前的集群,所创建的用户需要具备

Manager_administrator或System_administrator权限,才能 在管理中心创建连接。

● 仅具备Manager_tenant或Manager_auditor权限,无法创建 连接。

密码 是 MRS集群的访问密码。

KMS密钥 是 KMS密钥名称。

绑定Agent 是 MRS为非全托管服务,DGC无法直接与非全托管服务进行 连接。CDM集群提供了DGC与非全托管服务通信的代理,

所以创建MRS的数据连接时,请选择一个CDM集群。如果 没有可用的CDM集群,请先通过批量数据迁移增量包进行 创建。

CDM集群作为网络代理,必须和MRS集群网络互通才可以 成功创建MRS连接,为确保两者网络互通,CDM集群必须 和MRS集群处于相同的区域、可用区、VPC和子网,安全 组规则需允许两者网络互通。

3-7 MRS Spark 数据连接

参数 是否

必选

说明

数据连接名称 是 数据连接的名称,只能包含英文字母、数字、下划线和中 划线,且长度为1~50个字符。

标签 否 标识数据连接的属性。设置标签后,便于统一管理。可自 行设置标签,也可在下拉框中选择已在标签管理中创建的 标签。

说明

标签的名称,只能包含中文、英文字母、数字和下划线,不能以 下划线开头。且长度不能超过100个字符。

(33)

参数 是否 必选

说明

集群名 是 选择Spark所属的MRS集群名称。如果在下拉列表中无法 显示MRS集群,请检查MRS集群与DGC实例是否网络互 通。

需确保MRS集群和DGC实例之间网络互通,网络互通需满 足如下条件:

● DGC实例(指DGC实例中的CDM集群)与MRS集群处 于不同区域的情况下,需要通过公网或者专线打通网 络。通过公网互通时,需确保CDM集群已绑定EIP,

MRS集群可以访问公网且防火墙规则已开放连接端 口。

● DGC实例(指DGC实例中的CDM集群)与MRS集群同 区域情况下,同虚拟私有云、同子网、同安全组的不 同实例默认网络互通;如果同虚拟私有云但子网或安 全组不同,还需配置路由规则及安全组规则,配置路 由规则请参见如何配置路由规则章节,配置安全组规 则请参见如何配置安全组规则章节。

● 此外,还需确保该MRS集群与DGC工作空间所属的企 业项目相同,如果不同,您需要修改工作空间的企业 项目。

连接方式 是 选择所需的连接方式,推荐使用“通过代理连接”。

● 通过代理连接:通过Agent(即CDM集群)进行代 理,以MRS集群的用户名和密码访问MRS集群。代理 连接方式支持MRS所有版本的集群。

● MRS API连接:以MRS API的方式访问MRS集群。MRS API连接仅支持2.X版本的MRS集群。

选择MRS API连接时,有这些约束:

1. 无法查看表和字段。

2. 在SQL编辑器运行SQL时,只能以日志形式显示执 行结果。

3. 数据治理(如规范设计、数据质量、数据资产等组 件)功能无法使用MRS API连接。

(34)

参数 是否 必选

说明

用户名 否 MRS集群的用户名,通过代理连接的时候,是必选项。如 果使用新建的MRS用户进行连接,您需要先登录Manager 页面,并更新初始密码。

如果要创建MRS安全集群的数据连接,不能使用admin用 户。因为admin用户是默认的管理页面用户,这个用户无 法作为安全集群的认证用户来使用。您可以参考创建MRS 安全集群的kerberos认证用户创建一个新的MRS用户,然 后在创建MRS数据连接时,“用户名”和“密码”填写为 新建的MRS用户及其密码。

说明

● MRS 3.1.0及之后版本集群,所创建的用户至少需具备 Manager_viewer的角色权限才能在管理中心创建连接;如果 需要对应组件的进行库、表、数据的操作,还需要添加对应 组件的用户组权限。

● MRS 3.1.0版本之前的集群,所创建的用户需要具备

Manager_administrator或System_administrator权限,才能 在管理中心创建连接。

● 仅具备Manager_tenant或Manager_auditor权限,无法创建 连接。

密码 否 MRS集群的访问密码,通过代理连接的时候,是必选项。

KMS密钥 否 KMS密钥名称。通过代理连接的时候,是必选项。

绑定Agent 否 通过代理连接的时候,是必选项。

MRS为非全托管服务,DGC无法直接与非全托管服务进行 连接。CDM集群提供了DGC与非全托管服务通信的代理,

所以创建MRS的数据连接时,请选择一个CDM集群。如 果没有可用的CDM集群,请先通过批量数据迁移增量包进 行创建。

CDM集群作为网络代理,必须和MRS集群网络互通才可 以成功创建MRS连接,为确保两者网络互通,CDM集群 必须和MRS集群处于相同的区域、可用区、VPC和子网,

安全组规则需允许两者网络互通。

3-8 RDS 数据连接

参数 是否

必选 说明

数据连接名称 是 数据连接的名称,只能包含英文字母、数字、下划线和中 划线,且长度为1~50个字符。

(35)

参数 是否 必选

说明

标签 否 标识数据连接的属性。设置标签后,便于统一管理。可自 行设置标签,也可在下拉框中选择已在标签管理中创建的 标签。

说明

标签的名称,只能包含中文、英文字母、数字和下划线,不能以 下划线开头。且长度不能超过100个字符。

IP 是 RDS的访问地址。

如果为RDS数据源,可以通过RDS管理控制台获取访问地 址:

1. 根据注册的帐号登录管理控制台。

2. 单击“关系型数据库服务”,从左侧列表选择实例管 理。

3. 单击某一个实例名称,进入实例基本信息页面。

在连接信息标签中可以获取到内网地址。

端口 是 RDS的访问端口。

如果为RDS数据源,可以通过RDS管理控制台获取访问端 口:

1. 根据注册的帐号登录管理控制台。

2. 单击“关系型数据库服务”,左侧列表选择实例管 理。

3. 单击某一个实例名称,进入实例基本信息页面。

在连接信息标签中可以获取到数据库端口。

驱动程序名称 是 驱动程序名称:

● com.mysql.jdbc.Driver

● org.postgresql.Driver

驱动文件路径 是 驱动文件在OBS上的路径。需要您自行到官网下载.jar格 式驱动并上传至OBS中。

● MySQL驱动:获取地址https://

downloads.mysql.com/archives/c-j/,建议5.1.48版 本。

● PostgreSQL驱动:获取地址https://

jdbc.postgresql.org/download.html,建议42.1.4版 本。

说明如果需要更新驱动文件,则需要先在数据集成页面重启CDM集 群,然后通过编辑数据连接的方式重新选择新版本驱动,更新驱 动才能生效。

用户名 是 数据库的用户名,创建集群的时候,输入的用户名。

密码 是 数据库的访问密码,创建集群的时候,输入的密码。

(36)

参数 是否 必选

说明

KMS密钥 是 KMS密钥名称。

通过KMS管理控制台获取密钥名称:

1. 根据注册的帐号登录管理控制台。

2. 单击“密钥管理服务”,左侧列表选择密钥管理。

在密钥列表可以获取到密钥名称。

绑定Agent 是 RDS为非全托管服务,DGC无法直接与非全托管服务进行 连接。CDM集群提供了DGC与非全托管服务通信的代 理,所以创建RDS的数据连接时,请选择一个CDM集群。

如果没有可用的CDM集群,请先通过批量数据迁移增量 包进行创建。

CDM集群作为网络代理,必须和RDS网络互通才可以成功 创建MRS连接,为确保两者网络互通,CDM集群必须和 RDS处于相同的区域、可用区、VPC和子网,安全组规则 需允许两者网络互通。

3-9 DWS 数据连接

参数 是否

必选

说明

数据连接名称 是 数据连接的名称,只能包含英文字母、数字、下划线和 中划线,且长度为1~50个字符。

标签 否 标识数据连接的属性。设置标签后,便于统一管理。可 自行设置标签,也可在下拉框中选择已在标签管理中创 建的标签。

说明

标签的名称,只能包含中文、英文字母、数字和下划线,不能以 下划线开头。且长度不能超过100个字符。

手动 是

通过单击 或 来关闭或开启手动开关:

● 当“手动”关闭时候,“IP”和“端口”不需要填 写。

● 当“手动”打开时候,“IP”和“端口”需要填写。

IP 否 “手动”打开时需要填写该项,表示通过内部网络访问 集群数据库的IP地址。内网访问IP地址在创建集群时自动 生成。

端口 否 “手动”打开时需要填写该项,表示创建DWS集群时指 定的数据库端口号。请确保您已在安全组规则中开放此 端口,以便DGC实例可以通过该端口连接DWS集群数据 库。

(37)

参数 是否 必选

说明

SSL连接 是 DWS支持SSL通道加密和证书认证两种方式进行客户端与 服务器端的通信。您可以通过服务器端是否强制使用SSL 连接进行设置。开关打开,即只能通过SSL方式连接。开 关关闭,即两种方式均可。默认关闭。

集群名 是 选择DWS集群。

用户名 是 数据库的用户名,创建DWS集群时指定的用户名。

密码 是 数据库的访问密码,创建DWS集群时指定的密码。

KMS密钥 是 KMS密钥名称。

连接方式 是 选择所需的连接方式,推荐使用“通过代理连接”。

● 通过代理连接:通过Agent(即CDM集群)进行代理 连接访问DWS集群。

● 直接连接:直接访问DWS集群。

绑定Agent 否 通过代理连接的时候,是必选项。

DWS为非全托管服务,DGC无法直接与非全托管服务进 行连接。CDM集群提供了DGC与非全托管服务通信的代 理,所以创建DWS的数据连接时,请选择一个CDM集 群。如果没有可用的CDM集群,请先通过批量数据迁移 增量包进行创建。

CDM集群作为网络代理,必须和DWS集群网络互通才可 以成功创建MRS连接,为确保两者网络互通,CDM集群 必须和DWS集群处于相同的区域、可用区、VPC和子 网,安全组规则需允许两者网络互通。

3-10 DLI 数据连接

参数 是否

必选

说明

数据连接名称 是 数据连接的名称,只能包含英文字母、数字、下划线和 中划线,且长度为1~50个字符。

标签 否 标识数据连接的属性。设置标签后,便于统一管理。可 自行设置标签,也可在下拉框中选择已在标签管理中创 建的标签。

说明

标签的名称,只能包含中文、英文字母、数字和下划线,不能 以下划线开头。且长度不能超过100个字符。

(38)

3-11 Oracle 数据连接

参数 是否

必选

说明

数据连接名称 是 数据连接的名称,只能包含英文字母、数字、下划线和 中划线,且长度为1~50个字符。

标签 否 标识数据连接的属性。设置标签后,便于统一管理。可 自行设置标签,也可在下拉框中选择已在标签管理中创 建的标签。

说明

标签的名称,只能包含中文、英文字母、数字和下划线,不能 以下划线开头。且长度不能超过100个字符。

IP 是 待连接的数据库IP地址,公网IP和内网IP地址均支持。

端口 是 待连接的数据库端口。

用户名 是 待连接数据库的用户。该数据库用户需要有数据表的读 写权限,以及对元数据的读取权限。

密码 是 用户密码。

sid 是 Oracle数据库的唯一标识符。

KMS密钥 是 KMS密钥名称。

通过KMS管理控制台获取密钥名称:

1. 根据创建的帐号登录管理控制台。

2. 单击“密钥管理服务”,左侧列表选择密钥管理。

在密钥列表可以获取到密钥名称。

绑定Agent 是 Oracle为非全托管服务,DGC无法直接与非全托管服务 进行连接。CDM集群提供了DGC与非全托管服务通信的 代理,所以创建Oracle的数据连接时,请选择一个CDM 集群。如果没有可用的CDM集群,请先通过批量数据迁 移增量包进行创建。

CDM集群作为网络代理,必须和Oracle网络互通才可以 成功创建MRS连接。

3-12 DIS 连接

参数 是否

必选 说明

数据连接名称 是 数据连接的名称,只能包含英文字母、数字、下划线和 中划线,且长度为1~50个字符。

(39)

参数 是否 必选

说明

标签 否 标识数据连接的属性。设置标签后,便于统一管理。可 自行设置标签,也可在下拉框中选择已在标签管理中创 建的标签。

说明

标签的名称,只能包含中文、英文字母、数字和下划线,不能 以下划线开头。且长度不能超过100个字符。

目标项目ID 是 使用DIS Client节点发送消息至目标DIS通道时,目标通 道所在的项目ID。

目标Region 是 使用DIS Client节点发送消息至目标DIS通道时,目标通 道所在的Region。

Access Key 是 使用DIS Client节点发送消息至目标DIS通道时,创建目 标通道的租户AK。

Secret Key 是 使用DIS Client节点发送消息至目标DIS通道时,创建目 标通道的租户SK。

KMS密钥 是 KMS密钥名称。

通过KMS管理控制台获取密钥名称:

1. 根据创建注册的帐号登录管理控制台。

2. 单击“密钥管理服务”,左侧列表选择密钥管理。

在密钥列表可以获取到密钥名称。

描述 否 支持添加该连接的相关描述。

3-13 MRS Ranger 连接

参数 是否

必选

说明

数据连接名称 是 数据连接的名称,只能包含英文字母、数字、下划线和 中划线,且长度为1~50个字符。

标签 否 标识数据连接的属性。设置标签后,便于统一管理。可 自行设置标签,也可在下拉框中选择已在标签管理中创 建的标签。

说明

标签的名称,只能包含中文、英文字母、数字和下划线,不能 以下划线开头。且长度不能超过100个字符。

數據

表 3-5 MRS HBase 数据连接 参数 是否 必选 说明 数据连接名称 是 数据连接的名称,只能包含英文字母、数字、下划线和中 划线,且长度为1~50个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。可自 行设置标签,也可在下拉框中选择已在标签管理中创建的 标签。 说明 标签的名称,只能包含中文、英文字母、数字和下划线,不能以 下划线开头。且长度不能超过100个字符。 集群名 是 选择HBase所属的MRS集群。如果在下拉列表中无法显示 MRS集群,请检查MRS集群与DGC实例是否网
表 3-11 Oracle 数据连接 参数 是否 必选 说明 数据连接名称 是 数据连接的名称,只能包含英文字母、数字、下划线和 中划线,且长度为1~50个字符。 标签 否 标识数据连接的属性。设置标签后,便于统一管理。可 自行设置标签,也可在下拉框中选择已在标签管理中创 建的标签。 说明 标签的名称,只能包含中文、英文字母、数字和下划线,不能 以下划线开头。且长度不能超过100个字符。 IP 是 待连接的数据库IP地址,公网IP和内网IP地址均支持。 端口 是 待连接的数据库端口。 用户名 是 待连接数据
表 4-3 达梦数据库作为源端时支持的数据类型
表 4-4 开源 MySQL 数据库作为源端时支持的数据类型 类别 类型 简要释义 存储格式示 例 Hive DWS 字符 串 CHA R(M) 固定长度的字符串是 以长度为1到255之间 个字符长度(例如: CHAR(5)),存储右空 格填充到指定的长 度。 限定长度不是必需 的,它会默认为1。
+7

參考文獻

相關文件

主要指标 单位 参考期.

主要指标 单位 参考期.

主要指标 单位 参考期.

主要指标 单位 参考期.

主要指标 单位 参考期.

主要指标 单位 参考期.

主要指标 单位 参考期.

主要指标 单位 参考期.