• 沒有找到結果。

数据安全为数据湖提供数据生命周期内统一的数据使用保护能力。通过敏感数据识 别、分级分类、隐私保护、资源权限控制、数据加密传输、加密存储以及数据风险识 别等措施,帮助您建立安全预警机制,增强整体安全防护能力,让数据可用不可得和 安全合规。

本章节介绍如何通过DGC数据安全,将MRS Hive标准出行数据表dwi_taxi_trip_data中 数据静态脱敏至DWS数据仓库中,以便于通过数据服务对脱敏数据进行开放,从而保 护数据的安全性。

说明

数据安全组件当前仅在上海一发布,预计2022年上半年会在其他区域逐步上线。

创建 DWS 数据连接

在创建数据安全静态脱敏任务前,由于需要将数据脱敏至DWS数据仓库中进行开放,

您需要先创建DWS集群和DWS数据连接。

创建DWS集群的具体操作请参见创建集群。为确保DWS集群与DGC实例网络互通,

DWS集群需满足如下要求:

● DGC实例(指DGC实例中的CDM集群)与DWS集群处于不同区域的情况下,需要 通过公网或者专线打通网络。

● DGC实例(指DGC实例中的CDM集群)与DWS集群同区域情况下,同虚拟私有 云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但是子网或 安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见如何配置路

由规则章节,配置安全组规则请参见如何配置安全组规则《虚拟私有云(VPC)使用

指南》中的“安全组 > 添加安全组规则”章节。

● 此外,您还必须确保DWS集群与DGC工作空间所属的企业项目必须相同,如果不 同,您需要修改工作空间的企业项目。

创建DWS数据连接和数据库的步骤如下:

步骤1 在DGC控制台首页,选择对应工作空间的“管理中心”模块,进入管理中心页面。

3-118 选择管理中心

步骤2 在左侧导航树上,单击“数据连接”,进入页面后,单击“创建数据连接”按钮。

3-119 数据连接

步骤3 在弹出窗口中,配置数据连接参数,完成配置后,单击“确定”完成数据连接的创 建。参数配置如图3-120所示。

● 数据连接类型:数据仓库服务(DWS)

● 数据连接名称:dws_link

● 标签:可选参数。您可以输入新的标签名称,也可以在下拉列表中选择已有的标 签。

● 手动:关闭“手动”,“IP”和“端口”不需要手动填写。

● 集群名:选择所创建的DWS集群。

● 用户名:数据库的用户名,创建DWS集群时指定的用户名,默认为dbadmin。

● 密码:数据库的访问密码,创建DWS集群时指定的密码。

KMS密钥:选择一个KMS密钥,使用KMS密钥对敏感数据进行加密。如果未创建 KMS密钥,请单击“访问KMS”进入KMS控制台创建一个密钥。

● 绑定Agent:需选择一个批量数据迁移集群作为连接代理,该集群和DWS集群必 须网络互通。本示例可选择创建DGC实例时自动创建的批量数据迁移集群。

3-120 DWS 连接配置参数

步骤4 DWS连接创建完成后,跳转到数据开发页面。

3-121 跳转到数据开发页面

步骤5 创建DWS数据库和数据库模式。

1. 在数据开发界面,在DWS连接上右键单击,创建一个数据库用于存放数据表,数 据库名称为“demo”。

3-122 创建数据库

2. 展开DWS连接目录至demo数据库的数据库模式层级,然后再右键单击,创建数 据库模式用于存放数据表,数据库模式名称为“dgc”。

3-123 创建数据库模式

----结束

创建密级

步骤1 在DGC控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。

3-124 选择数据安全

步骤2 在数据安全控制台左侧的导航树中单击“数据密级”,进入数据密级页面。

3-22 新建密级参数设置

参数名 取值 说明

名称 v1 密级名称只能包含中文、英文字母、数字和下

划线,创建完成后不支持“编辑”操作。

描述 标识需保密的数据 密级描述支持所有字符输入,创建完成后支持 通过“编辑”操作修改。

----结束

创建数据识别规则

步骤1 在数据安全控制台左侧的导航树中单击“数据识别规则”,进入数据识别规则页面。

步骤2 在“识别规则”页单击“新建”,创建分类信息。本示例中需要对标准出行数据表 dwi_taxi_trip_data中涉及费用的数据进行脱敏,参考表3-23定义数据识别规则。

3-125 新建识别规则

3-23 配置识别规则参数说明

配置 取值 说明

规则类型 自定义 即规则所属分类,支持按模板添加内置规则和自定义规则。

本例中需对涉及费用的数据进行脱敏,配置为自定义即可。

数据密级 v1 对配置的数据进行等级划分。本例中取值为步骤3中新建的 密级。

规则名称 amount 您可以自行填写分类名称,名称为必填项且必须唯一。

识别规则 正则表达 式

本例中需通过正则表达式对涉及费用的数据进行识别。

是否同步 否 开启该按钮表示该新建规则将被同步到数据资产中。

正则表达 式

列名识别 .*(amoun t).*

本例中通过列名中的“amount”字段对敏感数据进行识 别。输入正则表达式后,可在测试窗口测试标准出行数据表 dwi_taxi_trip_data中的列名是否能按照预期结果进行匹配。

规则描述 费用数据 对当前规则进行简单描述。

----结束

新建脱敏策略

步骤1 在数据安全控制台左侧的导航树中单击“脱敏策略”,进入脱敏策略页面。

步骤2 在“脱敏策略”页单击“新建”,新建脱敏策略。本示例中需要对标准出行数据表 dwi_taxi_trip_data中涉及费用的数据进行脱敏,参考表3-24定义数据识别规则。

3-126 新建脱敏策略

3-24 新建脱敏策略参数说明

参数 取值 说明

策略名称 policy_a

mount 用户自定义策略名称,只能包含英文字母、数字、

“_”,且长度不能超过64个字符。

描述 费用脱

为更好的识别脱敏策略,此处加以描述信息,长度不能超 过255个字符。

状态 开启 开启状态表示该策略可供使用。关闭状态表示该策略不能 被使用。

识别规则 amount 为脱敏策略关联识别规则,本例中取值为步骤2中新建的 规则。

规则描述 费用数 据

选择“识别规则”后系统自动带出。

算法类型 掩码 本例中通过掩码算法对费用数据进行脱敏。

脱敏算法 保留前n 后m

---结束

创建静态脱敏任务

创建静态脱敏任务并运行成功后,您可以在目的端表查看脱敏后的数据。

步骤1 在数据安全控制台左侧的导航树中单击“静态脱敏”,进入静态脱敏页面。

步骤2 在“静态脱敏”页面单击“新建”,创建静态脱敏任务。

3-127 创建静态脱敏任务

步骤3 在弹出的创建任务页面中填写任务名称为“policy_amount_hive2dws”。完成后单击

“下一步”。

3-128 脱敏任务基本信息配置

步骤4 进行脱敏任务配置,参数配置参考表3-25。填写目标表名后单击“测试”检查配置是 否合理,通过后单击“下一步”,进行脱敏策略配置。

3-129 脱敏任务源、目标端配置

脱敏任务策略参数配置说明:

参数名 取值 说明 源端数据源类

型 MapReduce服务

(MRS Hive) 目前只支持数据仓库服务(DWS)和 MapReduce服务(MRS Hive)。

源端数据连接 mrs_hive_link 仅允许选择连接方式为“通过代理连接”的 数据连接。

源端数据库 demo_dwi_db 下拉选择待脱敏的数据库。

源表名 dwi_taxi_trip_data 下拉选择待脱敏的数据表。

源端数据集范 围

全量 只有使用时间字段timestamp、Date 来确定 增量范围时,才可以选择增量模式。

脱敏策略 policy_amount 下拉选择您预先创建好的脱敏策略。

目标端数据源 类型

数据仓库服务

(DWS) 目前只支持数据仓库服务(DWS)和 MapReduce服务(MRS Hive)

目标端数据连

接 dws_link 仅允许选择连接方式为“通过代理连接”的 数据连接。

目标端数据库 demo.dgc 下拉选择存储已脱敏数据的数据库。

目标表名 dws_dwi_taxi_trip_

data 用户手动输入,不能与目标端数据库表名重

步骤7 等待脱敏任务运行成功后,即将dwi_taxi_trip_data数据成功脱敏至DWS。

----结束