数据安全为数据湖提供数据生命周期内统一的数据使用保护能力。通过敏感数据识 别、分级分类、隐私保护、资源权限控制、数据加密传输、加密存储以及数据风险识 别等措施,帮助您建立安全预警机制,增强整体安全防护能力,让数据可用不可得和 安全合规。
本章节介绍如何通过DGC数据安全,将MRS Hive标准出行数据表dwi_taxi_trip_data中 数据静态脱敏至DWS数据仓库中,以便于通过数据服务对脱敏数据进行开放,从而保 护数据的安全性。
说明
数据安全组件当前仅在上海一发布,预计2022年上半年会在其他区域逐步上线。
创建 DWS 数据连接
在创建数据安全静态脱敏任务前,由于需要将数据脱敏至DWS数据仓库中进行开放,
您需要先创建DWS集群和DWS数据连接。
创建DWS集群的具体操作请参见创建集群。为确保DWS集群与DGC实例网络互通,
DWS集群需满足如下要求:
● DGC实例(指DGC实例中的CDM集群)与DWS集群处于不同区域的情况下,需要 通过公网或者专线打通网络。
● DGC实例(指DGC实例中的CDM集群)与DWS集群同区域情况下,同虚拟私有 云、同子网、同安全组的不同实例默认网络互通;如果同虚拟私有云但是子网或 安全组不同,还需配置路由规则及安全组规则,配置路由规则请参见如何配置路
由规则章节,配置安全组规则请参见如何配置安全组规则《虚拟私有云(VPC)使用
指南》中的“安全组 > 添加安全组规则”章节。● 此外,您还必须确保DWS集群与DGC工作空间所属的企业项目必须相同,如果不 同,您需要修改工作空间的企业项目。
创建DWS数据连接和数据库的步骤如下:
步骤1 在DGC控制台首页,选择对应工作空间的“管理中心”模块,进入管理中心页面。
图3-118 选择管理中心
步骤2 在左侧导航树上,单击“数据连接”,进入页面后,单击“创建数据连接”按钮。
图3-119 数据连接
步骤3 在弹出窗口中,配置数据连接参数,完成配置后,单击“确定”完成数据连接的创 建。参数配置如图3-120所示。
● 数据连接类型:数据仓库服务(DWS)
● 数据连接名称:dws_link
● 标签:可选参数。您可以输入新的标签名称,也可以在下拉列表中选择已有的标 签。
● 手动:关闭“手动”,“IP”和“端口”不需要手动填写。
● 集群名:选择所创建的DWS集群。
● 用户名:数据库的用户名,创建DWS集群时指定的用户名,默认为dbadmin。
● 密码:数据库的访问密码,创建DWS集群时指定的密码。
● KMS密钥:选择一个KMS密钥,使用KMS密钥对敏感数据进行加密。如果未创建 KMS密钥,请单击“访问KMS”进入KMS控制台创建一个密钥。
● 绑定Agent:需选择一个批量数据迁移集群作为连接代理,该集群和DWS集群必 须网络互通。本示例可选择创建DGC实例时自动创建的批量数据迁移集群。
图3-120 DWS 连接配置参数
步骤4 DWS连接创建完成后,跳转到数据开发页面。
图3-121 跳转到数据开发页面
步骤5 创建DWS数据库和数据库模式。
1. 在数据开发界面,在DWS连接上右键单击,创建一个数据库用于存放数据表,数 据库名称为“demo”。
图3-122 创建数据库
2. 展开DWS连接目录至demo数据库的数据库模式层级,然后再右键单击,创建数 据库模式用于存放数据表,数据库模式名称为“dgc”。
图3-123 创建数据库模式
----结束
创建密级
步骤1 在DGC控制台首页,选择对应工作空间的“数据安全”模块,进入数据安全页面。
图3-124 选择数据安全
步骤2 在数据安全控制台左侧的导航树中单击“数据密级”,进入数据密级页面。
表3-22 新建密级参数设置
参数名 取值 说明
名称 v1 密级名称只能包含中文、英文字母、数字和下
划线,创建完成后不支持“编辑”操作。
描述 标识需保密的数据 密级描述支持所有字符输入,创建完成后支持 通过“编辑”操作修改。
----结束
创建数据识别规则
步骤1 在数据安全控制台左侧的导航树中单击“数据识别规则”,进入数据识别规则页面。
步骤2 在“识别规则”页单击“新建”,创建分类信息。本示例中需要对标准出行数据表 dwi_taxi_trip_data中涉及费用的数据进行脱敏,参考表3-23定义数据识别规则。
图3-125 新建识别规则
表3-23 配置识别规则参数说明
配置 取值 说明
规则类型 自定义 即规则所属分类,支持按模板添加内置规则和自定义规则。
本例中需对涉及费用的数据进行脱敏,配置为自定义即可。
数据密级 v1 对配置的数据进行等级划分。本例中取值为步骤3中新建的 密级。
规则名称 amount 您可以自行填写分类名称,名称为必填项且必须唯一。
识别规则 正则表达 式
本例中需通过正则表达式对涉及费用的数据进行识别。
是否同步 否 开启该按钮表示该新建规则将被同步到数据资产中。
正则表达 式
列名识别 .*(amoun t).*
本例中通过列名中的“amount”字段对敏感数据进行识 别。输入正则表达式后,可在测试窗口测试标准出行数据表 dwi_taxi_trip_data中的列名是否能按照预期结果进行匹配。
规则描述 费用数据 对当前规则进行简单描述。
----结束
新建脱敏策略
步骤1 在数据安全控制台左侧的导航树中单击“脱敏策略”,进入脱敏策略页面。
步骤2 在“脱敏策略”页单击“新建”,新建脱敏策略。本示例中需要对标准出行数据表 dwi_taxi_trip_data中涉及费用的数据进行脱敏,参考表3-24定义数据识别规则。
图3-126 新建脱敏策略
表3-24 新建脱敏策略参数说明
参数 取值 说明
策略名称 policy_a
mount 用户自定义策略名称,只能包含英文字母、数字、
“_”,且长度不能超过64个字符。
描述 费用脱
敏
为更好的识别脱敏策略,此处加以描述信息,长度不能超 过255个字符。
状态 开启 开启状态表示该策略可供使用。关闭状态表示该策略不能 被使用。
识别规则 amount 为脱敏策略关联识别规则,本例中取值为步骤2中新建的 规则。
规则描述 费用数 据
选择“识别规则”后系统自动带出。
算法类型 掩码 本例中通过掩码算法对费用数据进行脱敏。
脱敏算法 保留前n 后m
---结束
创建静态脱敏任务
创建静态脱敏任务并运行成功后,您可以在目的端表查看脱敏后的数据。
步骤1 在数据安全控制台左侧的导航树中单击“静态脱敏”,进入静态脱敏页面。
步骤2 在“静态脱敏”页面单击“新建”,创建静态脱敏任务。
图3-127 创建静态脱敏任务
步骤3 在弹出的创建任务页面中填写任务名称为“policy_amount_hive2dws”。完成后单击
“下一步”。
图3-128 脱敏任务基本信息配置
步骤4 进行脱敏任务配置,参数配置参考表3-25。填写目标表名后单击“测试”检查配置是 否合理,通过后单击“下一步”,进行脱敏策略配置。
图3-129 脱敏任务源、目标端配置
脱敏任务策略参数配置说明:
参数名 取值 说明 源端数据源类
型 MapReduce服务
(MRS Hive) 目前只支持数据仓库服务(DWS)和 MapReduce服务(MRS Hive)。
源端数据连接 mrs_hive_link 仅允许选择连接方式为“通过代理连接”的 数据连接。
源端数据库 demo_dwi_db 下拉选择待脱敏的数据库。
源表名 dwi_taxi_trip_data 下拉选择待脱敏的数据表。
源端数据集范 围
全量 只有使用时间字段timestamp、Date 来确定 增量范围时,才可以选择增量模式。
脱敏策略 policy_amount 下拉选择您预先创建好的脱敏策略。
目标端数据源 类型
数据仓库服务
(DWS) 目前只支持数据仓库服务(DWS)和 MapReduce服务(MRS Hive)
目标端数据连
接 dws_link 仅允许选择连接方式为“通过代理连接”的 数据连接。
目标端数据库 demo.dgc 下拉选择存储已脱敏数据的数据库。
目标表名 dws_dwi_taxi_trip_
data 用户手动输入,不能与目标端数据库表名重
步骤7 等待脱敏任务运行成功后,即将dwi_taxi_trip_data数据成功脱敏至DWS。
----结束