本章节介绍使用RES,从资源准备到在线服务完成推荐的全流程。RES流程图如图8-5 所示。
图8-5 RES 操作流程
表8-1 使用流程说明
流程 子任务 说明 详细指导
准备资源 开通相关资
源 基于您的业务需求,您需要开通RES 相关服务,包括:
● 计算引擎DLI、ModelArts
● 存储平台CloudTable
● (可选)数据接入资源DIS
端节点 推荐系统在需要使用CloudTable集群 进行数据存储,需开启公共终端节点
志数据 RES根据实时发送到DIS上的日志,进 行数据计算和处理,更新用户的相关
8.3.1 创建资源
用户在使用RES时需要先创建并绑定计算引擎DLI、存储平台CloudTable、数据接入资 源DIS相关资源。
背景信息
● 使用RES需要消耗其他服务资源,需要收费。根据您选择的资源不同,收费标准不 同,针对不同类型资源的价格,详情请参见产品价格详情。
● 已开通计算引擎DLI、存储平台CloudTable、数据接入资源DIS相关服务。
创建资源
1. 登录RES管理控制台,在左侧菜单栏中选择“资源中心”下的目标服务,单击页面 上方“ 去创建”,跳转到对应服务管理控制台。
– DLI创建集群操作详请参见数据湖探索用户指南>Spark作业控制台>Spark集 群管理>创建集群章节。
– CloudTable创建集群操作详请参见表格存储服务用户指南> 集群模式> 集群 操作指导> 创建集群章节。
– DIS创建通道操作详请参见数据接入服务用户指南> 入门> 步骤1:开通DIS通 道章节。
说明
● CloudTable集群需要开启IAM统一身份认证。
2. 创建资源完成后,创建的资源会展示在“资源中心”列表中,如图8-6所示。
图8-6 CloudTable 资源信息
8.3.2 绑定或解绑资源
在RES管理控制台界面,资源中心列表中会提供当前账号创建的DLI集群、CloudTable 开启IAM认证的集群和DIS通道供用户选择进行绑定或解绑。
背景信息
● 解绑资源完成资源释放,已经解绑的资源不再应用于RES的相关计算。
● 已开通计算引擎DLI、存储平台CloudTable、数据接入资源DIS相关服务。
绑定资源
当用户完成绑定,在创建作业时可选择绑定的集群进行计算存储等操作。具体操作如 下:
1. 登录RES管理控制台,在左侧菜单栏单击进入“资源中心”页面,选择计算引擎 DLI、存储平台CloudTable、DIS进入列表。
2. 鼠标移动至目标集群所在区域,单击“操作 > 绑定”。
3. 在弹出的确认对话框中,单击“确定”完成资源绑定。
解绑资源
当用户需要释放资源或是更换资源绑定,则需要对已经绑定的资源进行解绑。具体操 作如下:
1. 登录RES管理控制台,在左侧菜单栏单击进入“资源中心”页面,执行如下操作绑 定或解绑资源。选择计算引擎DLI、存储平台CloudTable、DIS进入列表。
2. 鼠标移动至目标集群所在区域,单击“操作 > 解绑”。只有已绑定状态的服务资 源支持“解绑”。
3. 在弹出的确认对话框中,单击“确定”完成资源解绑。
说明
● 已创建的作业和服务不会因为资源解绑影响计算和推荐结果。
● 直接解绑DLI,不会自动删除创建的DLI跨源连接。您需要在DLI管理控制台进行操作,详请 参见《数据湖探索用户指南》。
● 解绑资源不会删除对应的集群和数据,您需要去服务对应的管理控制台进行删除。
8.3.3 创建跨源连接
在使用DLI进行推荐系统的离线和近线计算时,建议创建跨源连接,用于访问 CloudTable的数据源,提高读写性能。
前提条件
● 已开通计算引擎DLI服务,创建集群并完成资源绑定。
创建跨源链接
DLI集群绑定完成后,创建跨源链接。步骤如下:
1. 登录RES管理控制台,在“资源中心”页面,选择计算引擎DLI进入列表。
2. 单击DLI集群名称,进入“跨源连接”页面。
3. 在“跨源连接”页面,单击“创建跨源连接”,输入跨源连接名称、已创建并绑 定的DLI资源名称和CloudTable资源名称,如图8-7所示。
图8-7 创建跨源连接
4. 单击“确定”,完成连接创建。
– 在“跨源连接”页面,可单击操作列的“删除”,删除不需要的连接。
– 当连接状态为“创建中”时,连接不可删除。
8.3.4 开启公共终端节点
推荐系统在需要使用CloudTable集群进行数据存储,CloudTable集群创建后默认没有 打开APIG,需开启之后推荐才能正常使用CloudTable集群。
前提条件
● 已开通CloudTable服务,创建集群并完成资源绑定。
● 公共终端节点默认不开启。
开启公共终端节点
1. 登录RES管理控制台,在“资源中心”页面,选择CloudTable进入列表。
2. 单击CloudTable集群名称操作列的“开启公共终端节点”,待页面提示“开启公 共终端节点成功”即可正常使用集群。
说明
当您不再使用该集群,请先进行解绑,然后在服务对应的管理控制台删除集群。
8.4 全局配置
8.4.1 全局配置简介
全局配置界面包括密钥认证、属性配置和计算资源三部分,如图8-8所示。
图8-8 全局配置界面
全局配置功能说明
表8-2 功能说明
功能 说明 详细指导
密钥认证 在使用RES之前,需要获取添加访问密 钥,用于授权使用OBS、DLI、
Cloudtable、ModelArts等服务,若没有 添加访问密钥,则无法调用接口。
获取访问秘钥并添加 RES全局配置
属性配置 以键值对的方式进行存储,配置后的配置
项可以用于整个服务。 管理属性配置
计算资源 计算资源包括DLI服务,添加的计算资源 需根据业务数据情况进行合理分配。
管理计算资源
8.4.2 管理属性配置
属性配置以键值对的方式进行存储,配置后的配置项可以用于整个服务。该配置项的 值为用户指定的OBS路径,OBS相关操作请参见创建OBS桶。
前提条件
● 已开通OBS服务,并按照推荐系统OBS文件夹规范建议格式创建文件夹。
● 已上传离线数据。
创建场景
您可以根据自己的业务创建场景进行配置,最多可以创建10个场景。具体操作如下:
3. 在场景下拉列表中选择目标场景进行配置,配置完毕单击属性操作列的“保 存”。
– “任务配置地址”:用于存放创建作业时自动生成的JSON格式的配置源文件 存储路径。
– “全局特征信息文件”:根据全局特征信息文件规范准备并上传的全局特征 信息文件路径。
– “通用格式数据”:经过特征工程处理的宽表路径。
– “用户属性表”:离线数据用户属性表的OBS路径。
– “物品属性表”:离线数据物品属性表的OBS路径。
– “用户操作行为表”:离线数据用户操作行为表的OBS路径。
图8-9 属性配置
删除场景
1. 登录RES管理控制台,在“全局配置”页面的属性配置区域,单击场景右侧的“删 除”,进入“场景列表”页面。
2. 单击目标场景操作列的“删除”,即完成场景删除。
说明
● 场景删除操作无法恢复,请谨慎操作。场景删除后,OBS路径下的文件依旧保留。
● 默认场景不支持删除。
8.4.3 管理计算资源
计算资源DLI服务,添加的计算资源需根据实情情况进行合理分配。开通DLI集群大小 就是根据业务需求对集群进行扩容缩容,计算资源最多设置5个。计算资源支持的操作 包括:
● 创建计算资源
● 编辑计算资源
● 删除计算资源
创建计算资源
1. 登录RES管理控制台,在“全局配置”页面的计算资源区域,单击“创建”添加计 算资源。
2. 在“创建计算资源”页面,填写计算资源相关配置,请参见表8-3。配置资源请勿
表8-3 添加资源参数说明
参数名称 说明
资源名 资源名最大长度为10字符,只能由字母,数字,下划线,
中划线组成。
Driver内存 Driver内存大于等于512MB。
● DLI:默认7GB。
Driver核数 Driver核数,大于等于1。
● DLI默认2。
Executor内存 Executor内存大于等于1GB。
● DLI:默认8GB。
Executor核数 Executor核数,大于等于1。
● DLI默认2。
Executor个数 个数,大于等于1。
● DLI默认7。
3. 完成该项配置后,单击“确定”,完成创建计算资源。
编辑计算资源
1. 登录RES管理控制台,在“全局配置”页面的计算资源区域,单击目标资源规格操 作列的“编辑”修改计算资源。
2. 在“编辑计算资源”页面,修改计算资源相关配置,请参见表8-3。计算资源名称 不支持修改。
3. 单击“确定”,完成计算资源修改。配置资源不能超过集群资源最大限制,否则 会导致计算失败。
删除计算资源
1. 登录RES管理控制台,在“全局配置”页面的计算资源区域,单击目标资源规格操 作列的“删除”。
2. 在“删除”页面,确认删除信息后,单击“确定”,完成计算资源删除。
说明
● 计算资源删除操作无法恢复,请谨慎操作。
● 删除计算资源不影响已经计算成功的作业结果。
8.5 离线作业
8.5.1 离线作业简介
用户通过数据质量作业对离线数据进行质量检测,然后将检测合格的数据通过特征工
图8-10 组合作业
创建组合作业主要包括如下设置:
● 基本配置
● 资源选择
● 召回策略
● 过滤规则
● 排序策略
● 预览配置
基本配置
基本配置主要包括设置组合作业的名称和描述。
1. 登录RES管理控制台,在左侧导航栏的“离线作业”下,单击“组合作业”进入组 合作业页面。
2. 在“组合作业”页面上方,单击“创建”,进入“创建组合作业”页面。
3. 填写“名称”、“场景”和“描述”,其中带*标志的参数为必填参数。
– 组合作业名称请以“Standard-”开始,只能由字母、数字、中划线和下划线 组成,并且长度小于64个字符。
– “场景”信息可选择您在全局配置页面创建的场景。
4. 完成该项配置后,单击“下一步”。
资源选择
您在使用RES时需要选择计算引擎、存储平台和数据源。计算引擎对数据进行计算,存 储平台将处理的数据进行存储。其选择的服务资源即为“资源中心”绑定的资源。
1. 在RES管理控制台完成“基本配置”之后,进入“资源选择”页签。
2. 填写组合作业相关配置参数,请参见表8-5。
表8-5 创建组合作业参数说明 模块 参数名称 说明
模块 参数名称 说明
服务名称 CloudTable作为存储平台,用于用户推荐在线数据和推 荐候选集的存储。此处选择已经完成资源绑定的 CloudTable。
集群名称 选择“资源中心”绑定的CloudTable集群名称。
表名 存储的表格名称。
模块 参数名称 说明
通用格式 通用数据由特征工程“初始用户画像-物品画像-标准宽表 生成”算子生成。其路径与“初始用户画像-物品画像-标 准宽表生成”结果保存路径一致。
说明
在使用通用格式数据之前,需要先进行特征工程算子计算。
在使用通用格式数据之前,需要先进行特征工程算子计算。