• 沒有找到結果。

效果评估_推荐系统 RES_用户指南_自定义场景_算法介绍及参数说明_华为云

N/A
N/A
Protected

Academic year: 2022

Share "效果评估_推荐系统 RES_用户指南_自定义场景_算法介绍及参数说明_华为云"

Copied!
181
0
0

加載中.... (立即查看全文)

全文

(1)

用户指南

文档版本 03

发布日期 2021-09-06

(2)

版权所有 © 华为技术有限公司 2022。 保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传 播。

商标声明

和其他华为商标均为华为技术有限公司的商标。

本文档提及的其他所有商标或注册商标,由各自的所有人拥有。

注意

您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或 特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或暗示的声 明或保证。

由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文 档中的所有陈述、信息和建议不构成任何明示或暗示的担保。

华为技术有限公司

地址: 深圳市龙岗区坂田华为总部办公楼 邮编:518129

网址: https://www.huawei.com

客户服务邮箱:[email protected] 客户服务电话:4008302118

(3)

目 录

1 准备工作...1

1.1 注册华为云账号...1

1.2 为账号充值... 1

1.3 进行服务授权... 1

1.4 购买套餐包... 2

2 RES 操作流程... 4

3 数据源管理... 6

3.1 数据源管理简介...6

3.2 准备离线数据源...7

3.3 上传离线数据源至 OBS... 11

3.4 上传实时数据...12

3.5 创建离线数据源... 13

3.6 导入近线数据源... 14

3.7 数据质量管理...16

3.7.1 数据结构... 16

3.7.2 数据导入... 18

3.7.3 数据探索... 20

3.8 修改或删除数据源... 22

4 智能场景...24

4.1 智能场景简介...24

4.2 创建智能场景...24

4.3 发布或终止智能场景... 26

4.4 获取推荐结果...27

4.5 效果评估... 30

4.6 编辑或删除智能场景... 31

5 自定义场景...33

5.1 自定义场景简介... 33

5.2 创建自定义场景... 34

5.3 算法介绍及参数说明... 45

5.3.1 召回策略... 45

5.3.2 过滤规则... 56

(4)

5.3.4 排序策略-离线排序模型... 60

5.3.5 在线服务... 67

5.3.6 效果评估... 71

5.4 修改自定义场景... 72

5.5 发布或终止自定义场景... 73

5.6 获取推荐结果...74

5.7 删除自定义场景... 79

6 工作空间...81

6.1 工作空间简介...81

6.2 创建工作空间...81

6.3 (可选)创建企业项目... 83

6.4 编辑或删除工作空间... 84

7 权限管理...85

7.1 创建用户并授权使用 RES... 85

7.2 RES 自定义策略... 86

8 用户指南(旧版)... 88

8.1 准备工作... 88

8.1.1 创建华为云账号...88

8.1.2 获取访问密钥并添加 RES 全局配置... 88

8.1.3 创建 OBS 桶...90

8.1.4 开通相关资源... 91

8.2 RES 操作流程... 92

8.3 管理资源... 93

8.3.1 创建资源... 94

8.3.2 绑定或解绑资源...94

8.3.3 创建跨源连接... 95

8.3.4 开启公共终端节点... 96

8.4 全局配置... 96

8.4.1 全局配置简介... 96

8.4.2 管理属性配置... 97

8.4.3 管理计算资源... 98

8.5 离线作业... 99

8.5.1 离线作业简介... 99

8.5.2 组合作业... 100

8.5.3 数据质量... 105

8.5.4 特征工程... 106

8.5.5 召回策略... 111

8.5.6 排序策略... 128

(5)

8.5.10 删除离线作业... 147

8.6 近线作业... 148

8.7 在线服务... 158

8.7.1 创建在线服务...158

8.7.2 获取推荐结果...162

8.7.3 查看在线服务详情... 163

8.7.4 管理在线服务...164

8.8 服务总览信息... 165

8.9 数据格式规范... 166

8.9.1 推荐系统 OBS 文件夹规范... 166

8.9.2 离线数据源... 166

8.9.3 实时日志... 170

8.9.4 全局特征信息文件... 174

A 修订记录... 176

(6)

1 准备工作

1.1 注册华为云账号

在使用华为云服务之前您需要申请华为云帐号。通过此帐号,您可以使用所有华为云 服务,并且只需为您所使用的服务付费。

操作步骤

1. 进入华为云首页,单击页面右上角的“注册”。

2. 设置手机号、短信验证码、账号名、密码并勾选“我已阅读并同意《华为云用户 协议》和《隐私政策声明》”,单击“同意协议并注册”。

3. 页面提示注册成功后,系统会自动跳转至您的个人信息界面。

4. 参考实名认证完成个人或企业帐号实名认证。

1.2 为账号充值

当您使用RES时,建议您先为您的账号充值,确保账号有足够余额可以正常使用RES,

具体操作请参见如何给华为云帐户充值。若您账号里有足够的余额,可略过此部分内 容。

1.3 进行服务授权

当您选择开通推荐系统,首次登录RES管理控制台系统会自动弹出“RES服务权限委 托”的对话框,提示服务进行委托授权,即授权RES服务请求获取访问您在其他云产品 中的资源,未授权将不能使用RES的完整功能。

(7)

1-1 权限委托

单击“同意授权”系统会自动创建委托。由于RES与其他云服务之间存在业务交互关 系,需要与这些云服务协同工作,因此需要您创建云服务委托,完成授权后将操作权 限委托给RES,让RES以您的身份使用这些云服务,代替您进行一些任务调度、资源运 维等工作。下次再进入RES管理控制台首页时,系统不会再弹出访问授权的对话框。

1.4 购买套餐包

套餐包说明

RES服务支持按需和购买套餐包,根据用户选择使用的资源进行收费。一个完整的推荐 场景需要下面三种资源,均为必选项。套餐的数量可以根据实际业务按需购买。

● 计算资源:用于推荐作业的计算规格。涉及计费功能包含:数据源、自定义场 景、智能场景中的离线计算和模型训练。

● 存储资源:用于推荐系统数据存储规格。涉及计费功能包括:数据源。

● 在线服务:用于推荐系统在线推理,获得最终推荐结果。

套餐介绍

计算资源分为“计算型CPU(1U4G)实例”、“计算型GPU(P100)实例”、“计算型 GPU(V100)实例”3种类型。存储资源支持“画像存储(一百万)”。在线服务支持

“在线并发9000TPS-时”,“TPS-时”表示每小时平均TPS。

规格和支持功能请参见表1-1。

(8)

1-1 计算资源

计算类型 资源名称 购买时长 支持功能 有效期

计算资源 “计算型

CPU(1U4G)实例” ● 20000 小时

离线作业 在线作业

1年

“计算型GPU(P100)实例” ● 300小时

“计算型GPU(V100)实例” ● 300小时

存储资源 “画像存储(一百

万)” ● 9000小 时

画像存储

在线服务 “在线并发

9000TPS-时” - 在线服务调用API -

购买套餐包

1. 登录RES管理控制台,在“总览”页面,单击“购买套餐包”,进入“购买预付套 餐包”页面。

2. 在“购买预付套餐包”页面,您可以通过“计算类型”下的“计算资源”和“存 储资源”和“在线服务”选择不同类型的套餐包。

3. 根据业务需求选择套餐包和套餐包数量,单击“下一步”,进入规格确认。

4. 规格确认无误后,单击“去支付”,然后在支付页面完成付款,付款成功后即完 成套餐包的购买。

说明

● RES目前只支持华北-北京四区域。

● 计费时将优先使用套餐包的额度,超出额度部分将以当月累计使用量所在的阶梯价计 费。套餐包的额度为购买日起一年内的可用资源数。套餐包的有效时长为一年。

● 已购买套餐包不支持退订,购买前请确认。

(9)

2 RES 操作流程

操作流程

本章节介绍使用RES,从资源准备到在线服务完成推荐的全流程。RES流程图如图2-1 所示。

2-1 RES 操作流程

2-1 使用流程说明

流程 子任务 说明 详细指导

数据源 准备离线数 据源

需要您准备包含用户数据,物 品数据,行为数据上传至对象 存储服务(OBS)用于推荐系 统的离线计算。

准备离线数据源 上传离线数据源至 OBS

创建离线数

据源 在使用RES之前,首先您需要 创建一个数据源,后续的操作 都是基于您创建的数据源进行 的。

创建离线数据源

上传实时数

据(可选) RES通过SDK上传实时数据,

进行数据计算和处理,更新用 户的相关数据。

上传实时数据

(10)

流程 子任务 说明 详细指导 数据质量管

数据质量管理操作可以将数据 源经过数据特征抽取,生成推 荐系统内部通用的数据格式。

数据质量管理

选择并配置 推荐业务

智能场景 针对对应的场景,由RES根据 场景类型预置好对应的智能算 法,为匹配的场景提供智能推 荐服务。

智能场景简介

自定义场景 面向了解推荐算法等相关的用 户,可自定义推荐中涉及算法 的使用和组合,能够自定义开 发推荐流程,提供推荐服务。

自定义场景简介

获取推荐结 果

- 您可以通过管理控制台进行结 果预测,也可以通过API接口 获取最终的推荐结果。

● 智能场景 获取推荐结果

● 自定义场景 获取推荐结果 效果评估

(可选)

- 创建效果评估可以对服务设置 指标,查看推荐结果的具体衡 量指标。

● 智能场景 效果评估

● 自定义场景 效果评估

(11)

3 数据源管理

3.1 数据源管理简介

RES以数据为基础进行算法计算并完成推荐,您可以在RES管理控制台,数据源页面完 成数据创建、数据修改等操作,为智能场景推荐和自定义场景推荐做好数据准备。

数据类型

当前RES支持创建数据源和导入近线数据。创建数据源的数据格式和近线数据导入的格 式要求一致,包括用户数据、物品数据和行为数据。

● 用户数据

用户数据包括数据源中的“用户属性表”和用于近线计算的“用户画像”数据。

用户数据记录用户的属性信息,例如地域、爱好等。

● 物品数据

物品数据包括数据源中的“物品属性表”和用于近线计算的“物品画像”数据。

物品数据记录物品的属性信息,例如类别、长度等。

● 行为数据

行为数据包括数据源中的“用户操作行为表”和用于近线计算的“行为数据”。

行为数据,每行记录用户的单次行为信息,包含用户标识符、行为对象标识符、

行为类型和行为时间等信息。

注意事项

● 每张表的表结构和填充的数据必须符合推荐系统的要求,列名和字段类型需要和 规范保持一致。

● 创建数据源之前您需要自己手工创建整理这些表并存储到OBS,推荐数据目前支 持JSON格式。

● 离线数据为初次对接RES的批量数据,供场景中的召回算法和排序算法进行计算。

近线数据可实时更新、增加用户和物品表数据,同时实时行为数据,可做为后续 近线召回计算,这些近线行为数据也会和离线行为数据进行汇总存储,供离线计 算。

(12)

数据源管理流程及功能简介

3-1 功能介绍

功能 说明

准备离线数据源 请您按照推荐系统要求的数据格式准备用户数据,物

品数据,行为数据。

上传离线数据源至OBS 将准备的离线数据源上传至对象存储服务(OBS)用

于推荐系统的离线计算。

创建离线数据源 在使用RES之前,首先您需要创建一个数据源,后续

的操作都是基于您创建的数据源进行的。

上传实时数据 RES通过SDK上传实时数据,进行数据计算和处理,

更新用户的相关数据。

数据质量管理 数据质量管理操作可以将数据源经过数据特征抽取,

生成推荐系统内部通用的数据格式。

修改或删除数据源 对您已经创建的数据源进行修改,对不需要的数据源

进行删除。

3.2 准备离线数据源

在使用RES创建数据源时,您需要准备以下的3种基础数据包并上传至OBS。若使用近 线流程,需先将业务系统埋点日志转换成推荐系统指定格式,并实时写入DIS相应通 道。本章节介绍了RES当前离线数据源和近线数据源的数据格式,您可以参考本章节说 明,准备相应的数据。

说明

目前数据源只支持JSON格式。

● 用户数据

● 物品数据

● 行为数据

用户数据

3-2 用户数据字段描述

字段名 类型 描述 是否必选

userId String 全局唯一用户ID。可输入的字符范围为1

~64个字符。只能包含字母、数字、中划 线、下划线和特殊字符(: . / # )并且不

(13)

字段名 类型 描述 是否必选 gender String 性别。取值为:

● male

● female

● unknown

location Json 根据业务而设定的用户关注的地理位置信 息。如常驻地,精度维度格式:{"lat":

latitude, "lon": longitude }。例如:

"location": {"lat": 41.12, "lon":

-71.34}。

tags List[String

] 描述用户的标签,每个标签为独立的一个 元素。如[“篮球”, “家庭”]。 否 interest_t

ags List[String

] 兴趣标签,由系统自动更新,默认保留字 段。

extend Json 扩展字段,由用户指定扩展字段的key和 value。其中:

● key,您可以按照业务需求自行命名。

无需按照示例以“extend_”开头,

key不能为中文。

● value,支持long/float/String/

strArray/location格式的数据。

物品数据

3-3 物品数据字段描述

字段名 类型 描述 是否必选

itemId String 全局唯一物品ID。 是 itemType String 物品的类型,可用于对推荐结果

集的多样性控制。包含:

● item

● article

● video

● audio

● image

category String 物品的类别,如“课程”、“零 食”,可用于类别之间的打散。

(14)

字段名 类型 描述 是否必选 status Long 物品是否可推荐、是否置顶、是

否注销,默认值为0。

● 0:可推荐

● 1:不可推荐

● 2:置顶

● -1:注销

title String 标题,可用于语义分析。 否 score Long 物品的权重,权重越高,被优先

推荐的概率越高,取值范围:

1-100。如不设置,默认值为1。

publishTime Long 发布时间,采用UTC标准时间,

单位以秒计。对物品有实时性要 求的则必填。

expireTime Long 失效时间,采用UTC标准时间,

单位以秒计。当前服务器的时间 大于该时间时,此物品将不会被 推荐。如不设置,代表永不失 效。

author List[String] 作者,一个作者一个元素,信息 流推荐场景建议填写。

content String 物品的内容描述信息,例如简介/

摘要/正文关键片段,最长支持 5000个中英文字符,超过则截断 处理。

tags List[String] 描述物品的标签,每个标签为独

立的一个元素。 否

location Json 物品的地理位置信息,精度维度 格式:{"lat": latitude, "lon":

longitude }。例如:"location":

{"lat": 41.12, "lon": -71.34}。

extend Json 扩展字段,由用户指定扩展字段 的key和value。

其中:

● key,您可以按照业务需求自 行命名。无需按照示例以

“extend_”开头,key不能为 中文。

● value,支持long/float/

String/strArray/location格式 否

(15)

行为数据

3-4 行为数据字段描述

字段名 类型 描述 是否必选

userId String 用户ID。 是

itemType String 物品的类型。 是

itemId String 对应行为发生的对象的值。如果是和物 品发生关系,则是物品的id(itemId)的 值。

actionType String 行为类型,包括正向行为和负向行为。

下面为预制的行为类型和对应的权重,

权重有默认分数,默认分数代表该行为 类型的权重,可做修改。同时支持自定 义行为类型。

说明

● 自定义行为类型, 行为名称需要符合以下 要求,由数字、字母、下划线组成, 长 度为4-32。

● 自定义行为类型接入系统后,初始默认为 正向行为,分数为0.5,后续可通过人工 复核进行修改。

● 正向行为:

click :点击 ,默认分数0.3 collect:收藏,默认分数0.5 search_click:点击搜索,默认分数 0.4

comment:评论,默认分数0.2 share:分享,默认分数0.5 like:点赞,默认分数0.8 consume:消费,默认分数1

use:观看视频/听音乐/阅读,默认分 数 0.6

download:下载,默认分数0.6 tip:打赏,默认分数1

subscribe:关注,默认分数0.7

● 负向行为:

view:曝光,默认分数0.1 dislike:点衰/踩,默认分数0.8 uncollect:取消收藏,默认分数0.4

actionMeasur

e Int 本次行为的度量,取值为正整数1-10。

建议用户根据实际情况进行换算,如总 视频15秒,观看视频duration超过10秒

(16)

字段名 类型 描述 是否必选 actionTime Long 行为发生的时间,采用UTC标准时间,

单位以秒计。

actionLocatio

n Json 行为发生的位置,精度维度格式:{"lat":

latitude, "lon": longitude }。例如:

"location": {"lat": 41.12, "lon":

-71.34}。

sceneId String 推荐场景 ID,用于场景维度的区分。 否 traceId String 用于追踪每个被推荐物品的唯一ID。用

于推荐效果的计算。

flowId String 用于计算每一个在线服务的效果。flowId 由推荐系统的API返回给用户,用户需把 flowId写到用户行为日志中。

数据示例

单击下载样例数据,将样例数据下载至本地

3.3 上传离线数据源至 OBS

RES使用对象存储服务(Object Storage Service,简称OBS)进行数据源的存储。因 此,在使用RES之前您需要开通OBS服务并创建桶,然后在OBS桶中上传用户数据用于 推荐作业的计算。

需要存放在OBS桶中的数据包括:

1. 离线数据源:包含用户类数据,物品类数据,行为数据以及推荐候选列表。

2. 人工推荐策略的候选集(可选):您可以将人工编辑推荐结果的列表csv文件(即 物品ID)存放在OBS桶中。

说明

创建桶的区域需要与RES所在的区域一致。RES目前只支持华北-北京四区域。例如:当前RES在 华北-北京四区域,在对象存储服务创建桶时,请选择华北-北京四。

前提条件

● 请您按推荐系统要求准备离线数据源。

● 开通OBS服务,确保您使用的OBS目录与RES在同一区域。

● 已经获取访问密钥(AK/SK)。

通过 OBS 管理上传数据

(17)

1. 登录OBS管理控制台,在RES同一区域内创建桶。如果已存在可用的桶,需确保 OBS桶与RES在同一区域。

2. 参考上传文件,将本地数据上传至OBS桶中。如果您的数据较多,推荐OBS Browser+上传数据或上传文件夹。

数据上传成功后,在OBS管理控制台页面单击进入创建的桶,选择“对象”查看上传 的数据。

3.4 上传实时数据

RES通过DIS SDK上传实时数据,用户实时日数据并做近线处理。当前仅支持Java语言 的SDK,示例请参见《数据接入服务SDK参考》。

前提条件

● 如果需要使用近线上传实时数据的用户,可以使用DIS SDK接口上传,请您按照需 求下载DIS SDK,下载完之后按照下面的说明进行SDK升级。

● 子账户无法使用SDK上传数据,需要主账号授权子账号DIS USER权限。详细请参 考权限管理。

说明

下载SDK之后,需要修改pom文件中的依赖,对SDK进行升级,最新版本可升级至1.3.12。

上传实时数据至 RES

1. 初始化DIS客户端,使用代码初始化DIS SDK客户端实例,代码样例如下。具体方 式请参见初始化DIS客户端。

// 创建DIS客户端实例

DIS dic = DISClientBuilder.standard() .withEndpoint("YOUR_ENDPOINT") .withAk("YOUR_AK")

.withSk("YOUR_SK")

.withProjectId("YOUR_PROJECT_ID") .withRegion("YOUR_REGION") .build();

其中,各参数说明如下:

– “YOUR_AK”、“YOUR_SK”即访问密钥,获取方式请参见获取访问密钥。

– “YOUR_PROJECT_ID”为项目ID、“YOUR_REGION”为区域ID,获取方式 请参见获取项目名称、项目ID、区域ID。

2. 获取需要上传通道的ID(streamId)。

– 单击近线数据源的“详情”

(18)

3-1 获取通道 ID

3. 上传实时数据,示例代码如下,其中,“streamId”的配置值要与步骤2中“通道 ID”的值一致。

// 配置通道ID

String streamId = "xxxx";

// 配置上传的数据

PutRecordsRequest putRecordsRequest = new PutRecordsRequest();

putRecordsRequest.setStreamId(streamId);

List<PutRecordsRequestEntry> putRecordsRequestEntryList = new ArrayList<>();

String path = ActionDataProducer.class.getClassLoader().getResource("action.json").getPath();

BufferedReader in = new BufferedReader(new FileReader(path));

String record = in.readLine();

int putCnt = 0;

while (record != null && !record.isEmpty()) { putCnt++;

System.out.println("Put the " + putCnt + " record: " + record);

try {

putRecordsRequestEntryList.clear();

PutRecordsRequestEntry putRecordsRequestEntry = new PutRecordsRequestEntry();

putRecordsRequestEntry.setData(ByteBuffer.wrap((record).getBytes()));

// PartitionKey为随机值可使数据均匀分布到所有分区中

putRecordsRequestEntry.setPartitionKey(String.valueOf(ThreadLocalRandom.current().nextInt(1000000 ))); putRecordsRequestEntryList.add(putRecordsRequestEntry);

putRecordsRequest.setRecords(putRecordsRequestEntryList);

dic.putRecords(putRecordsRequest);

} catch (DISClientException e) {

LOGGER.error("Failed to get a normal response, please check params and retry. Error message [{}]", e.getMessage(),

e);

} catch (Exception e) {

LOGGER.error(e.getMessage(), e);

}

record = in.readLine();

}in.close();

3.5 创建离线数据源

在使用RES之前,首先您需要创建一个数据源,后续的操作,如修改数据源、创建自定 义推荐,都是基于您创建的数据源进行的。

(19)

前提条件

● 已创建用于存储数据的OBS桶及文件夹,并且数据存储的OBS桶与RES在同一区 域。

● 需要使用的数据已上传至OBS。

创建数据源

1. 登录RES管理控制台,在左侧菜单栏中选择“数据源”,进入“数据源”列表页 面。

2. 单击“创建”,在创建数据源页面,参考表3-5配置相关参数。

3-5 创建数据源参数说明 参数名称 说明

名称 数据源的名称,名称只能是字母、数字、下划线或者中划线组 成的合法字符串。

用户属性表 从OBS桶中选择数据。在“用户属性表”右侧,单击 ,从弹 出的对话框中,选择数据存储的OBS桶及其文件或文件夹。

如果选取文件夹,该文件夹下面的数据格式需保持一致,避免 数据干扰。

物品属性表 从OBS桶中选择数据。在“物品属性表”右侧,单击 ,从弹 出的对话框中,选择数据存储的OBS桶及其文件或文件夹。

如果选取文件夹,该文件夹下面的数据格式需保持一致,避免 数据干扰。

用户操作行为

表 从OBS桶中选择数据。在“用户操作行为表”右侧,单击 , 从弹出的对话框中,选择数据存储的OBS桶及其文件夹。

说明

“用户属性表”、“物品属性表”以及“用户操作行为表”不能为同 一路径。

离线规格 可选择的规格有“4CU”、“8CU”、“16CU”、

“32CU”、“64CU”、“128CU”。规格越大,计算越快。

3. 单击“立即创建”。

数据源创建完成后,系统自动跳转至数据源列表页面并提示您数据源创建成功。

针对创建好的数据源,您可以进行“删除”操作。您可以在数据源列表页面单击 您创建的数据源名称进入数据源详情页面。

3.6 导入近线数据源

通过导入近线数据源,达到实时计算并更新用户画像、物品画像,实时更新增量数据 的目的。

前提条件

(20)

导入近线数据源

1. 登录RES管理控制台,在左侧菜单栏中选择“数据源”,进入“数据源”列表页 面。

2. 在数据源列表单击目标数据源名称,进入数据源详情页面。

3. 在页面的“近线数据源”页签,进行参数配置。您可以根据业务需求选择导入数 据类型。详请参见表3-6。

3-6 近线数据源参数说明 参数名称 说明

实时计算规格 可选择“4CU”、“8CU”、“16CU”和“32CU”四种规 格。

用户画像实时

导入 通过SDK导入通道中存储的用户画像实时数据。详情参见上传

实时数据。在“用户画像实时导入”右侧,单击打开 按

钮,在弹出的对话框中进行确认。

物品画像实时

导入 通过SDK导通道中存储的物品画像实时数据。在“物品画像实 时导入”右侧,单击打开 按钮,在弹出的对话框中进行 确认。

行为数据实时

导入 通过SDK导入通道中存储的行为数据。在“行为数据实时导 入”右侧,单击打开 按钮,在弹出的对话框中进行确 认。

说明

“用户画像实时导入”、“物品画像实时导入”以及“行为数据实时 导入”可以单独进行导入。

4. 打开目标数据右侧的导入按钮,确认“实时计算规格”信息和计费后并进行确认 后,单击“是”进行实时导入。待数据状态成为“运行中”时,表示实时数据导 入完成。每“执行”一次导入操作,之前的数据内容将被覆盖,请您谨慎操作。

3-2 实时导入

(21)

查看近线数据源详情或终止数据源

当您确认导入近线数据源之后,可以查看近线数据源详情或者对数据终止导入。

1. 在数据源详情页面,您可以单击目标近线数据右侧的“详情”,查看该实时数据 的名称和通道ID,此ID为全局唯一。

2. 当不需要该数据时,您单击可以单击目标近线数据右侧的“终止”,对“执行”

状态的数据终止导入。

当终止导入后,该数据无法正常使用,请您谨慎操作。

删除近线数据源

当您不需要使用已有的近线数据源时,您可以删除导入数据。

1. 在数据源列表单击目标数据源名称,进入数据源详情页面。

2. 在页面的“近线数据源”页签,在目标数据源右侧单击 按钮关闭导入数据 源,在弹出的对话框中进行确认。

说明

关闭近线数据源导入不会影响存量数据的存储。

3.7 数据质量管理

3.7.1 数据结构

当数据源创建完成,您可以进入数据源详情页面进行数据质量管理操作。数据质量管 理操作可以将离线数据源经过数据特征抽取,生成推荐系统内部通用的数据格式。经 过数据质量检测来确保数据的合法性。

数据结构介绍

数据结构步骤的主要目的是读取用户上传的离线数据,解析用户特征和物品特征中每 一个属性的数据格式、统计所有行为,然后保存解析生成的数据格式。

前提条件

已按照创建离线数据源操作指导完成数据源的创建。

操作步骤

1. 登录RES管理控制台,在左侧菜单栏中选择“数据源”,进入“数据源”列表页 面。单击目标数据源名称进入数据源详情页面。

2. 在“执行步骤”页签,单击“数据结构”下的“开始识别”,进入“识别”页 面,确认页面信息后单击“是”进行特征抽取。

3. 当执行完成“识别”状态为“已完成”时,进行“人工复核”确认操作。

4. 在“特征抽取”页签确认识别出的数据信息。

如果复核抽取的数据信息无误,单击“确认”,在“复核特征抽取”页面单击

(22)

该页面包含“用户特征”、“物品特征”、“正向行为类型”和“负向行为类 型”等信息,具体描述请参见表3-7。

3-3 确认特征抽取

3-7 确认特征参数

参数名称 说明

用户特征 列表中展示抽取的用户特征和参数类型。您可以根据业务 需求单击 增加用户特征。单击特征后方的 删除不需 要的用户特征。

物品特征 列表中展示抽取的物品特征和参数类型,此特征会额外应 用于所选字段的功能。您可以根据业务需求单击 增加 物品特征。单击特征后方的 删除不需要的物品特征。

您可以从“应用于”右侧的下拉选项中设置该数据的使用 维度是“兴趣属性”或者“关键词提取”。其中:

● 兴趣属性,此特征将会用于统计用户的兴趣标签,并 生成特征名为“interested_原特征名”的特征。

● 关键词提取,只有当关键词为content和title时会进行 关键词提取,并生成特征名为“keyword_原特征名”

的特征。

(23)

参数名称 说明

正向行为类型 列表中展示抽取的正向行为类型。您可以根据业务需求单 击 增加正向行为类型。单击特征后方的 删除不需要 的正向行为类型。

您可以从“应用于”右侧的下拉选项中设置该数据的使用 维度是“历史记录”或者“物品热度值”。其中:

● 历史记录:此特征将会用于统计用户此行为的历史记 录,并生成特征名为“history_原特征名”的特征。

● 物品热度值:此行为将会被用于统计物品的热度值信 息,并生成特征名为“statistics_hotValue”的特征。

说明

如果您有自定义行为类型,系统识别后,会默认为正向行为 类型,默认分数为0.5。您可以根据业务需求对其进行修改,

也可以删除,直接添加为负向行为类型。

负向行为类型 列表中展示抽取的负向行为类型。您可以根据业务需求单 击 增加负向行为类型。单击特征后方的 删除不需要 的负向行为类型。

您可以从“应用于”右侧的下拉选项中设置该数据的使用 维度是“历史记录”或者“物品热度值”,其相关说明与 正向行为类型一致。

3.7.2 数据导入

数据导入介绍

数据导入即读取经过“数据结构”生成的数据,对每条数据进行校验。推荐系统保留 字段需校验类型和数据合法性、自定义字段校验类型,输出错误报告。若数据完全符 合要求,会生成推荐系统所需要的宽表和画像数据。

● 宽表:推荐系统内部格式,以行为数据为主,将行为数据中涉及到的用户数据和 物品数据整合成一条数据。

● 画像:画像分为用户画像和物品画像,分别用于存储用户输入的用户特征和物品 特征。若同一用户或物品有多条记录,将会按照用户ID或者物品ID去重。

前提条件

● 已按照创建离线数据源操作指导完成数据源的创建。

● 已完成数据结构识别和人工复核确认。

操作步骤

1. 在“执行步骤”页签,单击数据导入下的“执行”。进入“导入”页面,确认页 面信息后单击“确认”,允许推荐系统读取您OBS中存储的特征数据,生成画像 和宽表。

2. 确认完成单击“执行”,待状态为“已完成”时,生成推荐系统内部通用的画像

(24)

3. 执行完成在页面下方会生成数据相关报告。

– “数据导入报告”,显示数据“类型”、“总条目数”、“合法条目数”、

“非法条目数”、“重复度”和“合法率”信息。

– 类型包括生成的用户、物品、行为数据。您可以通过单击左侧的 查看具体 报告信息。

“名称”项显示具体参数的名称。

“条目数”显示各种类型数据的具体数量。

3-4 查看报告

– 如果导入错误,会生成“数据导入错误报告”,显示数据“类型”、“数 量”和“原因”,方便您定位问题原因。

4. (可选)如果用户更新了数据源,可以重新导入数据。

a. 单击“数据导入报告”后的“执行”,重新进行数据导入。

3-5 重新导入数据

3-8 参数解释

参数 说明

导入画像 选择是否导入画像。

(25)

参数 说明

导入宽表 选择是否导入宽表。

宽表为推荐系统内部格式, 以行为数据为主,

将行为数据中涉及到的用户数据和物品数据整 合成一条数据。

保留已有宽表 选择对已有宽表是否保留。目前支持覆盖、

是、否。

开启调度 开启调度,可按照您所设置的时间周期性的提 交任务。

● “调度周期”:调度周期可选“天”或

“周”。

● “调度类型”:包括自定义和间隔调度。

● “开始调度时间”:选择具体的调度时间。

可在此下拉框中勾选具体的时间点。

● “时间间隔(小时)”:如果选择的调度类 型为间隔调度,需要配置调度的时间间隔。

b. 设置完成后,单击“确定”,重新导入数据。

3.7.3 数据探索

数据探索介绍

数据探索是针对当前数据源的数据进行挖掘和分析,主要聚焦在特征的分布范围、统 计以及特征齐全度等,使用户能够更了解数据,进而指导在特征工程以及相关算法的 配置。

数据探索是一个离线分析任务,任务有对应的启动时间,由于增量数据会实时入库,

因此可以通过定时执行数据探索任务来覆盖增量数据。

操作步骤

1. 在“执行步骤”页签,单击数据探索下的“执行”。进入“数据探索”页面,确 认页面信息后单击“是”。待状态为“已完成”时,完成数据格式的转化。

2. 执行完成在页面下方会显示数据探索报告,包括“用户报表”、“物品报表”、

“行为报表”和“画像查询”。

3. 单击目标报表名称查看具体报表信息。

(26)

3-6 查看报表

– 用户报表:根据不同数据格式展示用户数据的类型、最大值和最小值。您可 以单击相关数据后的 查看数据的详细信息。

百分位数:将数据进行排序,统计该数据在整个数据中所占的百分比。

3-7 百分位数

分布统计:通过查看分布统计了解各参数下参数值的分布情况。如可以 根据性别展示数据中的性别数据分布。可通过查看标签,了解数据中各 种标签的分布情况。

3-8 分布统计

(27)

– 行为报表:行为报表展示各种行为类型以及该数据中此行为出现的次数。

– 画像查询:可以查询指定的用户或物品画像信息,包括静态和动态。

3.8 修改或删除数据源

您可以对离线数据源进行重新编辑操作来更新数据源,如果该数据源不再使用,您可 以删除数据源释放资源。

修改离线数据源

前提条件

● 已存在的离线数据源有修改或者更新并已经上传至OBS。

● 只有在数据源数据结构特征抽取人工复核确认之前才允许修改数据源。

注意事项

修改编辑之后的离线数据源需要重新进行数据结构抽取和检测、探索等操作。

操作步骤

1. 登录RES管理控制台,在左侧菜单栏中选择“数据源”,进入数据源列表页面。

2. 在数据源列表单击目标数据源名称,进入数据源详情页面。

3. 单击离线数据源右侧的“编辑”,在页面下方单击 选择目标文件在OBS中的存 储位置。

3-9 修改离线数据源

4. 单击“确认”,完成修改。

删除数据源

前提条件

已存在创建成功的数据源。

注意事项

● 数据源中的数据结构、数据导入或数据探索有任务在运行,该数据源不支持删 除。

● 被智能场景或自定义场景使用的数据源不支持删除。

(28)

1. 登录RES管理控制台,在左侧菜单栏中选择“数据源”,进入数据源列表页面。

2. 单击目标数据源“操作”的“删除”,删除离线数据源。

说明

● 删除数据源操作不可恢复,请您谨慎操作。

● 删除数据源不会删除OBS中存储的数据。

(29)

4 智能场景

4.1 智能场景简介

针对对应的场景,由RES根据场景类型预置好对应的智能算法,为匹配的场景提供智能 推荐服务。

智能场景功能说明

4-1 功能说明

功能 说明 详细指导

猜你喜欢 推荐系统结合用户实时行为,推送更具针对 性的内容,实现“千人千面”。

创建智能场景

关联推荐 基于大规模机器学习算法,深度挖掘物品之 间的联系,自动匹配精准内容。

热门推荐 基于多维度数据分析,自动匹配所覆盖用户 群体更关心的内容进行重点展示。

获取推荐结 果

根据不同的功能模块,获取对应的推荐结 果。

获取推荐结果

4.2 创建智能场景

猜你喜欢主要应用于浏览意向不明确,如首页推荐等,RES能够根据用户的长短期行为 表现出来的兴趣进行学习与训练,结合长短期兴趣进行个性化推荐。

关联推荐主要应用于固定的物品的关联推荐,根据已关联的物品对相关的内容和行为 进行挖掘,网状匹配相关联的物品,进行有关联度的推荐。

热门推荐主要应用于当前用户浏览最多的物品内容,如实时搜索量前几的新闻或者物

(30)

前提条件

● 已经存在创建成功并完成数据探索的数据源。

● 由于作业运行需消耗资源,确保账户未欠费。

创建智能场景

1. 登录RES管理控制台,在左侧导航栏中选择“推荐业务>智能场景”,默认进入

“智能场景”列表。

2. 在智能场景列表中,单击右上角“创建”,进入“创建智能场景”页面。

3. 在创建智能场景页面的“模板选择”页签,单击“猜你喜欢”、“关联推荐”或

“热门推荐”进行参数配置。填写“基本信息”,选择“场景规格”,配置“个 性化配置”相关参数,详情请参见表4-2。

4-1 智能场景参数配置

4-2 智能场景参数说明 参数名称 子参数 说明

基本信息 名称 自定义的名称。只能包含数字、大小写字母、下划线 和中划线,长度不能超过64位且不能为空。

名称创建之后不支持修改。

数据源 从右侧下拉框中选择RES系统中已有的数据源。当无 可用数据源时,此下拉框为空。

描述 对于该场景的描述信息。

场景规格 - 选择离线计算、实时计算、排序模型训练规格和在线 并发数。

(31)

参数名称 子参数 说明 个性化配

匹配特征对 匹配用户和物品特征,以便于筛选出该用户相关联的 物品进行推荐。

● 用户特征名:从下拉框中选择目标用户特征用于 和物品特征进行匹配。

● 物品特征名:从下拉框中选择目标物品特征用于 匹配用户特征,更好的做出推荐。

● 权重:取值为0.01-1。权重越高,该匹配特征所 被优先推荐的概率越高。

● 匹配个数度量:默认不勾选。当勾选之后表示满 足的匹配程度。

● 操作:选择删除某个匹配特征对。

行为过滤 指定时间区间内用户对物品有过指定的行为类型记录 时,将过滤掉相应物品。

其中排除行为过滤是指将有此行为类型的物品排除 掉,不对其进行过滤。

例如对于用户过去3天内有过曝光行为的物品过滤,

但是可以对曝光过但是有购买行为的物品进行排除,

不对其进行过滤。

开启调度 开启调度,按照指定的调度策略定期执行作业。

● “调度周期”:调度周期可选“天”或“周”。

● “调度类型”:包括自定义和间隔调度。

● “开始调度时间”:选择具体的调度时间。当调 度周期选择为“周”时,可在此下拉框中勾选星 期一到星期天的任一天进行调度。

● “时间间隔”:如果选择的调度类型为间隔调 度,需要配置调度的时间间隔。

4. 配置完成后单击“创建”。创建成功后会自动跳转到“智能场景”列表页面并提 示您创建成功。针对创建好的智能场景,您可以单击操作列的“发布”。待场景 状态为“运行中”时,您可以在智能场景列表页面单击目标场景名称进入详情页 面进行“预测”和“效果评估”操作。

4.3 发布或终止智能场景

针对创建成功的智能场景,需要进行发布才可以运行作业获取推荐结果。通过执行终 止操作,停止运行当前场景。

前提条件

已存在创建成功的智能场景。

(32)

发布智能场景

1. 登录RES管理控制台,在左侧导航栏中选择“推荐业务 >智能场景”,进入智能场 景列表页面。

2. 选择智能场景列表中的目标场景,单击“操作”列的“发布”。

3. 在“发布场景”页面确认智能场景作业运行的配置规格单击“是”。

说明

● 修改智能场景信息需要执行发布操作才可以同步数据。

● 发布场景会覆盖之前数据,请谨慎操作。

终止智能场景

1. 登录RES管理控制台,在左侧导航栏中选择“推荐业务 > 智能场景”,进入智能 场景列表页面。

2. 选择自定义场景列表中的目标场景,单击“操作”列的“终止”。

3. 在“终止场景”页面确认智能场景信息后单击“是”。

说明

终止之后该场景数据不可用。

4.4 获取推荐结果

智能创建完成,运行成功后,当服务状态会显示“运行中”,表示状态正常。您可以 通过预测功能测试推荐结果进一步调整作业参数,也可以通过预测接口来调用API,获 取推荐结果。

说明

如果近线数据源有更新,需要重新调度召回策略,才会有对应的推荐结果。

预测

1. 登录RES管理控制台,在左侧菜单栏中选择“推荐业务>智能场景”,进入智能场 景列表页面。

2. 单击“已完成”状态的目标服务名称进入智能场景详情页面,单击“预测”页 签,包括两种预测方式。

– 代码:输入预测代码,单击“预测”后显示预测结果,如图4-2所示。输入用 户ID、推荐数量,根据您设置的策略返回用户的预测结果。如果是关联推 荐,需要配置“物品项”,即推荐与物品项相关的产品。如果物品项有多 个,需要用英文逗号隔开。

(33)

4-2 代码预测

– 表单:输入“ID”,并设置“最大推荐个数”。其中ID可以为用户ID或者物 品ID,单击“预测”后显示预测结果,如图4-3所示。如果是关联推荐,则需 要配置“物品项”,即推荐与物品项相关的产品。如果物品项有多个,需要 用英文逗号隔开。

4-3 表单预测

获取预测接口

1. 登录RES管理控制台,在左侧菜单栏中选择“推荐业务>智能场景”,进入智能场 景列表页面。

2. 单击“已完成”状态的目标服务名称进入智能场景详情页面,单击“预测”页 签,您可以获取该服务的“API接口地址”。单击 ,复制接口地址,调用服务。

4-4 获取预测接口

调用接口

Mozilla、Google都为REST提供了图形化的浏览器插件,发送处理请求消息。

● 针对Firefox,请参见Firefox RESTClient。

(34)

此处以Postman为例,指导您如何通过调用预测接口获取推荐结果。更多接口信息请 参见《推荐系统API参考》。

1. 下载Postman软件并安装,您也可以直接在Chrome浏览器添加Postman扩展程序

(也可使用其它支持发送post请求的软件)。

2. 打开Postman,如图4-5所示。

4-5 Postman 界面

3. 在Postman界面填写参数。

– 选择POST任务,将通过获取预测接口获取的调用地址复制到POST后面的方 框。Headers页签的“KEY”值填写为“X-Auth-Token”,“VALUE”值为您 获取到的Token(关于如何获取token,请参考获取用户Token),如图4-6所 示。

说明

您也可以通过AK(Access Key ID)/SK(Secret Access Key)加密调用请求,具体可 参见《RES API参考》中的"认证鉴权认证鉴权>AK/SK认证”。

4-6 参数填写

4. 参数填写完成,在Postman页面,选择“Body>raw”,在下方文本框中填入 JSON体,请求样例如下:

{ "id":"user894", "rec_num": 10 }

5. 参数填写完成,点击“Send”发送请求,结果会在“Response”下的对话框里显 示。其中,“id”为推荐的itemId,“score”为该物品的得分。示例如下:

{"flow_id": "flow1",

"rec_num": 10,

"candidates": [ {

(35)

"id": "item338",

"score": 0.5653803,

"source": "WeightBehavior-DIREC"

},{

"id": "item709",

"score": 0.55219465,

"source": "WeightBehavior-DIREC"

},{

"id": "item960",

"score": 0.55219465,

"source": "WeightBehavior-DIREC"

},{

"id": "item469",

"score": 0.55219465,

"source": "WeightBehavior-DIREC"

},{

"id": "item236",

"score": 0.55219465,

"source": "WeightBehavior-DIREC"

}] }

4.5 效果评估

创建效果评估可以对服务设置指标,查看推荐效果的反馈,可以根据系统提供的指标 添加。

创建效果评估作业

1. 登录RES管理控制台,在左侧导航栏中选择“推荐业务>智能场景”,默认进入

“智能场景”列表。

2. 在智能场景列表中,单击“运行中”状态的目标场景名称,进入详情页。

3. 单击“效果评估”页签,单击目标类型作业进行参数配置,请参见表4-3。

4-3 效果评估参数说明

参数名称 说明

名称 自定义名称,由中文、英文、数字、下划线、空格或者 中划线组成,并且不能以空格开始和结束,长度为1~64 个字符。

描述 对于该效果评估作业的描述信息。

开启调度 默认开启调度。开启调度后,默认每天凌晨00:05开始执 行。您也可以关闭调度手动执行效果评估作业。

指标类型 推荐服务效果评估指标,通过指标后的下拉框选择系统 自置指标。您可以单击 添加指标,单击该指标后的 删除指标。

● 点击PV率

● 点击UV率

(36)

4. 效果评估作业运行完成之后会在页面下方生成评估结果图表,方便您查看近期的 评估效果。

4.6 编辑或删除智能场景

针对运行失败或者草稿状态的的智能场景支持进行重新编辑操作。您也可以通过执行 删除操作,删除当前场景。

前提条件

已存在创建成功的智能场景。

编辑智能场景

1. 登录RES管理控制台,在左侧导航栏中选择“推荐业务 >智能场景”,进入智能场 景列表页面。

2. 单击智能场景列表中的目标场景名称,进入“个性化配置”详情页。

3. 单击“编辑”对参数进行重新配置,单击“确认”完成场景参数修改。

4-7 编辑智能场景

说明

(37)

删除智能场景

1. 登录RES管理控制台,在左侧导航栏中选择“推荐业务 > 智能场景”,进入智能 场景列表页面。

2. 选择智能场景列表中的目标场景,单击“操作”列的“删除”。

3. 在“删除场景”页面确认智能场景信息后单击“是”。

说明

删除场景包含删除场景下所有的策略和服务。场景运行存储在OBS中的数据不会被删除,

需要您登录OBS进行删除操作。

(38)

5 自定义场景

5.1 自定义场景简介

RES面向了解推荐算法等相关的用户,可自定义推荐中涉及算法的使用和组合,能够自 定义开发推荐流程,提供推荐服务。您可以基于RES提供的多种推荐训练作业得到推荐 候选集,用于在线服务计算得到推荐结果。

自定义场景功能说明

5-1 功能说明

功能 说明 详细指导

创建自定义 场景

自定义场景作为一个包含多个子任务的作 业,通常用于多个召回、过滤、排序等任 务。

创建自定义场景

召回策略 召回策略通过大数据计算或深度训练生成推 荐候选集。

召回策略

过滤规则 过滤规则用于生成推荐的过滤集,包含黑白 名单、历史行为过滤等特性。支持用户在线 上推理过程中完成对相关物品的过滤。

过滤规则

特征工程 特征工程常用于抽取用户、物品的特征和特 定算法的特征生成,一般作为某些算法的前 置输入条件。

排序策略-离线特征 工程

排序策略 排序策略根据不同的算法模型对召回策略或 者近线策略生成的候选集进行重排序,得到 推荐候选集列表。

排序策略-离线排序 模型

在线服务 在线服务用来做线上推荐时的应用,每个服 务之间是独立的。即根据不同的离线计算得 到的候选集以及相关参数,提供不同的推荐

在线服务

(39)

功能 说明 详细指导 效果评估 指用于通过推荐系统推荐出去的结果集并利

用trace_id回流到推荐系统的行为的点击率、

转化率等指标的计算。

效果评估

5.2 创建自定义场景

自定义场景基于用户群体不同推荐场景的需求,提供了多种多样的推荐策略和算法,

实现了端到端的自定义推荐场景搭建,使每一个推荐场景都能得到针对性的推荐效果 提升。

前提条件

● 已经存在创建成功并完成数据探索的数据源。

● 由于训练作业运行需消耗资源,确保账户未欠费。

● 确保您使用的OBS目录与RES在同一区域。

基本信息

1. 登录RES管理控制台,在左侧导航栏中选择“推荐业务>自定义场景”,默认进入

“自定义场景”列表。

2. 在自定义场景列表中,单击右上角“创建自定义场景”,进入“创建自定义场 景”页面。

3. 在创建自定义场景页面,填写“基本信息”相关参数,基本信息包含场景名称、

数据源、场景规格等关键信息,详情请参见表5-2。

4. 基本信息配置完成后单击“创建并下一步:召回策略”。

(40)

5-1 自定义场景基本信息

5-2 自定义场景基本信息参数说明 参数名称 子参数 说明

基本信息 场景名称 自定义场景的名称。只能包含数字、大小写字母、下 划线和中划线,长度不能超过64位且不能为空。

场景名称创建之后不支持修改。

(41)

参数名称 子参数 说明

场景类型 选择需要的场景类型。

● “基于用户推荐物品”:某些用户的属性很相 似,如电商平台根据这些用户的行为(浏览、点 击、购买)计算与这些用户相似用户的行为,为 该用户推荐相似用户浏览或购买的物品。

● “基于用户推荐用户”:某些用户的属性很相 似,如交友平台根据这些用户的行为(浏览、点 击)或属性推荐与这些用户相似用户。

● “基于物品推荐物品”:某些物品的属性、描述 很相似,或者经常被一起浏览或购买。如媒资平 台将会计算物品之间的相似或关联程度,当用户 查看了某个物品的时候,会推荐最相似/最相关的 物品。

● “基于物品推荐用户”:某些物品的属性、描述 很相似,或者经常被一起购买。如房产平台会计 算物品之间的相似或关联程度,当用户查看某个 物品的时候,会推荐同时拥有该类型房源的房产 经纪人。

服务类型 选择您需要的服务类型。

● “推荐引擎”:推荐引擎用于对RES召回策略生成 的候选集结果进行融合过滤和排序。

● “排序引擎”:排序引擎无需配置召回策略,允 许用户提供自己的候选集,使用RES的排序策略进 行排序。

数据源 从右侧下拉框中选择RES系统中已有的数据源。当无 可用数据源时,此下拉框为空。

数据区间 时间单位 支持天和小时。

数据选择 指定历史行为时间段,选取数据中最靠后的时间往前 N天或N小时的行为数据计算用户偏好。

物品类别 是否需要根据category值对原始数据进行过滤。如新 闻网站,category取值可能为娱乐、体育、时事等。

设置黑名 单

设置黑名单列表。后续任务读取数据时,将会过滤掉 指定的用户或物品的记录。文件格式为每个ID占据一 行。

用户黑名单/物品黑 名单

上传设置的黑名单列表。

场景规格 离线计算 规格

可选择“4CU”、“8CU”、“16CU”和“32CU”

四种规格。

实时计算

规格 可选择“2CU”、“4CU”、“8CU”和“16CU”

四种规格。

(42)

参数名称 子参数 说明 排序模型

训练规格 可选择“GPU-P100”、“8CU”。

在线并发 规格

在线服务调用的最高调用次数,单位为次每秒,默认 为5。

召回策略

您可以根据业务需要,选择合适的召回策略。召回策略用于配置离线计算逻辑,通过 启动离线计算任务进行候选推荐结果集的生成。

各个召回策略的详细介绍请参见:

● 基于综合行为热度推荐

● 基于物品的协同过滤推荐

● 基于用户的协同过滤推荐

● 基于交替最小二乘的矩阵分解推荐

● 业务规则-基于历史行为记忆生成候选集

● 业务规则-人工导入

● 基于特征匹配的召回策略

● 基于UCB的召回策略

● 近线召回

● 基于物品相似度的实时召回

● 基于用户相似度的实时召回

1. 在“创建自定义场景”页面,进入“召回策略”页签,单击“添加召回策略”,

根据业务需要在下拉框中选择一个合适的策略。本章节以“基于交替最小二乘的 矩阵分解推荐”为例进行创建,如图5-2所示。

(43)

5-2 召回策略

5-3 基于交替最小二乘的矩阵分解推荐参数说明

参数 说明

名称 根据业务自定义命名。

描述 根据业务自定义。例如,这是一个测试策略。

隐向量维度 在ALS算法中使用,指定用户隐向量、物品隐向量的隐含 因子的维度大小。若离线计算失败,建议调小至10以 下。

默认为10。

优化正则化系数 在ALS算法中使用,指定用户隐向量、物品隐向量的隐含 因子的维度大小。

设置为默认参数0.01。

最大迭代次数 指定迭代优化的最大迭代次数。若离线计算失败,建议 调小至10以下。

默认为10。

最大推荐结果数 最多生成多少个推荐结果。

默认参数100。

(44)

参数 说明

开启调度 开启调度,按照指定的调度策略定期执行作业。

● “调度周期”:调度周期可选“天”或“周”。

● “调度类型”:包括自定义和间隔调度。

● “开始调度时间”:选择具体的调度时间。当调度周 期选择为“周”时,可在此下拉框中勾选星期一到星 期天的任一天进行调度。

● “时间间隔”:如果选择的调度类型为间隔调度,需 要配置调度的时间间隔。

2. 创建完成后单击“确认”。保存后的召回策略会展示在下面的列表中。

3. (可选)在目标召回策略右侧,可以对所选策略进行“编辑”和“删除”操作。

说明

删除操作不可恢复,请您谨慎操作。

4. 具体策略的参数说明可单击上方策略名称进行查看,策略设置完成后,单击“下 一步:过滤规则”。

过滤规则

过滤规则是用于配置候选集的过滤方式,使相关内容不进入候选集。

● 如果您选择的是排序引擎,在配置完基本信息之后进入“过滤规则”页签。

● 如果您选择的是推荐引擎,在配置完召回策略之后,进入“过滤规则”页签。

1. “创建自定义场景”页面,进入“过滤规则”页签,单击“添加过滤策略”,如 图5-3所示。策略的详细参数说明请参见过滤规则。

5-3 创建过滤规则

(45)

5-4 过滤规则参数说明

参数 说明

名称 根据业务自定义命名。

描述 根据业务自定义描述。

频次 筛选出每个用户的行为数据中满足要求的数据,使之不进 入候选集。

● 相对时间间隔:与数据源内的行为数据记录最后的一条 时间相差天数。

● 最小次数:某用户对某物品产生某行为的最小次数。

● 行为类型:指定行为类型。

● 绝对时间间隔:与当前时间相差天数。

● 最大次数:某用户对某物品产生某行为的最大次数。

行为过滤逻辑 设置为AND或者OR。AND即为在7天内点赞超过3次且在 7天内消费超过3次的物品。

开启调度 开启调度,按照指定的调度策略定期执行作业。

● “调度周期”:调度周期可选“天”或“周”。

● “调度类型”:包括自定义和间隔调度。

● “开始调度时间”:选择具体的调度时间。当调度周期 选择为“周”时,可在此下拉框中勾选星期一到星期天 的任一天进行调度。

● “时间间隔”:如果选择的调度类型为间隔调度,需要 配置调度的时间间隔。

2. 创建完成后单击“确认”。保存后的策略会展示在下面的列表中。

3. (可选)在目标策略右侧,可以对所选策略进行“编辑”和“删除”操作。

4. 具体策略的参数说明可单击上方策略名称进行查看,策略设置完成后,单击“下 一步:排序策略”。

排序策略-离线特征工程

在进行排序之前需要先进行离线特征工程将数据转化为排序所需要的格式。

1. “创建自定义场景”页面,进入“排序策略”页签,如图5-4所示。策略的详细参 数说明请参见排序策略-离线特征工程。

(46)

5-4 离线特征工程

2. 创建完成后单击“确认”。保存后的策略会展示在下面的列表中。

3. (可选)在目标策略右侧,可以对所选策略进行“编辑”和“删除”操作。

4. 具体策略的参数说明可单击上方策略名称进行查看。

排序策略-离线排序策略

排序策略离线排序策略是用于对召回策略生成的候选集进行二次排序。如果离线使用 排序模型,需在排序策略-离线特征工程中创建完成后才可以正常使用排序策略。

各个策略的详细参数设置和输入输出请单击下方链接查看。

Logistic Regression (LR)

DeepFM

AutoGroup

1. 在“创建自定义场景”页面,进入“排序策略”页签,单击“离线排序策略”,

如图5-5所示。用户可以根据业务需要在“添加排序策略”下拉框中选择一个合适 的排序策略。

(47)

5-5 添加离线排序策略

2. 创建完成后在单击“确认”。保存后的策略会展示在下面的列表中。

3. (可选)在目标策略右侧,可以对所选策略进行“编辑”和“删除”操作。

4. 具体策略的参数说明可单击上方策略名称进行查看。

排序策略-近线特征工程

近线特征工程是对近线数据进行特征处理,以便生成特征数据用于排序。必须先完成 离线排序模型相关操作才可进行此配置。

近线特征工程默认为关闭状态,您可以在创建近线特征工程右侧单击 按钮,在 弹出的对话框中单击“是”进行创建。

排序策略-近线排序策略

近线排序策略用于对在线实时数据排序。如果使用在线排序模型,需在排序策略-近线 特征工程中创建完成后才可以正常使用排序策略。

1. 在“创建自定义场景”页面,进入“排序策略”页签,单击“添加近线排序策 略”。

2. 进行在线学习参数配置。

– 名称:自定义在线排序策略名称。

– 离线排序策略:从下拉框中选择已经创建完成的排序策略-离线排序策略作业 名称。

– 优化器类型:具体参数解释请参见Logistic Regression (LR)。

(48)

5-6 添加近线排序策略

3. 创建完成后在单击“确认”。保存后的策略会展示在下面的列表中。

4. (可选)在目标策略右侧,可以对所选策略进行“编辑”和“删除”操作。

5. 参数配置完成后可单击“下一步:在线服务”。

在线服务

1. 在“在线服务”页面,填写基本信息。您可以根据实际情况填写“名称”、“描 述”信息或“开启异常告警”。单击 开启异常告警,在下拉选项中选择 SMN主题名称。如果您还未有可选的主题,请前往消息通知服务创建主题。

2. 单击“添加在线流程”,并进行命名,您最多可以部署5个在线流程。根据选择的 服务类型配置在线流程,包括“召回池”、“过滤”、“排序”等关键信息。具 体参数信息参见表5-21。

(49)

5-7 创建在线服务

3. 参数配置完成后单击“创建并完成”。作业创建完成后您可以在自定义场景列表 页面目标场景的“操作”列单击“执行”,待场景状态为“运行中”时,作业运 行完成。

(可选)效果评估

自定义场景创建完成后,页面自动跳转到自定义场景列表页面,您可以单击目标场景 名称进入详情页,创建效果评估。

(50)

– 效果评估名称:只能由字母、数字、中划线和下划线组成,并且长度小于64 个字符。

5-8 创建效果评估

2. 配置创建效果评估相关参数,请参见表5-22。

3. 配置完成后单击“确认”,该作业会出现在效果评估页签下的列表中。鼠标移动 至该策略上方,可以对该策略作业进行“编辑”、“查看”、“执行”和“删 除”操作。

4. 您可以在自定义详情页面查看“已完成”状态的评估结果图表,方便您查看近期 的评估效果。

5.3 算法介绍及参数说明

5.3.1 召回策略

召回是指对大量的物品做初选,为每一个用户形成个性化侯选集。召回策略是指通过 大数据计算或深度训练生成推荐候选集的算法策略。召回策略中内置了多种召回方 式,您可根据自己场景选择。

基于综合行为热度推荐

基于综合行为热度推荐统计用户对物品所有行为的加权热度。若选择用户分群,将生 成每个分组的热度推荐; 若不选择, 将生成全局热度推荐。

5-5 基于综合行为热度推参数说明 参数名称 说明

名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,

并且不能以空格开始和结束,长度为1~64个字符。

描述 策略的具体描述。

數據

表 1-1 计算资源 计算类型 资源名称 购买时长 支持功能 有效期 计算资源 “计算型 CPU(1U4G)实例” ● 20000小时 离线作业 在线作业 1年 “计算型 GPU(P100)实例” ● 300小时 “计算型 GPU(V100)实例” ● 300小时 存储资源 “画像存储(一百 万)” ● 9000小 时 画像存储 在线服务 “在线并发 9000TPS-时” - 在线服务调用API  -购买套餐包 1
表 3-4 行为数据字段描述
表 5-4 过滤规则参数说明 参数 说明 名称 根据业务自定义命名。 描述 根据业务自定义描述。 频次 筛选出每个用户的行为数据中满足要求的数据,使之不进 入候选集。 ● 相对时间间隔:与数据源内的行为数据记录最后的一条 时间相差天数。 ● 最小次数:某用户对某物品产生某行为的最小次数。 ● 行为类型:指定行为类型。 ● 绝对时间间隔:与当前时间相差天数。 ● 最大次数:某用户对某物品产生某行为的最大次数。 行为过滤逻辑 设置为AND或者OR。AND即为在7天内点赞超过3次且在 7天内消费超过3次的物品。
表 5-16 过滤规则参数说明 参数名称 说明 名称 自定义过滤规则名称。由中文、英文、数字、下划线、空格或者中划线 组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 过滤规则的相关描述信息。 频次 指定与用户个性化的物品候选集过滤准则。例如对于用户过去3天内有 过view行为的物品(如新闻)过滤,使之不进入候选集。单击 增加 历史行为过滤,单击后方的 删除过滤行为。相关参数解释如下: ● 相对时间间隔:与数据源内的行为数据记录最后的一条时间相差天 数。 ● 最小次数:某用户对某物品产生某行为的
+7

參考文獻

相關文件

ferent water layers and different seasons showed higher fluorescence intensity

LI Qian-Qian,GUO Liang,ZHAO Yang-Guo,et a1.Effect of pretreatment temperature

「相地而衰征」,按韋昭 3

 運用引領思維閱 讀,請學生先觀 察繪本封面及插 畫,再推測故事 的內容。. (見《童書教學的理念 與方法》第

類別 弱項 強項 (寫作能力/困難) 自閉症 理解和表達. 言語、缺乏 想像力、理

採用全校參與模式推動有特殊教育 需要的學生積極參與體能活動..

值得一提的是,Add-in 在 Inventor 運行時會自動加載的特性是一個非常實用的功 能。使用者可以在執行 Inventor 前選擇所需要加載的 Add-in,而沒有選擇的

包含了新竹科學工業園區特定區計畫、高鐵新竹車站特定區計畫以及