5.3 算法介绍及参数说明
5.3.1 召回策略
召回是指对大量的物品做初选,为每一个用户形成个性化侯选集。召回策略是指通过 大数据计算或深度训练生成推荐候选集的算法策略。召回策略中内置了多种召回方 式,您可根据自己场景选择。
基于综合行为热度推荐
基于综合行为热度推荐统计用户对物品所有行为的加权热度。若选择用户分群,将生 成每个分组的热度推荐; 若不选择, 将生成全局热度推荐。
表5-5 基于综合行为热度推参数说明 参数名称 说明
名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,
并且不能以空格开始和结束,长度为1~64个字符。
描述 策略的具体描述。
参数名称 说明 行为次数统计
方法
物品记录统计方式。
● “pv”:page view,每个用户可对同个物品产生多条记录。
● “uv”:unique visitor,每个用户只能对每个物品产生一条记 录, 算法只保留权重最大的记录。
用户分群 数据源类型包括用户特征和物品特征,根据数据源筛选数据, 选出 需要的属性。只能选择进行用户分组还是物品分组,分组内可配置 多个特征。
● “用户特征”:在用户特征下拉框中选择需要的特征参数进行 召回计算。例" user_meta_list ": ["gender","age"]
● “物品特征”:在物品户特征下拉框中选择需要的特征参数进 行召回计算。例" item_meta_list ": ["weight","score"]
最大推荐结果
参数名称 说明
最近邻域数 在ItemCF算法中使用,生成的相似度矩阵中为每个物品保留的若 干个最相似物品。默认100。 json, 其中subject为用户或物品, relations为与subject相似的用 户或物品及其相似度。例如,
{ "subject": "item108", "relations": [
参数名称 说明
开启调度 开启调度,按照指定的调度策略定期执行作业。
● “调度周期”:调度周期可选“天”或“周”。
● “调度类型”:包括自定义和间隔调度。
● “开始调度时间”:选择具体的调度时间。当调度周期选择为
“周”时,可在此下拉框中勾选星期一到星期天的任一天进行 调度。
● “时间间隔”:如果选择的调度类型为间隔调度,需要配置调 度的时间间隔。
基于用户的协同过滤推荐
基于用户的协同过滤推荐采用经典算法基于用户的协同过滤(UserCF)进行召回。基于 用户的协同过滤算法是通过用户的历史行为数据发现用户对物品的喜欢(如购买,收 藏,内容评论或分享),并对这些喜好进行度量和打分。根据不同用户对相同物品的 态度和偏好程度计算用户之间的关系。在有相同喜好的用户间进行物品推荐。
例如,A、B两个用户都购买了abc三本图书,并且给出了5星的好评。则A和B属于同一 类用户。可以将A看过的图书d也推荐给用户B。
表5-7 基于用户的协同过滤推荐参数说明
参数名称 说明
名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组 成,并且不能以空格开始和结束,长度为1~64个字符。
描述 策略的具体描述。
最近邻域数 在UserCF算法中使用,生成的相似度矩阵中为每个用户保留的 若干个最相似用户。默认为100。
最小交叉度 物品和物品之间被同一用户行为记录的数量,计算相似度时,
过滤掉共同记录小于最小交叉度的item。
默认值:1。
物品活跃度 物品过滤用户的活跃度阈值。
取值范围:1-10000。
默认值:1。
效用阈值 用户对物品综合打分的阈值。
取值范围:0.000001-10。
最大推荐结果数 最多生成多少个推荐结果。
默认值:100。
开启时间跨度 不开启取全部数据,开启则指定从数据源中取最近天数的行为 数据计算相似度。
参数名称 说明
时间跨度 用于指定从数据源中取最近多少天的行为数据计算相似度。默 认取全部数据。
上传物品相似度 支持客户通过obs导入自定义的相似度信息。相似度文件格式 为json, 其中subject为用户或物品, relations为与subject相 似的用户或物品及其相似度。例如,
{ "subject": "item108", "relations": [
参数名称 说明
隐向量维度 在ALS算法中使用,指定用户隐向量、物品隐向量的隐含因子 的维度大小。若离线计算失败,建议调小至10以下。默认为 10。
迭代次数 指定迭代优化的最大迭代次数。若离线计算失败,建议调小至 10以下。默认为10。
优化正则化系数 在ALS算法中使用,指定正则化系数,作为优化目标中参数项 代价的系数,用于避免过拟合现象发生。默认为0.01。
最大推荐结果数 最多生成多少个推荐结果。默认为100。
开启调度 开启调度,按照指定的调度策略定期执行作业。
● “调度周期”:调度周期可选“天”或“周”。
● “调度类型”:包括自定义和间隔调度。
● “开始调度时间”:选择具体的调度时间。当调度周期选择 为“周”时,可在此下拉框中勾选星期一到星期天的任一天 进行调度。
● “时间间隔”:如果选择的调度类型为间隔调度,需要配置 调度的时间间隔。
业务规则-基于历史行为记忆生成候选集
业务规则-基于历史行为记忆生成候选集可以从用户历史行为数据中筛选出发生过某些 行为的物品(例如,筛选出曾经点击过5次的物品)。此策略适用于“看了又看”,“买 了又买”等推荐场景。
表5-9 业务规则-基于历史行为记忆生成候选集参数说明
参数名称 说明
名称 策略名称,由中文、英文、数字、下划线、空格或者中划 线组成,并且不能以空格开始和结束,长度为1~64个字 符。
描述 策略的具体描述。
参数名称 说明
频次 ● “相对时间间隔”:指定历史行为时间段,选取数据中 每个用户最靠后的行为数据的时间往前N天的行为数据 计算用户偏好。建议至少设置30天。
● “绝对时间间隔”:指定历史行为时间段,选取数据中 每个用户距离现在时间往前N天的行为数据计算用户偏 好。建议至少设置30天。
● “行为类型”:指定行为类型。
● “最小次数”:行为次数下界,高于此的物品才会被选 中。默认为1。
● “最大次数”:行为次数上界,低于此的物品才会被选 中。
单击 ,增加频次。你可以单击右侧的 删除该频次。
最大推荐结果数 最多生成多少个推荐结果。默认为100。
开启调度 开启调度,按照指定的调度策略定期执行作业。
● “调度周期”:调度周期可选“天”或“周”。
● “调度类型”:包括自定义和间隔调度。
● “开始调度时间”:选择具体的调度时间。当调度周期 选择为“周”时,可在此下拉框中勾选星期一到星期天 的任一天进行调度。
● “时间间隔”:如果选择的调度类型为间隔调度,需要 配置调度的时间间隔。
业务规则-人工导入
业务规则-人工导入是指用户自定义物品列表,并将此列表作为候选集,以供在线服务 调用。
表5-10 业务规则-人工导入参数说明
参数名称 说明
名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组 成,并且不能以空格开始和结束,长度为1~64个字符。
描述 策略的具体描述。
OBS地址 用户可从此OBS地址中选择自定义物品列表的csv文件。单击
,从弹出的对话框中,选择数据存储的OBS桶及其文件夹。
参数名称 说明
导入候选集类型 选择导入候选集类型,目前支持以下三种。
● 物品-分数候选集:物品-分数候选集可以用于在线服务的推 荐候选集。
● 用户相似度候选集:用户相似度候选集可用于实时召回。
● 物品相似度候选集:物品相似度候选集可用于实时召回与在 线服务的推荐候选集。
最大推荐结果数 最多生成多少个推荐结果。默认为100。
开启调度 开启调度,按照指定的调度策略定期执行作业。
● “调度周期”:调度周期可选“天”或“周”。
● “调度类型”:包括自定义和间隔调度。
● “开始调度时间”:选择具体的调度时间。当调度周期选择 为“周”时,可在此下拉框中勾选星期一到星期天的任一天 进行调度。
● “时间间隔”:如果选择的调度类型为间隔调度,需要配置 调度的时间间隔。
数据格式(.csv文件):
itemId1 itemId2
itemId为物品id,算法将物品列表上传的物品作为候选集
用户可从OBS中选择保存有人工编辑推荐结果的列表(即物品ID)。
基于特征匹配的召回策略
基于特征匹配的召回策略会用用户画像和物品画像的相关属性进行匹配,为用户召回 属性匹配程度高的若干个物品。
表5-11 基于特性匹配的召回策略参数说明
参数名称 说明
名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组 成,并且不能以空格开始和结束,长度为1~64个字符。
描述 策略的具体描述。
匹配类型 通过匹配数据的特征,生成推荐候选集。 例如,通过用户匹配 物品生成给用户推荐物品的候选集,物品自匹配生成给物品推 荐物品的候选集。可选:
● 用户匹配物品
参数名称 说明
匹配特征对 用户和物品相关联特征。请根据实际情况配置参数,若属性匹 配特征对相似度较高内存不够时需提升配置。
● 用户特征名:字符串,长度1-20。
● 物品特征名:字符串,长度1-20。
● 权重值:权重影响不同物品属性匹配的程度,取值0.01-1,
2位小数。
● 匹配个数度量:若开启匹配个数度量, 同个特征匹配个数 多的数据有优势。例如博客标签中,匹配5个标签(tags)比 匹配1个标签(tags)更相关。若不开启, 多值特征匹配时,
匹配特征个数无关,都被视为匹配。
● 操作:可以单击操作列下面的 进行删除某个匹配特征 对。
您可以单击 进入“添加匹配特征对”页面进行配置。设置特 征对的用户特征名、物品特征名和权重。
最近邻域数 机器学习中的概念, 例如协同过滤计算中,需要计算物品之 间,用户之间的相似度。最近邻域数是x,就是一个物品/用户 找出x个和他相似的物品/用户。默认为100。
最大推荐结果数 最多生成多少个推荐结果。默认为100。
开启调度 开启调度,按照指定的调度策略定期执行作业。
● “调度周期”:调度周期可选“天”或“周”。
● “调度类型”:包括自定义和间隔调度。
● “开始调度时间”:选择具体的调度时间。当调度周期选择
● “开始调度时间”:选择具体的调度时间。当调度周期选择