排序策略-离线排序模型 - 算法介绍及参数说明 - 效果评估_推荐系统 RES_用户指南_自定义场景_算法介绍及参数说明

5.3 算法介绍及参数说明

5.3.4 排序策略-离线排序模型

排序策略简介

排序策略用于训练排序模型，该模型将被用于对召回策略召回的候选集进行排序，以将推荐物品顺序调整到最优。

Logistic Regression (LR)

LR算法是一种广义的线性回归分析模型，常用于数据挖掘、疾病自动诊断、经济预测等领域。LR算法通过在线性回归的基础上叠加一个sigmoid激活函数将输出值映射到 [0,1]之间，是机器学习领域里常用的二分类算法。

表5-18 逻辑斯蒂回归参数说明 参数名称说明

名称自定义策略名称，由中文、英文、数字、下划线、空格或者中划线组成，并且不能以空格开始和结束，长度为1~64个字符。

描述对于该策略的描述信息。

最大迭代轮数模型训练的最大迭代轮数，默认50。

提前终止训练

轮数在测试集上连续N轮迭代AUC无提高时，迭代停止，训练提前结束，默认5。

参数名称说明

初始化方法模型参数的初始化方法。

● normal：正态分布平均值：默认0 标准差：0.001

● uniform ：均匀分布

最小值：默认-0.001，均匀分布的最小值，必须小于最大值。

最大值：默认0.001，均匀分布的最大值，必须大于最小值。

● xavier：

初始化初始值为均值为0，方差为 Var(wi)=1/nin 的均匀分布估计（First Moment Estimation，即梯度的均值）和二阶矩估计（Second Moment Estimation，即梯度的未中心化的方差）

进行综合考虑，依次计算出更新步长。

– 学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.001。

– 数值稳定常量：为保证数值稳定而设置的一个微小常量。默认1e-8。

● adagrad：自适应梯度算法

对每个不同的参数调整不同的学习率，对频繁变化的参数以更小的步长进行更新，而稀疏的参数以更大的步长进行更新。

– 学习率：优化算法的参数，决定优化器在最优方向上前进步长的参数。默认0.001。

– 初始梯度累加和：梯度累加和用来调整学习步长。默认0.1。

● ftrl：Follow The Regularized Leader

适用于处理超大规模数据的，含大量稀疏特征的在线学习的常见

参数名称说明正则损失计算

方式

正则损失计算当前有两种方式。

● full：指针对全量参数计算。

● batch：则仅针对当前批数据中出现的参数计算说明batch模式计算速度快于full模式。

重新训练对第一次训练无影响，仅影响任务重跑。

● “是”：清空上一轮的模型结果后重新开始训练。

● “否”：导入上一轮的训练结果继续训练。适用于欠拟合的情况。

批量大小一次训练所选取的样本数。

训练数据集切

分数量将整个数据集切分成多个子数据集，依次训练，每个epoch训练一个子数据集。

DeepFM

DeepFM，结合了FM和深度神经网络对于特征表达的学习，同时学习高阶和低阶特征组合，从而达到准确地特征组合学习，进行精准推荐。

表5-19 深度网络因子分解机参数说明

参数名称说明

名称自定义策略名称，由中文、英文、数字、下划线、空格或者中划线组成，并且不能以空格开始和结束，长度为 1~64个字符。

描述对于该策略的描述信息。

最大迭代轮数模型训练的最大迭代轮数，默认50。

提前终止训练轮数在测试集上连续N轮迭代AUC无提高时，迭代停止，训练提前结束，默认5。

参数名称说明

初始化方法模型参数的初始化方法。

● normal：正态分布平均值：默认0 标准差：0.001

● uniform ：均匀分布

最小值：默认-0.001，均匀分布的最小值，必须小于最大值。

最大值：默认0.001，均匀分布的最大值，必须大于最小值。

● xavier：

初始化初始值为均值为0，方差为 Var(wi)=1/nin 的均匀分布（高斯或者随机分布）。其中 nin 是该神经元的输入数目。

参数名称说明度的一阶矩估计（First Moment Estimation，即梯度的均值）和二阶矩估计（Second Moment

Estimation，即梯度的未中心化的方差）进行综合考

● adagrad：自适应梯度算法

对每个不同的参数调整不同的学习率，对频繁变化的

● ftrl：Follow The Regularized Leader

适用于处理超大规模数据的,含大量稀疏特征的在线学说明batch模式计算速度快于full模式。

隐向量长度分解后的表示特征的向量的长度。默认10。

神经网络结构神经网络的层数与每一层的神经元节点个数。默认 400,400,400。

参数名称说明

激活函数神经网络中的激活函数，将一个（或一组）神经元的值映射为一个输出值。

● relu

● tanh

● sigmoid

神经元值保留概率神经网络前向传播过程中以该概率保留神经元的值。默认 0.8。

重新训练对第一次训练无影响，仅影响任务重跑。

● “是”：清空上一轮的模型结果后重新开始训练。

● “否”：导入上一轮的训练结果继续训练。适用于欠拟合的情况。

批量大小一次训练所选取的样本数。

训练数据集切分数量将整个数据集切分成多个子数据集，依次训练，每个 epoch训练一个子数据集。

AutoGroup

AutoGroup，使用自动分组技术探索高阶特征交互组合，更深层次地挖掘出多个特征间联系，增强模型排序效果。

表5-20 AutoGroup 参数说明

参数名称说明

名称自定义策略名称，由中文、英文、数字、下划线、空格或者中划线组成，并且不能以空格开始和结束，长度为 1~64个字符。

描述对于该策略的描述信息。

最大交互阶数算法探索的最大的特征交互阶数。例如，当设定最大交互阶数为4时，算法会探索2阶、3阶、4阶的特征交互组合。默认3。

各阶隐向量长度各阶特征交互使用的隐向量长度，数量需对应最大交互阶数。默认10,60,80。

哈希长度每阶特征交互所选择的group数量，数量需对应最大交互阶数。默认10,60,80。

特征交互层惩罚项系数特征交互层输出值的惩罚项系数，用来防止过拟合。默认 0.0001,0.0001,0.0001。

参数名称说明

激活函数神经网络中的激活函数，将一个（或一组）神经元的值映射为一个输出值。

● relu

● tanh

● sigmoid

神经元值保留概率神经网络前向传播过程中以该概率保留神经元的值。默认度的一阶矩估计（First Moment Estimation，即梯度的均值）和二阶矩估计（Second Moment

Estimation，即梯度的未中心化的方差）进行综合考

● adagrad：自适应梯度算法

对每个不同的参数调整不同的学习率，对频繁变化的

● ftrl：Follow The Regularized Leader

适用于处理超大规模数据的,含大量稀疏特征的在线学

参数名称说明

正则损失计算方式正则损失计算当前有两种方式。

● full：指针对全量参数计算。

● batch：则仅针对当前批数据中出现的参数计算说明batch模式计算速度快于full模式。

L2正则项系数叠加在模型的2范数之上，用来对模型值进行限制防止过拟合。默认0。

隐向量层L2正则化系数隐向量层使用的L2正则化系数，作用如“L2正则项系数”描述。默认0.001。

wide部分L2正则化系数 wide层使用的L2正则化系数，作用如“L2正则项系数”

描述。默认0.001。

最大迭代轮数模型训练的最大迭代轮数，默认50。

提前终止训练轮数在测试集上连续N轮迭代AUC无提高时，迭代停止，训练提前结束，默认5。

重新训练对第一次训练无影响，仅影响任务重跑。

● “是”：清空上一轮的模型结果后重新开始训练。

● “否”：导入上一轮的训练结果继续训练。适用于欠拟合的情况。

批量大小一次训练所选取的样本数。

训练数据集切分数量将整个数据集切分成多个子数据集，依次训练，每个 epoch训练一个子数据集。

融合多值特征将多值特征的多个embedding融合成一个embedding。

融合线性部分是否使用模型架构中的线性部分。

固定哈希结构是否固定结构参数。默认值为“否”，非特殊情况建议使用默认值。

在文檔中效果评估_推荐系统 RES_用户指南_自定义场景_算法介绍及参数说明_华为云 (頁 65-72)