• 沒有找到結果。

3.7.1 数据结构

当数据源创建完成,您可以进入数据源详情页面进行数据质量管理操作。数据质量管 理操作可以将离线数据源经过数据特征抽取,生成推荐系统内部通用的数据格式。经 过数据质量检测来确保数据的合法性。

数据结构介绍

数据结构步骤的主要目的是读取用户上传的离线数据,解析用户特征和物品特征中每 一个属性的数据格式、统计所有行为,然后保存解析生成的数据格式。

前提条件

已按照创建离线数据源操作指导完成数据源的创建。

操作步骤

1. 登录RES管理控制台,在左侧菜单栏中选择“数据源”,进入“数据源”列表页 面。单击目标数据源名称进入数据源详情页面。

2. 在“执行步骤”页签,单击“数据结构”下的“开始识别”,进入“识别”页 面,确认页面信息后单击“是”进行特征抽取。

3. 当执行完成“识别”状态为“已完成”时,进行“人工复核”确认操作。

4. 在“特征抽取”页签确认识别出的数据信息。

如果复核抽取的数据信息无误,单击“确认”,在“复核特征抽取”页面单击

该页面包含“用户特征”、“物品特征”、“正向行为类型”和“负向行为类 型”等信息,具体描述请参见表3-7。

3-3 确认特征抽取

3-7 确认特征参数

参数名称 说明

用户特征 列表中展示抽取的用户特征和参数类型。您可以根据业务 需求单击 增加用户特征。单击特征后方的 删除不需 要的用户特征。

物品特征 列表中展示抽取的物品特征和参数类型,此特征会额外应 用于所选字段的功能。您可以根据业务需求单击 增加 物品特征。单击特征后方的 删除不需要的物品特征。

您可以从“应用于”右侧的下拉选项中设置该数据的使用 维度是“兴趣属性”或者“关键词提取”。其中:

● 兴趣属性,此特征将会用于统计用户的兴趣标签,并 生成特征名为“interested_原特征名”的特征。

● 关键词提取,只有当关键词为content和title时会进行 关键词提取,并生成特征名为“keyword_原特征名”

的特征。

参数名称 说明

3. 执行完成在页面下方会生成数据相关报告。

– “数据导入报告”,显示数据“类型”、“总条目数”、“合法条目数”、

“非法条目数”、“重复度”和“合法率”信息。

– 类型包括生成的用户、物品、行为数据。您可以通过单击左侧的 查看具体 报告信息。

“名称”项显示具体参数的名称。

“条目数”显示各种类型数据的具体数量。

3-4 查看报告

– 如果导入错误,会生成“数据导入错误报告”,显示数据“类型”、“数 量”和“原因”,方便您定位问题原因。

4. (可选)如果用户更新了数据源,可以重新导入数据。

a. 单击“数据导入报告”后的“执行”,重新进行数据导入。

3-5 重新导入数据

3-8 参数解释

参数 说明

导入画像 选择是否导入画像。

参数 说明

导入宽表 选择是否导入宽表。

宽表为推荐系统内部格式, 以行为数据为主,

将行为数据中涉及到的用户数据和物品数据整 合成一条数据。

保留已有宽表 选择对已有宽表是否保留。目前支持覆盖、

是、否。

开启调度 开启调度,可按照您所设置的时间周期性的提 交任务。

● “调度周期”:调度周期可选“天”或

“周”。

● “调度类型”:包括自定义和间隔调度。

● “开始调度时间”:选择具体的调度时间。

可在此下拉框中勾选具体的时间点。

● “时间间隔(小时)”:如果选择的调度类 型为间隔调度,需要配置调度的时间间隔。

b. 设置完成后,单击“确定”,重新导入数据。

3.7.3 数据探索

数据探索介绍

数据探索是针对当前数据源的数据进行挖掘和分析,主要聚焦在特征的分布范围、统 计以及特征齐全度等,使用户能够更了解数据,进而指导在特征工程以及相关算法的 配置。

数据探索是一个离线分析任务,任务有对应的启动时间,由于增量数据会实时入库,

因此可以通过定时执行数据探索任务来覆盖增量数据。

操作步骤

1. 在“执行步骤”页签,单击数据探索下的“执行”。进入“数据探索”页面,确 认页面信息后单击“是”。待状态为“已完成”时,完成数据格式的转化。

2. 执行完成在页面下方会显示数据探索报告,包括“用户报表”、“物品报表”、

“行为报表”和“画像查询”。

3. 单击目标报表名称查看具体报表信息。

3-6 查看报表

– 用户报表:根据不同数据格式展示用户数据的类型、最大值和最小值。您可 以单击相关数据后的 查看数据的详细信息。

百分位数:将数据进行排序,统计该数据在整个数据中所占的百分比。

3-7 百分位数

分布统计:通过查看分布统计了解各参数下参数值的分布情况。如可以 根据性别展示数据中的性别数据分布。可通过查看标签,了解数据中各 种标签的分布情况。

3-8 分布统计

– 行为报表:行为报表展示各种行为类型以及该数据中此行为出现的次数。

– 画像查询:可以查询指定的用户或物品画像信息,包括静态和动态。