多语种文本分类工作流 - 可训练技能模板介绍_企业级AI应用开发专业套件 ModelArts Pro_用户指南_HiLens套件_HiLens安全帽检测技能

3.4.1 工作流介绍

工作流介绍

● 功能介绍

支持自主上传多语种文本数据，构建高精度文本分类预测模型，此工作流支持文本分类的语种包括英语、法语、德语、西班牙语、葡萄牙语、阿拉伯语等，支持单标签分类和多标签分类。

● 适用场景

智能问答、舆情分析、内容推荐等场景。

● 优势

– 针对场景领域提供预训练模型，分类准确率高。

– 提供完善的文本处理能力，支持多种数据格式内容，适配不同场景的业务数据。

– 可根据使用过程中的反馈持续优化模型。

工作流流程

在“ModelArts Pro>自然语言处理套件”控制台，选择“我的工作流>多语种文本分类工作流”新建应用，详细操作请见新建应用。您可以开发多语种的文本分类应用，通

上传至OBS中。

准备数据应的API。

部署服务

3.4.2 准备数据

在使用多语种文本分类工作流开发应用之前，您需要提前准备用于模型训练的数据，

上传至OBS服务中。

设计分类标签

首先需要确定好文本分类的标签，即希望识别出文本的一种结果。例如分类用户对商品的评论，则可以以“positive”、“neutral”、“negative”等作为用户对某商品评论的分类标签，可以设计为“positive”和“negative”两类标签，也可以设计为

“positive”、“neutral”、“negative”等多类标签。

数据集要求

● 文件格式要求为txt或者csv，且编码格式为“UTF-8”格式，文件大小不能超过 8MB。

说明

● txt文件编码保存为“UTF-8”格式：

1. 打开txt文件。

2. 单击左上角的“文件”，选择“另存为”。

3. “编码”选择“UTF-8”格式。

● csv文件编码保存为“UTF-8”格式：

1. 右键单击csv文件，“打开方式”选择“记事本”。了训练出效果较好的模型，建议每个分类标签准备100个以上的数据。

● 多语种文本分类工作流仅支持对单语种的文本分类，当前支持文本分类的语种包括英语、法语、德语、西班牙语、葡萄牙语、阿拉伯语等。暂不支持对同一文本中含多语种的文本进行分类训练。

● 针对未标注数据，将待标注的内容放在一个文本文件内。

● 针对已标注数据，文本分类的标注对象和标签在一个文本文件内，标注对象与标签之间，采用Tab键分隔，多个标签之间采用英文逗号分隔。

例如，文本文件的内容如下所示。标注对象与标注内容之间采用Tab键分隔。

It feels very good, and the reaction speed is very fast. positive

I bought one three months ago and used it very well and decisively replaced the old phone. positive How can the power become hot even if the battery is not charged for a while? negative

The headphones are great. Some subwoofers feel very tight in the ears and won’t fall off. positive

上传数据至 OBS

使用ModelArts Pro进行应用开发时，您需要将数据上传至OBS桶中。

1. 首先需要获取访问OBS权限，在未进行委托授权之前，无法使用此功能。您需要提前获得OBS授权，详情请见配置访问权限。

2. 已创建用于存储数据的OBS桶及文件夹，且数据存储的OBS桶与ModelArts Pro在同一区域（目前仅支持华为-北京四），详情请见创建OBS桶。

3. 上传数据至OBS，OBS上传数据的详细操作请参见《对象存储服务快速入门》。

说明

● 您在创建OBS桶时，需保证您的OBS桶与ModelArts Pro在同一个区域。

● 建议根据业务情况及使用习惯，选择OBS使用方法。

● 如果您的数据量较小（小于100MB）或数据文件较少（少于100个），建议您使用控制台上传数据。控制台上传无需工具下载或多余配置，在少量数据上传时，

更加便捷高效。

● 如果您的数据量较大或数据文件较多，建议选择OBS Browser+或obsutil工具上传。OBS Browser+是一个比较常用的图形化工具，支持完善的桶管理和对象管理操作。推荐使用此工具创建桶或上传对象。obsutil是一款用于访问管理OBS的命令行工具，对于熟悉命令行程序的用户，obsutil是执行批量处理、自动化任务较好的选择。

● 如果您的业务环境需要通过API或SDK执行数据上传操作，或者您习惯于使用API 和SDK，推荐选择OBS的API或SDK方法创建桶和上传对象。

上述说明仅罗列OBS常用的使用方式和工具，更多OBS工具说明，请参见《OBS 工具指南》。

a. 登录“ModelArts Pro>自然语言处理套件”控制台。

默认进入“应用开发>工作台”页面。

b. 选择已新建的应用名称，单击“操作”列的“查看”。

进入“应用总览”页面。

图3-28 查看应用

c. 在开发版本列表中单击“操作”列的“查看”。

进入“应用开发”页面。

图3-29 开发版本列表

新建数据集

在“数据选择”页面，单击“新建数据集”，右侧弹出“新建数据集”页面，根据数据存储位置和数据标注情况，按表3-7填写数据集基本信息，然后单击“确定”。

图3-30 新建数据集

表3-7 新建数据集参数说明

参数说明

数据集名称待新建的数据集名称。

描述数据集简要描述。

参数说明位置”对话框中，选择“OBS桶”和“文件夹”，然后单击

“确定”。

数据集输出位置待新建的数据集存储至OBS的位置。

单击“数据集输出位置”右侧的“修改”，在弹出的“数据集输出位置”对话框中，选择“OBS桶”和“文件夹”，然后单击“确定”。

图3-31 导入数据集

2. 勾选数据集，然后单击“确定”。

数据集导入后，“数据选择”页面右上角会显示“导入成功”。

3. 导入勾选数据集后，在数据选择页面勾选当前应用开发所需的训练数据集。

由于模型训练过程需要有标签的数据，如果您上传的是已标注数据，上传后可查看标签解析。如果您想手动修改标签，可单击数据集操作列的“标注”，进入数据集概览页单击右上角的“开始标注”，在“数据标注”页面手动修改标注数据，详细的操作指导请参考标注数据-文本分类。

如果您上传的是未标注数据，您单击数据集操作列的“标注”，进入数据集概览页单击右上角的“开始标注”，在“数据标注”页面手动标注数据，详细的操作指导请参考标注数据-文本分类。

合并标签

针对所选择的训练数据集，如果每个标签的样本数量太少，可以选择合并标签。

打开合并标签开关，在下方填入需要合并的标签样本数量“上限值”，以及合并标签后新的“标签名”。

图3-32 合并标签

查看标签解析

新建并选择训练数据集后，针对已标注的数据，您可以在“标签解析”中查看标签样本的统计数据，横轴为“标签”，纵轴为标签对应的有效“样本数”。

图3-33 标签解析

后续操作

在“数据选择”页面选择训练数据集，并针对未标注的数据进行数据标注，然后单击

“下一步”，进入应用开发的“模型训练”步骤，详细操作指引请参见训练模型。

3.4.4 训练模型

选择训练数据后，基于已标注的训练数据，选择预训练模型、配置参数，用于训练文本分类模型。

前提条件

已在自然语言处理套件控制台选择“多语种文本分类工作流”新建应用，并选择训练数据集，详情请见选择数据。

训练模型

图3-34 模型训练

在“模型训练”页面，勾选模型训练所使用的“预训练模型”，并配置训练参数，开始训练模型。

● 预训练模型

当前服务提供预置预训练模型“高精版”、“均衡版”、“基础版”，在“预训练模型”列表中可查看“模型精度”、“推理速度”、“训练速度”和模型“简介”。

● 参数配置

在“参数配置”填写“学习率”、“训练轮次”和“语种”。

– “学习率”用来控制模型的学习速度，范围为(0,1]。

– “训练轮次”指模型训练中遍历数据集的次数。

– “语种”指文本数据的语言种类。

确认信息后，单击“开始训练”。

模型训练一般需要运行一段时间，等模型训练完成后，“模型训练”页面下方显示训练详情。

查看训练详情

模型训练完成后，可在“模型训练”页面查看“训练详情”，包括“准确率变化情况”和“误差变化”。

图3-35 训练详情

模型如何提升效果

● 检查是否存在训练数据过少的情况，建议每个标签的样本数不少于100个，如果低于这个量级建议扩充。

● 检查不同标签的样本数是否均衡，建议不同标签的样本数量级相同，并尽量接近，如果有的类别数据量很高，有的类别数据量较低，会影响模型整体的识别效果。

● 选择适当的学习率和训练轮次。

● 通过详细评估中的错误识别示例，有针对性地扩充训练数据。

后续操作

模型训练完成后，单击“下一步”，进入应用开发的“模型评估”步骤，详细操作指引请参见评估模型。

3.4.5 评估模型

训练得到模型之后，整个开发过程还不算结束，需要对模型进行评估和考察。往往不能一次性获得一个满意的模型，需要反复的调整算法参数、数据，不断评估训练生成的模型。

一些常用的指标，如精准率、召回率、F1值等，能帮助您有效的评估，最终获得一个满意的模型。

前提条件

已在自然语言处理套件控制台选择“多语种文本分类工作流”新建应用，并训练模型，详情请见训练模型。

整体评估

在“模型评估”页面，您可以针对当前版本的模型进行整体评估。

“整体评估”左侧显示当前模型的版本、标签数量、验证集数量。

“整体评估”右侧显示当前模型的评估参数值，包括“精准率”、“召回率”、“F1 值”。您可以在上方单击选择“评估范围”，单击 “添加对比版本”。

图3-36 整体评估

详细评估

在“模型评估”页面，您可以搜索查看测试集中数据模型预测结果。

“详细评估”左侧在搜索框中搜索标签，右侧显示正确标签所对应样本的正确标签和预测标签，您可以对比正确标签和预测标签，判断当前模型对该样本的预测是否正确。

例如搜索框内输入标签“1”，下方会显示正确标签为“1”的样本中，预测正确的样本数在验证集中的占比。右侧显示正确标签为“1”的样本信息，包括样本的正确标签和预测标签。

图3-37 详细评估

后续操作

针对当前版本的模型，经过“整体评估”和“详细评估”后，如果根据业务需求，模型还需继续优化，请单击“上一步”，回到“模型训练”步骤，详细操作指导请见训练模型。

如果模型已达到业务需求，请单击“发布部署”，进入“服务部署”步骤，详情请见部署服务。

3.4.6 部署服务

模型准备完成后，您可以部署服务，开发属于自己的语种文本分类应用，此应用用于

在文檔中可训练技能模板介绍_企业级AI应用开发专业套件 ModelArts Pro_用户指南_HiLens套件_HiLens安全帽检测技能_华为云 (頁 69-80)