使用PyCharm ToolKit工具,可以快速将本地开发的训练代码,提交至ModelArts公有 云侧进行训练。ModelArts管理控制台的创建训练操作指导请参见训练作业。
前提条件
● 在本地PyCharm中已有训练代码工程。
● 训练作业使用的数据已上传至OBS,且OBS与ModelArts在同一区域。
● 使用PyCharm ToolKit提交训练作业,仅限于旧版训练作业,暂不支持新版训练作 业。
配置训练作业参数
1. 在PyCharm中,打开训练代码工程和训练启动文件,然后在菜单栏中选择
“ModelArts > Edit Training Job Configuration”。
图3-1 选择作业配置
参数 说明
Job Description 训练作业的简要描述。
Algorithm Souce 训练算法来源,分为“常用框架”和“自定义镜像”两 种,二者选一项即可。常用框架指使用ModelArts训练管理 中支持的常用AI引擎,当前支持的引擎列表请参见训练管理 支持的常用框架。如果您使用的AI引擎为支持列表之外的,
建议使用自定义镜像的方式创建训练作业。
AI Engine 选择代码使用的AI引擎及其版本。支持的AI引擎与
ModelArts管理控制台中训练作业支持的常用框架一致。详 情可参见训练管理支持的常用框架。
Boot File Path 训练启动文件,所选启动文件必须是当前PyCharm训练工 程中的文件。
Code Directory 训练代码目录,系统会自动填写为训练启动文件所在的目 录,用户可根据需要修改,所选目录必须是当前工程中的 目录且包含启动文件。
当算法来源为自定义镜像,训练代码已预置在镜像中时,
该参数可以为空。
Image Path
SWR镜像的URL地址,例如swr.cn-
north-4.myhuaweicloud.com/image-org/image-name:version。关于自定义镜像的说明,请参见自定义镜 像介绍。
Boot Command 启动本次训练作业的运行命令。例如“bash /home/work/
run_train.sh python {python启动文件及参数}”
当用户输入的命令中不包含“--data_url”和“--train_url”参数时,工具在提交训练作业时会在命令后面自 动添加这两个参数,分别对应存储训练数据的OBS路径和存 放训练输出的OBS路径。
OBS Path 设置OBS路径,该路径下会自动创建用于存放训练输出模型 和训练日志的目录。
Data Path in
OBS 设置为存储训练数据的OBS路径,例如“/test-modelarts2/
mnist/dataset-mnist/”,其中“test-modelarts2”为桶名 称。
Specifications 训练使用资源类型。目前支持公共资源池和专属资源池两 种类型。规格与ModelArts管理控制台中训练作业支持的规 格一致,详情可参见使用常用框架训练模型。专属资源池 规格以“Dedicated Resource Pool”标识。只有购买了专 属资源池的用户才会显示专属资源池规格。专属资源池购 买指导请参见创建专属资源池。
Compute Nodes 计算资源节点个数。数量设置为1时,表示单机运行;数量 设置大于1时,表示后台的计算模式为分布式。
Available/Total
Nodes 当“Specifications”选择专属资源池规格时,显示专属资 源池的可用节点数和总节点数,用户选择“Compute Nodes”的个数不要超过可用节点数。
工具指南 3 训练模型
参数 说明 Running
Parameters 运行参数。如果您的代码需要添加一些运行参数,可以在 此处添加,多个运行参数使用英文分号隔开, 例如
"key1=value1;key2=value2"。此参数也可以不设置,即保 持为空。
图3-2 配置训练作业参数(公共资源池)
图3-3 配置训练作业参数(专属资源池)
工具指南 3 训练模型
图3-4 配置训练作业参数(自定义镜像)
3. 参数填写完成后,单击“Apply and Run”。即自动上传本地代码至云端并启动训 练,在工具下方的Training Log区域,会实时展示训练作业运行情况。当训练日志 中出现“Current training job status: Successful”类似信息时,表示训练作业运 行成功。
说明
● 在单击“Apply and Run”按钮后,系统将自动开始执行训练作业。如果您想停止此作 业,可以选择菜单栏中的“ModelArts > Stop Training Job”停止此作业。
● 如果单击“Apply”,不会直接启动运行,只是保存训练作业的设置,如果需要启动作 业,可以选择菜单栏中的“ModelArts > Run Training Job”启动此作业。
图3-5 训练日志展示样例