• 沒有找到結果。

错误码

4.2.2 创建数据集

功能介绍

创建数据集。

调试

您可以在API Explorer中调试该接口。

URI

POST /v2/{project_id}/datasets

4-19 路径参数

参数 是否必选 参数类型 描述

project_id 是 String 用户项目ID。获取方法请参见获 取项目ID。

请求参数

4-20 请求 Body 参数

参数 是否必选 参数类型 描述

data_format 否 String 数据格式。可选值如下:

● Default:默认格式

● CarbonData:Carbon格式

(仅表格数据集支持)

data_sources 否 Array of DataSource objects

数据集输入位置,用于将此目录 及子目录下的源数据(如图片/文 件/音频等)同步到数据集。对于 表格数据集,该参数为导入目 录。表格数据集的工作目录不支 持为KMS加密桶下的OBS路径。

dataset_name 是 String 数据集名称,名称只能是中文、

字母、数字、下划线或中划线组 成的合法字符串,长度为1-100 位,如“dataset-9f3b”。

参数 是否必选 参数类型 描述

dataset_type 否 Integer 数据集类型。可选值如下:

● 0:图像分类

description 否 String 数据集描述,默认为空,描述不 能包含^!<>=&"'等特殊字符,长 度为0-256。

import_annot

ations 否 Boolean 是否自动导入输入目录下的标注

信息,支持检测/图像分类/文本

import_data 否 Boolean 是否导入数据,此参数当前仅表 格数据集使用。可选值如下:

● true:创建数据集时导入数 据

● false:创建数据集时不导入 数据(默认值)

label_format 否 LabelFormat

object 标签格式信息,此参数仅文本类 数据集使用。

labels 否 Array of

Label objects 数据集标签列表。

managed 否 Boolean 是否是托管数据集。可选值如 下:

● true:托管数据集

● false:不托管数据集(默认 值)

参数 是否必选 参数类型 描述 schema 否 Array of Field

objects Schema列表。

work_path 是 String 数据集输出位置,用于存放输出 的标注信息等文件。

● 格式为 “/桶名称/文件路 径”,例如“/obs-bucket/

flower/rose/”(使用目录作 为路径)。

● 不能直接使用桶作为路径。

● 输出位置不能与输入位置相 同或者是输入位置的子目 录。

● 长度限制:不少于3字符,不 能超过700个字符。

work_path_ty

pe 是 Integer 数据集输出路径类型。可选值如

下:

● 0:OBS桶(默认值)

workforce_inf

ormation 否 WorkforceInf ormation object

团队标注信息。

workspace_id 否 String 工作空间ID。若未创建工作空 间,默认值为“0”;若存在创 建并使用的工作空间,以实际取 值为准。

4-21 DataSource

参数 是否必选 参数类型 描述

data_path 否 String 数据源所在路径。

data_type 否 Integer 数据类型。可选值如下:

● 0:OBS桶(默认值)

● 1:GaussDB(DWS)服务

● 2:DLI服务

● 3:RDS服务

● 4:MRS服务

● 5:AI Gallery

● 6:推理服务

参数 是否必选 参数类型 描述 schema_maps 否 Array of

SchemaMap objects

表格数据对应的schema映射信 息。

source_info 否 SourceInfo

object 导入表格数据源所需的信息。

with_column_

header 否 Boolean 文件中首行是否是列名,用于表

格数据集。可选值如下:

● true:文件首行为列名

● false:文件首行不为列名

4-22 SchemaMap

参数 是否必选 参数类型 描述

dest_name 否 String 目的方的列名。

src_name 否 String 来源方的列名。

4-23 SourceInfo

参数 是否必选 参数类型 描述

cluster_id 否 String MRS集群ID。

cluster_mode 否 String MRS集群运行模式。可选值如 下:

● 0:普通集群

● 1:安全集群 cluster_name 否 String MRS集群名称。

database_na

me 否 String 导入表格数据集,数据库名字。

input 否 String 表格数据集,HDFS路径。

ip 否 String 用户GaussDB(DWS)集群的IP地 址。

port 否 String 用户GaussDB(DWS)集群的端 口。

queue_name 否 String 表格数据集,DLI队列名。

subnet_id 否 String MRS集群的子网ID。

table_name 否 String 导入表格数据集,表名。

参数 是否必选 参数类型 描述

user_name 否 String 用户名,GaussDB(DWS)数据需 提供此参数。

user_passwor

d 否 String 用户密码,GaussDB(DWS)数据

需提供此参数。

vpc_id 否 String MRS集群所在的vpc的ID。

4-24 LabelFormat

参数 是否必选 参数类型 描述

label_type 否 String 文本分类的标签类型。可选值如 下:

● 0:标签和文本分离,以固定 后缀“_result”区分。如:

文本文件是“abc.txt”,标 签文件是“abc_result.txt”。

● 1:默认值,标签和文本在一

arator 否 String 标签与标签之间的分隔符,默认

为逗号分隔,分隔符需转义。分

eparator 否 String 文本与标签之间的分隔符,默认 为Tab键分隔,分隔符需转义。

attributes 否 Array of LabelAttribut e objects

标签的多维度属性,如标签为

“音乐”,可能包含属性“风 格”、“歌手”等。

参数 是否必选 参数类型 描述

name 否 String 标签名称。

property 否 LabelPropert

y object 标签基本属性键值对,如颜色、

快捷键等。

type 否 Integer 标签类型。可选值如下:

● 0:图像分类

● 1:物体检测

● 3: 图像分割

● 100:文本分类

● 101:命名实体

● 102:文本三元组关系标签

● 103:文本三元组实体标签

● 200:语音分类

● 201:语音内容

● 202:语音分割

● 600:视频标注

4-26 LabelAttribute

参数 是否必选 参数类型 描述

default_value 否 String 标签属性默认值。

id 否 String 标签属性ID。

name 否 String 标签属性名称。

type 否 String 标签属性类型。可选值如下:

● text:文本

● select:单选下拉列表 values 否 Array of

LabelAttribut eValue objects

标签属性值列表。

4-27 LabelAttributeValue

参数 是否必选 参数类型 描述

id 否 String 标签属性值ID。

value 否 String 标签属性值。

4-28 LabelProperty

参数 是否必选 参数类型 描述

@modelarts:c

olor 否 String 内置属性:标签展示的颜色,为

色彩的16进制代码,默认为 空。例如:“#FFFFF0”。

@modelarts:d

efault_shape 否 String 内置属性:物体检测标签的默认 形状(物体检测标签专用属 性),默认为空。可选值如下:

● bndbox:矩形。

● polygon:多边形。

● circle:圆形。

● line:直线。

● dashed:虚线。

● point:点。

● polyline:折线。

@modelarts:fr

om_type 否 String 内置属性:三元组关系标签的起

始实体类型,创建关系标签时必 须指定,该参数仅文本三元组数 据集使用。

@modelarts:r

ename_to 否 String 内置属性:重命名后的标签名。

@modelarts:s

hortcut 否 String 内置属性:标签快捷键,默认为

空。例如:“D”。

@modelarts:t

o_type 否 String 内置属性:三元组关系标签的指

向实体类型,创建关系标签时必 须指定,该参数仅文本三元组数 据集使用。

4-29 Field

参数 是否必选 参数类型 描述

description 否 String Schema描述。

name 否 String Schema名称。

schema_id 否 Integer Schema ID。

type 否 String Schema值类型。

4-30 WorkforceInformation

repetition 否 Integer 每个样本由多少人标注,最少为 1。

task_id 否 String 团队标注任务ID。

task_name 是 String 团队标注任务名称,名称只能是 中文、字母、数字、下划线或中 划线组成的合法字符串,长度为 1-64位。

workforces_co

nfig 否 WorkforcesC

onfig object 团队标注任务的人力分配,委托 管理员或自行分配二选一。

4-31 WorkforcesConfig

参数 是否必选 参数类型 描述

agency 否 String 管理员。

workforces 否 Array of WorkforceCo nfig objects

执行标注任务的团队列表。

4-32 WorkforceConfig

参数 是否必选 参数类型 描述

workers 否 Array of Worker objects

标注成员列表。

workforce_id 否 String 标注团队ID。

workforce_na

me 否 String 标注团队名称,名称不能包含!

<>=&"',长度为0-1024位。

4-33 Worker

参数 是否必选 参数类型 描述

create_time 否 Long 创建时间。

description 否 String 标注成员描述,长度为0-256 位,不能包含^!<>=&"'特殊字 符。

email 否 String 标注成员邮箱。

role 否 Integer 角色。可选值如下:

● 0:打标者

● 1:审核者

● 2:团队管理者

● 3:数据集拥有者

status 否 Integer 标注成员的当前登录状态。可选

值如下:

● 0:未发送邀请邮件

● 1:已发送邀请邮件但未登录

● 2:已登录

● 3:标注成员已删除

update_time 否 Long 更新时间。

worker_id 否 String 标注成员ID。

workforce_id 否 String 所属标注团队ID。

响应参数

状态码: 201

4-34 响应 Body 参数

参数 参数类型 描述

dataset_id String 数据集ID。

error_code String 错误码。

error_msg String 错误信息。

import_task_i

d String 导入任务ID。

请求示例

● 创建图像分类的数据集

{ "workspace_id" : "0",

"dataset_name" : "dataset-457f", "dataset_type" : 0,

"data_sources" : [ { "data_type" : 0,

"data_path" : "/test-obs/classify/input/cat-dog/"

} ],

"description" : "",

"work_path" : "/test-obs/classify/output/", "work_path_type" : 0,

"labels" : [ { "name" : "Cat", "type" : 0, "property" : {

"@modelarts:color" : "#3399ff"

} }, {

"name" : "Dog", "type" : 0, "property" : {

"@modelarts:color" : "#3399ff"

} } ] }

● 创建物体检测的数据集

{ "workspace_id" : "0",

"dataset_name" : "dataset-95a6", "dataset_type" : 1,

"data_sources" : [ { "data_type" : 0,

"data_path" : "/test-obs/detect/input/cat-dog/"

} ],

"description" : "",

"work_path" : "/test-obs/detect/output/", "work_path_type" : 0,

"labels" : [ { "name" : "Cat", "type" : 1, "property" : {

"@modelarts:color" : "#3399ff"

} }, {

"name" : "Dog", "type" : 1, "property" : {

"@modelarts:color" : "#3399ff"

} } ] }

● 创建表格型的数据集

{ "workspace_id" : "0",

"dataset_name" : "dataset-de83", "dataset_type" : 400,

"data_sources" : [ { "data_type" : 0,

"data_path" : "/test-obs/table/input/", "with_column_header" : true

} ],

"description" : "",

"work_path" : "/test-obs/table/output/", "work_path_type" : 0,

"schema" : [ { "name" : "versicolor", "type" : "STRING"

}, {

"schema_id" : 5, "name" : "virginica", "type" : "STRING"

} ],

"import_data" : true }

响应示例

状态码: 201 Created

{ "dataset_id" : "WxCREuCkBSAlQr9xrde"

}

状态码

状态码 描述

201 Created 401 Unauthorized 403 Forbidden 404 Not Found

错误码

请参见错误码。