• 沒有找到結果。

错误码

4.2.3 查询数据集详情

功能介绍

查询数据集详情。

调试

您可以在API Explorer中调试该接口。

URI

GET /v2/{project_id}/datasets/{dataset_id}

4-35 路径参数

参数 是否必选 参数类型 描述

dataset_id 是 String 数据集ID。

project_id 是 String 用户项目ID。获取方法请参见获 取项目ID。

4-36 Query 参数

参数 是否必选 参数类型 描述

check_runnin

g_task 否 Boolean 是否检测数据集中正在运行(包

括初始化)的任务。可选值如 下:

● true:检测数据集中正在运 行(包括初始化)的任务

● false:不检测数据集中正在 运行的任务(默认值)

参数 是否必选 参数类型 描述 running_task_

type 否 Integer 指定需要检测的正在运行任务

(包括初始化)的类型。可选值 如下:

● 0:自动标注

● 1:预标注

● 2:导出任务

● 3:切换版本

● 4:导出manifest

● 5:导入manifest

● 6:发布版本

● 7:自动分组

● 10:一键模型上线任务(默 认值)

请求参数

响应参数

状态码: 200

4-37 响应 Body 参数

参数 参数类型 描述

annotated_sa

mple_count Integer 数据集已标注的样本总数。

annotated_su b_sample_cou nt

Integer 已标注的子样本数量。

content_labeli

ng Boolean 语音分割数据集是否开启内容标注,默认开启。

create_time Long 数据集的创建时间。

current_versio

n_id String 数据集的当前版本ID。

current_versio

n_name String 数据集的当前版本名称。

data_format String 数据格式。

参数 参数类型 描述 data_sources Array of

DataSource objects

数据来源列表。

data_statistics Map<String,O

bject> 数据集的样本统计信息,包括样本元信息的统 计。

data_update_t

ime Long 样本和标签的更新时间。

dataset_form

at Integer 数据集格式。可选值如下:

● 0:文件型

● 1:表格型 dataset_id String 数据集ID。

dataset_name String 数据集名称。

dataset_tags Array of

strings 数据集关键标识列表,例如:["图片","物体检测

"]。

dataset_type Integer 数据集类型。可选值如下:

● 0:图像分类

n_count Integer 数据集的版本数量。

deleted_samp

le_count Integer 已删除的样本数量。

deletion_stats Map<String,In

teger> 删除原因统计信息。

description String 数据集的描述。

enterprise_pro

ject_id String 企业项目ID。

参数 参数类型 描述 exist_running_

task Boolean 该数据集是否存在正在运行(包括初始化)的任 务。可选值如下:

● true:数据集存在正在运行的任务

● false:数据集不存在正在运行的任务 exist_workforc

e_task Boolean 数据集是否含团队标注任务。可选值如下:

● true:数据集包含团队标注任务

● false:数据集不包含团队标注任务 feature_suppo

rts Array of

strings 数据集支持的特性列表。当前只支持特性值

“0”,表示限制OBS文件大小。

import_data Boolean 是否导入数据。可选值如下:

● true:导入数据

● false:不导入数据 import_task_i

d String 导入任务ID。

inner_annotat

ion_path String 数据集内部标注结果的保存路径。

inner_data_pa

ath String 数据集内部临时文件的保存路径。

inner_work_p

ath String 数据集内部的输出目录。

label_task_co

unt Integer 标注任务数量。

labels Array of

Label objects 数据集标签列表。

loading_samp

le_count Integer 正在加载的样本数量。

managed Boolean 是否是托管数据集。可选值如下:

● true:托管数据集

● false:非托管数据集 next_version_

num Integer 数据集下个版本数。

参数 参数类型 描述 running_tasks

_id Array of

strings 正在运行(包括初始化)任务ID列表。

schema Array of Field

objects Schema列表。

status Integer 数据集状态。当前可选值:

● 0:数据集创建中 third_path String 第三方路径。

total_sample_

count Integer 数据集样本总数。

total_sub_sam

ple_count Integer 由父样本所产生的子样本总数,比如:从视频标 注数据集中抽取的关键帧图片总数就是子样本总 数。

unconfirmed_

sample_count Integer 智能标注待确认的标注样本数。

update_time Long 数据集的更新时间。

versions Array of DatasetVersi on objects

数据集版本信息列表,目前仅记录数据集当前版 本信息。

work_path String 数据集输出位置,用于存放输出的标注信息等文 件。此位置为OBS路径,格式为“/桶名称/文件 路径”。例如:“/obs-bucket”。

work_path_ty

pe Integer 数据集输出路径类型。可选值如下:

● 0:OBS桶(默认值)

workforce_des

criptor WorkforceDe scriptor object

团队标注信息。

workforce_tas

k_count Integer 数据集的团队标注任务数量。

workspace_id String 工作空间ID。未创建工作空间时默认值为“0”,

存在创建并使用的工作空间,以实际取值为准。

4-38 DataSource

参数 参数类型 描述

data_path String 数据源所在路径。

data_type Integer 数据类型。可选值如下:

● 0:OBS桶(默认值)

● 1:GaussDB(DWS)服务

● 2:DLI服务

● 3:RDS服务

● 4:MRS服务

● 5:AI Gallery

● 6:推理服务 schema_maps Array of

SchemaMap objects

表格数据对应的schema映射信息。

source_info SourceInfo

object 导入表格数据源所需的信息。

with_column_

header Boolean 文件中首行是否是列名,用于表格数据集。可选 值如下:

● true:文件首行为列名

● false:文件首行不为列名

4-39 SchemaMap

参数 参数类型 描述

dest_name String 目的方的列名。

src_name String 来源方的列名。

4-40 SourceInfo

参数 参数类型 描述

cluster_id String MRS集群ID。

cluster_mode String MRS集群运行模式。可选值如下:

● 0:普通集群

● 1:安全集群

参数 参数类型 描述

cluster_name String MRS集群名称。

database_na

me String 导入表格数据集,数据库名字。

input String 表格数据集,HDFS路径。

ip String 用户GaussDB(DWS)集群的IP地址。

port String 用户GaussDB(DWS)集群的端口。

queue_name String 表格数据集,DLI队列名。

subnet_id String MRS集群的子网ID。

table_name String 导入表格数据集,表名。

user_name String 用户名,GaussDB(DWS)数据需提供此参数。

user_passwor

d String 用户密码,GaussDB(DWS)数据需提供此参数。

vpc_id String MRS集群所在的vpc的ID。

4-41 Label

参数 参数类型 描述

attributes Array of LabelAttribut e objects

标签的多维度属性,如标签为“音乐”,可能包 含属性“风格”、“歌手”等。

name String 标签名称。

property LabelPropert

y object 标签基本属性键值对,如颜色、快捷键等。

type Integer 标签类型。可选值如下:

● 0:图像分类

● 1:物体检测

● 3: 图像分割

● 100:文本分类

● 101:命名实体

● 102:文本三元组关系标签

● 103:文本三元组实体标签

● 200:语音分类

● 201:语音内容

● 202:语音分割

● 600:视频标注

4-42 LabelProperty

参数 参数类型 描述

@modelarts:c

olor String 内置属性:标签展示的颜色,为色彩的16进制代 码,默认为空。例如:“#FFFFF0”。

@modelarts:d

efault_shape String 内置属性:物体检测标签的默认形状(物体检测 标签专用属性),默认为空。可选值如下:

● bndbox:矩形。

● polygon:多边形。

● circle:圆形。

● line:直线。

● dashed:虚线。

● point:点。

● polyline:折线。

@modelarts:fr

om_type String 内置属性:三元组关系标签的起始实体类型,创 建关系标签时必须指定,该参数仅文本三元组数 据集使用。

@modelarts:r

ename_to String 内置属性:重命名后的标签名。

@modelarts:s

hortcut String 内置属性:标签快捷键,默认为空。例如:

“D”。

@modelarts:t

o_type String 内置属性:三元组关系标签的指向实体类型,创 建关系标签时必须指定,该参数仅文本三元组数 据集使用。

4-43 Field

参数 参数类型 描述

description String Schema描述。

name String Schema名称。

schema_id Integer Schema ID。

type String Schema值类型。

4-44 DatasetVersion

参数 参数类型 描述

add_sample_c

ount Integer 新增样本数量。

analysis_cach

e_path String 特征分析的缓存路径。

analysis_statu

s Integer 特征分析任务的当前状态。可选值如下:

● 0:初始化

● 1:运行中

● 2:完成

● 3:失败 analysis_task_

id String 特征分析的任务ID。

annotated_sa

mple_count Integer 版本已标注样本的数量。

annotated_su b_sample_cou nt

Integer 已标注的子样本数量。

clear_hard_pr

operty Boolean 发布时是否清空难例属性。可选值如下:

● true:清空难例属性(默认值)

● false:不清空难例属性

code String 旋转裁剪等预处理任务的状态码。

create_time Long 版本创建时间。

crop Boolean 是否对图片进行裁剪,只对标注框形状为bndbox 的物体检测数据集有效。可选值如下:

● true:对图片进行裁剪

● false:不对图片进行裁剪(默认值)

crop_path String 裁剪后的文件存放路径。

crop_rotate_c

ache_path String 旋转裁剪任务执行的临时目录。

data_analysis Map<String,O

bject> 特征分析结果,json格式。

data_path String 数据保存路径。

data_statistics Map<String,O

bject> 数据集的样本统计信息,包括样本元信息的统 计,json格式。

参数 参数类型 描述

data_validate Boolean 发布前数据是否经过校验算法校验。可选值如 下:

● true:数据经过校验

● false:数据未经过校验 deleted_samp

le_count Integer 已删除的样本数量。

deletion_stats Map<String,In

teger> 删除原因统计信息。

description String 版本描述信息。

export_image

number Boolean 发布时是否需要解析子样本序号,用于医疗数据 集。可选值如下:

● true:解析子样本序号

● false:不解析子样本序号(默认值)

include_datas

et_data Boolean 发布时是否包含数据集源数据。可选值如下:

● true:包含数据集源数据

● false:不包含数据集源数据

is_current Boolean 是否为数据集当前版本。可选值如下:

● true:数据集当前版本

● false:非数据集当前版本 label_stats Array of

LabelStats objects

发布版本的各标签统计信息列表。

label_type String 发布版本的标签类型。可选值如下:

● multi:表示含有多标签样本

● single:表示所有样本均为单标签 manifest_cach

e_input_path String 版本发布时的manifest文件缓存输入路径。

manifest_path String 版本发布的manifest文件保存路径。

message String 发布时记录的任务信息(如:错误信息等)。

modified_sam

ple_count Integer 已修改的样本数量。

参数 参数类型 描述 previous_ann

otated_sampl e_count

Integer 父版本的已标注样本数量。

previous_total _sample_coun t

Integer 父版本的样本总数。

previous_versi

on_id String 父版本ID。

processor_tas

k_id String 旋转裁剪等预处理任务ID。

processor_tas

k_status Integer 旋转裁剪等预处理任务状态。当前可取值如下:

● 0:初始化

● 1:运行中

● 2:完成

● 3:失败

● 4:停止

● 5:超时

● 6:删除失败

● 7:停止失败 remove_samp

le_usage Boolean 发布时是否清除数据集已有的usage信息。可选 值如下:

● true:清除数据集已有的usage信息(默认 值)

● false:不清除数据集已有的usage信息 rotate Boolean 是否对图片进行旋转。可选值如下:

● true:对图片进行旋转

● false:不对图片进行旋转(默认值)

rotate_path String 旋转后的文件存放路径。

参数 参数类型 描述

sample_state String 样本状态。可选样本状态如下:

● __ALL__:已标注

● __NONE__:未标注

● __UNCHECK__:待验收

● __ACCEPTED__:验收通过

● __REJECTED__:已驳回

● __UNREVIEWED__:待审核

● __REVIEWED__:已审核

● __WORKFORCE_SAMPLED__:已验收采样

● __WORKFORCE_SAMPLED_UNCHECK__:采 样待验收

● __WORKFORCE_SAMPLED_CHECKED__:采 样已验收

● __WORKFORCE_SAMPLED_ACCEPTED__:采 样已通过

● __WORKFORCE_SAMPLED_REJECTED__:采 样已驳回

● __AUTO_ANNOTATION__:待确认 start_processo

r_task Boolean 发布时是否启动数据分析任务。可选值如下:

● true:发布时启动特征分析任务

● false:发布时不启动特征分析任务(默认值)

status Integer 数据集版本状态。可选值如下:

● 0:创建中

● 1:运行中

● 2:删除中

● 3:已删除

● 4:错误 tags Array of

strings 版本关键标识列表,标注任务发布版本时将标注 类型作为默认标签。如:["图片","物体检测"]。

task_type Integer 发布版本的标注任务类型,同数据集类型。

total_sample_

count Integer 版本样本总数。

total_sub_sam

ple_count Integer 从父样本生成的子样本总数。

ple_count Integer 从父样本生成的子样本总数。