错误码
4.2.3 查询数据集详情
功能介绍
查询数据集详情。
调试
您可以在API Explorer中调试该接口。
URI
GET /v2/{project_id}/datasets/{dataset_id}
表4-35 路径参数
参数 是否必选 参数类型 描述
dataset_id 是 String 数据集ID。
project_id 是 String 用户项目ID。获取方法请参见获 取项目ID。
表4-36 Query 参数
参数 是否必选 参数类型 描述
check_runnin
g_task 否 Boolean 是否检测数据集中正在运行(包
括初始化)的任务。可选值如 下:
● true:检测数据集中正在运 行(包括初始化)的任务
● false:不检测数据集中正在 运行的任务(默认值)
参数 是否必选 参数类型 描述 running_task_
type 否 Integer 指定需要检测的正在运行任务
(包括初始化)的类型。可选值 如下:
● 0:自动标注
● 1:预标注
● 2:导出任务
● 3:切换版本
● 4:导出manifest
● 5:导入manifest
● 6:发布版本
● 7:自动分组
● 10:一键模型上线任务(默 认值)
请求参数
无
响应参数
状态码: 200
表4-37 响应 Body 参数
参数 参数类型 描述
annotated_sa
mple_count Integer 数据集已标注的样本总数。
annotated_su b_sample_cou nt
Integer 已标注的子样本数量。
content_labeli
ng Boolean 语音分割数据集是否开启内容标注,默认开启。
create_time Long 数据集的创建时间。
current_versio
n_id String 数据集的当前版本ID。
current_versio
n_name String 数据集的当前版本名称。
data_format String 数据格式。
参数 参数类型 描述 data_sources Array of
DataSource objects
数据来源列表。
data_statistics Map<String,O
bject> 数据集的样本统计信息,包括样本元信息的统 计。
data_update_t
ime Long 样本和标签的更新时间。
dataset_form
at Integer 数据集格式。可选值如下:
● 0:文件型
● 1:表格型 dataset_id String 数据集ID。
dataset_name String 数据集名称。
dataset_tags Array of
strings 数据集关键标识列表,例如:["图片","物体检测
"]。
dataset_type Integer 数据集类型。可选值如下:
● 0:图像分类
n_count Integer 数据集的版本数量。
deleted_samp
le_count Integer 已删除的样本数量。
deletion_stats Map<String,In
teger> 删除原因统计信息。
description String 数据集的描述。
enterprise_pro
ject_id String 企业项目ID。
参数 参数类型 描述 exist_running_
task Boolean 该数据集是否存在正在运行(包括初始化)的任 务。可选值如下:
● true:数据集存在正在运行的任务
● false:数据集不存在正在运行的任务 exist_workforc
e_task Boolean 数据集是否含团队标注任务。可选值如下:
● true:数据集包含团队标注任务
● false:数据集不包含团队标注任务 feature_suppo
rts Array of
strings 数据集支持的特性列表。当前只支持特性值
“0”,表示限制OBS文件大小。
import_data Boolean 是否导入数据。可选值如下:
● true:导入数据
● false:不导入数据 import_task_i
d String 导入任务ID。
inner_annotat
ion_path String 数据集内部标注结果的保存路径。
inner_data_pa
ath String 数据集内部临时文件的保存路径。
inner_work_p
ath String 数据集内部的输出目录。
label_task_co
unt Integer 标注任务数量。
labels Array of
Label objects 数据集标签列表。
loading_samp
le_count Integer 正在加载的样本数量。
managed Boolean 是否是托管数据集。可选值如下:
● true:托管数据集
● false:非托管数据集 next_version_
num Integer 数据集下个版本数。
参数 参数类型 描述 running_tasks
_id Array of
strings 正在运行(包括初始化)任务ID列表。
schema Array of Field
objects Schema列表。
status Integer 数据集状态。当前可选值:
● 0:数据集创建中 third_path String 第三方路径。
total_sample_
count Integer 数据集样本总数。
total_sub_sam
ple_count Integer 由父样本所产生的子样本总数,比如:从视频标 注数据集中抽取的关键帧图片总数就是子样本总 数。
unconfirmed_
sample_count Integer 智能标注待确认的标注样本数。
update_time Long 数据集的更新时间。
versions Array of DatasetVersi on objects
数据集版本信息列表,目前仅记录数据集当前版 本信息。
work_path String 数据集输出位置,用于存放输出的标注信息等文 件。此位置为OBS路径,格式为“/桶名称/文件 路径”。例如:“/obs-bucket”。
work_path_ty
pe Integer 数据集输出路径类型。可选值如下:
● 0:OBS桶(默认值)
workforce_des
criptor WorkforceDe scriptor object
团队标注信息。
workforce_tas
k_count Integer 数据集的团队标注任务数量。
workspace_id String 工作空间ID。未创建工作空间时默认值为“0”,
存在创建并使用的工作空间,以实际取值为准。
表4-38 DataSource
参数 参数类型 描述
data_path String 数据源所在路径。
data_type Integer 数据类型。可选值如下:
● 0:OBS桶(默认值)
● 1:GaussDB(DWS)服务
● 2:DLI服务
● 3:RDS服务
● 4:MRS服务
● 5:AI Gallery
● 6:推理服务 schema_maps Array of
SchemaMap objects
表格数据对应的schema映射信息。
source_info SourceInfo
object 导入表格数据源所需的信息。
with_column_
header Boolean 文件中首行是否是列名,用于表格数据集。可选 值如下:
● true:文件首行为列名
● false:文件首行不为列名
表4-39 SchemaMap
参数 参数类型 描述
dest_name String 目的方的列名。
src_name String 来源方的列名。
表4-40 SourceInfo
参数 参数类型 描述
cluster_id String MRS集群ID。
cluster_mode String MRS集群运行模式。可选值如下:
● 0:普通集群
● 1:安全集群
参数 参数类型 描述
cluster_name String MRS集群名称。
database_na
me String 导入表格数据集,数据库名字。
input String 表格数据集,HDFS路径。
ip String 用户GaussDB(DWS)集群的IP地址。
port String 用户GaussDB(DWS)集群的端口。
queue_name String 表格数据集,DLI队列名。
subnet_id String MRS集群的子网ID。
table_name String 导入表格数据集,表名。
user_name String 用户名,GaussDB(DWS)数据需提供此参数。
user_passwor
d String 用户密码,GaussDB(DWS)数据需提供此参数。
vpc_id String MRS集群所在的vpc的ID。
表4-41 Label
参数 参数类型 描述
attributes Array of LabelAttribut e objects
标签的多维度属性,如标签为“音乐”,可能包 含属性“风格”、“歌手”等。
name String 标签名称。
property LabelPropert
y object 标签基本属性键值对,如颜色、快捷键等。
type Integer 标签类型。可选值如下:
● 0:图像分类
● 1:物体检测
● 3: 图像分割
● 100:文本分类
● 101:命名实体
● 102:文本三元组关系标签
● 103:文本三元组实体标签
● 200:语音分类
● 201:语音内容
● 202:语音分割
● 600:视频标注
表4-42 LabelProperty
参数 参数类型 描述
@modelarts:c
olor String 内置属性:标签展示的颜色,为色彩的16进制代 码,默认为空。例如:“#FFFFF0”。
@modelarts:d
efault_shape String 内置属性:物体检测标签的默认形状(物体检测 标签专用属性),默认为空。可选值如下:
● bndbox:矩形。
● polygon:多边形。
● circle:圆形。
● line:直线。
● dashed:虚线。
● point:点。
● polyline:折线。
@modelarts:fr
om_type String 内置属性:三元组关系标签的起始实体类型,创 建关系标签时必须指定,该参数仅文本三元组数 据集使用。
@modelarts:r
ename_to String 内置属性:重命名后的标签名。
@modelarts:s
hortcut String 内置属性:标签快捷键,默认为空。例如:
“D”。
@modelarts:t
o_type String 内置属性:三元组关系标签的指向实体类型,创 建关系标签时必须指定,该参数仅文本三元组数 据集使用。
表4-43 Field
参数 参数类型 描述
description String Schema描述。
name String Schema名称。
schema_id Integer Schema ID。
type String Schema值类型。
表4-44 DatasetVersion
参数 参数类型 描述
add_sample_c
ount Integer 新增样本数量。
analysis_cach
e_path String 特征分析的缓存路径。
analysis_statu
s Integer 特征分析任务的当前状态。可选值如下:
● 0:初始化
● 1:运行中
● 2:完成
● 3:失败 analysis_task_
id String 特征分析的任务ID。
annotated_sa
mple_count Integer 版本已标注样本的数量。
annotated_su b_sample_cou nt
Integer 已标注的子样本数量。
clear_hard_pr
operty Boolean 发布时是否清空难例属性。可选值如下:
● true:清空难例属性(默认值)
● false:不清空难例属性
code String 旋转裁剪等预处理任务的状态码。
create_time Long 版本创建时间。
crop Boolean 是否对图片进行裁剪,只对标注框形状为bndbox 的物体检测数据集有效。可选值如下:
● true:对图片进行裁剪
● false:不对图片进行裁剪(默认值)
crop_path String 裁剪后的文件存放路径。
crop_rotate_c
ache_path String 旋转裁剪任务执行的临时目录。
data_analysis Map<String,O
bject> 特征分析结果,json格式。
data_path String 数据保存路径。
data_statistics Map<String,O
bject> 数据集的样本统计信息,包括样本元信息的统 计,json格式。
参数 参数类型 描述
data_validate Boolean 发布前数据是否经过校验算法校验。可选值如 下:
● true:数据经过校验
● false:数据未经过校验 deleted_samp
le_count Integer 已删除的样本数量。
deletion_stats Map<String,In
teger> 删除原因统计信息。
description String 版本描述信息。
export_image
number Boolean 发布时是否需要解析子样本序号,用于医疗数据 集。可选值如下:
● true:解析子样本序号
● false:不解析子样本序号(默认值)
include_datas
et_data Boolean 发布时是否包含数据集源数据。可选值如下:
● true:包含数据集源数据
● false:不包含数据集源数据
is_current Boolean 是否为数据集当前版本。可选值如下:
● true:数据集当前版本
● false:非数据集当前版本 label_stats Array of
LabelStats objects
发布版本的各标签统计信息列表。
label_type String 发布版本的标签类型。可选值如下:
● multi:表示含有多标签样本
● single:表示所有样本均为单标签 manifest_cach
e_input_path String 版本发布时的manifest文件缓存输入路径。
manifest_path String 版本发布的manifest文件保存路径。
message String 发布时记录的任务信息(如:错误信息等)。
modified_sam
ple_count Integer 已修改的样本数量。
参数 参数类型 描述 previous_ann
otated_sampl e_count
Integer 父版本的已标注样本数量。
previous_total _sample_coun t
Integer 父版本的样本总数。
previous_versi
on_id String 父版本ID。
processor_tas
k_id String 旋转裁剪等预处理任务ID。
processor_tas
k_status Integer 旋转裁剪等预处理任务状态。当前可取值如下:
● 0:初始化
● 1:运行中
● 2:完成
● 3:失败
● 4:停止
● 5:超时
● 6:删除失败
● 7:停止失败 remove_samp
le_usage Boolean 发布时是否清除数据集已有的usage信息。可选 值如下:
● true:清除数据集已有的usage信息(默认 值)
● false:不清除数据集已有的usage信息 rotate Boolean 是否对图片进行旋转。可选值如下:
● true:对图片进行旋转
● false:不对图片进行旋转(默认值)
rotate_path String 旋转后的文件存放路径。
参数 参数类型 描述
sample_state String 样本状态。可选样本状态如下:
● __ALL__:已标注
● __NONE__:未标注
● __UNCHECK__:待验收
● __ACCEPTED__:验收通过
● __REJECTED__:已驳回
● __UNREVIEWED__:待审核
● __REVIEWED__:已审核
● __WORKFORCE_SAMPLED__:已验收采样
● __WORKFORCE_SAMPLED_UNCHECK__:采 样待验收
● __WORKFORCE_SAMPLED_CHECKED__:采 样已验收
● __WORKFORCE_SAMPLED_ACCEPTED__:采 样已通过
● __WORKFORCE_SAMPLED_REJECTED__:采 样已驳回
● __AUTO_ANNOTATION__:待确认 start_processo
r_task Boolean 发布时是否启动数据分析任务。可选值如下:
● true:发布时启动特征分析任务
● false:发布时不启动特征分析任务(默认值)
status Integer 数据集版本状态。可选值如下:
● 0:创建中
● 1:运行中
● 2:删除中
● 3:已删除
● 4:错误 tags Array of
strings 版本关键标识列表,标注任务发布版本时将标注 类型作为默认标签。如:["图片","物体检测"]。
task_type Integer 发布版本的标注任务类型,同数据集类型。
total_sample_
count Integer 版本样本总数。
total_sub_sam
ple_count Integer 从父样本生成的子样本总数。
ple_count Integer 从父样本生成的子样本总数。