录音文件极速版 - Python SDK_语音交互服务 SIS_SDK参考

前提条件

● 确保已按照配置Java环境配置完毕。

● 确保已存在待识别的音频文件并上传OBS，示例音频可参考下载SDK压缩包文件，同时确保服务已授权访问OBS，可参考配置OBS服务。

初始化 Client

初始化FlashLasrClient，其参数包括AuthInfo和SisConfig。

表5-39 AuthInfo 参数名称是否

必选

参数类型描述

ak 是 String 用户的ak，可参考AK/SK认证。

sk 是 String 用户的sk，可参考AK/SK认证。

region 是 String 区域，如cn-north-4，参考终端节点。

projectId 是 String 项目ID，同region一一对应，参考获取项目ID。

endpoint 否 String 终端节点，参考地区和终端节点。一般使用默认即可。

表5-40 SisConfig 参数名称是否必选

参数类型

描述

connecti onTimeo ut

否 Integer 连接超时，默认10000，单位ms。

readTim

eout 否 Integer 读取超时，默认10000，单位ms。

请求参数

请求类为FlashLasrRequest，详见表5-41。

表5-41 FlashLasrRequest

参数是否必选参数类型描述

audio_form

at 是 String 支持语音的格式，请参考表5-42。

property 是 String 所使用的模型特征串，通常是 “语种_采样率_领域”的形式，采样率需要与音频采样率保持一致，取值范围请参考表

5-43。

add_punc 否 String 表示是否在识别结果中添加标点，取值为

“yes”和“no”，默认为“no”。

digit_norm 否 String 表示是否将语音中的数字识别为阿拉伯数字，取值为“yes” 和 “no”，默认为

“yes”。

vocabulary

_id 否 String 热词表id，不使用则不填写。

创建热词表信息请参考创建热词表。

need_word

_info 否 String 表示是否在识别结果中输出分词结果信息，取值为“yes”和“no”，默认为

“no”。

first_chann

el_only 否 String 表示是否在识别中只识别首个声道的音频数据，取值为“yes”和“no”，默认为

“no”。

obs_bucket

_name 否 String 表示在OBS对象桶名，使用前请先授权，

操作方法请参见配置OBS访问权限。

obs_bucket_name长度大于等于3个字符，小于64个字符，不需要进行

urlencode编码，如果包含中文，直接输入中文即可。

示例

obs

url为https://test.obs.cn-north-4.myhuaweicloud.com/data/

0601/test.wav

则obs_bucket_name=test，

obs_bucket_key=data/0601/test.wav obs_object

_key 否 String 表示OBS对象桶中的对象的键值，长度小

于1024个字符，不需要进行urlencode编码，如果包含中文，直接输入中文即可。

示例

obs

url为https://test.obs.cn-north-4.myhuaweicloud.com/data/

0601/test.wav

则obs_bucket_name=test，

obs_bucket_key=data/0601/test.wav

表5-42 audio_format

audio_format取值 描述

wav wav格式音频

mp3 mp3格式音频

m4a m4a格式音频

aac aac格式音频

opus ops格式音频。

表5-43 property

property取值 描述

chinese_8k_common 支持采样率为8k的中文普通话语音识别。

chinese_16k_conversat

ion 支持采样率为16k的会议场景的中文普通话语音识别。

响应参数

响应类为FlashLasrResponse, 详见表5-44

表5-44 FlashLasrResponse

参数是否必选参数类型描述

trace_id 是 String 可用于在日志中追溯具体流程，调用失败无此字段。

在某些错误情况下可能没有此令牌字符串。

audio_dura

tion 是 Integer 音频时长，单位毫秒

flash_result 是 Array of

FlashResult

objects

调用成功表示识别结果，调用失败时无此字段。

表5-45 FlashResult

参数是否必选参数类型描述

channel_id 否 Integer 声道Id

参数是否必选参数类型描述 sentences 否 Array of

Sentences

objects

分句信息列表

表5-46 Sentences

参数是否必选参数类型描述

start_time 否 Integer 一句话开始时间，单位毫秒 result 否

Result

object 分句结果信息

end_time 否 Integer 一句话结束时间，单位毫秒

表5-47 Result

参数是否必选参数类型描述

text 是 String 调用成功表示识别出的内容。

score 是 Double 调用成功表示识别出的置信度（0-1之间）。

word_info 否 Array of

WordInfo

objects

分词信息列表

表5-48 WordInfo

参数是否必选参数类型描述

start_time 否 Integer 起始时间 end_time 否 Integer 结束时间

word 否 String 分词

代码示例

import com.huawei.sis.bean.AuthInfo;

import com.huawei.sis.bean.SisConfig;

import com.huawei.sis.bean.SisConstant;

import com.huawei.sis.bean.request.FlashLasrRequest;

import com.huawei.sis.bean.response.FlashLasrResponse;

import com.huawei.sis.client.FlashLasrClient;

import com.huawei.sis.exception.SisException;

import com.huawei.sis.util.JsonUtils;

/** * 录音文件极速版Demo

*/public class FlashLasrDemo { private String ak = "";

private String sk = "";

private String region = ""; // 区域，如cn-north-1、cn-north-4

private String projectId = ""; // 项目id，在我的凭证查看。参考https://support.huaweicloud.com/api-sis/

sis_03_0008.html

private String obsBucketName = ""; // obs桶名 private String obsObjectKey = ""; // obs对象的key

private String audioFormat = ""; // 文件格式，如wav等，支持格式详见api文档

private String property = ""; // 属性字符串，language_sampleRate_domain, 如chinese_8k_common, 详见api文档

/**

* 设置录音文件识别极速版参数 * * @param request 录音文件极速版请求 */

private void setShortParameter(FlashLasrRequest request) { // 以下参数必选

// 设置桶名，必选

request.setObsBucketName(obsBucketName);

// 设置桶内对象名，必选

request.setObsObjectKey(obsObjectKey);

// 设置格式，必选

request.setAudioFormat(audioFormat);

// 设置属性，必选

request.setProperty(property);

// 以下参数可选

// 设置是否添加标点，默认是no request.setAddPunc("yes");

// 设置热词id，详见api文档，若热词id不存在，则会报错 // request.setVocabularyId("");

// 设置是否将音频中数字转写为阿拉伯数字，yes or no，默认yes request.setDigitNorm("no");

// 设置是否需要word_info，yes or no, 默认no request.setNeedWordInfo("no");

// 设置是否只识别首个声道的音频数据，默认no request.setFirstChannelOnly("no");

} /**

* 定义config，所有参数可选，设置超时时间等。

* * @return SisConfig */

private SisConfig getConfig() { SisConfig config = new SisConfig();

// 设置连接超时，默认10000ms

config.setConnectionTimeout(SisConstant.DEFAULT_CONNECTION_TIMEOUT);

// 设置读取超时，默认10000ms

config.setReadTimeout(SisConstant.DEFAULT_READ_TIMEOUT);

// 设置代理, 一定要确保代理可用才启动此设置。代理初始化也可用不加密的代理，new ProxyHostInfo(host, port);

// ProxyHostInfo proxy = new ProxyHostInfo(host, port, username, password);

// config.setProxy(proxy);

return config;

} /**

* 录音文件极速版demo。

private void flashLasrDemo() { try {

// 1. 初始化FlashLasrClient

// 定义authInfo，根据ak，sk，region，projectId

AuthInfo authInfo = new AuthInfo(ak, sk, region, projectId);

// 设置config，主要与超时有关 SisConfig config = getConfig();

// 根据authInfo和config，构造FlashLasrClient

FlashLasrClient flashLasrClient = new FlashLasrClient(authInfo, config);

// 2. 配置请求

FlashLasrRequest request = new FlashLasrRequest();

setShortParameter(request);

// 3. 发送请求，获取响应。具体结果可通过response.getXX获取。

FlashLasrResponse response = flashLasrClient.getFlashLasrResponse(request);

System.out.println(JsonUtils.obj2Str(response, true));

} catch (SisException e) { e.printStackTrace();

System.out.println("error_code:" + e.getErrorCode() + "\nerror_msg:" + e.getErrorMsg());

} }

public static void main(String[] args) {

FlashLasrDemo demo = new FlashLasrDemo();

demo.flashLasrDemo();

}}

6 Python SDK

6.1 一句话识别 Http 接口

前提条件

● 确保已按照配置Python环境配置完毕，Python SDK仅支持Python3。

● 确保已存在待识别的音频文件。如果需要请在下载的SDK压缩包中获取示例音频。

初始化 Client

初始化AsrCustomizationClient详见表 AsrCustomizationClient初始化参数。

表6-1 AsrCustomizationClient 初始化参数 参数名称是否必

选

参数类型

描述

ak 是 String 用户的ak，可参考AK/SK认证。

sk 是 String 用户的sk，可参考AK/SK认证。

region 是 String 区域，如cn-north-4，参考终端节点。

project_i

d 是 String 项目ID，同region一一对应，参考获取项目ID。

service_e

ndpoint 否 String 终端节点，一般使用默认即可。

sis_confi

g 否 Object 详见表6-2。

表6-2 SisConfig 参数名称是否必

选

参数类型

描述

connect_

timeout 否 Integer 连接超时，默认10，单位s。

read_tim

eout 否 Integer 读取超时，默认10，单位s。

proxy 否 List [host, port] 或 [host, port, username, password]。

请求参数

请求类为AsrCustomShortRequest，详见表6-3。

表6-3 AsrCustomShortRequest 参数名称是否

必选

参数类型

描述

data 是 String 本地音频文件经过Base64编码后的字符串，音频文件时长不超过1min。

audio_fo

rmat 是 String 音频格式，具体信息请参见《API参考》中一句话识

别章节。

model_p

roperty 是 String 属性字符串，语言_采样率_模型，如

chinese_8k_common。具体信息请参见《API参考》中一句话识别章节。

add_pun

c 否 String 表示是否在识别结果中添加标点，取值为yes 、 no，默认no。

digit_nor

m 否 String 表示是否将语音中的数字识别为阿拉伯数字，取值为yes 、 no，默认为yes。

vocabula

ry_id 否 String 热词表id，不使用则不填写。

创建热词表请参考《API参考》中创建热词表章节。

need_wo

rd_info 否 String 表示是否在识别结果中输出分词结果信息，取值为

“yes”和“no”，默认为“no”。

响应参数

Python SDK响应结果为Json格式，表6-4。

表6-4 响应结果 参数名

称

是否必选

参数类型

描述

result 是 Object 详见表6-5。

trace_id 是 String 用于后台日志问题追溯。

表6-5 Result 参数名称

是否必选

参数类型描述

text 是 String 识别结果。

score 是 Float 识别结果置信度评分。

word_in

fo 否 Array of

objects 分词信息列表。

表6-6 Word_info 数据结构

参数名是否必选参数类型说明

start_time 否 Integer 起始时间 end_time 否 Integer 结束时间

word 否 String 分词

代码示例

# coding: utf-8

-*-from huaweicloud_sis.client.asr_client import AsrCustomizationClient from huaweicloud_sis.bean.asr_request import AsrCustomShortRequest from huaweicloud_sis.exception.exceptions import ClientException from huaweicloud_sis.exception.exceptions import ServerException from huaweicloud_sis.utils import io_utils

from huaweicloud_sis.bean.sis_config import SisConfig import json

# 鉴权参数 ak = '' sk = ''

region = '' # region，如cn-north-4

project_id = '' # 同region一一对应。登录管理控制台，鼠标移动到右上角的用户名上，在下拉列表中选择我的凭证，在我的凭证页面，在项目列表中查看项目id。多项目时，展开“所属区域”，从“项目ID”列获取子项目 ID。# 一句话识别参数，音频要求为1min以内

path = '' # 文件位置，需要具体到音频文件，如D:/test.wav path_audio_format = '' # 音频格式，如wav

path_property = '' # 所使用的模型特征串，通常是 “语种_采样率_领域”的形式, 如chinese_8k_common

def asrc_short_example():

# config.set_proxy(proxy)

asr_client = AsrCustomizationClient(ak, sk, region, project_id, sis_config=config) # step2 构造请求

data = io_utils.encode_file(path)

asr_request = AsrCustomShortRequest(path_audio_format, path_property, data) # 所有参数均可不设置，使用默认值

# 设置是否添加标点，yes or no，默认no asr_request.set_add_punc('yes')

# 设置是否将语音中数字转写为阿拉伯数字，yes or no，默认yes asr_request.set_digit_norm('no')

# step3 发送请求，返回结果,返回结果为json格式 result = asr_client.get_short_response(asr_request) print(json.dumps(result, indent=2, ensure_ascii=False))

if __name__ == '__main__':

try:

asrc_short_example() # 一句话识别 except ClientException as e:

print(e)

except ServerException as e:

print(e)

6.2 一句话识别 Websocket 接口

前提条件

● 确保已按照配置Python环境配置完毕，Python SDK仅支持Python3。

● 确保已存在待识别的音频文件。如果需要请在下载的SDK压缩包中获取示例音频。

● 该功能为1.70及以上版本SDK新增功能，使用前请检查并更新SDK版本。

初始化 Client

初始化SasrWebsocketClient详见表 SasrWebsocketClient初始化参数。

表6-7 SasrWebsocketClient 初始化参数 参数名

ak 是 String 用户的ak，请参考AK/SK认证。

sk 是 String 用户的sk，请参考AK/SK认证。

use_aks

k 是 Boolea

n 使用ak、sk要填写true。

参数名称

是否必选

参数类型

描述

region 是 String 区域，如：cn-north-4。具体请参考终端节点。

project_i

d 是 String 项目ID，同region一一对应，参考获取项目ID。

callback 是 Object 回调类RasrCallBack，用于监听Websocket连接、

响应、断开、错误等。

config 否 Object 详见表 SisConfig。

service_

endpoin t

否 String 终端节点，一般使用默认即可。

表6-8 SisConfig

参数名称是

否必选

参数类型描述

connect_ti

meout 否 Integer 连接超时，默认10，单位s。

read_timeo

ut 否 Integer 读取超时，默认10，单位s。

connect_lo

st_timeout 否 Integer 连接失效超时，默认4，单位s。一般不要修改这个参数。

请求参数

请求类为SasrWebsocketRequest，详见表 SasrWebsocketRequest。

表6-9 SasrWebsocketRequest 参数名称是否

必选

参数类型

描述

audio_for

mat 是 String 音频格式，支持pcm，alaw，ulaw等，如

pcm8k16bit，具体规格请参见《API参考》中开始

识别章节。

model_pr

operty 是 String 属性字符串，language_sampleRate_domain，如 chinese_8k_common。

add_punc 否 String 表示是否在识别结果中添加标点，取值为yes 、 no，默认no。

参数名称是否必选

参数类型

描述

digit_nor

m 否 String 表示是否将语音中的数字识别为阿拉伯数字，取值为yes 、 no，默认为yes。

interim_r

esults 否 String 是否显示中间结果，yes 或 no，默认no。

vocabular

y_id 否 String 热词表id，若没有则不填。

need_wor

d_info 否 String 表示是否在识别结果中输出分词结果信息，取值为

“yes”和“no”，默认为“no”。

响应参数

Python SDK响应结果为Json格式，详见表6-10。

在文檔中 Python SDK_语音交互服务 SIS_SDK参考_华为云 (頁 45-81)