前提条件
● 确保已按照配置Java环境配置完毕。
● 确保已存在待识别的音频文件并上传OBS,示例音频可参考下载SDK压缩包文 件,同时确保服务已授权访问OBS,可参考配置OBS服务。
初始化 Client
初始化FlashLasrClient,其参数包括AuthInfo和SisConfig。
表5-39 AuthInfo 参数名称 是否
必选
参数类型 描述
ak 是 String 用户的ak,可参考AK/SK认证。
sk 是 String 用户的sk,可参考AK/SK认证。
region 是 String 区域,如cn-north-4,参考终端节点。
projectId 是 String 项目ID,同region一一对应,参考获取项目ID。
endpoint 否 String 终端节点,参考地区和终端节点。一般使用默认即 可。
表5-40 SisConfig 参数名称 是否 必选
参数类 型
描述
connecti onTimeo ut
否 Integer 连接超时,默认10000,单位ms。
readTim
eout 否 Integer 读取超时,默认10000,单位ms。
请求参数
请求类为FlashLasrRequest,详见表5-41。
表5-41 FlashLasrRequest
参数 是否必选 参数类型 描述
audio_form
at 是 String 支持语音的格式,请参考表5-42。
property 是 String 所使用的模型特征串,通常是 “语种_采 样率_领域”的形式,采样率需要与音频 采样率保持一致,取值范围请参考表
5-43。
add_punc 否 String 表示是否在识别结果中添加标点,取值为
“yes”和“no”,默认为“no”。
digit_norm 否 String 表示是否将语音中的数字识别为阿拉伯数 字,取值为“yes” 和 “no”,默认为
“yes”。
vocabulary
_id 否 String 热词表id,不使用则不填写。
创建热词表信息请参考创建热词表。
need_word
_info 否 String 表示是否在识别结果中输出分词结果信 息,取值为“yes”和“no”,默认为
“no”。
first_chann
el_only 否 String 表示是否在识别中只识别首个声道的音频 数据,取值为“yes”和“no”,默认为
“no”。
obs_bucket
_name 否 String 表示在OBS对象桶名,使用前请先授权,
操作方法请参见配置OBS访问权限。
obs_bucket_name长度大于等于3个字 符,小于64个字符,不需要进行
urlencode编码,如果包含中文,直接输 入中文即可。
示例
obs
url为https://test.obs.cn-north-4.myhuaweicloud.com/data/
0601/test.wav
则obs_bucket_name=test,
obs_bucket_key=data/0601/test.wav obs_object
_key 否 String 表示OBS对象桶中的对象的键值,长度小
于1024个字符,不需要进行urlencode编 码,如果包含中文,直接输入中文即可。
示例
obs
url为https://test.obs.cn-north-4.myhuaweicloud.com/data/
0601/test.wav
则obs_bucket_name=test,
obs_bucket_key=data/0601/test.wav
表5-42 audio_format
audio_format取值 描述
wav wav格式音频
mp3 mp3格式音频
m4a m4a格式音频
aac aac格式音频
opus ops格式音频。
表5-43 property
property取值 描述
chinese_8k_common 支持采样率为8k的中文普通话语音识别。
chinese_16k_conversat
ion 支持采样率为16k的会议场景的中文普通话语音识别。
响应参数
响应类为FlashLasrResponse, 详见表5-44
表5-44 FlashLasrResponse
参数 是否必选 参数类型 描述
trace_id 是 String 可用于在日志中追溯具体流程,调用失败 无此字段。
在某些错误情况下可能没有此令牌字符 串。
audio_dura
tion 是 Integer 音频时长,单位毫秒
flash_result 是 Array of
FlashResult
objects调用成功表示识别结果,调用失败时无此 字段。
表5-45 FlashResult
参数 是否必选 参数类型 描述
channel_id 否 Integer 声道Id
参数 是否必选 参数类型 描述 sentences 否 Array of
Sentences
objects分句信息列表
表5-46 Sentences
参数 是否必选 参数类型 描述
start_time 否 Integer 一句话开始时间,单位毫秒 result 否
Result
object 分句结果信息
end_time 否 Integer 一句话结束时间,单位毫秒
表5-47 Result
参数 是否必选 参数类型 描述
text 是 String 调用成功表示识别出的内容。
score 是 Double 调用成功表示识别出的置信度(0-1之 间)。
word_info 否 Array of
WordInfo
objects分词信息列表
表5-48 WordInfo
参数 是否必选 参数类型 描述
start_time 否 Integer 起始时间 end_time 否 Integer 结束时间
word 否 String 分词
代码示例
import com.huawei.sis.bean.AuthInfo;
import com.huawei.sis.bean.SisConfig;
import com.huawei.sis.bean.SisConstant;
import com.huawei.sis.bean.request.FlashLasrRequest;
import com.huawei.sis.bean.response.FlashLasrResponse;
import com.huawei.sis.client.FlashLasrClient;
import com.huawei.sis.exception.SisException;
import com.huawei.sis.util.JsonUtils;
/** * 录音文件极速版Demo
* * Copyright 2021 Huawei Technologies Co.,Ltd.
*/public class FlashLasrDemo { private String ak = "";
private String sk = "";
private String region = ""; // 区域,如cn-north-1、cn-north-4
private String projectId = ""; // 项目id,在我的凭证查看。参考https://support.huaweicloud.com/api-sis/
sis_03_0008.html
private String obsBucketName = ""; // obs桶名 private String obsObjectKey = ""; // obs对象的key
private String audioFormat = ""; // 文件格式,如wav等, 支持格式详见api文档
private String property = ""; // 属性字符串,language_sampleRate_domain, 如chinese_8k_common, 详见api文档
/**
* 设置录音文件识别极速版参数 * * @param request 录音文件极速版请求 */
private void setShortParameter(FlashLasrRequest request) { // 以下参数必选
// 设置桶名,必选
request.setObsBucketName(obsBucketName);
// 设置桶内对象名,必选
request.setObsObjectKey(obsObjectKey);
// 设置格式,必选
request.setAudioFormat(audioFormat);
// 设置属性,必选
request.setProperty(property);
// 以下参数可选
// 设置是否添加标点,默认是no request.setAddPunc("yes");
// 设置热词id,详见api文档,若热词id不存在,则会报错 // request.setVocabularyId("");
// 设置是否将音频中数字转写为阿拉伯数字,yes or no,默认yes request.setDigitNorm("no");
// 设置是否需要word_info,yes or no, 默认no request.setNeedWordInfo("no");
// 设置是否只识别首个声道的音频数据,默认no request.setFirstChannelOnly("no");
} /**
* 定义config,所有参数可选,设置超时时间等。
* * @return SisConfig */
private SisConfig getConfig() { SisConfig config = new SisConfig();
// 设置连接超时,默认10000ms
config.setConnectionTimeout(SisConstant.DEFAULT_CONNECTION_TIMEOUT);
// 设置读取超时,默认10000ms
config.setReadTimeout(SisConstant.DEFAULT_READ_TIMEOUT);
// 设置代理, 一定要确保代理可用才启动此设置。 代理初始化也可用不加密的代理,new ProxyHostInfo(host, port);
// ProxyHostInfo proxy = new ProxyHostInfo(host, port, username, password);
// config.setProxy(proxy);
return config;
} /**
* 录音文件极速版demo。
*/
private void flashLasrDemo() { try {
// 1. 初始化FlashLasrClient
// 定义authInfo,根据ak,sk,region,projectId
AuthInfo authInfo = new AuthInfo(ak, sk, region, projectId);
// 设置config,主要与超时有关 SisConfig config = getConfig();
// 根据authInfo和config,构造FlashLasrClient
FlashLasrClient flashLasrClient = new FlashLasrClient(authInfo, config);
// 2. 配置请求
FlashLasrRequest request = new FlashLasrRequest();
setShortParameter(request);
// 3. 发送请求,获取响应。具体结果可通过response.getXX获取。
FlashLasrResponse response = flashLasrClient.getFlashLasrResponse(request);
System.out.println(JsonUtils.obj2Str(response, true));
} catch (SisException e) { e.printStackTrace();
System.out.println("error_code:" + e.getErrorCode() + "\nerror_msg:" + e.getErrorMsg());
} }
public static void main(String[] args) {
FlashLasrDemo demo = new FlashLasrDemo();
demo.flashLasrDemo();
}}
6 Python SDK
6.1 一句话识别 Http 接口
前提条件
● 确保已按照配置Python环境配置完毕,Python SDK仅支持Python3。
● 确保已存在待识别的音频文件。如果需要请在下载的SDK压缩包中获取示例音 频。
初始化 Client
初始化AsrCustomizationClient详见表 AsrCustomizationClient初始化参数。
表6-1 AsrCustomizationClient 初始化参数 参数名称 是否必
选
参数类 型
描述
ak 是 String 用户的ak,可参考AK/SK认证。
sk 是 String 用户的sk,可参考AK/SK认证。
region 是 String 区域,如cn-north-4,参考终端节点。
project_i
d 是 String 项目ID,同region一一对应,参考获取项目ID。
service_e
ndpoint 否 String 终端节点,一般使用默认即可。
sis_confi
g 否 Object 详见表6-2。
表6-2 SisConfig 参数名称 是否必
选
参数类 型
描述
connect_
timeout 否 Integer 连接超时,默认10,单位s。
read_tim
eout 否 Integer 读取超时,默认10,单位s。
proxy 否 List [host, port] 或 [host, port, username, password]。
请求参数
请求类为AsrCustomShortRequest,详见表6-3。
表6-3 AsrCustomShortRequest 参数名称 是否
必选
参数类 型
描述
data 是 String 本地音频文件经过Base64编码后的字符串,音频文 件时长不超过1min。
audio_fo
rmat 是 String 音频格式,具体信息请参见《API参考》中一句话识
别章节。
model_p
roperty 是 String 属性字符串,语言_采样率_模型,如
chinese_8k_common。具体信息请参见《API参 考》中一句话识别章节。
add_pun
c 否 String 表示是否在识别结果中添加标点,取值为yes 、 no,默认no。
digit_nor
m 否 String 表示是否将语音中的数字识别为阿拉伯数字,取值 为yes 、 no,默认为yes。
vocabula
ry_id 否 String 热词表id,不使用则不填写。
创建热词表请参考《API参考》中创建热词表章节。
need_wo
rd_info 否 String 表示是否在识别结果中输出分词结果信息,取值为
“yes”和“no”,默认为“no”。
响应参数
Python SDK响应结果为Json格式,表6-4。
表6-4 响应结果 参数名
称
是否必 选
参数类 型
描述
result 是 Object 详见表6-5。
trace_id 是 String 用于后台日志问题追溯。
表6-5 Result 参数名 称
是否必 选
参数类型 描述
text 是 String 识别结果。
score 是 Float 识别结果置信度评分。
word_in
fo 否 Array of
objects 分词信息列表。
表6-6 Word_info 数据结构
参数名 是否必选 参数类型 说明
start_time 否 Integer 起始时间 end_time 否 Integer 结束时间
word 否 String 分词
代码示例
# coding: utf-8
-*-from huaweicloud_sis.client.asr_client import AsrCustomizationClient from huaweicloud_sis.bean.asr_request import AsrCustomShortRequest from huaweicloud_sis.exception.exceptions import ClientException from huaweicloud_sis.exception.exceptions import ServerException from huaweicloud_sis.utils import io_utils
from huaweicloud_sis.bean.sis_config import SisConfig import json
# 鉴权参数 ak = '' sk = ''
region = '' # region,如cn-north-4
project_id = '' # 同region一一对应。登录管理控制台,鼠标移动到右上角的用户名上,在下拉列表中选择我的 凭证,在我的凭证页面,在项目列表中查看项目id。多项目时,展开“所属区域”,从“项目ID”列获取子项目 ID。# 一句话识别参数,音频要求为1min以内
path = '' # 文件位置,需要具体到音频文件,如D:/test.wav path_audio_format = '' # 音频格式,如wav
path_property = '' # 所使用的模型特征串,通常是 “语种_采样率_领域”的形式, 如chinese_8k_common
def asrc_short_example():
# config.set_proxy(proxy)
asr_client = AsrCustomizationClient(ak, sk, region, project_id, sis_config=config) # step2 构造请求
data = io_utils.encode_file(path)
asr_request = AsrCustomShortRequest(path_audio_format, path_property, data) # 所有参数均可不设置,使用默认值
# 设置是否添加标点,yes or no,默认no asr_request.set_add_punc('yes')
# 设置是否将语音中数字转写为阿拉伯数字,yes or no,默认yes asr_request.set_digit_norm('no')
# step3 发送请求,返回结果,返回结果为json格式 result = asr_client.get_short_response(asr_request) print(json.dumps(result, indent=2, ensure_ascii=False))
if __name__ == '__main__':
try:
asrc_short_example() # 一句话识别 except ClientException as e:
print(e)
except ServerException as e:
print(e)
6.2 一句话识别 Websocket 接口
前提条件
● 确保已按照配置Python环境配置完毕,Python SDK仅支持Python3。
● 确保已存在待识别的音频文件。如果需要请在下载的SDK压缩包中获取示例音 频。
● 该功能为1.70及以上版本SDK新增功能,使用前请检查并更新SDK版本。
初始化 Client
初始化SasrWebsocketClient详见表 SasrWebsocketClient初始化参数。
表6-7 SasrWebsocketClient 初始化参数 参数名
ak 是 String 用户的ak,请参考AK/SK认证。
sk 是 String 用户的sk,请参考AK/SK认证。
use_aks
k 是 Boolea
n 使用ak、sk要填写true。
参数名 称
是否必 选
参数类 型
描述
region 是 String 区域,如:cn-north-4。具体请参考终端节点。
project_i
d 是 String 项目ID,同region一一对应,参考获取项目ID。
callback 是 Object 回调类RasrCallBack,用于监听Websocket连接、
响应、断开、错误等。
config 否 Object 详见表 SisConfig。
service_
endpoin t
否 String 终端节点,一般使用默认即可。
表6-8 SisConfig
参数名称 是
否 必 选
参数类型 描述
connect_ti
meout 否 Integer 连接超时,默认10,单位s。
read_timeo
ut 否 Integer 读取超时,默认10,单位s。
connect_lo
st_timeout 否 Integer 连接失效超时,默认4,单位s。一般不要修改这个 参数。
请求参数
请求类为SasrWebsocketRequest,详见表 SasrWebsocketRequest。
表6-9 SasrWebsocketRequest 参数名称 是否
必选
参数类 型
描述
audio_for
mat 是 String 音频格式,支持pcm,alaw,ulaw等,如
pcm8k16bit,具体规格请参见《API参考》中开始
识别章节。
model_pr
operty 是 String 属性字符串,language_sampleRate_domain, 如 chinese_8k_common。
add_punc 否 String 表示是否在识别结果中添加标点,取值为yes 、 no,默认no。
参数名称 是否 必选
参数类 型
描述
digit_nor
m 否 String 表示是否将语音中的数字识别为阿拉伯数字,取值 为yes 、 no,默认为yes。
interim_r
esults 否 String 是否显示中间结果,yes 或 no,默认no。
vocabular
y_id 否 String 热词表id,若没有则不填。
need_wor
d_info 否 String 表示是否在识别结果中输出分词结果信息,取值为
“yes”和“no”,默认为“no”。
响应参数
Python SDK响应结果为Json格式,详见表6-10。
Python SDK响应结果为Json格式,详见表6-10。