实时语音识别 - Python SDK_语音交互服务 SIS_SDK参考

前提条件

● 确保已按照配置Java环境配置完毕。

● 确保已存在待识别的音频文件。如果需要请在下载的SDK压缩包中获取示例音频。

初始化 Client

初始化RasrClient，其参数包括AuthInfo、RasrListener、SisConfig。

RasrListener需要用户自定义实现监听逻辑，请参见表5-23和表5-24。

表5-23 AuthInfo 参数名称是否

必选

参数类型描述

ak 是 String 用户的ak，可参考AK/SK认证。

sk 是 String 用户的sk，可参考AK/SK认证。

region 是 String 区域，如cn-north-4，参考终端节点。

projectId 是 String 项目ID，同region一一对应，参考获取项目ID。

endpoint 否 String 终端节点，参考地区和终端节点。一般使用默认即可。

表5-24 SisConfig 参数名称是否

必选

参数类型

描述

connectio

nTimeout 否 Integer 连接超时，默认10000，单位ms。

readTime

out 否 Integer 读取超时，默认10000，单位ms。

请求参数

请求类为RasrRequest，详见表5-25。

表5-25 RasrRequest 参数名称是否

必选

参数类型

描述

audioFor

mat 是 String 音频格式，支持pcm，alaw，ulaw等，如

pcm8k16bit，参见《API参考》中开始识别章节。

property 是 String 属性字符串，language_sampleRate_domain，如 chinese_8k_common，参见《API参考》中开始识

别章节。

punc 否 String 表示是否在识别结果中添加标点，取值为yes 、 no，默认no。

digitNor

m 否 String 表示是否将语音中的数字识别为阿拉伯数字，取值为yes 、 no，默认为yes。

vadHead 否 Integer 头部最大静音时间，[0, 60000]，默认10000ms。

vadTail 否 Integer 尾部最大静音时间，[0, 3000]，默认500ms。

maxSeco

nds 否 Integer 音频最长持续时间， [0, 60]，默认30s。

intermedi

ateResult 否 String 是否显示中间结果，yes 或 no，默认no。

vocabular

yId 否 String 热词表id，若没有则不填。

needWor

dInfo 否 String 表示是否在识别结果中输出分词结果信息，取值为

“yes”和“no”，默认为“no”。

响应参数

状态响应类为StateResponse，详见表5-26。

结果响应类为RasrResponse，详见表5-27。

表5-26 StateResponse 参数名称是否

必选

参数类型

描述

state 是 String 识别状态，包括start、end、fail。

traceId 是 String 用于日志问题追溯。

descriptio

n 是 String 状态描述。

表5-27 RasrResponse

参数名参数类型说明

resp_type String 参数值为RESULT，表示识别结果响应。

trace_id String 服务内部的令牌，可用于在日志中追溯具体流程。

segments Array of objects 多句结果。

请参考表5-28。

表5-28 Segment

参数名参数类型说明

start_time Integer 一句的起始时间戳，单位为ms。

end_time Integer 一句的结束时间戳，单位为ms。

is_final Boolen true表示是最终结果， false表示为中间临时结果。

result Object 调用成功表示识别结果，调用失败

时无此字段。

请参考表5-29。

表5-29 Result

参数名参数类型说明

text String 识别结果。

score Float 识别结果的置信度，取值范围：0~1。此值

仅会在最终结果时被赋值，在中间结果时统一置为“0.0”。

说明

目前置信度作用不是太大，请勿过多依赖此值。

word_info Array of

Object 分词输出列表。

表5-30 Word_info 数据结构

参数名是否必选参数类型说明

start_time 否 Integer 起始时间 end_time 否 Integer 结束时间

参数名是否必选参数类型说明

*/public class RasrDemo {

private static final int DEFAULT_HEAD_SILENCE_TIME = 1000;

private static final int DEFAULT_TAIL_SILENCE_TIME = 500;

private static final int DEFAULT_CONTINUE_SECONDS = 30;

private String ak = "";

private String audioFormat = ""; // 音频格式，如pcm16k16bit

private String property = ""; // 属性字符串，language_sampleRate_domain，如chinese_8k_common /**

* 实时语音识别参数设置，所有参数设置均为可选，均有默认值。用户根据需求设置参数。

* * @param request request请求，包含各种参数 */

private void setParameters(RasrRequest request) { // 1. 设置是否添加标点符号，yes 或 no，默认"no"

request.setAddPunc("yes");

// 2. 设置头部的最大静音时间，[0,60000], 默认10000ms request.setVadHead(DEFAULT_HEAD_SILENCE_TIME);

// 3. 设置尾部最大静音时间，[0, 3000], 默认500ms，

request.setVadTail(DEFAULT_TAIL_SILENCE_TIME);

// 4. 设置最长持续时间，仅在continue-stream，sentence-stream模式下起作用，[1, 60], 默认30s request.setMaxSeconds(DEFAULT_CONTINUE_SECONDS);

// 5. 设置是否显示中间结果，yes或no，默认“no”

request.setIntermediateResult("no");

// 6. 设置热词表id, 若没有则设置，否则会报错。

// request.setVocabularyId("");

// 7. 设置是否将音频中数字转写为阿拉伯数字，yes or no，默认yes request.setDigitNorm("no");

} /**

* 定义config，所有参数可选，设置超时时间等。

* * @return SisConfig */

private SisConfig getConfig() { SisConfig config = new SisConfig();

// 设置连接超时，默认10000ms

config.setConnectionTimeout(SisConstant.DEFAULT_CONNECTION_TIMEOUT);

// 设置读取超时，默认10000ms

config.setReadTimeout(SisConstant.DEFAULT_READ_TIMEOUT);

// 设置pingInterval，默认5000ms，当并发较大时，建议把此值设置大一些。如果不需要ping，可设置为-1 // config.setPingInterval(-1);

// 设置代理, 一定要确保代理可用才启动此设置。代理初始化也可用不加密的代理，new ProxyHostInfo(host, port);

// ProxyHostInfo proxy = new ProxyHostInfo(host, port, username, password);

// config.setProxy(proxy);

return config;

private RasrListener getRasrListener() {

RasrListener rasrListener = new RasrListener() { @Override

/**

* 连接成功回调 */

public void onTranscriptionConnect() { System.out.println("websocket connected");

}

@Override /**

* 断开连接回调 */

public void onTranscriptionClose() { System.out.println("websocket closed");

}

@Override /**

* 响应结果回调 */

public void onTranscriptionResponse(RasrResponse response) { printResponse(response);

public void onTranscriptionBegin(StateResponse response) { printResponse(response);

public void onSTranscriptionEnd(StateResponse response) { printResponse(response);

public void onTranscriptionFail(StateResponse response) { printResponse(response);

}

return rasrListener;

}

private void printResponse(Object response) { try {

System.out.println(JsonUtils.obj2Str(response, true));

} catch (Exception e) {

private void process() { try {

// 1. 实现监听器接口RasrListener，用户自定义收到响应的处理逻辑。

RasrListener rasrListener = getRasrListener();

// 2. 初始化RasrClient

AuthInfo authInfo = new AuthInfo(ak, sk, region, projectId);

RasrClient rasrClient = new RasrClient(authInfo, rasrListener, getConfig());

// 3. 配置参数

// audioFormat为支持格式、property为属性字符串

RasrRequest request = new RasrRequest(audioFormat, property);

setParameters(request);

// 4 选择连接模式，目前实时语音识别提供三种接口，流式一句话、实时语音识别连续模式、实时语音识别单句模式 // 选择1 流式一句话连接

// rasrClient.shortStreamConnect(request);

// 选择2，实时语音识别单句模式

// rasrClient.sentenceStreamConnect(request);

// 选择3，实时语音识别连续模式

rasrClient.continueStreamConnect(request);

// 5. 发送开始请求、发送音频、发送end请求 // 发送开始请求，即将开始请求连带配置发送至服务端

rasrClient.sendStart();

// 发送数据，在实时语音连续模式下可多次发送。识别结果可以通过监听器获取

// 可以自己控制发送速率.byteLen为每次发送大小，sleepTime为每次发送后睡眠时间(ms)，一些非持续获取音频场景不需要睡眠，可设置为0.

rasrClient.sendAudio(path, 3200, 200);

// rasrClient.sendAudio(path);

// 可直接发送byte流,即byte数组

// byte[] data = IOUtils.getFileData(path);

// rasrClient.sendByte(data);

// rasrClient.sendByte(data, byteLen, sleepTime);

// 发送结尾请求 rasrClient.sendEnd();

// 6. 关闭客户端。发送完毕后，此步一定要实施，否则服务端因为20s没有接受任何消息而报异常。

rasrClient.close();

} catch (Exception e) { e.printStackTrace();

} }

public static void main(String[] args) { RasrDemo rasrDemo = new RasrDemo();

rasrDemo.process();

}}

在文檔中 Python SDK_语音交互服务 SIS_SDK参考_华为云 (頁 32-38)