前提条件
● 确保已按照配置Java环境配置完毕。
● 确保已存在待识别的音频文件。如果需要请在下载的SDK压缩包中获取示例音 频。
初始化 Client
初始化RasrClient,其参数包括AuthInfo、RasrListener、SisConfig。
RasrListener需要用户自定义实现监听逻辑,请参见表5-23和表5-24。
表5-23 AuthInfo 参数名称 是否
必选
参数类型 描述
ak 是 String 用户的ak,可参考AK/SK认证。
sk 是 String 用户的sk,可参考AK/SK认证。
region 是 String 区域,如cn-north-4,参考终端节点。
projectId 是 String 项目ID,同region一一对应,参考获取项目ID。
endpoint 否 String 终端节点,参考地区和终端节点。一般使用默认即 可。
表5-24 SisConfig 参数名称 是否
必选
参数类 型
描述
connectio
nTimeout 否 Integer 连接超时,默认10000,单位ms。
readTime
out 否 Integer 读取超时,默认10000,单位ms。
请求参数
请求类为RasrRequest,详见表5-25。
表5-25 RasrRequest 参数名称 是否
必选
参数类 型
描述
audioFor
mat 是 String 音频格式,支持pcm,alaw,ulaw等,如
pcm8k16bit,参见《API参考》中开始识别章节。
property 是 String 属性字符串,language_sampleRate_domain, 如 chinese_8k_common,参见《API参考》中开始识
别章节。
punc 否 String 表示是否在识别结果中添加标点,取值为yes 、 no,默认no。
digitNor
m 否 String 表示是否将语音中的数字识别为阿拉伯数字,取值 为yes 、 no,默认为yes。
vadHead 否 Integer 头部最大静音时间,[0, 60000],默认10000ms。
vadTail 否 Integer 尾部最大静音时间,[0, 3000],默认500ms。
maxSeco
nds 否 Integer 音频最长持续时间, [0, 60],默认30s。
intermedi
ateResult 否 String 是否显示中间结果,yes 或 no,默认no。
vocabular
yId 否 String 热词表id,若没有则不填。
needWor
dInfo 否 String 表示是否在识别结果中输出分词结果信息,取值为
“yes”和“no”,默认为“no”。
响应参数
状态响应类为StateResponse,详见表5-26。
结果响应类为RasrResponse,详见表5-27。
表5-26 StateResponse 参数名称 是否
必选
参数类 型
描述
state 是 String 识别状态,包括start、end、fail。
traceId 是 String 用于日志问题追溯。
descriptio
n 是 String 状态描述。
表5-27 RasrResponse
参数名 参数类型 说明
resp_type String 参数值为RESULT,表示识别结果响应。
trace_id String 服务内部的令牌,可用于在日志中追溯具体流 程。
segments Array of objects 多句结果。
请参考表5-28。
表5-28 Segment
参数名 参数类型 说明
start_time Integer 一句的起始时间戳,单位为ms。
end_time Integer 一句的结束时间戳,单位为ms。
is_final Boolen true表示是最终结果, false表示 为中间临时结果。
result Object 调用成功表示识别结果,调用失败
时无此字段。
请参考表5-29。
表5-29 Result
参数名 参数类型 说明
text String 识别结果。
score Float 识别结果的置信度,取值范围:0~1。此值
仅会在最终结果时被赋值,在中间结果时统 一置为“0.0”。
说明
目前置信度作用不是太大,请勿过多依赖此值。
word_info Array of
Object 分词输出列表。
表5-30 Word_info 数据结构
参数名 是否必选 参数类型 说明
start_time 否 Integer 起始时间 end_time 否 Integer 结束时间
参数名 是否必选 参数类型 说明
* * Copyright 2021 Huawei Technologies Co.,Ltd.
*/public class RasrDemo {
private static final int DEFAULT_HEAD_SILENCE_TIME = 1000;
private static final int DEFAULT_TAIL_SILENCE_TIME = 500;
private static final int DEFAULT_CONTINUE_SECONDS = 30;
private String ak = "";
private String audioFormat = ""; // 音频格式,如pcm16k16bit
private String property = ""; // 属性字符串,language_sampleRate_domain,如chinese_8k_common /**
* 实时语音识别参数设置,所有参数设置均为可选,均有默认值。用户根据需求设置参数。
* * @param request request请求,包含各种参数 */
private void setParameters(RasrRequest request) { // 1. 设置是否添加标点符号,yes 或 no, 默认"no"
request.setAddPunc("yes");
// 2. 设置头部的最大静音时间,[0,60000], 默认10000ms request.setVadHead(DEFAULT_HEAD_SILENCE_TIME);
// 3. 设置尾部最大静音时间,[0, 3000], 默认500ms,
request.setVadTail(DEFAULT_TAIL_SILENCE_TIME);
// 4. 设置最长持续时间,仅在continue-stream,sentence-stream模式下起作用,[1, 60], 默认30s request.setMaxSeconds(DEFAULT_CONTINUE_SECONDS);
// 5. 设置是否显示中间结果,yes或no,默认“no”
request.setIntermediateResult("no");
// 6. 设置热词表id, 若没有则设置,否则会报错。
// request.setVocabularyId("");
// 7. 设置是否将音频中数字转写为阿拉伯数字,yes or no,默认yes request.setDigitNorm("no");
} /**
* 定义config,所有参数可选,设置超时时间等。
* * @return SisConfig */
private SisConfig getConfig() { SisConfig config = new SisConfig();
// 设置连接超时,默认10000ms
config.setConnectionTimeout(SisConstant.DEFAULT_CONNECTION_TIMEOUT);
// 设置读取超时,默认10000ms
config.setReadTimeout(SisConstant.DEFAULT_READ_TIMEOUT);
// 设置pingInterval,默认5000ms,当并发较大时,建议把此值设置大一些。如果不需要ping,可设置为-1 // config.setPingInterval(-1);
// 设置代理, 一定要确保代理可用才启动此设置。 代理初始化也可用不加密的代理,new ProxyHostInfo(host, port);
// ProxyHostInfo proxy = new ProxyHostInfo(host, port, username, password);
// config.setProxy(proxy);
return config;
private RasrListener getRasrListener() {
RasrListener rasrListener = new RasrListener() { @Override
/**
* 连接成功回调 */
public void onTranscriptionConnect() { System.out.println("websocket connected");
}
@Override /**
* 断开连接回调 */
public void onTranscriptionClose() { System.out.println("websocket closed");
}
@Override /**
* 响应结果回调 */
public void onTranscriptionResponse(RasrResponse response) { printResponse(response);
public void onTranscriptionBegin(StateResponse response) { printResponse(response);
public void onSTranscriptionEnd(StateResponse response) { printResponse(response);
public void onTranscriptionFail(StateResponse response) { printResponse(response);
}
return rasrListener;
}
private void printResponse(Object response) { try {
System.out.println(JsonUtils.obj2Str(response, true));
} catch (Exception e) {
private void process() { try {
// 1. 实现监听器接口RasrListener,用户自定义收到响应的处理逻辑。
RasrListener rasrListener = getRasrListener();
// 2. 初始化RasrClient
AuthInfo authInfo = new AuthInfo(ak, sk, region, projectId);
RasrClient rasrClient = new RasrClient(authInfo, rasrListener, getConfig());
// 3. 配置参数
// audioFormat为支持格式、property为属性字符串
RasrRequest request = new RasrRequest(audioFormat, property);
setParameters(request);
// 4 选择连接模式,目前实时语音识别提供三种接口,流式一句话、实时语音识别连续模式、实时语音识别 单句模式 // 选择1 流式一句话连接
// rasrClient.shortStreamConnect(request);
// 选择2,实时语音识别单句模式
// rasrClient.sentenceStreamConnect(request);
// 选择3,实时语音识别连续模式
rasrClient.continueStreamConnect(request);
// 5. 发送开始请求、发送音频、发送end请求 // 发送开始请求,即将开始请求连带配置发送至服务端
rasrClient.sendStart();
// 发送数据,在实时语音连续模式下可多次发送。识别结果可以通过监听器获取
// 可以自己控制发送速率.byteLen为每次发送大小,sleepTime为每次发送后睡眠时间(ms),一些非持续获取 音频场景不需要睡眠,可设置为0.
rasrClient.sendAudio(path, 3200, 200);
// rasrClient.sendAudio(path);
// 可直接发送byte流,即byte数组
// byte[] data = IOUtils.getFileData(path);
// rasrClient.sendByte(data);
// rasrClient.sendByte(data, byteLen, sleepTime);
// 发送结尾请求 rasrClient.sendEnd();
// 6. 关闭客户端。发送完毕后,此步一定要实施,否则服务端因为20s没有接受任何消息而报异常。
rasrClient.close();
} catch (Exception e) { e.printStackTrace();
} }
public static void main(String[] args) { RasrDemo rasrDemo = new RasrDemo();
rasrDemo.process();
}}