websdk-java-demo
1、AI 能力使用的 APPID、APISecret、APIKey 获取
请点击控制台进行获取并填写到 src/main/resources/test.properties 文件!
2、实时语音转写 rtaAPIKey 获取
请点击实时语音转写控制台进行获取并填写到 src/main/resources/test.properties 文件!
3、音频文件语音转写 lfasrSecretKey 获取
请点击音频文件语音转写控制台进行获取并填写到 src/main/resources/test.properties 文件!
4、DEMO 运行说明
获取到信息后填写到项目路径 src/main/resources/test.properties 文件中,找到能力对应的主类运行即可。能力与主类对应说明如下:
AI 能力名称 | 对应主类名称 |
---|---|
语音听写 | IatClientApp |
实时语音转写 | RtasrClientApp |
音频文件语音转写 | LfasrClientApp |
语音合成 | TtsClientApp |
语音评测 | IseClientApp |
小牛翻译及自研机器翻译 | TranslateApp |
文本纠错 | TextCheckClientApp |
PPT 生成 | AIPPTClientApp |
静默活体检测 | AntiSpoofClientApp |
银行卡识别 | BankcardClientApp |
名片识别 | BusinessCardClientApp |
人脸比对 | FaceCompareClientApp |
人脸检测和属性分析 | FaceDetectClientApp |
配合式活体检测 | FaceStatusClientApp |
人脸比对 sensetime | FaceVerificationClientApp |
指尖文字识别 | FingerOcrClientApp |
印刷文字识别和手写文字识别 | GeneralWordsClientApp |
性别年龄识别 | IgrClientApp |
场景识别和物体识别 | ImageRecClientApp |
图片类识别(营业执照,出租车发票,火车票,增值税发票 ,身份证,印刷文字) | ImageWordClientApp |
身份证识别 营业执照识别 增值税发票识别 印刷文字识别(多语种) | IntsigOcrClientApp |
场所识别 | PlaceRecClientApp |
歌曲识别 | QbhClientApp |
静默活体检测 sensetime | SilentDetectionClientApp |
人脸检测和属性分析 | TupApiClientApp |
人脸水印照比对 | WatermarkVerificationClientApp |
二、讯飞开放平台常用 AI 能力介绍与常用参数说明
1、语音听写(流式版)
(1)功能说明
语音听写流式接口,用于 1 分钟内的即时语音转文字技术,支持实时返回识别结果,达到一边上传音频一边获得识别文本的效果。
(2)常用参数
以下仅为常用参数说明,详情请点击语音听写文档 查看。
参数名 | 类型 | 必传 | 描述 | 示例 |
---|---|---|---|---|
vad_eos | int | 否 | 用于设置端点检测的静默时间,单位是毫秒。
即静默多长时间后引擎认为音频结束。
默认 2000(小语种除外,小语种不设置该参数默认为未开启 VAD)。 | 3000 |
| dwa | string | 否 | (仅中文普通话支持)动态修正
wpgs:开启流式结果返回功能
注:该扩展功能若未授权无法使用,可到控制台-语音听写(流式版)-高级功能处免费开通;若未授权状态下设置该参数并不会报错,但不会生效。 | "wpgs" |
2、实时语音转写
(1)功能说明
实时语音转写(Real-time ASR)基于深度全序列卷积神经网络框架,通过 WebSocket 协议,建立应用与语言转写核心引擎的长连接,开发者可实现将连续的音频流内容,实时识别返回对应的文字流内容。 支持的音频格式: 采样率为 16K,采样深度为 16bit 的 pcm_s16le 音频
(2)常用参数
以下仅为常用参数说明,详情请点击实时语音转写文档查看。
|参数名|类型|必传|描述|示例|
|---|---|---|---|---|
|lang|string|否|实时语音转写语种,不传默认为中文
|语种类型:中文、中英混合识别:cn;英文:en;小语种及方言可到控制台-实时语音转写-方言/语种处添加,添加后会显示该方言/语种参数值。传参示例如:"
lang=en"|
|targetLang|string|否|目标翻译语种|例如:targetLang="en"
如果使用中文实时翻译为英文传参示例如下:
"
&lang=cn&transType=normal&transStrategy=2&targetLang=en"
注意:需控制台开通翻译功能|
3、音频文件语音转写
(1)功能说明
语音转写(Long Form ASR)基于深度全序列卷积神经网络,将长段音频(5 小时以内)数据转换成文本数据,为信息处理和数据挖掘提供基础。 转写的是已录制音频(非实时),音频文件上传成功后进入等待队列,待转写成功后用户即可获取结果,返回结果时间受音频时长以及排队任务量的影响。 如遇转写耗时比平时延长,大概率表示当前时间段出现转写高峰,请耐心等待即可,我们承诺有效任务耗时最大不超过 5 小时 。 另外,为使转写服务更加通畅,请尽量转写 5 分钟以上的音频文件。
(2)常用参数
以下仅为常用参数说明,详情请点击音频文件语音转写文档查看。
|参数名|类型|必传|描述|示例|
|---|---|---|---|---|
|speaker_number|string|否|发音人个数,可选值:0-10,0 表示盲分
注
:发音人分离目前还是测试效果达不到商用标准,如测试无法满足您的需求,请慎用该功能。|默认:2(适用通话时两个人对话的场景)|
|has_seperate|string|否|转写结果中是否包含发音人分离信息|false 或 true,默认为 false|
|role_type|string|否|支持两种参数
1: 通用角色分离
2:
电话信道角色分离(适用于 speaker_number 为 2 的说话场景)该字段只有在开通了角色分离功能的前提下才会生效,正确传入该参数后角色分离效果会有所提升。
如果该字段不传,默认采用 1 类型|
|language|string|否|语种
cn:中英文&中文(默认)
en:英文(英文不支持热词)|cn|
4、语音合成(流式版)
(1)功能说明
语音合成流式接口将文字信息转化为声音信息,同时提供了众多极具特色的发音人(音库)供您选择,可以在 这里 在线体验发音人效果。
(2)常用参数
以下仅为常用参数说明,详情请点击语音合成文档查看。
参数名 | 类型 | 必传 | 描述 | 示例 |
---|---|---|---|---|
vcn | string | 是 | 发音人,可选值:请到控制台添加试用或购买发音人,添加后即显示发音人参数值 | "xiaoyan" |
| rdn | string | 否 | 合成音频数字发音方式
0:自动判断(默认值)
1:完全数值
2:完全字符串
3:字符串优先 | "0" |
5、语音评测(流式版)
(1)功能说明
通过智能语音技术自动对发音水平进行评价、发音错误、缺陷定位和问题分析的能力接口。涉及的核心技术主要可分为两个部分:中文普通话发音水平自动评测技术、英文发音水平自动评测技术。
(2)常用参数
以下仅为常用参数说明,详情请点击语音评测文档查看。
参数名 | 类型 | 必传 | 描述 | 示例 |
---|---|---|---|---|
ent | string | 是 | 中文:cn_vip 英文:en_vip |
"cn_vip" |
category | string | 是 | 中文题型: read_syllable(单字朗读,汉语专有) read_word(词语朗读) read_sentence(句子朗读) read_chapter(篇章朗读) 英文题型: read_word(词语朗读) read_sentence(句子朗读) read_chapter(篇章朗读) simple_expression(英文情景反应) read_choice(英文选择题) topic(英文自由题) retell(英文复述题) picture_talk(英文看图说话) oral_translation(英文口头翻译) |
"read_sentence" |
text | string | 是 | 待评测文本 utf8 编码,需要加 utf8bom 头 | '\uFEFF'+text |
tte | string | 是 | 待评测文本编码 utf-8 gbk |
"utf-8" |
extra_ability | string | 否 | 拓展能力(生效条件 ise_unite="1", rst="entirety")多维度分信息显示(准确度分、流畅度分、完整度打分)extra_ability 值为 multi_dimension(字词句篇均适用,如选多个能力,用分号;隔开。例如:add("extra_ability"," syll_phone_err_msg;pitch;multi_dimension"))单词基频信息显示(基频开始值、结束值)extra_ability 值为 pitch ,仅适用于单词和句子题型音素错误信息显示(声韵、调型是否正确)extra_ability 值为 syll_phone_err_msg(字词句篇均适用,如选多个能力,用分号;隔开。例如:add("extra_ability"," syll_phone_err_msg;pitch;multi_dimension")) | "multi_dimension" |
aue | string | 否 | 音频格式 raw: 未压缩的 pcm 格式音频或 wav(如果用 wav 格式音频,建议去掉头部) lame: mp3 格式音频 speex-wb;7: 讯飞定制 speex 格式音频(默认值) |
"raw" |
auf | string | 否 | 音频采样率 默认 audio/L16;rate=16000 |
"audio L16;rate=16000" |
group | string | 否 | 针对群体不同,相同试卷音频评分结果不同 (仅中文字、词、句、篇章题型支持),此参数会影响准确度得分 adult(成人群体,不设置群体参数时默认为成人) youth(中学群体 pupil(小学群体,中文句、篇题型设置此参数值会有 accuracy_score 得分的返回)) |
"adult" |
grade | string | 否 | 设置评测的学段参数 (仅中文题型:中小学的句子、篇章题型支持) junior(1,2 年级) middle(3,4 年级) senior(5,6 年级) |
"middle" |
rst | string | 否 | 评测返回结果与分制控制(评测返回结果与分制控制也会受到 ise_unite 与 plev 参数的影响) 完整:entirety(默认值) 中文百分制推荐传参(rst="entirety"且 ise_unite="1"且配合 extra_ability 参数使用) 英文百分制推荐传参(rst="entirety"且 ise_unite="1"且配合 extra_ability 参数使用) 精简:plain(评测返回结果将只有总分),如: <?xml version="1.0" ?> |
"entirety" |
ise_unite | string | 否 | 返回结果控制 0:不控制(默认值) 1:控制(extra_ability 参数将影响全维度等信息的返回) |
"0" |
plev | string | 否 | 在 rst="entirety"(默认值)且 ise_unite="0"(默认值)的情况下 plev 的取值不同对返回结果有影响。 plev:0(给出全部信息,汉语包含 rec_node_type、perr_msg、fluency_score、phone_score 信息的返回;英文包含 accuracy_score、serr_msg、 syll_accent、fluency_score、standard_score、pitch 信息的返回) |
"0" |