文档中心
文档中心 / 语音识别
此文档自2018年3月起不再更新,建议访问 http://ai.baidu.com/docs#/ASR-API/top 来查看相关内容

语音识别

简介

简介

百度语音识别通过 REST API 的方式给开发者提供一个通用的 HTTP 接口。
上传需要完整的录音文件,录音文件时长不超过60s。

语种

普通话、英语、粤语、四川话

识别模型

百度语音提供2种识别模型

  • 搜索模型: 效果同手机百度搜索的语音输入。适合于短语识别,没有逗号。
  • 输入法模型:效果同百度输入法的语音输入。适合于长句识别,有逗号。

普通话搜索模型同时能识别简单的常用英语语句,效果同手机百度。

适用范围

任意操作系统,任意编程语言,只要可以对百度语音服务器发起http请求的,均可以使用本接口。
浏览器由于无法跨域请求百度语音服务器的域名,因此无法使用本接口。

语音格式

格式支持:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。推荐pcm
采样率 :16000 固定值。
编码:16bit 位深的单声道。

百度服务端会将非pcm格式,转为pcm格式,因此使用wav、amr会有额外的转换耗时。

音频文件格式转换请参见文档【语音识别小工具\音频文件转码】

自定义词库

自定义词库在您网页申请的应用内设置(具体位置参见下图)。
图片

自定义词库适合短句,保证词库中一模一样的短句可以被识别出,词库中的分词优先级较高。
自定义词库仅对dev_pid = 1536生效,并且原始音频的采用率为16K。

最好在1万行以内。

副作用:如果用户的测试集中包含大量非自定义词表的query,整体上准确率下降。

举例:

词库定义了1个短句:
1 . 摆渡船来了
百度内部处理的可能的分词结果: 摆渡船 来 了

以下录音的结果

  1. 原始音频:摆渡船来了 =>识别结果: 摆渡船来了 【保证结果】
  2. 原始音频:摆渡船来了么 =>识别结果: 百度传来了么 【可能结果,不保证】
  3. 原始音频:摆渡船来 => 识别结果: 百度传来 【可能结果,不保证】
  4. 原始音频:百度传来了喜讯 => 识别结果: 摆渡船传来了喜讯 【不保证,词库内的分词优先级高】

SDK

目前对识别和合成的REST API,均封装了 Java、Python、PHP、C#、NodeJs、C++ 共6种开发语言的SDK。功能等同于REST API。SDK中 识别使用JSON方式提交本地文件。