文档中心
文档中心 / 语音识别

语音识别

简介

概念解释

对本文中将提到的名词约定如下:
语音识别(Automatic Speech Recognition,ASR):也被称为自动语音识别,其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
自然语言理解(Natural Language Understanding,NLU): 俗称人机对话,人工智能的分支学科。研究用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。
语音SDK(Baidu Voice Recognition Client, BDVRClient):即百度语音在线识别SDKAndroid版开发包, BDVRClient是一个封装了语音采集、处理、网络收发等功能的语音识别解决方案。使用BDVRClient可以在应用程序中快速集成语音识别功能。

功能介绍

BDVRClient是运行在Android 平台的一体化语音识别解决方案,以JAR包 + SO库的形式发布,BDVRClient支持下列功能:
语音识别控件:集成提示音、音量反馈动效整套交互的对话框控件,方便开发者快速集成;
基本功能:录音,语音数据处理,端点检测、网络通讯和状态通知,返回识别结果;
播放提示音:在录音前后播放提示音,优化用户体验;
监听语音能量:实时反馈用户当前说话声音能量强度;
语义理解:将语音识别成领域相关的语义结果。

兼容性

系统:支持Android 2.3(API Level 9)及以上系统。需要开发者通过minSdkVersion来保证支持系统的检测。
机型:手机和平板均可。
构架:支持ARM平台、x86平台。
硬件要求:要求设备上有麦克风。
网络:支持WIFI及移动网络,支持2G、3G、4G移动网络。

开发包说明

文件/文件夹名 说明
/libs/ 语音识别SDK lib库,包括各平台的SO库及Jar,SO库开发者可以按需集成
/res/raw/ 语音识别对话框音效文件,如果不使用对话框可以不集成
/docs/ JAVADOC
百度语音在线识别SDK Android版开发手册 本手册
百度语义解析协议 语义理解意图表示说明
/VoiceRecognitionDemo/ Demo工程

总体框图

BDVRClient总体使用框图