文档中心
文档中心 / 语音识别

语音识别

简介

概念解释

对本文中将提到的名词约定如下:
语音识别(Automatic Speech Recognition,ASR):也被称为自动语音识别,其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
自然语言理解(Natural Language Understanding,NLU): 俗称人机对话,人工智能的分支学科。研究用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。
语音识别SDK离在线融合版(Baidu Voice Recognition Client, BDVRClient):文中简称为BDVRClient。BDVRClient是一个封装了语音采集、语音预处理、云端识别、离线识别等功能的语音识别解决方案。使用BDVRClient可以快速在应用程序中集成语音识别功能。

功能介绍

BDVRClient支持下列功能:
基本功能:录音、语音数据处理、端点检测、网络通讯、状态通知、返回文字结果;
语音识别控件:集成提示音、音量反馈动效整套交互的对话框控件,方便开发者快速集成;
播放提示音:在录音前后播放提示音,优化用户体验;
监听语音音量:实时反馈用户当前说话声音能量强度;
语义理解:将语音识别成领域相关的语义结果。
本文档适用于对iOS应用开发有基本了解的开发人员。

兼容性

系统:支持iOS 5.0及以上系统。
架构:armv7、armv7s、arm64、i386、x86_64。
机型:iPhone 4+,iPad 2+和iPod 5+。
硬件要求:需要有麦克风,用于支持语音录入。
网络:支持NET、Wifi网络环境。

开发包说明

一级目录 二级目录 说明
Headers BDVoiceRecognitionClient.h BDVRClient无UI头文件
BDRecognizerViewController.h BDVRClient UI头文件
BDRecognizerViewDelegate.h BDVRClient UI结果回调接口头文件
BDRecognizerViewParamsObject.h BDVRClient UI中启动参数头文件
BDTheme.h BDVRClient UI主题头文件
BDVRRawDataRecognizer.h BDVRClient音频数据识别头文件
BDVRFileRecognizer.h BDVRClient音频文件识别头文件
BDVRClientSample SDK Demo源代码 开发示例
Third-party 各种第三方库 需要添加到项目中的第三方库
libBDVoiceRecognitionClient libBDVoiceRecognitionClient.a 通用库,合并了真机armv7、armv7s、arm64和模拟器版的库
BDVoiceRecognitionClientResources Tone 提示音资源文件
Theme 识别控件主题
Data 数据文件 离线语音识别所需要的数据文件
License 授权文件 离线语音识别所需要的授权文件
Doc 百度语音识别iOS版开发手册 开发者使用指南

总体框图

BDVRClient总体使用框图