文档中心
文档中心 / 语音合成

语音合成

简介

概念解释

语音合成是实现人机语音交互,建立一个有听和讲能力的交互系统所必需的关键技术。随着语音技术的发展,百度自主研发了语音合成系统(TTS),功能是接收用户发送的文本,生成语音发送给用户。
对本文中将提到的名词约定如下:
语音合成(Text To Speech,TTS):将文本合成为语音,即声音文件。
合成引擎:将文本合成为语音的核心模块。
百度语音合成SDK(BDSSpeechSynthesizer):本开发包。BDSSpeechSynthesizer是一个封装了网络首发、音频播放功能的语音合成解决方案。借助BDSSpeechSynthesizer可以在应用程序中快速集成语音合成功能。

功能介绍

百度语音合成客户端iOS离在线融合版SDK(以下简称BDSSpeechSynthesizer)是一种面向iOS移动设备的语音合成解决方案,以Cocoa Touch Static Library形式发布。支持离线语音合成,在线语音合成,在线优先等合成模式。目前版本已支持SDK内部直接播放合成语音。离线合成支持语速、音调、音量、引擎优化级别设置,后续版本将支持如男女声等更多的合成参数;在线合成支持男女声、语速、音调、音量、音频码率设置,后续版本将支持从SDK获取语音数据、合成进度提示以及更多参数设置。
本版本优先使用在线语音合成服务合成,以获得更好的合成效果。如在线合成服务不可用,如网络连接异常,蜂窝信号差等,将会使用离线合成引擎合成文本,保证功能可用,并按规则定期侦测在线语音合成服务,如在线服务可用,下次语音合成将使用在线服务合成。

兼容性

  • 系统:支持iOS 6.0及以上。
  • 机型:iPhone和iPad皆可。
  • 架构:支持i386、x86_64、armv7、arm64。
    (离线合成不支持i386和x86_64架构。)

开发包说明

文件(夹)名 说明
Doc/Baidu_Combined_TTS_SDK_iOS_Manual.pdf 本文档
BDSSpeechSynthesizer_SDK 语音合成SDK Lib库,支持simulator和iOS设备
BDSSpeechSynthesizerSample 开发示例(xcode project)
OfflineTTSDatFiles/Chinese_Speech_Female.dat 语音合成资源文件 (speech data file,中文,女声)
OfflineTTSDatFiles/Chinese_Speech_Male.dat 语音合成资源文件(speech data file,中文,男声)
OfflineTTSDatFiles/Chinese_Text.dat 语音合成资源文件(text data file, 中文)
OfflineTTSDatFiles/English_Speech_Female.dat 语音合成资源文件 (speech data file,英文,女声)
OfflineTTSDatFiles/English_Speech_Male.dat 语音合成资源文件(speech data file,英文,男声)
OfflineTTSDatFiles/ English_Text.dat 语音合成资源文件(text data file, 英文)
OfflineTTSDatFiles/offline_engine_tmp_license.dat 授权文件

总体框图