文档中心
文档中心 / 语音合成
此文档自2018年3月起不再更新,建议访问 http://ai.baidu.com/docs#/TTS-API/top 来查看相关内容

语音合成

在线语音合成 Python SDK

Python SDK文档

简介

Hi,您好,欢迎使用百度语音合成服务。

本文档主要针对Python开发者,描述百度语音合成接口服务的相关技术内容。如果您对文档内容有任何疑问,可以通过以下几种方式联系我们:

  • 在百度云控制台内提交工单,咨询问题类型请选择人工智能服务

  • 加入开发者QQ群:464413749

接口能力

接口名称 接口能力简要描述
语音合成 将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。

注意事项

目前本SDK的功能同REST API,需要联网调用http接口 。REST API 仅支持最多512字(1024 字节)的音频合成,合成的文件格式为mp3。 没有其他额外功能。 如果需要使用离线合成等其它功能,请使用Android或者iOS 合成 SDK

请严格按照文档里描述的参数进行开发。请注意以下几个问题:

  1. 合成文本长度必须小于1024字节,如果本文长度较长,可以采用多次请求的方式。切忌不可文本长度超过限制。

  2. 语音合成 rest api初次申请默认请求数配额 200000次/天,如果默认配额不能满足需求,请申请提高配额。

  3. 必填字段中,严格按照文档描述中内容填写。

版本更新记录

上线日期 版本号 更新内容
2017.5.11 1.0.0 语音合成服务上线

快速入门

安装语音合成 Python SDK

语音合成 Python SDK目录结构

  1. ├── README.md
  2. ├── aip //SDK目录
  3. ├── __init__.py //导出类
  4. ├── base.py //aip基类
  5. ├── http.py //http请求
  6. └── speech.py //语音合成
  7. └── setup.py //setuptools安装

支持Python版本:2.7.+ ,3.+

安装使用Python SDK有如下方式

  • 如果已安装pip,执行pip install baidu-aip即可。
  • 如果已安装setuptools,执行python setup.py install即可。

新建AipSpeech

AipSpeech是语音合成的Python SDK客户端,为使用语音合成的开发人员提供了一系列的交互方法。

参考如下代码新建一个AipSpeech:

  1. from aip import AipSpeech
  2. """ 你的 APPID AK SK """
  3. APP_ID = '你的 App ID'
  4. API_KEY = '你的 Api Key'
  5. SECRET_KEY = '你的 Secret Key'
  6. client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

在上面代码中,常量APP_ID在百度云控制台中创建,常量API_KEYSECRET_KEY是在创建完毕应用后,系统分配给用户的,均为字符串,用于标识用户,为访问做签名验证,可在AI服务控制台中的应用列表中查看。

配置AipSpeech

如果用户需要配置AipSpeech的网络请求参数(一般不需要配置),可以在构造AipSpeech之后调用接口设置参数,目前只支持以下参数:

接口 说明
setConnectionTimeoutInMillis 建立连接的超时时间(单位:毫秒
setSocketTimeoutInMillis 通过打开的连接传输数据的超时时间(单位:毫秒)

接口说明

语音合成

接口描述

基于该接口,开发者可以轻松的获取语音合成能力

请求说明

  • 合成文本长度必须小于1024字节,如果本文长度较长,可以采用多次请求的方式。文本长度不可超过限制

举例,要把一段文字合成为语音文件:

  1. result = client.synthesis('你好百度', 'zh', 1, {
  2. 'vol': 5,
  3. })
  4. # 识别正确返回语音二进制 错误则返回dict 参照下面错误码
  5. if not isinstance(result, dict):
  6. with open('auido.mp3', 'wb') as f:
  7. f.write(result)
参数 类型 描述 是否必须
tex String 合成的文本,使用UTF-8编码,请注意文本长度必须小于1024字节
lang String 语言选择,填写zh
ctp String 客户端类型选择,web端填写1
cuid String 用户唯一标识,用来区分用户,填写机器 MAC 地址或 IMEI 码,长度为60以内
spd String 语速,取值0-9,默认为5中语速
pit String 音调,取值0-9,默认为5中语调
vol String 音量,取值0-15,默认为5中音量
per String 发音人选择, 0为女声,1为男声,3为情感合成-度逍遥,4为情感合成-度丫丫,默认为普通女

返回样例

  1. // 成功返回二进制文件流
  2. // 失败返回
  3. {
  4. "err_no":500,
  5. "err_msg":"notsupport.",
  6. "sn":"abcdefgh",
  7. "idx":1
  8. }

错误信息

错误返回格式

若请求错误,服务器将返回的JSON文本包含以下参数:

  • error_code:错误码。
  • error_msg:错误描述信息,帮助理解和解决发生的错误。

错误码

错误码 含义
500 不支持的输入
501 输入参数不正确
502 token验证失败
503 合成后端错误