文档中心
文档中心 / 语音识别

语音识别

音频文件转码

简介

本文描述如何从其它格式的音频转成符合语音识别输入要求格式的音频文件。

由于底层识别使用的是pcm,因此推荐直接上传pcm文件。如果上传其它格式,会在服务器端转码成pcm,调用接口的耗时会增加。

语音识别仅支持以下格式 :pcm(不压缩)、wav(不压缩,pcm编码)、amr(有损压缩格式);8k/16k 采样率 16bit 位深的单声道。即:

  1. pcm wav amr 格式三选一。 正常情况请使用pcm。其中wav格式需要使用pcm编码。
  2. 采用率二选一 8000 或者 16000。正常情况请使用16000
  3. 单声道

示例音频文件下载

转换命令示例

wav 文件转 16k 16bits 位深的单声道pcm文件

  1. ffmpeg -y -i 16k.wav -acodec pcm_s16le -f s16le -ac 1 -ar 16000 16k.pcm

44100 采样率 单声道 16bts pcm 文件转 16000采样率 16bits 位深的单声道pcm文件

  1. ffmpeg -y -f s16le -ac 1 -ar 44100 -i test44.pcm -acodec pcm_s16le -f s16le -ac 1 -ar 16000 16k.pcm

mp3 文件转 16K 16bits 位深的单声道 pcm文件

  1. ffmpeg -y -i aidemo.mp3 -acodec pcm_s16le -f s16le -ac 1 -ar 16000 16k.pcm
  2. // -acodec pcm_s16le pcm_s16le 16bits 编码器
  3. // -f s16le 保存为16bits pcm格式
  4. // -ac 1 单声道
  5. // -ar 16000 16000采样率

正常输出如下:

  1. Input #0, mp3, from 'aaa.mp3':
  2. Metadata:
  3. encoded_by : Lavf52.24.1
  4. Duration: 00:02:33.05, start: 0.000000, bitrate: 128 kb/s
  5. Stream #0:0: Audio: mp3, 44100 Hz, stereo, s16p, 128 kb/s
  6. // 输入音频, MP3格式, 44100采样率,stereo-双声道, 16bits 编码
  7. Output #0, s16le, to '16k.pcm':
  8. Metadata:
  9. encoded_by : Lavf52.24.1
  10. encoder : Lavf57.71.100
  11. Stream #0:0: Audio: pcm_s16le, 16000 Hz, mono, s16, 256 kb/s
  12. // 输入音频, MP3格式, 16000采样率,mono-单声道, 16bits
  13. // 256 kb/s = 32KB/s = 32B/ms

ffmpeg 使用说明

简介

ffmpeg 的一个功能是转换不同的音频格式,其它简介请至http://ffmpeg.org/

linux 版本:http://www.ffmpeg.org/download.html#build-linux
linux 静态编译版本:https://www.johnvansickle.com/ffmpeg/
windows 版本 :http://ffmpeg.zeranoe.com/builds/

ffmpeg官方文档地址:http://ffmpeg.org/ffmpeg.html

编译参数与支持格式

ffmpeg默认支持pcm与wav(pcm编码)格式,额外的编译参数如下:

  • —enable-libopencore-amrnb 支持amr-nb(8000 采样率) 读写
  • —enable-libopencore-amrwb 支持amr-wb(16000 采样率) 读取
  • —enable-libvo-amrwbenc 支持amr-wb(16000 采样率) 写入
  • —enable-libmp3lame 支持mp3 写入
    ffmpeg -codecs 可以查看所有的格式:
  1. D..... = Decoding supported # 读取
  2. .E.... = Encoding supported # 写入
  3. ..A... = Audio codec # 音频编码
  4. ....L. = Lossy compression # 有损
  5. .....S = Lossless compression # 无损
  6. DEA..S pcm_s16le PCM signed 16-bit little-endian
  7. DEA.LS wavpack WavPack
  8. DEA.L. mp3 MP3 (MPEG audio layer 3)
  9. DEA.L. amr_nb AMR-NB (Adaptive Multi-Rate NarrowBand)
  10. DEA.L. amr_wb AMR-WB (Adaptive Multi-Rate WideBand)

输入音频参数

wav amr 与mp3格式都自带头部, 含有采样率 编码 多声道等信息。而pcm为原始音频信息,没有类似头部。
wav(pcm编码)格式,仅仅在同样参数的pcm文件加了个几百k的文件头。

输入 wav amr 及mp3格式:

  1. -i test.wav # 或test.mp3 或者 test.amr

输入 pcm格式: pcm需要额外告知编码格式,采样率,单声道信息

  1. -f s16le -ac 1 -ar 16000 -i 8k.pcm
  2. // 单声道 16000 采样率 16bits编码 pcm文件

输出音频参数

在原始采样率 大于或者接近16000的时候,推荐使用16000的采样率。 8000的采样率会降低识别效果。
输出wav和amr格式时,如果不指定输出编码器的haunt,ffmpeg会选取默认编码器。

输出pcm音频

  1. -f s16le -ac 1 -ar 16000 16k.pcm
  2. // 单声道 16000 采样率 16bits编码 pcm文件

输出wav 音频:

  1. -ac 1 -ar 16000 16k.wav
  2. // 单声道 16000 采样率 16bits编码 pcm编码的wav文件

输出amr-nb 音频 :全称是:Adaptive Multi-Rate,自适应多速率,是一种音频编码文件格式,专用于有效地压缩语音频率。在带宽不是瓶颈的情况下,不建议选择这种格式,解压需要百度服务器额外的耗时
amr-nb格式只能选 8000采样率。bit rates越高音质越好,但是文件越大。
bit rates 4.75k, 5.15k, 5.9k, 6.7k, 7.4k, 7.95k, 10.2k or 12.2k

8000的采样率及有损压缩会降低识别效果。如果原始采样率大于16000,请使用 amr-wb格式。

  1. -ac 1 -ar 8000 -ab 12.2k 8k-122.amr
  2. // 8000 采样率 12.2 bitRates

输出 amr-wb 格式,采样率 16000。 bit rates越高音质越好,但是文件越大。
6600 8850 12650 14250 15850 18250 19850 23050 23850

  1. -acodec amr_wb -ac 1 -ar 16000 -ab 23850 16k-23850.amr

常用参数

  • -y 覆盖同名文件
  • -v 日志输出基本 如 -v ERROR -v quiet 等

参数拼接

ffmpeg {常用参数} {输入音频参数} {输出音频参数}

示例:
输入是 32000HZ的单声道 16bits pcm文件。查询之前的输入参数为 “ -f s16le -ac 1 -ar 32000 -i test32.pcm”
输出是 16000HZ的单声道 16bits pcm文件。查询之前的输出参数为 “-f s16le -ac 1 -ar 16000 16k.pcm”
常用参数选择 -y

合并如下:

  1. ffmpeg -y -f s16le -ac 1 -ar 32000 -i test32.pcm -f s16le -ac 1 -ar 16000 16k.pcm

查看音频格式ffprobe使用

查看语音合成生成的MP3格式信息:

  1. ffprobe -v quiet -print_format json -show_streams aidemo.mp3

返回如下

  1. {
  2. "streams": [
  3. {
  4. "index": 0,
  5. "codec_name": "mp3", // mp3 格式
  6. "codec_long_name": "MP3 (MPEG audio layer 3)",
  7. "codec_type": "audio",
  8. "codec_time_base": "1/16000",
  9. "codec_tag_string": "[0][0][0][0]",
  10. "codec_tag": "0x0000",
  11. "sample_fmt": "s16p",
  12. "sample_rate": "16000", // 16000采样率
  13. "channels": 1, // 单声道
  14. "channel_layout": "mono",
  15. "bits_per_sample": 0,
  16. "r_frame_rate": "0/0",
  17. "avg_frame_rate": "0/0",
  18. "time_base": "1/14112000",
  19. "start_pts": 0,
  20. "start_time": "0.000000",
  21. "duration_ts": 259096320,
  22. "duration": "18.360000",
  23. "bit_rate": "16000",
  24. "disposition": {
  25. "default": 0,
  26. "dub": 0,
  27. "original": 0,
  28. "comment": 0,
  29. "lyrics": 0,
  30. "karaoke": 0,
  31. "forced": 0,
  32. "hearing_impaired": 0,
  33. "visual_impaired": 0,
  34. "clean_effects": 0,
  35. "attached_pic": 0,
  36. "timed_thumbnails": 0
  37. }
  38. }
  39. ]
  40. }

pcm文件音频时长计算

同图像bmp文件一样,pcm文件保存的是未压缩的音频信息。
16bits 编码是指,每次采样的音频信息用2个字节保存。可以对比下bmp文件用分别用2个字节保存RGB颜色的信息。
16000采样率 是指 1秒钟采样 16000次。常见的音频是44100HZ,即一秒采样44100次。
单声道: 只有一个声道。

根据这些信息,我们可以计算:
1秒的16000采样率音频文件大小是 216000 = 32000字节 ,约为32K
1秒的8000采样率音频文件大小是 2
8000 = 16000字节 ,约为 16K

如果已知录音时长,可以根据文件的大小计算采样率是否正常。