zoukankan      html  css  js  c++  java
  • 人工智能之语音合成,语音识别

    人工智能

    此篇是人工智能应用的重点,只用现成的技术不做底层算法,也是让初级程序员快速进入人工智能行业的捷径

    目前市面上主流的AI技术提供公司有很多,比如百度,阿里,腾讯,主做语音的科大讯飞,做只能问答的图灵机器人等等

    这些公司投入了很大一部分财力物力人力将底层封装,提供应用接口给我们,尤其是百度,完全免费的接口

    既然百度这么仗义,咱们就不要浪费掉怎么好的资源,从百度AI入手,开启人工智能之旅

    开启人工智能技术的大门 : http://ai.baidu.com/

    看看我大百度的AI大法,这些技术全部都是封装好的接口,看着就爽

    接下来咱们就一步一步的操作一下

    首先进入控制台,注册一个百度的账号(百度账号通用)

    开通一下我们百度AI开放平台的授权

    然后找到已开通服务中的百度语音

     就可以创建应用了,回到应用列表我们可以看到已创建的应用了

     

    安装百度的人工智能SDK:

    首先咱们要 pip install baidu-aip 安装一个百度人工智能开放平台的Python SDK实在是太方便了,这也是为什么我们选择百度人工智能的最大原因

    语音合成

     其中参数:

    这个时候audio.mp3就出来了,可以使用播放器播放,也可使用os模块调用os.steam(文件名)播放

    语音识别:

    哎,每次到这里,我都默默无语泪两行,声音这个东西格式太多样化了,如果要想让百度的SDK识别咱们的音频文件,就要想办法转变成百度SDK可以识别的格式PCM

    目前DragonFire已知可以实现自动化转换格式并且屡试不爽的工具 : FFmpeg 这个工具的下载地址是 : 链接:https://pan.baidu.com/s/1jonSAa_TG2XuaJEy3iTmHg 密码:w6hk

    FFmpeg 环境变量配置:

    首先你要解压缩,然后找到bin目录,我的目录是 D:pythonffmpeg-20180619-a990184-win64-sharedin

    尝试一下,是否配置成功

    看到这个界面就算配置成功了,配置成功有什么用呢, 这个工具可以将wav wma mp3 等音频文件转换为 pcm 无压缩音频文件

    做一个测试,首先要打开windows的录音机,录制一段音频(说普通话)

    现在假设录制的音频文件的名字为 audio.wav 放置在 D:kujiaweiAudio

    然后我们用命令行对这个 audio.wav 进行pcm格式的转换然后得到 audio.mp3

    命令是 : ffmpeg -y  -i audio.mp3  -acodec pcm_s16le -f s16le -ac 1 -ar 16000 audio.pcm

    其中参数:

    运行结果如下:

  • 相关阅读:
    毕业设计——第三章 开发方法及系统实现(2)
    毕业设计——第三章 开发方法及系统实现(5)
    毕业设计——第二章 系统总体设计(2)
    Blue Screen Of Death ( BSOD ) 错误信息解析解释
    毕业设计——第三章 开发方法及系统实现(3)
    毕业设计——第三章 开发方法及系统实现(4)
    dvbbs7.1sp1最新漏洞的研究和利用
    毕业设计——第二章 系统总体设计(1)
    一则笑话
    线性代数
  • 原文地址:https://www.cnblogs.com/kujiawei/p/10595170.html
Copyright © 2011-2022 走看看