基于深度学习的中文语音识别系统

zoukankan html css js c++ java

基于深度学习的中文语音识别系统
最近看到一个开源项目，特地学习了下，实测后，语音识别系统的正确率大概75%左右，作为学习入门的资料还是不错的，项目已上传到github上，不过数据集和生成的模型由于文件太大，上传失败，随后存在百度网盘，自行下载哈，普通电脑真伤，跑了三天，还是gpu快点。

查看本项目的Wiki文档

如果程序运行期间或使用中有什么问题，可以及时在issue中提出来，我将尽快做出答复。本项目作者交流QQ群：867888133

提问前可以先查看常见问题避免重复提问

ASRT的原理请查看本文：
- ASRT：一个中文语音识别系统
关于经常被问到的统计语言模型原理的问题，请看：
- 统计语言模型：从中文拼音到文本
- 无需中文分词算法的简单词频统计
Introduction 简介

本项目使用Keras、TensorFlow基于深度卷积神经网络和长短时记忆神经网络、注意力机制以及CTC实现。

This project uses Keras, TensorFlow based on deep convolutional neural network and long-short memory neural network, attention mechanism and CTC to implement.
- 操作步骤
首先通过Git将本项目克隆到您的计算机上，然后下载本项目训练所需要的数据集，下载链接详见文档末尾部分。
$ git clone https://github.com/nl8590687/ASRT_SpeechRecognition.git
或者您也可以通过 "Fork" 按钮，将本项目Copy一份副本，然后通过您自己的SSH密钥克隆到本地。

通过git克隆仓库以后，进入项目根目录；并创建子目录 dataset/ (可使用软链接代替)，然后将下载好的数据集直接解压进去

注意，当前版本中，Thchs30和ST-CMDS两个数据集都必须下载使用，缺一不可，并且使用其他数据集需要修改代码。
$ cd ASRT_SpeechRecognition $ mkdir dataset $ tar zxf <数据集压缩文件名> -C dataset/
然后需要将datalist目录下的文件全部拷贝到 dataset/ 目录下，也就是将其跟数据集放在一起。
$ cp -rf datalist/* dataset/
目前可用的模型有24、25和251

运行本项目之前，请安装必要的Python3版依赖库

本项目开始训练请执行：
$ python3 train_mspeech.py
本项目开始测试请执行：
$ python3 test_mspeech.py
测试之前，请确保代码中填写的模型文件路径存在。

ASRT API服务器启动请执行：
$ python3 asrserver.py
请注意，开启API服务器之后，需要使用本ASRT项目对应的客户端软件来进行语音识别，详见Wiki文档ASRT客户端Demo。

如果要训练和使用模型251，请在代码中 import SpeechModel 的相应位置做修改。

Model 模型

Speech Model 语音模型

CNN + LSTM/GRU + CTC

其中，输入的音频的最大时间长度为16秒，输出为对应的汉语拼音序列
- 关于下载已经训练好的模型的问题
可以在Github本仓库下releases里面的查看发布的各个版本软件的压缩包里获得包含已经训练好模型参数的完整源程序。

Language Model 语言模型

基于概率图的最大熵隐马尔可夫模型

输入为汉语拼音序列，输出为对应的汉字文本

About Accuracy 关于准确率

当前，最好的模型在测试集上基本能达到80%的汉语拼音正确率

不过由于目前国际和国内的部分团队能做到98%，所以正确率仍有待于进一步提高

Python Import

Python的依赖库
- python_speech_features
- TensorFlow
- Keras
- Numpy
- wave
- matplotlib
- math
- Scipy
- h5py
- http
- urllib
Data Sets 数据集
- 清华大学THCHS30中文语音数据集
  
  data_thchs30.tgz OpenSLR国内镜像 OpenSLR国外镜像
  
  test-noise.tgz OpenSLR国内镜像 OpenSLR国外镜像
  
  resource.tgz OpenSLR国内镜像 OpenSLR国外镜像
- Free ST Chinese Mandarin Corpus
  
  ST-CMDS-20170001_1-OS.tar.gz OpenSLR国内镜像 OpenSLR国外镜像
- AIShell-1 开源版数据集
  
  data_aishell.tgz OpenSLR国内镜像 OpenSLR国外镜像
  
  注：数据集解压方法
  
  $ tar xzf data_aishell.tgz $ cd data_aishell/wav $ for tar in *.tar.gz; do tar xvf $tar; done
- Primewords Chinese Corpus Set 1
  
  primewords_md_2018_set1.tar.gz OpenSLR国内镜像 OpenSLR国外镜像
- aidatatang_200zh
  
  aidatatang_200zh.tgz OpenSLR国内镜像 OpenSLR国外镜像
- MagicData
  
  train_set.tar.gz OpenSLR国内镜像 OpenSLR国外镜像
  
  dev_set.tar.gz OpenSLR国内镜像 OpenSLR国外镜像
  
  test_set.tar.gz OpenSLR国内镜像 OpenSLR国外镜像
  
  metadata.tar.gz OpenSLR国内镜像 OpenSLR国外镜像
特别鸣谢！感谢前辈们的公开语音数据集

如果提供的数据集链接无法打开和下载，请点击该链接 OpenSLR

测试了一段语音：“我们群里兄弟姐妹都在说”，整体还行，实际应用还存在差距！！！
查看全文

相关阅读:
模块在insmod之后无法rmmod问题
 FL2440驱动添加（2）： RTC(Real time clock)
虚拟机安装CentOS6.3两个问题
 内核移植和文件系统制作（3）Ramdisk简介和常见问题
 FL2440驱动添加（1）：hello world 驱动模块添加
 内核移植和文件系统制作（2）：linux内核最小系统和initramfs文件系统
 内核移植和文件系统制作（1）：根文件系统制作总结
 mysql 5.7.16多源复制
 mysql 5.7安装脚本
 二进制方式快速安装MySQL数据库命令集合

原文地址：https://www.cnblogs.com/chen8023miss/p/12082284.html

基于深度学习的中文语音识别系统

Introduction 简介

Model 模型

Speech Model 语音模型

Language Model 语言模型

About Accuracy 关于准确率

Python Import

Data Sets 数据集