zoukankan      html  css  js  c++  java
  • 语音识别学习阶段性总结(一)

    一. 对语音识别总体认识的简单叙述

      语音识别大体上就是将人类的语音信号输入系统,识别出对应的文字。语音合成则是一个相反的过程,给出文本,输入系统后能够输出文字对应的语音信号。

      语音识别是一个大方向,细分起来包括了声纹识别、关键词识别、语音信号处理等方向,还包括了很重要的连续语音识别。而语音合成方面,主要学习的是歌声合成的相关知识。

      语音识别的过程大体可以分为两个阶段,前一阶段主要是语音信号的处理,包括语音信号的预处理,语音信号的分析(时域分析、时频域分析、倒谱域分析),语音信号的特征提取(主要是关于MFCC的工作,为后续的建模等工作做准备);后一阶段则主要是模型训练和语音识别阶段,模型的训练主要是使用已有的训练数据,对给出的模型进行训练,通过一次次训练不断优化模型中的参数,使得整个系统更加接近理想的效果。语音模型的选择多种多样,包括HMM,GMM,DNN,CNN等,目前接触到的包括HMM,GMM,DNN,而CNN我暂时没有学习到。

    三.语音识别的大体过程总结

      1.语音信号预处理

      语音信号是一个连续的信号,要想输入系统进行处理,首先要对语音信号进行预处理,比如预加重处理,分帧加窗处理等,目的则是为了提高信号信噪比,便于后续处理。

      2. 语音信号分析

      语音识别不是一个简单的输入语音并直接输出文本的系统,语音信号输入的时候要进行一系列处理。语音信号具有长时时变短时平稳的特征。对于语音信号的分析包括了时域分析、时频域分析,倒谱域分析。在这里对于因信号进行处理的目的,是为了得到语音信号的时域或者时频域特征,便于画出功率谱。这一步得到的功率谱,可以直接用于下一步的特征提取(比如MFCCs)。

      时域分析:

      时域分析能够提取到的特征包括短时平均能量,短时平均过零率,短时平均幅度,短时自相关函数。语音信号是长时时变短时平稳的信号,所以这些特征都倾向于短时信号特征,这些特征在端点检测、静音判断、清浊音切分等方面使用广泛。

      时频域分析:

      语音处理过程中,除了时域特征之外,频率域特征或者二者结合起来的时频特征对后续工作也很重要。傅里叶变换是这一部分很重要的知识点。

      傅里叶变换可以很好的表现出信号的频率域特征,但是丢失了时间信息,因此,对傅里叶变换进行优化,提出了短时傅里叶变换(STFT),在傅里叶变换的基础上,对信号分帧加窗,逐个处理,能够得到比较好的时域和频域特征信息。另外,针对突变的、非平稳信号和离散信号,一些论文中也提出了其他的信号分析方法,比如拉普拉斯变换(在FT基础上引入了衰减因子)、Z变换(适合处理离散信号)、小波变换(将FT中无限长的三角基转换成会衰减的小波基)。

      3.特征提取。

      语音信号是十分复杂的连续信号,而语音信号的特征参数能够很好的表达语音信号,也就能很好的表达语音信号所携带的信息,因此,对语音信号的处理,必须首先提取语音信号的特征参数。这样,通过处理数据量很小的特征参数,就能得到与直接处理复杂且不好分析的语音信号相同的效果。语音信号的特征参数有很多,主要学习了梅尔倒谱系数(MFCC参数)的提取,MFCC在实际应用中很多,主要是因为梅尔频率比较符合人类的听觉特性。

      特征提取成功,也就为后续的模型训练打下了基础。模型训练不可能直接使用复杂不平稳法语音信号,而是使用语音信号的特征参数。在有了模型的前提下,在训练阶段,把语音信号经过1,2,3步的处理,得到指定的 N 维特征参数并输入到模型当中,通过多次迭代,能得到不断优化的模型参数。识别阶段,待识别语音信号经过1 2 3步的处理,得到指定的 N 维参数并输入到模型当中,能得到识别结果。

      4. 模型训练与语音识别

      语音识别的模型有很多,经典的包括HMMGMM,另外人工神经网络的兴起使得DNNCNN得到了广泛的使用。这些模型都是通过给出初始模型,使用训练数据不断的优化模型参数,最终得到一个比较满意的识别模型。

  • 相关阅读:
    P1030 求先序排列 P1305 新二叉树
    spfa
    Clairewd’s message ekmp
    Cyclic Nacklace hdu3746 kmp 最小循环节
    P1233 木棍加工 dp LIS
    P1052 过河 线性dp 路径压缩
    Best Reward 拓展kmp
    Period kmp
    Substrings kmp
    Count the string kmp
  • 原文地址:https://www.cnblogs.com/gstblog/p/9056852.html
Copyright © 2011-2022 走看看