zoukankan      html  css  js  c++  java
  • MFCC/Filter Bank的提取流程

       

    1. 预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响。
    2. 分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理,实验中选取的语音帧长为32ms,帧移为16ms
    3. 加窗:采用汉明窗对一帧语音加窗,以减小吉布斯效应的影响。
      1. 汉明窗,海明窗,是一个窗函数,这个函数在某一区间有非零值,而在其余区间皆为0。这是为了方便做快速傅里叶变换
    4. 快速傅立叶变换(Fast Fourier Transformation, FFT):将时域信号变换成为信号的功率谱频域信号
    5. 梅尔滤波器组: 用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应 一般取40个三角滤波器,取对数后即40fbank
    6. 求对数:三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果。
    7. 离散余弦变换(Discrete Cosine Transformation, DCT,可选):去除各维信号之间的相关性去相关,将信号映射到低维空间(从40维降到13维) 若去除这一步,得到的则是Filter Bank特征,因为dnn模型可以学习特征间的相关性因此不需要去相关性的操作。
    8. 得到MFCCFilter Bank
    9. Delta差分:大量实验表明,在语音特征中加入表征语音动态特性的差分参数,能够提高系统的识别性能。在本系统中,我们也用到了MFCC参数的一阶差分参数(Delta-Delta)和二阶差分参数(Delta-Delta+Delta)。

         

       

  • 相关阅读:
    EL表达式 (详解)
    宜信面试整理
    Java 合并两个排序数组
    动态规划初识(爬楼梯问题)
    二叉树的最小深度
    ElasticSearch 单字符串多字段查询评分问题
    ES 分词
    汽车之家 面试总结
    浪潮之巅读书笔记
    闲徕互娱 面试总结
  • 原文地址:https://www.cnblogs.com/JarvanWang/p/7499576.html
Copyright © 2011-2022 走看看