zoukankan      html  css  js  c++  java
  • 语音笔记:MFCC

    一,传统语音识别体系结构

      

     

     

    二,MFCC特征提取

      MFCC(Mel-frequency cepstral coefficients):梅尔频率倒谱系数。梅尔频率是基于人耳听觉特性提出来的, 它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。主要用于语音数据特征提取和降低运算维度。例如:对于一帧有512维(采样点)数据,经过MFCC后可以提取出最重要的40维(一般而言)数据同时也达到了将维的目的。MFCC一般会经过这么几个步骤:预加重,分帧,加窗,快速傅里叶变换(FFT),梅尔滤波器组,离散余弦变换(DCT)。

      其中最重要的就是FFT和梅尔滤波器组,这两个进行了主要的降维操作。

     

     

    提取MFCC特征的过程:

    1.先对语音进行预加重、分帧和加窗;

    2.对每一个短时分析窗,通过FFT得到对应的频谱;

    3.将上面的频谱通过Mel滤波器组得到Mel频谱;

    4.在Mel频谱上面进行倒谱分析(取对数,做逆变换,实际逆变换一般是通过DCT离散余弦变换来实现,取DCT后的第2个到第13个系数作为MFCC系数),获得Mel频率倒谱系数MFCC,这个MFCC就是这帧语音的特征。

    接下来,语音就可以通过一系列的倒谱向量来描述了,每个向量就是每帧的MFCC特征向量。

  • 相关阅读:
    【数据结构(C语言版)系列三】 队列
    【数据结构(C语言版)系列二】 栈
    【数据结构(C语言版)系列一】 线性表
    [转]Boosting
    吴恩达机器学习笔记
    C语言之图像旋转
    DP【洛谷P4290】 [HAOI2008]玩具取名
    背包 DP【洛谷P4158】 [SCOI2009]粉刷匠
    最短路+状压DP【洛谷P3489】 [POI2009]WIE-Hexer
    模板 Trie树
  • 原文地址:https://www.cnblogs.com/apak/p/8626774.html
Copyright © 2011-2022 走看看