语音笔记：MFCC - 走看看

zoukankan html css js c++ java

语音笔记：MFCC

一，传统语音识别体系结构

　　

二，MFCC特征提取

　　MFCC(Mel-frequency cepstral coefficients):梅尔频率倒谱系数。梅尔频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征。主要用于语音数据特征提取和降低运算维度。例如：对于一帧有512维(采样点)数据，经过MFCC后可以提取出最重要的40维(一般而言)数据同时也达到了将维的目的。MFCC一般会经过这么几个步骤：预加重，分帧，加窗，快速傅里叶变换(FFT)，梅尔滤波器组，离散余弦变换(DCT)。

　　其中最重要的就是FFT和梅尔滤波器组，这两个进行了主要的降维操作。

　

提取MFCC特征的过程：

1.先对语音进行预加重、分帧和加窗；

2.对每一个短时分析窗，通过FFT得到对应的频谱；

3.将上面的频谱通过Mel滤波器组得到Mel频谱；

4.在Mel频谱上面进行倒谱分析（取对数，做逆变换，实际逆变换一般是通过DCT离散余弦变换来实现，取DCT后的第2个到第13个系数作为MFCC系数），获得Mel频率倒谱系数MFCC，这个MFCC就是这帧语音的特征。

接下来，语音就可以通过一系列的倒谱向量来描述了，每个向量就是每帧的MFCC特征向量。

查看全文

相关阅读:
云原生体系下 Serverless 弹性探索与实践
 PaddlePaddle：在 Serverless 架构上十几行代码实现 OCR 能力
 manjaro kde系统格式化U盘
 从B站看到的资源网站（确实是很不错，推荐！）
ERROR 2002 (HY000): Can't connect to local server through socket '/run/mysql 或 manjaro 安装 mariadb
manjaro kde 我安装后使用到的命令
 思考了许久，博客在未来将会进行的改变（2021-10-03）
linux 下配置 python源
 ModuleNotFoundError: No module named 'distutils.util'
mysqlclient 安装失败

原文地址：https://www.cnblogs.com/apak/p/8626774.html

Copyright © 2011-2022 走看看