zoukankan      html  css  js  c++  java
  • Kaldi的delta特征

    Delta特征是将mfcc特征(13)经过差分得到的

    它是做了一阶二阶的差分

    提取的mfcc特征是13维的

    然后通过delta就变成了39

    一阶差分:

    D(P(t))=P(t)-P(t-1)

    二阶差分:

    D(D(P(t)))=(P(t)-P(t-1))-(P(t-1)-P(t-2))

    Delta=Δ=差分

       

       

    voxforge/s5/run.sh:116

    rm/s5/run.sh:80

    vystadial_cz/s5/run.sh:82

    都注释了下一行的训练使用delta+delta-delta特征

    在这之前,都运行了

    steps/align_si.sh --nj "$train_nj" --cmd "$train_cmd"

    --use-graphs true <data-dir> <lang-dir> <src-dir> <align-dir>

    "--use-graphs=true"意思是,使用 <src-dir>中的train graph(fsts.JOB.gz)

    如果不加上,则默认"use-graphs=false",即用<src-dir>中的tree, final.mdl输入搭配compile-train-graph中生成训练的fst(train graph)

    steps/train_deltas.sh是训练一个delta+delta-delta三音素系统(模型)

    steps/align_si.sh对delta特征进行apply-cmvn, add-deltas

    对lda特征进行apply-cmvn, splice-feats(可选), 用final.mat进行transform-feats

    • delta特征与splice特征的区别

    2017/5/20 16:23

    [chick](616310753) 16:09:17

    delte是显式给出差分

    splice是在时间上作扩展

    包含了差分信息

    但是不是显式给出的,在学习中可能学习不到差分知识,可能学习到别的知识

       

    语音研究生求南(287568706) 16:09:58

    delta是同一帧复制多次吗?

       

    [chick](616310753) 16:10:11

    上一帧-当前帧

    语音识别原理介绍_V1.3_1034.pdf

    分帧后,语音就变成了很多小段。但波形在时域上几乎没有描述能力,因此必须 将波形作变换。常见的一种变换方法是提取 MFCC 特征,把每一帧波形变成一 个12维向量。这12个点是根据人耳的生理特性提取的,可以理解为这12个点包含 了这帧语音的内容信息。这个过程叫做声学特征提取。实际应用中,这一步有很 多细节,比如差分、均值方差规整、高斯化、降维去冗余等,声学特征也不止有 MFCC 这一种,具体就不详述了。

       

       

  • 相关阅读:
    ----vue中使用高德地图实现搜索地址----
    ----vue中实现上传文件给后台----
    ----Vue 中mixin 的用法详解----
    ----移动端移动端调试神器vConsole----
    ----微信公众号之实现图片裁剪并上传----
    ----解决input输入框type=number时候去除增减按钮 禁用滚轮事件----
    ----微信公众号之解决二次分享问题----
    ----微信公众号之授权----
    「Linux学习」之clone表达式及grep 用法补充
    「Linux学习」之tar命令用法
  • 原文地址:https://www.cnblogs.com/JarvanWang/p/7499609.html
Copyright © 2011-2022 走看看