zoukankan      html  css  js  c++  java
  • Kaldi的delta特征

    Delta特征是将mfcc特征(13)经过差分得到的

    它是做了一阶二阶的差分

    提取的mfcc特征是13维的

    然后通过delta就变成了39

    一阶差分:

    D(P(t))=P(t)-P(t-1)

    二阶差分:

    D(D(P(t)))=(P(t)-P(t-1))-(P(t-1)-P(t-2))

    Delta=Δ=差分

       

       

    voxforge/s5/run.sh:116

    rm/s5/run.sh:80

    vystadial_cz/s5/run.sh:82

    都注释了下一行的训练使用delta+delta-delta特征

    在这之前,都运行了

    steps/align_si.sh --nj "$train_nj" --cmd "$train_cmd"

    --use-graphs true <data-dir> <lang-dir> <src-dir> <align-dir>

    "--use-graphs=true"意思是,使用 <src-dir>中的train graph(fsts.JOB.gz)

    如果不加上,则默认"use-graphs=false",即用<src-dir>中的tree, final.mdl输入搭配compile-train-graph中生成训练的fst(train graph)

    steps/train_deltas.sh是训练一个delta+delta-delta三音素系统(模型)

    steps/align_si.sh对delta特征进行apply-cmvn, add-deltas

    对lda特征进行apply-cmvn, splice-feats(可选), 用final.mat进行transform-feats

    • delta特征与splice特征的区别

    2017/5/20 16:23

    [chick](616310753) 16:09:17

    delte是显式给出差分

    splice是在时间上作扩展

    包含了差分信息

    但是不是显式给出的,在学习中可能学习不到差分知识,可能学习到别的知识

       

    语音研究生求南(287568706) 16:09:58

    delta是同一帧复制多次吗?

       

    [chick](616310753) 16:10:11

    上一帧-当前帧

    语音识别原理介绍_V1.3_1034.pdf

    分帧后,语音就变成了很多小段。但波形在时域上几乎没有描述能力,因此必须 将波形作变换。常见的一种变换方法是提取 MFCC 特征,把每一帧波形变成一 个12维向量。这12个点是根据人耳的生理特性提取的,可以理解为这12个点包含 了这帧语音的内容信息。这个过程叫做声学特征提取。实际应用中,这一步有很 多细节,比如差分、均值方差规整、高斯化、降维去冗余等,声学特征也不止有 MFCC 这一种,具体就不详述了。

       

       

  • 相关阅读:
    linux scull 函数open 方法
    linux scull 中的设备注册
    linux 字符设备注册
    linux inode 结构
    linux设备驱动文件结构
    linux一些重要数据结构
    Python3.2官方文档翻译--输出格式化
    1021. Deepest Root (25)
    hdu 4779 Tower Defense (思维+组合数学)
    cookie是什么? -- web
  • 原文地址:https://www.cnblogs.com/JarvanWang/p/7499609.html
Copyright © 2011-2022 走看看