zoukankan      html  css  js  c++  java
  • 语音识别算法阅读之EESEN

     论文:
      EESEN:END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING
    现状:
    • 混合DNN仍然GMM为其提供初始化的帧对齐,需要迭代训练强制对齐,以及决策树
    • end2end的asr面临问题:
    1. 如何将发音词典和语言模型更好的融入解码中
    2. 现有算法模型缺乏共享的实验平台进行基准测试

    思想:

      网络框架采用多层双向LSTM结构,以CTC作为目标函数,进行end2end的声学模型训练;解码时通过WFST将输出的音素/字符序列、发音和语言模型进行融合,一方面发音、语音模型的融入提升了asr效果;另一方面借助减枝,以及WFST的确定化、最小化等操作,加快的解码速度;该方法取得了与混合DNN可比的WER,3.2倍的解码速度

    模型:
    • 输入特征:40维fbank+一阶差分+二阶差分=120维
    • 模型采用4层Bi-LSTM结构,结点数为320
       其中,it, ot, ft, ct分别表示输入门、输出门、遗忘门和记忆cell;W.c为对角权重矩阵,这样gate函数向量的m维仅获得来自cell的m维作为输入;σ 为sigmoid激活函数;φ为双正切激活函数tanh
    • 目标函数:最大化标签所对应对齐路径的概率和ln Pr(zjX)
      其中,X = (x1,..., xT );对应的标签序列为z = (z1,...., zU),且U<T; yt表示t时刻的音素或字符的后验概率;αt和βt分别代表前向 概率和后向概率;需要注意的是,为了防止因字符连续出现而合并出错的情况,CTC引入blank字符插入到标签序列z的每一个字符的前后,因此标签序列由之前长度U变成2U+1
    • 解码:WFST,将音素或字符组成的对齐序列、发音、语言模型通过一系列composition、determinization和 minimization操作组成路径搜索图;一方面将发音和语言模型融入解码过程提升识别效果;另一方面加快解码速度
    Grammer(G)
    phone组成的lexicon(L)
    spell组成的lexicon(L)
    对齐序列T,允许blank、连续重复有效字符

         其中, ◦, det and min分别表示复合、确定化和最小化操作

    细节:
    • 模型参数采用均匀分布[-0.1,0.1]
    • 初始学习率设置为0.00004,当验证集连续两个epoch的损失下降低于0.5%时,学习率衰减0.5;当验证集连续两个epoch的损失下降低于0.1%时,停止训练
    • CTC训练不能处理具有多发音的词,于是对每个多发音的词仅保留其第一发音或频次出现最多,移除其他发音
    • 后验概率归一化
    • 训练句子按长度进行排序,将长度相近的句子组成一个batch,并且按最长的句子进行padding;并且可以减少的padding,稳定训练
    • 支持GPU并行化训练
    • 采用clip gradients,使梯度控制在[-50,50],保持训练的稳定性

    实验效果:

    • baseline:HMM/DNN混合结构
    1. 连续的上下文11帧fbank特征作为输入
    2. 6个隐层,隐层结点1024
    3. 3421个senones,即输出维度
    4. 受限波尔滋蔓机进行参数初始化
    5. CE交叉熵训练
    • 音素为建模单元时:
    1. LER为7.87%略差于HMM/DNN的7.14%;作者分析原因在于,数据集的量,在大数据集上,CTC训练的模型能得到超越HMM/DNN混合系统的实际效果
    2. 解码速度相对于HMM/DNN混合系统提升3.2倍,原因在于:1)eesen输出单元结点数算上blank只有几十个,但是HMM/DNN有3421个;2)eesen的解码图TLG相对于HMM/DNN的HCLG要小得多
    3. TLG相对于HMM/DNN的HCLG要小得多,所以占磁盘空间也更小
    • 字符为建模单元时:LER为9.07%;将训练集中出现的两次以上的集外词OOV加入到词典中,LER降为7.34%
    • 语言:C++
    • 核心模块:
    1. 声学模型
    2. hkust/v1
    1. tedlium
    1. wsj
    1. CTC
    2. char
    3. phone
    4. WFST解码
    5. T:字符或音素对齐序列,包括blank
    6. L:lexicon
    7. G:语言模型
    8. 语言模型
    9. 3-gram
    10. 4-gram
    11. RNNLM
    • 效果:
    1. hkust:
    1. tedlium
    1. wsj
    Reference:
  • 相关阅读:
    Qt简介以及如何配置Qt使用VS2010进行开发
    QT里重定向另外一个控制台程序的输出
    windows下制作PHP扩展
    20款Notepad++插件下载和介绍
    音频编码协议介绍
    用 PHP 读取文件的正确方法
    QT进程间通信
    关于YUV色彩空间
    解析xml 四种
    System.getProperty
  • 原文地址:https://www.cnblogs.com/zy230530/p/13676238.html
Copyright © 2011-2022 走看看