zoukankan      html  css  js  c++  java
  • BLSTM的训练算法、解码算法以及模型的改进

    摘要

    BLSTM解码时,解码器需要等待整个音频到达后才开始解码,因为时间反方向的前向传播需要末尾的历史信息。BLSTM这一延时问题使其不适用与实时语音识别。context-sensitive-chunk BLSTM(CSC-LSTM)和latency-controlled BLSTM(LC-BLSTM,延时控制-双向LSTM)都将整句切分为数个chunks。通过在每个chunk中添加左右上下文帧,并以chunk为单位进行前向计算,BLSTM的延迟可以控制为一个chunk左右的时长,并且与传统BLSTM相比,可以保持原有准确率基本不变。文本提出了两种LC-BLSTM。通过使用不同类型的神经网络拓扑以初始化BLSTM的cell状态;通过上下文帧和快速在线识别以降低计算开销。320h Swbd实验显示本文的解码速度能加速24%至61%而无识别率的损失。

       

    LSTM声学模型(包括其变形,比如highway LSTM网络)中,双向LSTM的识别率远远优于单向LSTM。然而双向LSTM模型的延迟极高,不适用于在线语音识别。为了克服这一限制,文献[1]、文献[2]、文献[10]和文献[11]研究了基于Chunk的训练与解码。

       

    Chunk BPTT

    文献[5]提出了Chunk BPTT

    加速BPTT训练

    • 将特征序列切分为固定长度的chunks
    • 将多个chunks组合为更大的batches

    对Chunk大小的调优

    使用一块NVIDIA GTX680 GPUIAM手写数据集的训练时间如下:

    chunk大小设定为100能取得FER与训练时间之间的平衡。

       

    epochwise BPTT

    GPU的内存大小限制了一个mini-batch中的序列数(对于很长的序列来说),这会导致加速效果较差。

       

    CSC BPTT

    文献[6]提出CSCContext-Sensitive-Chunk BPTT训练方法以及基于CSCs的解码方法,并应用于手写识别中。

       

    epochwise BPTT可表示为0-Full+0,由于此处的chunk即完整的帧序列

       

    BPTT在BLSTM-HMM中的应用,以及提出了基于CSCs的解码方法

    文献[7]CSC-BPTT应用于语音识别中。

       

    受到语音语句中协同发音的影响,每个音素的语音帧基本上只受之前和之后几帧影响。那么,就没有必要用BLSTM对整句话进行建模。因此,只需对一个较小的chunk建模即可。

       

    CSC的示例配置为"21-64+21",若基于CSC的解码中,chunk之间不存在帧的重叠,那么延迟为85帧或850毫秒。

       

    基于CSC的解码

    对于使用CSC-BPTT训练的BLSTM,待识别的语句也要使用与训练时相同的配置切分为多个CSCs

    若需要考虑到计算复杂度,那么解码时CSCs之间可以没有重叠;否则,CSCs之间可以有若干帧的重叠,以取得更高的识别率。比如:

       

    LC-BLSTM

       

    CSC-BLSTM未利用历史chunk的记忆状态信息,这带来了额外的计算。文献[8]提出了延时控制-BLSTMLC-BLSTM)。在时间反向计算中,LC-BLSTM只使用修剪过的下文信息用作cell状态的初始化。

       

       

    LC-BLSTM的改进

    由于LC-BLSTM的时间反向计算中需要额外对右下文进行计算,这大大增加了计算量。为此,文献[9]提出了LC-BLSTM-FALC-BLSTM-FABDILC-BLSTM-FABSR

       

    LC-BLSTM Without Forward approximation

       

    LC-BLSTM-FA(With Forward approximation)

    LC-BLSTM-FA去除了上述无用的计算

       

       

    本节介绍两种效率改进的LC-BLSTM,用于快速实时在线语音识别

    LC-BLSTM-FABDI(Forward Approximation and Backward DNN Initialization)

    每个BLSTM层的前向计算步可以分解为:

    时间正向:

    时间反向:

       

       

       

    LC-BLSTM-FABSR(Forward Approximation and Backward Simple RNN)

    第二种结构被称为"forward approximation and back-

    SRNN的训练需要处理长程依赖,因此容易发生梯度爆炸。为此在LC-BLSTM-FABSR的训练中,需要使用更为严格的梯度修剪以促进收敛。

    实验表明,LC-BLSTM-FAWER优于LC-BLSTM-FABDILC-BLSTM-FABSR,但LC-BLSTM-FABDILC-BLSTM-FABSR的解码速度比前者快。

    参考文献

    1. A. Zeyer, R. Schluter, and H. Ney, "Towards online-recognition with deep bidirectional LSTM acoustic models," Proceedings of Interspeech, vol. 08-12-Sept, pp. 3424–3428, 2016.
    2. P. Doetsch, M. Kozielski, and H. Ney, "Fast and Robust Training of Recurrent Neural Networks for Offline Handwriting Recognition," Proceedings of International Conference on Frontiers in Handwriting Recognition, ICFHR, vol. 2014-Decem, pp. 279–284, 2014.
    3. K. Chen, Z.-J. Yan, and Q. Huo, "Training Deep Bidirectional LSTM Acoustic Model for LVCSR by a Context-Sensitive-Chunk BPTT Approach," in Proceedings of the Interspeech, 2015.
    4. A.-r. Mohamed, F. Seide, D. Yu, J. Droppo, A. Stoicke, G. Zweig, and G. Penn, "Deep bi-directional recurrent networks over spectral windows," in Automatic Speech Recognition and Understanding (ASRU), 2015 IEEE Workshop on. IEEE, 2015, pp. 78–83.
    5. P. Doetsch, M. Kozielski, and H. Ney, "Fast and Robust Training of Recurrent Neural Networks for Offline Handwriting Recognition," Proceedings of International Conference on Frontiers in Handwriting Recognition, ICFHR, vol. 2014-Decem, pp. 279–284, 2014.
    6. K. Chen, Z.-J. Yan, and Q. Huo, "A context-sensitive-chunk BPTT approach to training deep LSTM/BLSTM recurrent neural networks for offline handwriting recognition," Proc. ICDAR-2015.
    7. K. Chen, Z.-J. Yan, and Q. Huo, "Training Deep Bidirectional LSTM Acoustic Model for LVCSR by a Context-Sensitive-Chunk BPTT Approach," in Proceedings of the Interspeech, 2015.
    8. Yu Zhang, Guoguo Chen, Dong Yu, and Kaisheng Yao, "High- way long short-term memory RNNs for distant speech recog- nition," in IEEE International Conference of Acoustics,Speech and Signal Processing (ICASSP), 2016, pp. 5755–5759.
    9. IMPROVING LATENCY-CONTROLLED BLSTM ACOUSTIC MODELS FOR ONLINE SPEECH RECOGNITION. Shaofei Xue, Zhijie Yan, Alibaba Inc, China
  • 相关阅读:
    Explain 索引优化分析
    组合索引与前缀索引
    MySQL 索引的类型
    MySQL 字符集及校验规则
    MySQL 连接查询
    DQL 数据查询语言
    DML 数据操纵语言
    DCL 数据控制语言
    DDL 数据定义语言
    蓝桥杯大学B组省赛2020模拟赛(一)题解与总结
  • 原文地址:https://www.cnblogs.com/JarvanWang/p/10756852.html
Copyright © 2011-2022 走看看