zoukankan      html  css  js  c++  java
  • Kaldi语音识别工具箱介绍

    对Kaldi的设计进行描述,Kaldi是一个免费的,开源的工具箱用于语音识别研究。Kaldi提供基于有限状态变换器(finite-state transducers,使用OpenFst)的语音识别系统,以及详细的文件和脚本用于构建完整的识别系统。

    Kaldi使用C++编写,核心库支持任何语音上下文大小的建模,子空间的高斯混合模型(SGMM)以及标准的高斯混合模型的声学模型建模,以及所有经常使用的线性变换和仿射变换。

    Kaldi源码以Apache License V2.0协议发布。

    Kaldi的目标:具有现代和灵活的代码,便于理解,协议和扩展。使用类Unix系统和Microsoft Window剩下的通用的编译工具编译即可。

    关于自动语音识别(Automatic speech recognition,ASR)的研究者可以有多种开源工具箱的选择用于构建一个识别系统。著名的有:HTK,Julius(这两种C语言实现),Sphinx-4(Java语言识别),RWTH ASR工具箱(C++实现)。

    但是,对于Kaldi的特定需要: finite-state transducer(FST),扩展的线性代数支持和non-restrictive license,导致Kaldi的开发。

    Kaldi包含的重要特性:

    - 集成Finite State Transducer(编译OpenFst工具箱,作为一个库)

    - 扩展的线性代数支持

    - 可扩展设计

    - 开源的license —— Apache v2.0, 最小限制的开源协议

    - 完整的方法 —— Kaldi提供了完整的方法用于构建语音识别系统

    - 周密的测试 —— 基本上所有的代码都有相应的测试例程

    Kaldi的主要用途是声学模型研究,因此,最相近的竞争者是HTK和RWTH ASR工具箱(RASR)。Kaldi相对与这些竞争者的主要优势:现代的,灵活的,清晰的结构化代码以及比较好的WFST和数学支持,同时使用的开源license比HTK和RASR更开放。

    按如下步骤对Kaldi工具箱进行介绍

    1. Kaldi代码结构和设计选择,包括语音识别系统的各个部件介绍

    2. 特性提取介绍

    3. 声学模型

    4. 语音决策树

    5. 语言模型

    6. 解码器(decoder)

    7. 简要介绍基准结果

  • 相关阅读:
    自定义控件-控件关联
    DELPHI INSERT INTO 语句的语法错误 解决方法
    Delphi控件开发
    Delphi控件复合控件
    vcl学习备忘网址
    Delphi单元文件Unit详解
    aowner , nil 和 self 的区别
    Delphi 自定义事件的例子
    PHP中Heredoc
    What is HTTP_USER_AGENT?
  • 原文地址:https://www.cnblogs.com/wxer/p/7468351.html
Copyright © 2011-2022 走看看