该页面包含Kaldi用户可能想要了解的术语词汇表。
这里的当前内容仅由几个示例组成。不久将添加更多内容。在此页面中搜索的最简单方法是使用浏览器的搜索功能。为了方便起见,每个术语部分的定义都在冒号之前,然后是冒号,因此,例如,键入ctrl -f“:lattice:”将带您进入“ lattice”部分。:
acoustic scale:
用于解码的声学标尺,在C ++程序中表示为–acoustic-scale,在程序中表示为–acwt。
这是声对数概率的尺度,并且是HMM-GMM和HMM-DNN系统中普遍使用的抖动,用于说明帧之间的相关性。
通常将其设置为0.1,这意味着声学对数概率比语言模型对数概率要低得多。
在评分脚本中,您经常会看到要搜索的语言模型权重范围(例如7到15)。
这些可以解释为声标的倒数。
对于维特比解码而言,重要的是两者之间的比率。:
alignment:
话语的维特比(最佳路径)对齐所采取的HMM状态序列的表示。
在Kaldi中,对齐方式是过渡ID
序列的同义词
。
大多数情况下,对齐是从对齐话语的参考成绩单中得出的,在这种情况下,这称为强制对齐
。晶格
还包含对齐信息,作为晶格中每个单词序列的过渡ID序列。
以人类可读的格式显示对齐方式。:
cost:
在加权FST算法中用作“成本”的任何数量(例如,声学成本,语言模型成本;
有关更多详细信息
,请参见Kaldi中的Lattices
)。
一般来说,成本可以解释为可能性或概率的负对数,但可能涉及比例因子。:
强制对齐:
请参见对齐
。:lattice:
话语的其他可能替代形式的表示,以及相关的对齐方式和费用信息。
参见卡尔迪的格子
。:likelihood:
一个数学概念,表示代表连续值分布的函数值。
这些可以不止一个。
通常在对数空间中表示(以对数似然性表示),因为多维要素的似然值通常可能太小或太大而无法满足标准浮点精度。
使用标准的交叉熵训练的神经网络系统,我们通过将对数概率除以上下文相关状态的先验来获得“伪似然”。:
posterior:
“后验”是“后验概率”的简写,这是一个非常笼统的数学概念,通常表示“看到相关数据后某个随机变量的概率”。
通常,后继者合计为一。
在Kaldi术语中,如果遇到术语“后验”(缩写为“ post”),则无需进一步扩展,通常表示每帧过渡id的后验概率。
但是,这些后验可能非常尖峰(即大多为一和零),具体取决于您如何获得它们,例如从晶格或路线中获得的。
可以将对齐方式和晶格转换成过渡ID(参见过渡ID)(请参见grid-to-post.cc
)或晶格弧(参见ali-to-post)。
)。
过渡ID的后代可以通过pdf ID或电话转换为后代;
请参阅工具ali-to-post.cc
。:
pdf-id:
群集上下文相关的HMM状态的从零开始的整数索引;
有关更多信息,
。:
transition-id:
基于1的索引,用于编码pdf-id(即,与上下文相关的群集HMM状态),电话标识以及有关我们是否在HMM中进行了自循环或前向转换的信息。
出现在格子中,对图形和路线进行解码。
。:
transition model:
TransitionModel对象编码HMM的转换概率,以及各种其他重要的整数映射;
。
该对象通常写在模型文件的开头。
显示了这些内容。:
G.fst:
语法FST
G.fst
它生活在
data/lang/
scripts目录中(见。数据preparation--的“lang”目录里
)代表一个有限状态传感器格式的语言模型(见www.openfst.org)。
在大多数情况下,它是一个接受器,这意味着弧上的输入和输出符号是相同的,但是对于带有补偿的统计语言模型,补偿弧
#0
仅在输入侧
具有“消歧符号”
。
对于许多目的,您将希望使用命令来消除歧义符号
fstproject –project_output=true
。
在图形编译期间需要使用消歧符号来确定FST,但是对于语言模型记录这样的事情,您不希望使用它们。