data:image/s3,"s3://crabby-images/cf345/cf3455ac1219b23d31debda8b6d8cfe44ce1b668" alt="物联网"
本文介绍 kaldi-ctc 构建 CTC[1, 2, 3, 4] 语音识别加权有限状态机(WFST)解码网络的方式。
示例相关资源 lifeiteng/codingmath/CTC-decoding-graph
构建语言模型
以 单句 “how are you are” 作为文本语料,训练 bi-gram(order=2)语言模型
data:image/s3,"s3://crabby-images/9a9e1/9a9e175ce433d0fa6f35bbf8e71ba0db09081934" alt="物联网"
生成 G.fst [data/lang_2/G.pdf],如下图
data:image/s3,"s3://crabby-images/ba73b/ba73b820679b056d2b791f31b81dc464520de9d6" alt="物联网"
准备"发音" 词典
不同单元 phone[1, 2] / character[3, 4],都可以抽象为“发音”词典的形式,以 phone 词典为例
data:image/s3,"s3://crabby-images/e6e80/e6e80299a940bf66fbe2126471fae3a0a5384917" alt="物联网"
其中 !SIL SIL 为额外添加,作为 OOV 的替换符号使用,亦可使用其他记号 e.g. UNK NSN 。
data:image/s3,"s3://crabby-images/f2766/f2766e9c949868fd0e0e74c8551a206519649a09" alt="物联网"
其中 --num-sil-states 1 --num-nonsil-states 1 用于构建单状态TransitionModel(HMM)。
生成 L.fst [data/lang_2/L.pdf]
data:image/s3,"s3://crabby-images/afbe4/afbe4924708c8b28f7c8a735c5889e0f7913122c" alt="物联网"
Optinal 的 SIL( SIL : / 2_1 )使得发音词典与语言模型 Composition 之后的搜索空间允许单词间停顿而不影响语言模型概率计算。
构建HCLG
像 DNN-HMM hybrid 系统一样构建HCLG[5]:
data:image/s3,"s3://crabby-images/e054f/e054fc865fac8c97aee3a253b5ae22a02b96a56a" alt="物联网"
kaldi-ctc 可以方便构建CI[1] phone / CD[2] phone / character[3, 4] 的 CTC 系统,只需构建相应 CI-phone / CD-phone / character 的决策树和训练数据即可。
HCLG [exp/mono_ctc_decoding_graph/HCLG.pdf] 网络:
data:image/s3,"s3://crabby-images/b613c/b613ca92460290172e85c365f4dc0b350513db81" alt="物联网"
修改HCLG 构建CTC解码网络
修改 HCLG 的 input label(即 TransitionId)并插入 blank loop 构建CTC解码网络。
arc.ilabel++, 添加 blank loop
data:image/s3,"s3://crabby-images/0351a/0351a233869e2dab8027385c99ddd8d8f4840690" alt="物联网"
最终 CTC 解码网络如下: [exp/mono_ctc_decoding_graph/CTC.pdf]
data:image/s3,"s3://crabby-images/13fbd/13fbd06807549138928983f6582bbc3bc4097433" alt="物联网"
解码时从解码网络获得TransitionId转为对应的PdfId做为 RNN 输出层索引获得
log_likelihood = log(RNN output[pdf_id]) - log(prior[pdf_id])
尖峰现象
以 CTC 准则训练的 RNN 模型输出概率有明显的尖峰现象[1]: [images/pink.png]
data:image/s3,"s3://crabby-images/fde4f/fde4fd0838f3a32469b988e9c1582b9674b88f5a" alt="物联网"
解码时跳过blank概率接近1的帧可以极大提升实时率。