总体结构是 : 状态组成音素, 音素组成单词, 单词构成句子。
其中前面把帧识别成状态(难点),可以当做gmm做的,也可用用其他算法模型。第二步,把状态组合成音素。第三步,把音素组合成单词。后面都是hmm做的
通过句子,然后分词,然后分成每个音素,在隐马尔科夫(HMM)模型中一般用3-5个上述的单元表示一个音素。简单的理解就是我们每个音素的均值和方差矩阵知道,通过我们的句子我们也知道每个音素间的转移概率矩阵。当然,这些是HMM里的事情。提取特征后的第一步就完成了,简单的说就是为了拟合多维高斯函数。
可以当做gmm做的