语音识别（SR）的秘密

zoukankan html css js c++ java

语音识别（SR）的秘密

语音识别（SR）功能是当今国外操作系统的标准特征，而国产操作系统根本不具备这样的特质，并且国家队没有相关的主观动力。去开发实际可用的语音识别系统。与国外相比，国产操作系统落后了一大节子，怪谁？

如何让机器识别人的语音？事实上大道理并不复杂。首先，让机器设备听懂元音，然后听懂辅音。将两者合成起来成为单词，再做进一步的处理。可是。实际做起来就复杂了。
怎么做？

建立“语料库”（Corpus），就是建立语音的声学模型库。比方。”猫“这个单词的发音，必须让机器记住“猫”的发音，设法让机器听到“猫”所相应的“声音”（所谓”生物信号“）就知道主人对它说的是“猫”。语料库就是建立单词与语音的相应关系。这是基本建设，须要投入大量的人力、物力。别无他法。

不论什么语音都有个人特征，尽管100个人的发音基本同样，可是，存在一定的差异。
所以机器的听觉总是存在“错误率”，这是必定的。减少机器识别错误率是必要的。这是一个基本认识，对机器不能要求过高。机器耳朵永远比只是人耳。

微软、谷歌、百度语音识别巨头都拥有各自的数万小时的语料库，可是，我们却没有，Linux社区也没有GPL可用的语料库（VoxForge不带我们玩）。
怎么办？天上不会自己主动掉馅饼。
要知道。私有公司建立自己的版权大型语料库总是要付出巨大的投入成本。而我们有人喜欢天上掉馅饼。整天坐在院子里面张着大嘴巴对着蓝天等着天上掉下馅饼来。

袁萌 7月14日

查看全文

相关阅读:
Evanyou Blog 彩带
 Evanyou Blog 彩带
 Evanyou Blog 彩带
 Evanyou Blog 彩带
 Evanyou Blog 彩带
 Evanyou Blog 彩带
 Evanyou Blog 彩带
 Evanyou Blog 彩带
 Evanyou Blog 彩带
 Evanyou Blog 彩带

原文地址：https://www.cnblogs.com/yangykaifa/p/7399387.html