zoukankan      html  css  js  c++  java
  • Sphinx语音识别学习记录 (六)我的目标和几个想像的方案(闲置中)

    CMUSphinx系列目录
    http://www.cnblogs.com/yin52133/archive/2012/06/21/2557219.html - (一)基本运行测试
    
    http://www.cnblogs.com/yin52133/archive/2012/07/12/2587282.html - (二)自然语言处理原理研究
    
    http://www.cnblogs.com/yin52133/archive/2012/07/12/2587419.html - (三)小范围语音英文识别
    
    http://www.cnblogs.com/yin52133/archive/2012/07/12/2588201.html - (四)小范围语音中文识别
    
    http://www.cnblogs.com/yin52133/archive/2012/06/22/2558806.html - (五)错误调试
    
    http://www.cnblogs.com/yin52133/archive/2012/07/12/2588418.html - (六)我的目标和几个想像的方案(闲置中)

    (1)一开始只是因为英文比较差,看不懂没有字幕的公开课

    然后想现在语音识别发展了那么久,能不能用语音识别先做出一套简陋的英文字幕,然后再通过google翻译(PS:别鄙视我)

    翻译出简陋的中文字幕。

    然后我就来研究了一阵子,目前预想的流程方案是这样的

    首先是提取语音和分割,语音提取应该可以用开源库FFMPEG,提取语音流

    而且记得之前还看到过语音断句工具,再把之前的语音流断句,并把时间点存到数据库,

    然后每个音频流经过我们的项目,识别出英文语句。(每段音频流,经过识别后,把识别出来的文字扔到每个时间段内就是字幕了)

    至于怎么训练出来那么大lm和hmm,

    因为lm和hmm分别需要大量的语料库和对应的音频训练,我目前的设想是

    就是用大量已有原文字幕的公开课,截图音频流,做成我们所需要的音频流,然后使用这个音频流和字幕文本,训练lm和hmm

    这样,训练条件里说的,大量的人说话,很长的语料库和对应的很长的音频就出来了

    目前大体是这样构想的、不过这个项目需要大量的人力。。。一个人做不来,求有想法的人一起搞

    (2)windows 下用来做简单操作的小工具,语音识别并执行 关闭窗口、最大化、最小化、声音提高/降低、打开我的电脑、回收站之类的操作

    有什么想法可以联系我

    我的邮箱 yin52133@126.com

    至于有什么觉得有问题的地方也可以留言讨论啊,我喜欢讨论

    因时间和人力问题,先暂时闲置

    文章出处:http://www.cnblogs.com/yin52133/ 本文可自行转载,但转载时记得给出原文链接
  • 相关阅读:
    Dp~Hrbust1426( 集训队的晚餐 )
    DP~数塔(hrbustoj1004)
    MyEclipse启动性能优化(----加快启动速度)
    很实用的php的缓存类文件示例
    PHP中9大缓存技术总结
    微信公众平台开发(76) 获取用户基本信息
    js中 onreadystatechange 和 onload的区别
    一个js文件导入js的函数
    PHP cURL实现模拟登录与采集使用方法详解教程
    Mysql清空表(truncate)与删除表中数据(delete)的区别
  • 原文地址:https://www.cnblogs.com/yin52133/p/2588418.html
Copyright © 2011-2022 走看看