【转】语音、音频的思考

zoukankan html css js c++ java

【转】语音、音频的思考

14年的文章了，觉得算是业内人士的话，没那么水，摘自：http://www.cnblogs.com/welen/p/3790953.html

语音和图像、视频一样，是人与人之间沟通的交流方式。

语音信号处理是一门综合性的学科，它与语音学、心理学、数字信号处理、计算机科学、模式识别等有着密切联系。

语音技术一般可以分为三大类：

1.人与人之间的通信：语音增强、语音编码、语音通信、VOIP等　　

简单的说，以网络为载体，实现人与人之间的语音通信，涉及到语音前端去噪，增强，语音压缩编码等。

语音增强、语音去噪等，主要解决的是前端问题，单纯的语音、音频处理技术主要应用在嵌入式方向。

现在都有开源，像Webrtc、Speex之类。

VOIP、语音通信主要对网络协议等需求更多一些，VOIP和传统移动语音通信相比，主要体现在价格上的优势，通话质量上和传统相比还是有一定差距。现在移动运营商的收益也在逐渐减低，当价格上有所调整时，VOIP估计也很难生存了。

这一类岗位主要集中在芯片类、通信类、语音类、嵌入式、少数互联网公司：高通、联发科、展讯、科大讯飞、华为、思科、爱立信、哈曼、创新科技、微软Skype、腾讯等。

语音、音频编码，做标准的很少，单纯做算法的也很少。主要需求集中围绕着具体的芯片在代码和性能做底层汇编优化，一般很少能涉及到算法层面的优化。

开源的像ffmpeg 等，未来安卓平台也会像苹果一样，都支持硬解，所以这方面就业情况更窄。

2.语音合成：

简单的说，机器说话给人听，代替人把相关的信息绘声绘色的念出来。

主要流程：

语音库训练好模型

文本分析，上下文语义分析，韵律分析，输出语音参数

语音合成器输出

技术相对较为成熟，每一块模块都非常重要，都需要深入研究，才能合成出高质量的语音，所以需要整个团队成员配合。

功能：由文本产生语音，解放了用户的双眼。

应用：语音合成引擎，它的优化在于大规模，任意文本组合发音，目前市场上有懒人说书、听书之类的APP。

如果是小量的语音需求，完全用录音就可以，成本低。

3.语音识别和理解：

简单的说，人说话，机器能够听懂，能够按照人说的内容和指示，代替人完成相关的操作。相关的还有说话人识别、情感识别、语种识别、语音测评、语义理解等。

行业现状：

传统的语音公司：Nuance、科大讯飞、捷通华声等。

传统的软件类公司：微软、IBM等。

互联网公司：云知声、百度等。

一方面语音识别是最难的语音技术，搭建好识别平台相对容易，有很多开源的项目，但是本质进一步提高识别率并不简单。

它包含了许多个模块技术，门槛很高，数学功底深厚，这一类的人才更加稀少。

首先，必须要准备好大量的语音库，做好训练和识别。

其次，就算你只深入到语音识别的某一项技术，首先必须搭建一整套识别流程来检测实验的效果。

再者，基本上各个模块都能影响到识别率，特别是噪声，所以也必须要熟悉这些模块。

最后，还有更难的技术还在等着你，中文分词、语言模型的训练和建立、以及后期的自然语言处理、语义识别、云端服务等。

另一方面，目前语音识别盈利模式还不是很明朗，所以也决定了投入这一块的人力也很稀缺。

早期做这一块的微软和IBM基本上也不靠这个盈利，Nuance的赢利点主要在车载、医疗转录等，最后也是与苹果合作，做了款SIRI，火了一把。

国内的科大讯飞，在识别方向盈利也很低。

http://www.huxiu.com/article/9885/1.html

该公司的营收主要依靠传统业务如普通话测评、英语测评、呼叫中心、嵌入式语音导航和毛利率很低的信息工程业务。

所以“科大讯飞”、云知声开放了自己的云平台，提供免费API，给产品应用公司提高效率，降低成本，侵占更大的市场，将语音技术融入到互联网当中，势必会有一些小语音公司或者团队将会解散。

尽管如此，语音识别仍然是解决用户与机器交互体验性最好的方式，未来前景一片光明。

语音公司向来不依赖于员工规模，关键的是几个技术大牛，所以语音公司或者部门人数比较少，令缺勿滥。

未来只有少数比较牛的团队才能生存下来，其它的都会被Kill掉。

一方面，互联网语音技术，用户肯定免费，所以未来语音公司可能向第三方公司收取费用，也就是说，语音公司是给大多数公司提供解决方案，第三方公司给报酬。因此大公司BAT都有组建自己的语音团队，不依赖第三方，效果据称不错。

另一方面，语音技术公司未来可能会转型，不单单给第三方公司提供语音技术支撑，将技术转化成产品，语音公司也将会开发直接面向用户的产品，将盈利方式多样化，所以未来应用开发的产品人员需求可能增多。

4.音乐技术：

听音识曲，放个音乐片段，能检索出歌曲的名称。

哼唱识曲：哼唱音乐片段，能检索出歌曲的名称。

这个需求主要存在于互联网音乐类软件中，目前QQ、百度都有自己的模块，其它主要依赖于音乐雷达。

从对语音、音频技术来看整个技术行业：

技术里面，掌舵好方向，提供解决方案的人才是最重要的。

技术一般依赖于团队，一个人很难撑起。

技术能细化成很多单元，每个人精力有限，只是其中的一颗螺丝钉，只能深入一部分，了解整个全局。

不能够单纯搞技术，技术的追求永远是无止境的。

技术更新是非常快的，特别是在开源的大趋势下，所以在年轻的时候必须淘到钱。

做技术要像医生一样，做些有积累性的技术，应用面、公司比较需求比较宽的技术，这样才会值钱。太窄的技术只会把人作死，除非是在大公司还可以换岗。

技术必须转化成产品，必须有盈利才会持久。

做技术的同时，结交各种各样的人才，多多开阔眼界，说不定，有一天，你需要他们，或者他们需要你。

再感兴趣的事情，干多了也会觉得没啥意思，最后都是往钱看，特别是年龄越大的时候。

尽量接触一些，面向用户的技术，能将自己的技术沉淀到产品中，开发出一个自己的产品。

总而言之，技术是为了解决问题而存在，问题是因为用户需求在，解决需求是因为有钱在推动。

查看全文

相关阅读:
Mac ssh登陆linux并且显示linux图形
 github proxy
[makefile] filter-out
linux svn
界面UI测试的方法
 UI测试
 web 页面中四种常见必测控件
 面试工作经验参考
 测试用例
 接口测试基础

原文地址：https://www.cnblogs.com/xingshansi/p/6779925.html