桓泽学音频编码,本来想的是桓泽讲编码,但是到后来发现讲不了了。还是改成桓泽学编码吧。
做了有些年音频编码了,我一直专注于做这个东西,也有很多朋友说,音频不止有编码,勊有做点别的。也有人觉得,编解码在高信道容量下似乎不需要了。对这两类问题,我也在不断思考答案,首先,前不久分享我的经验时,被朋友赞扬一番,我说十年磨一剑,我还差的远。朋友则认为,算上我之前的8年项目经验,再加2年,快了。但是他最后的话引起我的思考,他说,研究结果表明,一个人要时持续研究一个方向超过10万小时,就是这方面的大师了。我算了一下,一万小时,每天除去衣食住行,工作(尤其在中国),应酬,养家照顾孩子等等,按照每天平均10小时专研一个方向看,差不多是30年。倒是符合现在美国很多大师的年纪。毕竟这些国际大师往往也不是只有研究类似音频编解码这个一个小方面。所以我觉得,既然你喜欢一个东西,就把它研究透吧,虽然这个世界需要复合型人才,所谓复合型人才也是只在某方面有专长并且其他方面了解的复合型人才。再者一个东西是死的,内容是活得,其实很多编解码只是一个应用,基本技术是相通的,比如编解码用到的FFT,MDCT,小波,预测,自适应,其他技术也用的。一个应用搞清楚,了解的是原理,学得是工程的方法和基本原理,原理搞清楚了,其他应用也容易。唉,扯远了。对于第二个问题,我不想回答,很多国际组织一直在研究高压缩率编码,为什么。就目前看,似乎移动网要超过有线网了,但4G像有线一样包月要多久,卫星通话就没有市场?那些岛国和边远地区都是有线和基站?小到7.1声道的无损编码能不能在互联网上传播,让人们利用互联网享受蓝光的音质。或者10万人的在线高音质演唱会。大到嫦娥卫星传回的31首歌曲都是PCM传输?我想不需多说吧。即使是这个技术要死了,我也是他的看坟人。
说正题吧,虽然我之前做每个项目看每个论文都会留下笔记并且总是试图从一个系统的高度对所学内容加以总结,但还是在很多时候觉得音频编码知识结构比较散乱。想花点时间总结和分享一下。可能我也会选择在YY上开个频道。专门讲解。下面给出提纲。这里有我了解的,有我只知道皮毛的,这个其实是我的一个讲解计划,其实也是我一个学习计划。
第一章.音频编码概述
1.1 什么是音频编码
1.2 音频编码的需求
1.3 音频编码分类
1.4 音频编码原理
1.4.1 人口模型
1.4.2 人耳模型
1.5 音频编码应用
第二章:心理声学模型
2 基本心理声学模型
2.1 MPEG1 Audio 的第一心理声学模型
2.2 MPEG1 Audio 的第二心理声学模型
2.3 MPEG2 AAC的心理声学模型
2.4 Lame MP3 的多个心理声学模型
2.5 其他心理声学模型
第三章: 人口模拟的多元激励模型
........
第四章:音频编码中的率失真模型
第五章:各种音频编码原理
MPEG1 Audio系列
MPEG2 Audio系列
AAC 系列(MPEG2 AAC,MPEG4 AAC,BSAC, TwinVQ,AAC-HD等等)
WMA 系列
AC3 系列(AC1,AC2,AC3,EAC3)
ATRAC 系列
Real Cook
DRA
Vorbis
AvsAudio
QDM
早期的音频编码器
PXFM
PAC
OCF
等等
第六章:各种语音编码原理
ADPCM系列
CELP系列
AMR系列
MPE系列
WI系列
MELP系列
SILK
ILBC/ISAC
Speex
Codec2等等
第七章:现代语音编码器发展介绍
第八章:专项技术讲解
专项:信源编码四大模块
E,Q,T,P
E:熵编码
E1:huffman 编码原理与应用
E2:算数编码原理与应用,包括专利问题
E3:游程编码
E4:range coding等等
E5:熵编码的应用(码本设计,码本个数,为什么MP3的huffman编码设计比AAC差,MP3的huffman码本怎么设计出来的)
Q:量化
Q1:标量量化
Q2:矢量量化
Q3:量化的选择与应用
什么时候使用反正弦编码,如何选择。
AAC的指数量化器为什么设计成那个公式,如何设计出来的
T:变换
T1:FFT
T2:余弦类变换
T3:MLT,LOT,LBT
T4:子带变换,QMF
T5:WMDCT
T6:加伯变换等
T7: 各个编码器如何选择合适的变换
P:预测
P1:LPC
P2: LTP
P3:STP
P4:预测在编码器上的应用
其他专项:
A:自适应技术
W:warped 技术
最后
写完这些计划之后,我发现我的浅薄了,谈不上上讲解了,也就是我一个分享,也许在我完成1万小时的研究后我能做到以上全都理解。但我现在,里面的30%都了解不到。呵呵。算是一个学习分享计划吧。
杭州桓泽