从到新公司起(3月中旬)
我就在思考如下方向:
1.Gabor 系列技术:
Gabor 变换
Gabor 系数
Gabor 字典
Gabor Transform 和 Gabor Dictionary(字典/分解)的区别
以及新的Windowed Modified Discrete Cosine Transform(WMDCT)的意义,这个出现在lTFT matlab库中
这个WMDCT是具有类似QMF一样兼顾时频分析的特点。
初步理解,Gabor是通过时间因子和频率因子两个变量影响系数结果,它是2元函数,他的系数会大于输入,L = M*Km = N*Sn M是频域分辨率,N是时域分辨率,当L = M*N是普通1元子带变换.是gabor的特例。
2.量化技术:
和我之前的学习了解SQ与VQ不同最近着重思考
Noise Shaping/Dither对Quant的影响,参考部分论文和wikipedia
为什么或者说怎么样设计出的AAC/MP3的那个量化谱线时的复杂的指数量化器(标量)
3.SBR的替代技术
实际上,SBR是一种折中的方案,兼容以前的感知编码器和新的参数编码器(正弦建模)的混合编码器。
新型的编码模型,基于正弦的模型在广泛的被研究中。包括J.M Valin打算在Ghost中使用这样的技术。
而正弦建模技术早在1989年就已经在斯坦福大学进行研究。当时写博士论文Serra以及他的老师JOS III就已经进行研究。而MPEG4 的HILN和HXVC都是基于正弦建模的技术。
而HILN也是德国Fraunhofer参与研发的。
在这方面我发现了大量的论文和研究。
4. Malvar的变换技术
思索MLT,LOT的区别。
MDCT的效率,变换的意义和比较等。
总体说来着半个月我是围绕着变换(基础变换的意义和高级变换的研究),量化(基础量化)。以及正弦模型编码研究的。
可以说来变换和量化是为正弦编码服务的。
其次,围绕正新的编码器的研究我有如下方向和准备
1. 新的编码方案是在感知分析之后,可以立足当前的mp3或是aac编码器中在作玩感知分析之后,量化之前把感知处理后的数据保留下来
当然这里也有问题,就是mp3和aac的感知处理对熵编码和量化耦合是比较强的好像。
2. 有必要看下最近下载的几个经典的PPT把MP3和AAC以及vorbis的心理声学模型好好研究一下。
3. 应先多了解正弦模型系统框架,建立自己的框架。
4.在现行的Vorbis上提出正弦模型增强框架
5.学习HXVC和HILN以及G.718,G.729.1的代码学习正弦模型的实现算法,并试图改进。
6.在别人的正弦模型算法中提出和开发参数量化和编码的算法,例如正弦后分段自带的自适应矢量量化?
正弦参数的自适应量化?