这一章主要讲解图像是如何从现实世界转变到计算机世界中去的,首先讲了2D和3D的一些变换,以及3D到2D的投影,通过这些就了解了一个三维场景是如何变成一个二维图片的。这里面涉及到了大量的变换。我的理解是,计算机图形学是研究给定的三维场景、光源等条件,求某一视角所能获取的二维图像,而计算机视觉是它的逆过程,当然这一逆过程存在大量的不确定性因素(具体实现还要看后面的算法了)。接下来讲了现实的三维世界中,光在整个三维世界是如何作用的,这就涉及到了照明、反射、阴影等问题。最后,形成我们所看到的电子照片,是光通过了镜头、传感器、增益等等以及数字后处理、压缩,这里面又涉及到了信号处理方面的知识。
2.1 几何基元和变换。
2.1.1 几何基元
包括了2D点、2D直线、2D圆锥曲线、3D点、3D平面、3D直线、3D二次曲面。
数学表达方式类似于高中代数,只不过是用齐次坐标表达的。
2.1.2 2D变换
包括平移、旋转+平移、缩放旋转、仿射、投影。
这些变换是分层次的,上面一行是下面一行的子集。
上面的归类之外还有:直线方程的变换、拉伸与挤压。
另外还有一些看不懂的知识:平面状表面流、双线性内插(用于任意非共线的4点运动的内插)。
2.1.3 3D变换
包括了平移、旋转+平移、缩放旋转、仿射、投影。
2.1.4 3D旋转
2.2 光度测定学的图像形成
2.3 数字摄像机
人类的视觉系统对相对亮度差别是敏感的。
2.3.3 压缩
压缩是摄像机处理流水线上的最后阶段。
首先将信号转换为YCbCr,可以用更高的保真度来压缩亮度信号。使用的是重采样的方法。
接下来是块变换阶段。方法是离散余弦变换DCT。
第三步使用可变数位长度编码机制进行编码,如Huffman编码和算数编码。对于视频,会执行基于块的运动补偿。
最后,压缩算法的品质通常采用峰值信噪比(PSNR)来表达。