4.1图像数据表示的层次
计算机视觉感知的目的是寻找输入图像和真实世界之间的关系。在输入图像和模型之间,定义了若干层次的视觉信息表示,计算机视觉由如下的设计所组成:中间表示(数据结构)、创建这些中间表示所用的算法和它们之间关系的导入。这些表示可分为四个层次。
第一层,最底层的表示,称为图标图像。由含有原始数据的图像组成,原始数据也就是像素亮度数据的整数矩阵。
第二层的表示是分割图像。图像被分割为可能属于同一物体的区域。
第三层是几何表示,保存2D和3D的图像认识。
第四层的图像数据表示是关系模型。
4.2传统图像数据结构
传统的图像数结构有矩阵、链、图、物体属性表、关系数据库、
4.2.1矩阵
矩阵是低层图像表示的最普通的数据结构,矩阵元素是整型的数值,对应于采样栅格中的相应像素的亮度或其他属性。用矩阵表示的特殊图像有:
二值图像(仅有两个亮度级别的图像)用仅含0和1的矩阵来表示
多光谱图像的信息可以用几个矩阵来表示,每个矩阵含有一个频带的图像。
分层图像数据结构用不同分辨率的矩阵来获得。
4.2.2链
链在计算机视觉中用于描述物体的边界。
4.2.3拓扑数据结构
拓扑数据结构将图像描述成一组元素及其相互关系,这些关系通常用图结构来表示。图G=(V,E)是一个代数结构,由一组结点V={v1,v2,...vn}和一组弧E={e1,e2,...,en}构成。每条弧ek代表一对无次序的结点{vi,vj},结点不必有区别。结点的度数等于该结点所具有的弧数。
赋值图是指弧、结点或两者都带有数值的图。
区域邻接图是这类数据结构的一个典型,其中结点对应于区域,相邻的区域用弧连接起来。区域图通常是从区域图创建的,区域图是与原始图像矩阵相同维数的矩阵,其元素是区域的识别标号。
4.2.4关系结构
4.3分层数据结构
为了提高计算速度,我们希望使用并行计算机进行计算
4.3.1金字塔
金字塔属于最简单的分层数据结构。我们区分两种这样的结构,即M型金字塔(矩阵型金字塔)和T型金字塔(树形金字塔)。
M型金字塔是一个图像序列{ML,ML-1,...,M0},其中ML是具有与原图像同样的分辨率和元素的图像,Mi-1是Mi降低一半分辨率得到的图像。当创建金字塔时,通常我们只考虑维数是2的幂次的方阵,这时M0则仅对应于一个像素。
当需要对图像的不同分辨率同时进行处理时,可以采用M型金字塔。分辨率每降低一层,数据量则减少4倍,因而处理速度差不多也提高4倍。
T型金字塔,树状结构。设2L是原始图像的大小(最高分辨率)。T型金字塔定义为:
1.一个结点集合P={P=(k,i,j)使得级别k[0,L];i,j[0,2k-1]}
2.一个映射F,定义在金字塔的结点Pk-1,Pk之间,F(k,i,j)=(k-1,idiv2,jdiv2) 其中div表示整数除。
3.一个函数V,将金字塔的结点P映射到Z,其中Z是对应于亮度级别数的所有数的子集合,例如,Z={0,1,2,...,255}.
在T型金字塔中,除了跟(0,0,0)之外的所有结点Pk都有定义。除了叶子结点外,T型金字塔的每个结点都有4个子结点;叶子结点是第L层的结点,对应于图像的单个像素。
T型金字塔单个结点的数值由函数V定义。叶子结点的值就是原始图像在最高分辨率下的图像函数的值(亮度),图像的尺度是2L-1。树的其他层结点的数值或者是4个子结点的算术平均值,或者是粗采样定义的值。
M型金字塔存储所有图像矩阵需要的像素个数为:,其中N是原始矩阵(最高分辨率的图像)的维数,通常是2的幂2L
4.3.2四叉树
四叉树是对T型金字塔的改进。除叶子结点外每个结点有4个子结点。与T型金字塔相似,在每个层次图像被分解为4个象限,但无须在所有层次上保留结点。如果父结点有4个具有相同值(如亮度)的子结点,则无须保留这些子结点。
四叉树和金字塔分层表示的主要缺点是他们依赖于物体的位置、方向和相对大小。
有很多产生金字塔的方法,取决于缩影窗口的选择。