Digital Image Processing 学习笔记2

zoukankan html css js c++ java

Digital Image Processing 学习笔记2
第二章
2.1视觉感知要素
2.1.1 人眼的结构

眼睛由角膜与巩膜外壳、脉络膜和视网膜包围，晶状体由通信的纤维细胞层组成，并由附在睫状体上的纤维悬挂；视网膜上分布两类光感受器（锥状体和杆状体），他们主要位于中央凹附近，对颜色高度敏感。其中锥状体视觉称为白昼视觉或亮视觉；杆状体没有色彩感觉，对低照明度敏感，当只有杆状体受刺激时（月光下），称为暗视觉或微光视觉。
*低照明水平下，主要有杆状体执行；高照明水平下，主要有锥状体执行。
2.1.2 眼睛中图像的形成
光接收器的相对刺激作用产生感知，把辐射能转变为电脉冲，最后由大脑解码。
2.1.3 亮度适应和辨别
由人的视觉系统感知的亮度是主观亮度，视觉系统具有亮度适应现象（通过改变整个灵敏度来完成这一较大的变动），视觉系统当前灵敏度级别称为亮度适应级别。
在背景光强I的视野中增加一个照射分量ΔI，形成一个持续时间很短的闪烁，ΔI/I称为韦伯比，其值较小意味着可分辨强度较小的百分比变化，表明辨别能力"较好"。
表明感知亮度不是简单强度的函数的两种现象：马赫带，在强度不同的区域边界出现"下冲"或"上冲"现象；同时对比，感知区域的亮度并不简单的取决于其强度，与背景亮度也有关系。下面给出了这两个现象的例子。

2.2 光和电磁波谱
电磁波可以看成以波长λ传播的正弦波，每个无质量的粒子包含一定的能量，其称之为光子。可见光波段在整个电磁波谱中占相当窄的一部分，彩色谱的每种颜色不是突然中止的，而是混合平滑过渡到另外一种颜色。没有颜色的光称之为单色光或五色光，唯一属性是它的强度或大小，灰度级一词通常用来表示单色光的强度。
*从黑到白的单色光的度量值范围称为灰度级，单色图像通常称之为灰度图像。

描述彩色光源：发光强度，从光源流出能量的总量，用瓦特（W）度量；光通量，描述观察者从光源感受到的能量，用流明数（lm）度量；亮度，一种主观描述。
2.3 图像感知和获取
2.3.1 使用单个传感器获取图像
2.3.2 使用条带传感器获取图像
2.3.3 使用传感器阵列获取图像
2.3.4 简单的图像形成模型
我们用形如f(x, y)的二维函数来表示图像，在空间坐标(x, y)处，f的值或幅度是一个正的标量，其物理意义由图像源决定，因为其亮度与物理源的辐射能量有关, f一定是一个非零有限量

函数可以由两个分量来表征：入射到被观察场景的光源总能量和场景中物体反射的光的总能量（有时候用投射来替代反射）。这两个分量分别称为入射分量和反射分量，分别用来表示，则

对于单色图像的任意坐标的灰度可以表示为l=f(x, y)，其值范围是。这区间称为灰度级，通常情况下是[0, L - 1]，最小值为黑色，最大值为白色。
2.4 图像取样和量化
我们将连续的感知数据转换为数字形式有两步处理：取样和量化。
2.4.1 取样和量化的基本概念
对坐标值的数字化称之为取样，对灰度值的离散化称之为量化。

2.4.2 数字图像表示
通过取样和量化，我们可以把一幅图像函数转换为数字图像，其坐标张成的实平面部分称为空间域，x和y称之为空间变量或空进坐标。
一副数字图像可以用三种方式进行标示：
1. 函数图：x和y是空间坐标，z是f在此坐标处的值。
2. 灰度图：每个点的灰度值与该点的f值成正比，当图像的一部分被打印并作为数值进行分析时，这种表示相当有用。
3. 矩阵：可以直接进行处理和算法开发。
用矩阵表示时，矩阵中每个元素是将图像单元、图像元素或像素，注意数字图像的远点位于左上角，出于存储和量化硬件的考虑，灰度级数典型地取2的整数次幂，即，灰度跨越的值域非正式的称谓动态范围，作为一条规则，上限取决于饱和度，下限取决于噪声。与这一概念紧密联系的是图像对比度，我们定义一幅图像中最高和最低灰度级间的灰度差为对比度。饱和度指超过这个值的灰度级将被剪切掉这样的一个最高值，噪声表现为粒状的纹理模式，在较暗区域掩盖了可检测的最低真实灰度级。
2.4.3 空间和灰度分辨率
空间分辨率是图像中可分辨最小细节的度量，每单位距离线对数和单位距离点数是最长用的度量，要注意的是空间分辨率的度量必须针对空间单位来规定才会有效。
灰度分辨率是在灰度级中可分辨的最小变化。
2.4.4 图像内插
内插是在诸如放大、收缩、旋转和几何校正等任务中广泛应用的基本工具，从根本上看，内插是用已知数据来估计未知位置的数值的处理。如将一副500×500的图像放大到750×750的图像。
最简单的方法是最近邻内插法，将原图像中最近邻的灰度赋值给每个新的位置；常用的是双线性内插法，用4个最近邻去估计给定位置的灰度，但它并不是一种线性方法，公式如下：

更复杂的是双三次内插，包括16个最近邻点。它是商业图像编辑程序的标准内插方法，公式为：

2.5 像素间的基本关系
本书中，图像用f(x, y)表示，某个特殊的像素用小写字母表示，如或者。
2.5.1 相邻像素
像素p的4邻域：(x+1, y) (x-1, y) (x, y+1) (x, y-1)，这四点称之为p的邻点，用表示；p的四个对角邻点用表示；这8个点称为p的8邻域，用表示。如果p在边界上，在第三章进行处理。
2.5.2 邻接性、连通性、区域和边界

邻接性分为4邻接、8邻接和m邻接（又称m邻接）；令S是贴图想中的一个像素子集，若S的全部像素之间存在一个通路，则可以说两个像素p和q在S中是连通的，对于S中任意像素p，S中连通到该像素的集称为S的连通分量，若S仅有一个连通分量，则S称为连通集。
令R为图像中的一个子集，若R为连通集，则称R为一个区域。
区域R的边界（边缘或轮廓）是这样一些点的集合：这些点与R的补集中的点邻近，这种边界也成为内边界。
2.5.3 距离度量
对于坐标分别为(x, y)(s, t) (v, w)的像素p, q, z,若

则D 称为距离函数或度量；像素p, q的距离定义如下：

2.6 数字图像处理中所用数学工具介绍
http://v.163.com/special/opencourse/daishu.html，这是网易公开课--MIT的线性代数，Gilbert Strang教授讲得很有应用性。
2.6.1 阵列与矩阵操作
2.6.2 线性操作与非线性操作
线性操作针对的是加和操作和数乘操作。
2.6.3 算术操作
值得是两个矩阵点对点做数学运算，图像相加可以做平滑噪声的处理，图像相减可以增强差别，图像相乘或相除可以用来矫正阴影和进行模板操作。
*均值为$m$的随机变量$z$的方差定义为$E[(z-m)^2]$，其中$E{}$是该参量的期望值；两个随机变量的协方差定义为$E[(z_i-m_i)(z_j-m_j)]$，若两个变量不相关，则它们的协方差为0。
2.6.4 集合和逻辑操作
基本集合操作
属于、空集、交集、并集、补集的基本概念与数学中学的类似，还有一个差集的概念：
$$A-B=\{w|w\in A,\,w\notin B\}=A\cap{B^c}$$
图像灰度集合操作中会有些小的变化，首先元素是三元形式$(x, y, z)$，其中$x, y$是空间坐标，$z$是灰度，那么补集定义$A^c=\{(x, y, K-z)|(x, y, z)\in A\}$，并集定义$A\cup B=\{\mathrm{max}_z(a,b)|a\in A,b\in B\}$等等。
逻辑操作
包括的操作有非(NOT)、与(AND)、或(OR)、与非（做差集AND[NOT]）和异或(XOR)操作，其中需要注意的是AND, OR, NOT是功能完备的。
模糊集合
用以处理界限不精确的分类集合，比如用年龄区分。
2.6.5 空间操作
空间操作可以分作三类：
单像素操作：
$$s=T(z)$$
其中$z$是源图像中某像素的灰度，$s$是处理后图像中相应的灰度，$T$是变换函数。
邻域操作
令$S_{xy}$代表图像$f$中任意一点$(x,y)$为中心的一个邻域坐标集，然后在这个邻域内经过一些操作生成一个像素的坐标值。
几何空间变换和图像配准
几何变换也叫橡皮膜变换，它由两个基本操作组成：坐标空间变化+灰度内插（空间变换之后的像素赋灰度值）。
最常用的空间坐标变换是仿射变换，形式如下：
$$\begin{bmatrix} x & y & 1 \end{bmatrix}=\begin{bmatrix}v & w & 1 \end{bmatrix}T=\begin{bmatrix} v & w & 1 \end{bmatrix}\begin{bmatrix} t_{11} & t_{12} & 0\\ t_{21} & t_{22} & 0 \\ t_{31} & t_{32} & 0 \end{bmatrix}$$
其中矩阵$T$可以实现恒等变换、尺度变换、旋转变换、平移变换、以及垂直和竖直方向的便宜变换。对于$T$中的元素，$t_{11}$ 和$t_{22}$表明尺度变换因子，$t_{12}$表明水平偏移变换，$t_{21}$表明垂直偏移变换，$t_{31}$和$t_{32}$表明平移变换情况。
上式可以有两种方法来使用，一种是向前映射，一种是逆计算，称作反向映射，即$(v,w)=T^{-1}(x,y)$的，就实现角度来讲，往往反向映射更为有效。
图像配准是数字图像处理的一种重要应用，用于对齐多幅相同场景的图像。这多幅图像可能是多模态的，使用的方法是利用约束点。往往约束点选取的越多，其准确度也越高，但计算量会相应增加。
2.6.6 向量与矩阵操作
一个像素可以用向量来表示，如RGB彩色图像；一幅图像也可以用向量来表示，即一个$M\times N$的矩阵变为$MN\times 1$的向量。
对于用矩阵表示的像素，任一点$a$在$n$维空间的欧氏距离$D$可以表示为：
$$D(\vec{z},\vec{a})=\begin{bmatrix}(\vec{z}-\vec{a})^T(\vec{z}-\vec{a})\end{bmatrix}^{\frac{1}{2}}=\sum_{i=1}^{n}{(z_i-a_i)^2}^{\frac{1}{2}}$$
2.6.7 图像变换
一种二维线性变换$T(u,v)$可以表示为
$$T(u,v)=\sum_{x=0}^{M-1}\sum_{y=0}^{N-1}f(x,y)r(x,y,u,v)$$
其中$f(x,y)$是图像，$r(x,y,u,v)$称为正变换核，如果从$T$到$f$，需要的变换核称为反变换核，这两种变换在一起称为变换对。对于变换核，如果可以拆分，如
$$r(x,y,u,v)=r_1(x,u)r_2(r,v)$$
那么我们称变换核是可分的，如果$r_1=r_2$，那么变换是对称的，例如二维傅里叶变换
$$r(x,y,u,v)=e^{-j2\pi(\frac{ux}{M}+\frac{vy}{N})}$$

上图描述了线性变换域执行图像处理的基本步骤，变换可以看作一个变换举矩阵作用到图像矩阵上。
2.6.8 概率方法
随机变量$z$的第$n$阶矩定义为：
$$\mu_n(z)=\sum_{k=0}^{L-1}(z_k-m)^np(z_k)$$
其中$p(z_k)$是图像中灰度级$z_k$出现的概率，$m$为整幅图像的灰度均值，所以我们可以得到$\mu_0(z)=1$，表示概率之和为1；$\mu_1(z)=m$，表示整幅图像的期望值；$\mu_2(z)=\sigma^2$，表示方差。
*高阶矩的敏感性更高，对于图像的视觉特性也有越明显的作用。

MATLAB 版
这一章节主要是一些概念介绍和函数介绍。
2.1 数字图像的表示
2.1.1 坐标约定
IPT（Image Process Tools）中关于坐标的描述与数学上的描述略有不同，主要区别有：
1. 使用$(r,c)$来代表行和列。
2. 远点在$(1,1)$处。
MATLAB的基本单位是矩阵，对于一个数来说，可以看做是$1\times 1$的标量，一副数字图像可以表示成：
$$f=\begin{bmatrix}f(1,1) & f(1,2) & \cdots & f(1,N) \\ f(2,1) & f(2,2) & \cdots & f(2,N) \\ \vdots & \vdots & \ddots & \vdots \\ f(M,1) & f(M,2) & \cdots & f(M,N) \\\end{bmatrix}$$
一个$1\times N$矩阵称为一个行向量，一个$M\times 1$矩阵称为一个列向量。
2.2 读取图像
imread - Read image from graphics file.
用法：f = imread('路径名+文件名+扩展名')
其支持的格式有

size – Size of array.给出一幅图像的行数和列数
    用法：[M, N] = size(f)
whos - List current variables, long form. 显示出一个数组的附加信息
    用法：whos f
2.3 显示图像
imshow - Display image in Handle Graphics figure.
    用法：imshow(f, G)
其中G是该图像的灰度级数，默认是256，用一个数组表示[low high]，如果参数不写，那么会将整幅图像的像素灰度值等比例拉伸到0-255，如下图效果：

Figure - Create figure graphics object. 用以显示多福图像时辅助使用。
    用法：imshow(f), figure, imshow(g)
2.4 保存图像
Imwrite - Write image to graphics file.
    用法：imwrite(f, '路径名+文件名+扩展名')
针对JPEG图像使用imwrite，可以通过调整最后一个缺省参数达到压缩效果：
    用法：imwrite(f, '路径名+文件名+扩展名', q)
其中的q是一个0-100之间的整数，q越小，图像退化越严重。
其支持的格式有

imfinfo - Information about graphics file.
    用法：k = imfinfo ('路径名+文件名+扩展名')
此时的k可以看做一个结构体（针对C语言），具体显示可以使用"."操作符，如k.Filename。
round – Round to nearest integer.
    用法：m = round(x)
2.5 数据类
MATLAB默认的数据类型是double，其支持的数据类有

2.6 图像类型
支持四种图像类型：亮度图像、二值图像、索引图像、RGB图像。
2.6.1亮度图像
类型有unit8 ，范围是[0, 255]；unit16，范围[0, 65535]；double，归一化之后范围[0, 1]。
2.6.2 二值图像
其像素取值只能是0或者1。
logical – Convert numeric values to logical
    用法：B = logical(A)
islogical - Determine if input is logical array
    用法：tf = islogical(A)
如果是二值图像，返回1,；如果不是，返回0。
2.7 数据类与图像类型间的转换
2.7.1 数据类型间转换
语法简单：B = data_class_name(A)；比如B = double(A)。
*从double到Unit8的时候，小于0的全部置为0，大于255的置于255，其他部分向下取整。
2.7.2 图像类和类型间的转换
mat2gray - Convert matrix to grayscale image.
im2bw – Convert image to binary image, based on threshold.
im2double – Convert image to double precision.
等等函数，其中用关系运算符也可以生成二值图像，如
$$f=\begin{bmatrix}1 & 2 \\ 3 & 4\end{bmatrix} \ f > 2 : \ \begin{bmatrix} 0 & 0 \\ 1 & 1 \end{bmatrix}$$
2.8 数组索引
2.8.1 向量索引
转置运算符(.')，可以将行向量转置为列向量；取元素的数据块可以使用冒号操作符(:)；end表示向量的最后一个元素
linspace – Generate linearly spaced vectors
    用法：x = linspace(a, b, n)
产生一个含有n个元素的行向量x，这n个元素线性地隔开并且包含a与b。
2.8.2 矩阵索引
example：
$$A=\begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \end{bmatrix}$$
使用end作为索引：$B = A(2 : end, end : -2 :1)$，得到的结果为$\begin{bmatrix} 6& 4 \\ 7 & 9 \end{bmatrix}$，是因为从行方向上看取第2行至第3行；从列方向上看，从最后一行至第1行间隔取。
使用向量作为索引：$C = A([1 3], [2 3])$，得到的结果为$\begin{bmatrix} 2 & 3 \\ 8 & 9 \end{bmatrix}$，是因为行方向取1，3行，列方向取2，3列。
矩阵索引还可以使用寻址方式，形式为$A(D)$，其中D是一个逻辑数组，例如$\begin{bmatrix} 1 & 0 & 0 \\ 0 & 0 & 1\\ 0 & 0 & 0 \end{bmatrix}$，那么$A(D) = \begin{bmatrix} 1 \\ 6\end{bmatrix}$
使用冒号，会将交矩阵所有元素按照列方向排成一个列向量，比如$E = B(:)$可以得到结果$E = \begin{bmatrix}1 \\ 4 \\ 7 \\ 2 \\ 5 \\ 8 \\ 3 \\ 6 \\ 9 \end{bmatrix}$
sum – Sum of array elements
    用法：sum(A)
可以得到的结果是 $\begin{bmatrix}12 & 15 & 18\end{bmatrix}$
2.8.3 选择数组维数
Operation(A, dim)
operation是一个可能的操作， A是一个数组，dim是一个标量，表明沿着第dim维给出相应结果。
ndims – Number of array dimensions
    用法：ndims(A)
其结果不会小于2，因为即使是标量，我们也认为是个$1\times 1$的数组。
2.9 一些重要的标准数组
$zeros(M,N)$生成一个大小$M\times N$的double类数组，其元素均为0。
$ones(M,N)$生成一个大小$M\times N$的double类数组，其元素均为1。
$true(M,N)$生成一个大小$M\times N$的logical类数组，其元素均为1。
$false(M,N)$生成一个大小$M\times N$的logical类数组，其元素均为0。
$magic(M)$生成一个大小$M\times M$的魔方数组，每一行元素之和、每一列元素之和和主对角线元素之和相等，主要用于测试目的，且元素均为整数。
$rand(M,N)$生成一个大小$M\times N$的double类数组，其元素在[0, 1]之间。
$randn(M,N)$生成一个大小$M\times N$的double类数组，其元素是正态分布的随机数，随机数均值为0，方差为1，如高斯分布。
2.10 M函数编程简介
2.10.1 M文件
M文件可以是简单执行一系列MATLAB语句的脚本，也可以是接受变量并产生一个或多个输出的函数。
函数的定义形式：
$$function [outputs] = name(inputs)$$
2.10.2 运算符
三类运算符：
1. 执行数值计算的算术运算符
2. 在数量上比较操作数的关系运算符
3. 执行函数AND、OR和NOT的逻辑运算符
算术运算符
*点操作符，比如".^"、".*"都是点对点操作，两个操作数必须是相同的维数。
关系运算符
作用于两个相同维数的矩阵，点对点进行关系判断。其中"非"是"~="
逻辑运算符和函数
AND："&" OR："|" NOT："~"
逻辑函数：
- xor（异或）：作用于两个相同维数的数组
- all：若一个向量中所有元素都非零，则返回1。矩阵中按列操作。
- any：若一个向量中任何元素都非零，则返回1。矩阵中按列操作。
一些重要的变量和常量

数的表示
可以使用科学技术规则。
2.10.3 流控制
if, else , else if：
if expression1
    statements
elseif expression2
    statements
else
    statements
end
for:
for index = start: increment: end
    statement
end
switch
switch switch_expression
    case case_expression
        statement
    case case_expression
        statement
    otherwise
        statement
end
如果case中有多个表达式，用花括号；且与C语言的switch相比，不需要break语句。
2.10.4 优化代码
1. 向量化代码：将循环问题变成向量或矩阵预算。
2. 预分配内存：计算开始前就分配足够的空间内存。
2.10.5 交互式I/O
input – Request user input.
disp – Display text or array.
strread – Read formateed data from string.
strcmp – Compare strings(case sensitive)
2.10.6 单元数组与结构简介
单元数组：是一个多维数组，其元素是其他数组元素的副本。（MATLAB中的赋值并不是做一个副本，而是做一个标号，除非原始数组发生了变化）比如$C={A, B}$之后数组A、B可能会改变，但C中不会跟着相应改变。
结构：类似单元数组，更接近于C语言中的结构体。
查看全文

相关阅读:
May LeetCoding Challenge3 之 HashMap的使用
 May LeetCoding Challenge2 之 HashSet的使用
 May LeetCoding Challenge1 之标准二分查找法
 30-Day Leetcoding Challenge Day21
30-Day Leetcoding Challenge Day19
30-Day Leetcoding Challenge Day18
ALV 单元格编辑回车响应
 ALV模版1
web dynpro 开发配置
 convert fm

原文地址：https://www.cnblogs.com/salan668/p/3516274.html

Digital Image Processing 学习笔记2

第二章

2.1视觉感知要素

2.1.1 人眼的结构

2.1.2 眼睛中图像的形成

2.1.3 亮度适应和辨别

2.2 光和电磁波谱

2.3 图像感知和获取

2.3.1 使用单个传感器获取图像

2.3.2 使用条带传感器获取图像

2.3.3 使用传感器阵列获取图像

2.3.4 简单的图像形成模型

2.4 图像取样和量化

2.4.1 取样和量化的基本概念

2.4.2 数字图像表示

2.4.3 空间和灰度分辨率

2.4.4 图像内插

2.5 像素间的基本关系

2.5.1 相邻像素

2.5.2 邻接性、连通性、区域和边界

2.5.3 距离度量

2.6 数字图像处理中所用数学工具介绍

2.6.1 阵列与矩阵操作

2.6.2 线性操作与非线性操作

2.6.3 算术操作

2.6.4 集合和逻辑操作

基本集合操作

逻辑操作

模糊集合

2.6.5 空间操作

单像素操作：

邻域操作

几何空间变换和图像配准

2.6.6 向量与矩阵操作

2.6.7 图像变换

2.6.8 概率方法

MATLAB 版

2.1 数字图像的表示

2.1.1 坐标约定

2.2 读取图像

2.3 显示图像

2.4 保存图像

2.5 数据类

2.6 图像类型

2.6.1亮度图像

2.6.2 二值图像

2.7 数据类与图像类型间的转换

2.7.1 数据类型间转换

2.7.2 图像类和类型间的转换

2.8 数组索引

2.8.1 向量索引

2.8.2 矩阵索引

2.8.3 选择数组维数

2.9 一些重要的标准数组

2.10 M函数编程简介

2.10.1 M文件

2.10.2 运算符

算术运算符

关系运算符

逻辑运算符和函数

一些重要的变量和常量

数的表示

2.10.3 流控制

2.10.4 优化代码

2.10.5 交互式I/O

2.10.6 单元数组与结构简介