注:《视觉计算理论》翻译自Marr的《Vision》
Vison:
A computational investigation into the human representation and processing of visual information
导言
![](http://i.imgur.com/27U0EKV.jpg)
第一章
1.1 视觉研究的背景
- 牛顿:颜色视觉的研究 1704
- 赫姆霍兹:生理光学 1910
- Wertheimer:依次呈现的图像是整体的视运动,而不是单点的视运动 20世纪初
心理学-格式塔学派:共同性和差异性来描述整体性质
接下来研究者不再认真从整体去认识知觉,而专心于知觉的各种性质和实现情况的分析
- 三原色原理
- 运动知觉
- 不断变化的单眼投影可知三维形状(适当条件下)
知觉的独立模块 - 心理物理学-Campbell和Robson:知觉器官的前级,存在若干独立的空间频率调谐通道
- 研究方法-简单线图>>意识转动>>表象概念
- 研究方法-电生理学>>神经信号引起的感觉决定于是哪一种神经纤维在传递信息
- (原来)研究方法-解剖学>>神经信号引起的感觉决定于神经纤维受刺激的方式
- 研究方法-电生理信号放大技术,记录单个神经元活动>>细胞的感受野(Hartline,1940)>>视觉通路中逐步深入的各层次上的神经元行为(Kuffler,1953;Hubel和Wiesel,1962)
心理学中有意义的一些问题可从生理学实验中得到启发和解释
Barlow-青蛙视网膜神经节细胞:
- 某种神经元只对适当的感觉刺激(即钥匙模式、触发特征)发放信号
- 神经节细胞可发现并确定某特殊事件在眼前发生,但只有光强度变化的细致模式才真正携带着信息,而那一时刻的整体照明水平是不加考虑的
- 神经元的活动便是思维过程
- 每个神经元的活动都可能对知觉起重要作用
- 观点:单个神经元活动的描述+受其他神经细胞影响而作出反应的描述=理解神经系统功能足够完整的描述;因此这种活动必然为理解大脑是如何控制行为的问题奠定基础。
上述还原论思想带来的研究:
- Hubel和Wiesel开创性工作:1960,1968
- Barlow等人:立体视觉,1967
- De Valois等人:颜色视觉,1967>>似乎知觉和单细胞记录间有密切联系
- Gross等人:颞叶皮层上“手检测器”>>还原论方法不只限于视觉通路的初级部分
70年代主流思想认为中心任务是对中枢神经系统的结构作彻底的功能分析。皮层结构被解释为一个用于学习运动技能的记忆装置,靠组合技巧来学习多种模式并将其与未学模式区别开来。
然而70年代却没有记录到新明显的高层次知觉对应关系。
- Hubel和Wiesel专心于解剖学,Barlow转向心理物理学
- 神经生理学主流转向1)发育和可塑性;2)已发现细胞更彻底分析;3)其他物种的神经细胞
反思:
- 就算研究出小脑和皮层的关系,也无法解释为什么要有小脑以及小脑里应有什么东西等
- 就算有很多类似的手检测器,也无从知晓是为什么要和怎么构造出它的
- 这些不足以使人们能编程序实现手检测器
- 原因在于神经生理学和心理物理学都是以描述细胞等为己任而很少考虑如何解释这种行为>>大脑视区到底在进行什么工作?有哪些问题需要解释?在哪个描述层次上寻求该解释?
要发现某件事的难度,最好的方式是做做看。于是转向MIT人工智能实验室。
人工智能中边缘检测问题:
- 三维视角的边缘 vs 单幅图像
- 大量杂乱无章的边缘片段
- 反射率和照明情况等
三种方法试图理解边缘引起的这种现象
- 堂堂正正的经验方法-Azriel Rosenfeld>>观察运算结果>>算子来提高灵敏度、降低噪声等>>没有从数学上证明哪个算子更优,也没有人知道这些算子是干什么用的
- 受限制的场景深入分析(如全部边缘都是直线)>>提取线图>>尝试解释线图
- 有两件工作表明存在一个理解图像的附加层次:
a.颜色视觉的锐化处理理论>>把颜色看成是对反射情况的知觉>>物体表面反射平缓而边界突兀>>Horn设计出巧妙的并行算法>>Marr提出该算法如何通过神经元实现(Marr,1974)
b.明暗恢复形状>>Horn提出联系图像强度值和表面几何性质的微分方程
小结:把遇到的问题当作是一个信息处理任务来加以分析,存在一个理解图像的附加层次。将解释分为若干不同层次,就会使视觉信息处理基础研究变得非常严谨,也会知道每一步所做的事,可作为一门真正学科的坚实基础取代启发式的计算机程序。
1.2 理解复杂的信息处理系统
几乎无复杂系统可理解为其组成单元性质的简单外推(瓶中气体的热力学效应描述不能用瓶中每一分子运动方程的组合来描述)
若想理解某一系统,需要在不同描述层次上寻求不同的解释。虽然了解层次间每一细节并不现实,但至少这些层次是被结合成内在统一体。
- 怎么做?(1)选择处理的输入表象和输出表象;(2)选择能完成表象转换的算法
答:阿拉伯数字作为表象;加法进位规则
a. 通常有很多可供选择的表象
b. 算法的选择往往主要取决于所使用的特殊表象
c. 给定的固定表象也常常有多种算法,不同算法的有效性稳定性串并性等性质不同
- 怎么物理实现?物理上具体实现处理的装置
a. 同一个算法用完全不同的技术途径来实现。如人脑和计算机,人脑接头数目比神经细胞数目大得多( (x10^4) )。
神经解剖学:
后像、三原色>>三类视锥细胞
Necker立方体的深度反转现象>>大脑中存在双稳态神经网络
突触机制、动作电位、抑制性相互作用等着眼于第三层次,但也能帮助理解第二层次。根据神经生理学发现推断应该使用的算法和表象时,须极其谨慎地搞清楚被表象的信息内容和实现的是什么处理
心理物理学:
与算法和表象这一层次有联系,有助于决定表象的本质
Stevens>>表面朝向的表象是倾角和偏角,表象数值是纯角度
记住在不同的层次上解释一个概念,以区别不同事物
Marr认为Gibson未能认识以下两个事实:
- 图像表面这样的不变量检测,是一个信息处理问题
- 大大低估了这种检测的真正难度
Austin《感觉和情感》:
- 我们看到的是感觉数据,而不是物质材料
- 苍鹭对于水产生的光反射可能是有视觉矫正
Marr认为Austin:
- Austin用大量时间来考虑“真实形状”:硬币,有一个固定不变的真实形状,看上去椭圆;那么猫的真实形状是什么?认为无解。
- Marr认为解存在,可用任意一种精度描述猫的形状,也有获得描述的规律和方法。
1.3 关于视觉的表象框架
视觉:一个处理过程,从外界图像中得到既对观察者有用又不受无关信息干扰的描述。
人类视觉中,原始表象是由视网膜上的光感受器所检测到的图像强度值阵列组成的。(强度值阵列仅仅是表象中的一种?还有光感受器因素,比如种类、数目、排列等)
视觉输出必须包含关于外部世界的一个有用描述
视觉处理的结果是什么?
什么是有用的描述?
Marr认为该报告重要的原因有二:
- 原先:识别需要所有各种可能的信息;现在:单靠视觉就能确定形状。
- 视觉告诉我们的是:形状、空间及空间位型;视觉的目的:从图像中建立物体的形状和位置的一个描述。视觉告诉我们其他的信息:表面的照明情况和反射情况(亮度、颜色和视觉质地)以及表面的运动情况等,这些都是次要的。