《视觉计算理论》阅读笔记——第一章

zoukankan html css js c++ java

《视觉计算理论》阅读笔记——第一章
注：《视觉计算理论》翻译自Marr的《Vision》

Vison:

A computational investigation into the human representation and processing of visual information

导言

第一章

1.1 视觉研究的背景
- 牛顿：颜色视觉的研究 1704
- 赫姆霍兹：生理光学 1910
- Wertheimer:依次呈现的图像是整体的视运动，而不是单点的视运动 20世纪初
  心理学-格式塔学派：共同性和差异性来描述整体性质
接下来研究者不再认真从整体去认识知觉，而专心于知觉的各种性质和实现情况的分析
- 三原色原理
- 运动知觉
- 不断变化的单眼投影可知三维形状（适当条件下）
  知觉的独立模块
- 心理物理学-Campbell和Robson：知觉器官的前级，存在若干独立的空间频率调谐通道
- 研究方法-简单线图>>意识转动>>表象概念
- 研究方法-电生理学>>神经信号引起的感觉决定于是哪一种神经纤维在传递信息
- （原来）研究方法-解剖学>>神经信号引起的感觉决定于神经纤维受刺激的方式
- 研究方法-电生理信号放大技术，记录单个神经元活动>>细胞的感受野（Hartline,1940）>>视觉通路中逐步深入的各层次上的神经元行为(Kuffler,1953；Hubel和Wiesel,1962)
心理学中有意义的一些问题可从生理学实验中得到启发和解释

Barlow-青蛙视网膜神经节细胞：
1. 某种神经元只对适当的感觉刺激（即钥匙模式、触发特征）发放信号
2. 神经节细胞可发现并确定某特殊事件在眼前发生，但只有光强度变化的细致模式才真正携带着信息，而那一时刻的整体照明水平是不加考虑的
3. 神经元的活动便是思维过程
4. 每个神经元的活动都可能对知觉起重要作用
5. 观点：单个神经元活动的描述+受其他神经细胞影响而作出反应的描述=理解神经系统功能足够完整的描述；因此这种活动必然为理解大脑是如何控制行为的问题奠定基础。
上述还原论思想带来的研究:
- Hubel和Wiesel开创性工作：1960,1968
- Barlow等人：立体视觉，1967
- De Valois等人：颜色视觉，1967>>似乎知觉和单细胞记录间有密切联系
- Gross等人：颞叶皮层上“手检测器”>>还原论方法不只限于视觉通路的初级部分
70年代主流思想认为中心任务是对中枢神经系统的结构作彻底的功能分析。皮层结构被解释为一个用于学习运动技能的记忆装置，靠组合技巧来学习多种模式并将其与未学模式区别开来。
然而70年代却没有记录到新明显的高层次知觉对应关系。
- Hubel和Wiesel专心于解剖学，Barlow转向心理物理学
- 神经生理学主流转向1）发育和可塑性；2）已发现细胞更彻底分析；3）其他物种的神经细胞
反思：
1. 就算研究出小脑和皮层的关系，也无法解释为什么要有小脑以及小脑里应有什么东西等
2. 就算有很多类似的手检测器，也无从知晓是为什么要和怎么构造出它的
3. 这些不足以使人们能编程序实现手检测器
4. 原因在于神经生理学和心理物理学都是以描述细胞等为己任而很少考虑如何解释这种行为>>大脑视区到底在进行什么工作？有哪些问题需要解释？在哪个描述层次上寻求该解释？
要发现某件事的难度，最好的方式是做做看。于是转向MIT人工智能实验室。
人工智能中边缘检测问题：
- 三维视角的边缘 vs 单幅图像
- 大量杂乱无章的边缘片段
- 反射率和照明情况等
三种方法试图理解边缘引起的这种现象
1. 堂堂正正的经验方法-Azriel Rosenfeld>>观察运算结果>>算子来提高灵敏度、降低噪声等>>没有从数学上证明哪个算子更优，也没有人知道这些算子是干什么用的
2. 受限制的场景深入分析（如全部边缘都是直线）>>提取线图>>尝试解释线图
3. 有两件工作表明存在一个理解图像的附加层次：
  a.颜色视觉的锐化处理理论>>把颜色看成是对反射情况的知觉>>物体表面反射平缓而边界突兀>>Horn设计出巧妙的并行算法>>Marr提出该算法如何通过神经元实现（Marr,1974）
  b.明暗恢复形状>>Horn提出联系图像强度值和表面几何性质的微分方程
  小结：把遇到的问题当作是一个信息处理任务来加以分析，存在一个理解图像的附加层次。将解释分为若干不同层次，就会使视觉信息处理基础研究变得非常严谨，也会知道每一步所做的事，可作为一门真正学科的坚实基础取代启发式的计算机程序。
1.2 理解复杂的信息处理系统

几乎无复杂系统可理解为其组成单元性质的简单外推（瓶中气体的热力学效应描述不能用瓶中每一分子运动方程的组合来描述）
若想理解某一系统，需要在不同描述层次上寻求不同的解释。虽然了解层次间每一细节并不现实，但至少这些层次是被结合成内在统一体。
**表象和描述** **表象**即一种能把某些实体或信息表达清楚的形式化系统，以及说明该系统如何行使其职能的若干规则。用某一种表象描述一个给定的实体所得到的的结果，称之为该实体在这种表象下的一个**描述**。一种特殊的表象，一方面会使某些信息变得明确，另一方面作为代价也会使另一些信息被隐藏，而隐藏的信息可能极难恢复。信息被如何表象，会对其解决不同问题的难易程度产生巨大影响。比如阿拉伯表象加减乘都比较容易，但罗马数字则非易事（然后阿拉伯文化成功了，而罗马文化失败了-_-）。 **处理** 以现金收支机为例,从其中三个层次分析： 1. 这个装置是做什么的，为什么这样做？ >答：加法运算；收支规则的约束条件决定了使用加法运算现金收支机的计算理论： a. 两个独立论点：计算的是什么东西，为什么要计算这些东西。 b. 最后得到的运算仅由它必须满足的约束条件唯一地决定。
1. 怎么做？（1）选择处理的输入表象和输出表象；（2)选择能完成表象转换的算法
答：阿拉伯数字作为表象；加法进位规则
a. 通常有很多可供选择的表象
b. 算法的选择往往主要取决于所使用的特殊表象
c. 给定的固定表象也常常有多种算法，不同算法的有效性稳定性串并性等性质不同
1. 怎么物理实现？物理上具体实现处理的装置
a. 同一个算法用完全不同的技术途径来实现。如人脑和计算机，人脑接头数目比神经细胞数目大得多( (x10^4) )。

**三个层次** L1:映射，将一种信息映射成另一种信息。映射的抽象性质是被精确定义的，论证是否适合和足以完成既定的任务。（ Q:但是没有论证是否是唯一的） L2:输入输出表象的选择，以及表象转换的算法 L3:物理实现算法和表象的具体细节三者尽管松散，但也有耦合。
神经解剖学：
后像、三原色>>三类视锥细胞
Necker立方体的深度反转现象>>大脑中存在双稳态神经网络
突触机制、动作电位、抑制性相互作用等着眼于第三层次，但也能帮助理解第二层次。根据神经生理学发现推断应该使用的算法和表象时，须极其谨慎地搞清楚被表象的信息内容和实现的是什么处理

心理物理学：
与算法和表象这一层次有联系，有助于决定表象的本质
Stevens>>表面朝向的表象是倾角和偏角，表象数值是纯角度

记住在不同的层次上解释一个概念，以区别不同事物
**计算理论的重要性** 从信息处理的角度，计算的本质更多地依赖计算理论，而不是实现的硬件。不理解程序解决的问题以及程序怎么解决这个问题的差别，会导致的后果：（1）引用特殊的机制解决特殊的问题（2）特殊的数据结构被当作知识表达的理论（3）不运行程序则不知道程序是否可以处理某一特定情况 Chomsky 转移语法>>计算or理论层次混淆>>计算能力的薄弱会产生计算理论上的限制条件 **J.J.Gibson的方法** Gibson 从感觉数据的哲学含义及感觉的情感性质的争论中解脱，转而集中在感觉问题的实质，他认为： 1. 感官是知觉外部世界的通道 2. 知觉问题是从感觉信息恢复外部世界的“有效”性质的问题 3. 大脑的功能是检测“不变量” 4. 神经系统以某种方式与这些不变量发生“谐振”
Marr认为Gibson未能认识以下两个事实：
1. 图像表面这样的不变量检测，是一个信息处理问题
2. 大大低估了这种检测的真正难度
Austin《感觉和情感》：
1. 我们看到的是感觉数据，而不是物质材料
2. 苍鹭对于水产生的光反射可能是有视觉矫正
Marr认为Austin:
1. Austin用大量时间来考虑“真实形状”：硬币，有一个固定不变的真实形状，看上去椭圆；那么猫的真实形状是什么？认为无解。
2. Marr认为解存在，可用任意一种精度描述猫的形状，也有获得描述的规律和方法。
1.3 关于视觉的表象框架

视觉：一个处理过程，从外界图像中得到既对观察者有用又不受无关信息干扰的描述。
人类视觉中，原始表象是由视网膜上的光感受器所检测到的图像强度值阵列组成的。（强度值阵列仅仅是表象中的一种？还有光感受器因素,比如种类、数目、排列等）
视觉输出必须包含关于外部世界的一个有用描述

视觉处理的结果是什么？
什么是有用的描述？

**视觉的目的** 一个表象是否有效，取决于这个表象与使用这个表象的目的是否匹配得当。鸽子、蜘蛛、青蛙、兔子、人等由于不同动物使用视觉的目的不同，所以不能设想所有运用视觉的动物都有相同的表象；但肯定的是，每个动物使用的是合乎各自需求的一个或几个表象。 **高级的视觉** Warrington关于左右颅壁损伤的报告表明两个事实： 1. 物体的形状表象和物体的用法用途表象存储在不同地方 2. 仅靠视觉就能传递物体的形状
Marr认为该报告重要的原因有二：
1. 原先：识别需要所有各种可能的信息；现在：单靠视觉就能确定形状。
2. 视觉告诉我们的是：形状、空间及空间位型；视觉的目的：从图像中建立物体的形状和位置的一个描述。视觉告诉我们其他的信息：表面的照明情况和反射情况（亮度、颜色和视觉质地）以及表面的运动情况等，这些都是次要的。
**必由之路** 目的是通过视觉从图像得到一个完全确定的形状描述。想法：构造一连串表象。可见表面描述与全部初级视觉处理过程一样，极大地依赖于观察点的位置。因此，最后一步是以观察者为中心的表面描述变成一个与观察方向无关的物体的三维形状和空间构型表象（以物体为中心的描述）。从图像中推得形状信息分成三个表象阶段：（1）二维图像性质的表象（2）以观察者为中心的坐标系中的可见表面性质的表象（3）被观察形状的三维结构和组织，以物体为中心的表象，以及在此坐标系下对物体表面性质的一些描述
查看全文

相关阅读:
Linux top详解
 Could not load file or assembly 'Microsoft.Extensions.Hosting.Abstractions, Version=3.1.0.0, Culture=neutral, PublicKeyToken=adb9793829ddae60'.
面试官最爱的 volatile 关键字，这些问题你都搞懂了没？
HashMap面试题及答案（2020版）
Linux 下安装Rider 和 Net core SDK
[Dnc.Api.Throttle] 适用于. Net Core WebApi 接口限流框架
 开启谷歌浏览器多线程下载
 Ubuntu 20.04 安装向日葵远程
 java
docker镜像处理命令格式化工具 docker-command-format.html

原文地址：https://www.cnblogs.com/cedar07/p/6143083.html

《视觉计算理论》阅读笔记——第一章

Vison:

A computational investigation into the human representation and processing of visual information

导言

第一章

1.1 视觉研究的背景

1.2 理解复杂的信息处理系统

1.3 关于视觉的表象框架