zoukankan      html  css  js  c++  java
  • Computer Science

    Computer Vision - Introduction

    初探计算机视觉

    CV在AI领域的地位

    视觉相当于人脑的大门,是人类感知外界世界的最主要途径。该生理构造决定真实世界中的信息主要以视觉信息为主。所以,如果不能处理视觉信息的话,整个AI领域就几乎无法研究真实的世界。而作为AI领域中的子领域,CV就承担着处理视觉信息的任务。其地位不言而喻。

    视觉,它相当于说芝麻开门。大门就在这里面,这个门打不开, 就没法研究真实世界的人工智能。

    CV与ML的关系

    CV是一个领域,下辖很多子问题,就像物理学。而ML基本是一个方法和工具,就像数学和统计学。所以,ML这种方法可以运用到CV这个领域中,二者并不是并列关系。

    • 机器学习中的 “机器”就是统计模型,“学习”就是用数据来拟合模型。 是由做计算机的人抢占了统计人的理论和方法,然后,应用到视觉、语音语言等 domains。
    • 学习搞来搞去,最丰富的数据是在视觉(图像和视频)。现在这次机器学习的一些大的动作和工程上的推广工作,还是从计算机视觉这边开始的。
    • 计算机视觉的发展太工程化、功利化了,逐步脱离了科学的范畴。这是短视和危险的。最近又受到机器学习来的冲击。

    CV的三个源头

    神经科学家:David Marr : 学科开创者

    CV的三个层次 :表达、算法、实践
    • 表达:是什么问题?想要得到什么答案?

    在表达的层次,我们问一下这是个什么问题呢?如何把它写成一个数学问题。任务是什么?输出是什么?这是独立于解决问题的方法的。

    • 算法:解决问题时使用什么算法?

    对这个数学问题去求解时,可以选择不同的算法, 可以并行或者串行。

    • 实践:一个算法如何在硬件上实现?

    一个算法如何在硬件上实现,可以用CPU,DSP, 或者神经网络来实现。

    CV的分析体系 :整体的语义解释
    • 理清视觉到底要计算什么。Marr提出了一个系列的表达,从primal sketch(首要简约图), 到2 ½ D sketch(深度简约图), 到3D sketch。 这里面还包含了纹理、立体视觉、运动分析、表面形状、等等。比如说我要估计一个物体的深度和形状,我就估计它的光照,和物理材料特性;还有,三维几何形状怎么去表达? 他试图去建立一个完整的体系
    • 现在的视觉就基本上被很多人错误地看成一个分类问题,你给我一张图像,我说这个图像里有一只狗或者没有狗,狗在哪儿都不知道。头在哪?脚在哪?不知道。Marr框架是有秩序的,现在的秩序在做深度学习的人眼中还不存在,或者没有忙过来。各人做各人的分类问题,比如说有人算这个动物分类,有的人算这个家具的分类。各种分类以后,他们之间怎么样的关系呢?要对这个图像或者场景要产生一个整体的语义解释
    CV的本质 :“计算”的过程
    • 我们以前用贝叶斯方法(以及现在的深度网络)认为视觉就是表达成为一个后验概率,寻求一个最优解。这个解就是图像的解释。这个求解过程就会终止。可是Marr说的这个事情,它不是单纯去求一个解,而是一个连续不断的计算过程。我给你一张图像,你越看、越琢磨,你可能看到的东西会越多。
    • 视觉是受任务驱动的。而任务是时刻在改变之中。……如果说人工智能往前发展机器人,要从机器人的角度来用视觉的话,那么它就有很多不同的任务。我现在做饭,我在打球,我在欣赏风景,这个时候我看到的东西是完全不一样的。我怎么样通过这千千万万的任务,而不是简单一个分类,来驱动我的计算的过程,来找到我的需求,来支持我目前的任务。……研究视觉要从一个agent(执行者)的角度,带着任务进来的这么一个人或机器人,主动地去激发视觉

    计算机科学家:傅京孫(King-Sun Fu): 理论践行者

    学科和学会的建设,工程师培养
    • 他和其他人于1973年组织了第一届国际模式识别会议(ICPR),并担任主席。会议后来演变成国际模式识别学会IAPR,在1976年成立,并被选为其主席。他重组了另外一个IEEE学会下面的模式识别委员会,并于1974年成为其第一任主席,创办了IEEE模式分析和机器智能(PAMI)会刊,并于1978年担任第一任总编。这是目前计算机视觉和相关领域最权威的一本期刊了。很多中国学生现在不知道,这个领域的老大本来是华人。目前, 国际模式识别学会IAPR设立了一个傅京孫奖, 作为终身成就奖, 是模式识别的最高荣誉。
    • 据说他的实验室是一个Chinatown。1978年中国打开国门,中国最早的一批中科院的计算机人员都到他那里进修,在普渡。所以他对中国计算机的发展,可以说是一个贡献非常巨大的人。
    句法模式识别(Syntactic Pattern Recognition)

    我们这个世界的模式, 一个最基本的组织原则是composition。一张图像就像语言、句子符合语法结构, 视频中的一个事件也有语法结构。寻找一个层次化、结构化的解释是计算视觉的核心问题。

    Marr计算过程的表达 : 形式语言

    语法结构对计算过程有了规范和表达的途路。……这个表达支撑了自底向上或自顶向下的计算的过程。

    数学家:Ulf Grenander: 数学奠基者

    模式分析的基础 : 数理模型

    当你要去识别、分析一个模式,比如一个动物,人脸, 一个事件, 你首先要建立一个数理模型, 这个模型通过随机数据来拟合, 也就是当前的机器学习。

    建模的理论和方法

    一整套建模的理论和方法。把代数、几何、概率整合起来。

    一些算法

    很多蒙特卡洛算法都是他和这个学派的人提出来的。

    Wiki - Computer Vision

    Definition

    • Dealing with how computers can be made for gaining high-level understanding from digital images or videos
    • Seeking to automate tasks that human visual system can do

    Typical Tasks

    acquiring, processing, analyzing and understanding digital images
    extraction of high-dimensional data from real world in order to produce numerical or symbolic information

    Recogntion

    • Object recognition
    • Identification
    • Detection

    Motion analysis

    • Egomotion : Understanding the motion of itself. The estimation of egomotion is important in autonomous robot navigation applications.
    • Tracking
    • Optical flow :the pattern of apparent motion of objects, surfaces and edges in a visual scene caused by the relative motion between an observer and a scene.

    Scene reconstruction

    Computing a 3D model of the scene by some images or videos

    Image restoration

    The aim is the removal of noise from images.

    Applications

    Recogntion

    • Content-based image retrieval
    • Pose estimation : estimating the position or orientation of an object
    • Optical character recogniton(OCR)
    • 2D Code reading : such as data matrix and QR codes
    • Facial recognition
    • Shape recognition technology(SRT) : like people counter system
  • 相关阅读:
    Ubuntu中设置永久的DNS
    Ubuntu上OpenStack DashBoard主题修改的方案
    OpenStack 控制台不能不能访问的问题
    树莓派2试玩
    SharpMap V1.1 For Web教程系列之——地图展示
    剑指offer12 矩阵中的路径
    flex布局中关键词整理
    浏览器缓存 强缓存 协商缓存整理
    二叉搜索树中第K小的元素
    leetcode cs-notes-树(一)【js】
  • 原文地址:https://www.cnblogs.com/samaritan-z/p/8447053.html
Copyright © 2011-2022 走看看