zoukankan      html  css  js  c++  java
  • 斯坦福CS231n笔记(一):Introduction

    CS231n课程界面:

    第一讲:

    现状:
    现在处于信息爆炸时期,需要依赖计算机视觉完成对照片的标签和分类,人工无法完成。
    现在的挑战:massive data,challenge of such “dark matter"(视频、音频资料称为Dark matter of Internet)

    1.1 A brief history of computer vision

    计算机之前的历史:
    ①5.4亿年前,物种大爆发的一个解释是因为进化出了眼睛
    ②文艺复兴:照相机
    ③Hubel&Wiesel实验:生物的大脑是如何处理视觉信息的?
    基础视觉区:简单的形状结构处理,边缘决定了形状

    现代计算机视觉:
    ① 现代计算机视觉的先驱:LARY ROBERTS论文”block world",解析图片的边缘
    ② 现代计算机视觉诞生的时间:1966年夏季,MIT AI LAB成立并决定开始处理计算机视觉的问题。
    Stanford AI lab建立者:John McCarthy,提出AI这个单词
    ③ David Marr从神经科学领域给了我们继Hubel&Wiesel之后的第二个领悟:视觉是分层的
    现在的深度学习架构的基石:
    Hubel&Wiesel实验:从简单的形状开始(边缘)
    David Marr:建立分层的模型(input image——edge image——2.5D sketch(处理遮挡问题)——3D model),这是一个概念性的指导思想,我们称之为“representation”

    ④ 80年代涌现第一批视觉识别算法:
    Tomas Binford和Brook(Stanford)提出“generalized Cylinder”模型:世界由简单形状组成,实体都是形状的组合(从不同角度观察)
    斯坦福研究院SRI提出Pictorial Structure:专注于概率模型方面,也认为物体由简单形状组成,各部分之间由“弹簧“连接,允许有一定变形———》多样性
    David Lowe论文:边缘&边缘组成的简单形状来识别物体

    ⑤ 90年代,开始着手处理彩色画面
    重要成果一:不是识别图片物体,而是将图片分割成有意义的几部分,称之为”感知分组“,感知分组是视觉领域最重要的问题之一。
    (在这节课中会发现这个简单问题并没有彻底解决,still finding the final solution。)
    这个成果是“normalized cut”,第一次使用现实世界的图片试图解决非常核心的问题。by Malik,伯克利教授,1997。

    重要成果二:Viola Jones Face Detector(论文:实时面孔检测) ——>后被富士引用制造第一台具有人脸检测功能的数码相机,是第一个用到大众消费产品上的高级视觉算法产品。代表了计算机视觉领域研究焦点的一次变迁(从给3D建模转到了识别领域)
    计算机视觉领域最重要的问题:识别问题和AI
    
    重要成果三:features。follow PASCAL的成果,建立了超大规模的项目:ImageNet。在这个课程中要export一部分做作业。ImageNet有5000w张图片,all clean by hand,label了2w+分类。使用Amazon Mechanic Turk平台完成。ImageNet Competition for Object Recognition:对1000 object classes(接近150张图片),比较各种算法的性能,计算机视觉的奥林匹克比赛。2012年挑战赛冠军:CNN,该算法源于七八十年代
    ————>beginning of deep learning revolution and the promise of this class
    

    1.2 CS231n overview
    CS231n focuses on one of the most important problems of visual recognition - image classification.
    这节课关注的问题:
    ① 图像分类:关注大图整体
    ② object detection: where things exactly are?
    ③ image captioning,图片描述:
    这堂课需要学习这些问题的细微差别和细节

    Convolutional Neural Network(CNN)只是深度学习架构的一种。2012年,Alex Krizhesky和导师Geoff Hinton提出CNN(7层结构的)。在这之前一直是特征+SVM的分层结构,没有端到端学习的风格特色。2015年,151层CNN模型,by MSAR,称为深度残差网络。
    Kunnihiko Fukushima,日本计算机科学家提出了模型Neocogitron,神经网络架构的开端。Yann Lecun在AT&T的Bell Lab工作,尝试识别手写,从家简单边缘开始,在每一层网络对图片过滤,再放到一起池化、滤波、池化。。。建立这个结构。2012年,Alex Krizhesky和导师Geoff Hinton用了近乎一样的结构参加了比赛。
    
    计算机视觉智能比物体识别更任重而道远(visual intelligence goes far beyond object recognition...)。
    
    除了imagenet,仍有很多问题很有趣:对整个照片标记、感知分组、识别和3D整合、motion和场景、物体间关系等等
    
    计算机视觉的愿景1:看图讲故事
                                2:   图片细节,理解力
  • 相关阅读:
    mac 使用brew 安装php-redis
    thinkphp6 使用redis 实现消息队列
    Redis 桌面管理器:Another Redis Desktop Manager
    linux 查看并关闭shell脚本执行
    MySQL教程之concat以及group_concat的用法
    PHP redis 使用
    thinkphp6 command(自定义指令)
    git 使用
    linux shell中 "2>&1"含义
    linux crontab 定时任务
  • 原文地址:https://www.cnblogs.com/amberdata/p/8449389.html
Copyright © 2011-2022 走看看