zoukankan      html  css  js  c++  java
  • Residual Networks <2015 ICCV, ImageNet 图像分类Top1>

    本文介绍一下2015 ImageNet中分类任务的冠军——MSRA何凯明团队的Residual Networks。实际上。MSRA是今年Imagenet的大赢家。不单在分类任务,MSRA还用residual networks赢了 ImageNet的detection, localization, 以及COCO数据集上的detection和segmentation, 那本文就简单分析下Residual Networks。

    文件夹
    ————————————
    1. Motivation
    2. 网络结构
    3. 实验结果
    4. 重要reference


    1. Motivation

    作者首先抛出了这个问题, 深度神经网络是不是越深越好。


    照我们一般的经验,仅仅要网络不训飞(也就是最早在LSTM中提出的vanishing/exploding problem),并且只是拟合, 那应该是越深越好。

    可是有这么个情况,网络加深了, accuracy却下降了,称这样的情况为degradation。例如以下图所看到的(详见[1]):


    这里写图片描写叙述

    Cifar-10 上的training/testing error. 网络从20层加到56层。error却上升了。



    按理说我们有一个shallow net,在只是拟合的情况下再往深加几层怎么说也不会比shallow的结果差,所以degradation说明不是全部网络都那么easy优化。这篇文章的motivation就是通过“deep residual network“解决degradation问题。



    2. 网络结构

    Shortcut Connections

    事实上本文想法和Highway networks(Jurgen Schmidhuber的文章)很类似, 就连要解决的问题(degradation)都一样。Highway networks一文借用LSTM中gate的概念,除了正常的非线性映射H(x, Wh)外,还设置了一条从x直接到y的通路,以T(x, Wt)作为gate来把握两者之间的权重。例如以下公式所看到的:


    y=H(x,WH)T(x,WT)+x(1T(x,WT))



    shortcut原意指捷径。在这里就表示越层连接,就比方上面Highway networks里从x直接到y的连接。

    事实上早在googleNet的inception层中就有这样的表示:


    这里写图片描写叙述


    Residual Networks一文中,作者将Highway network中的含參加权连接变为固定加权连接。即


    y=H(x,WH)WT+x


    Residual Learning

    至此。我们一直没有提及residual networks中residual的含义。

    那这个“残差“指什么呢?我们想:
    假设能用几层网络去逼近一个复杂的非线性映射H(x),那么相同能够用这几层网络去逼近它的residual function:F(x)=H(x)x,但我们“猜想“优化residual mapping要比直接优化H(x)简单。

    推荐读者们还是看一下本文最后列出的这篇reference paper。本文中作者说与Highway network相比的优势在于:

    x Highway Network Residual Network 评论
    gate參数 有參数变量WT 没參数,定死的, 方便和没有residual的网络比較 算不上优势,參数少又data-independent。结果肯定不会是最优的,文章实验部分也对照了效果,确实是带參数的error更小,可是WT这个变量与解决degradation问题无关
    关门? 有可能关门(T(x,WT)=0 不会关门 T(x,WT)[0,1], 但一般不会为0



    所以说这个比較还是比較牵强。。anyway。人家讲个故事也是不easy了。


    34层 residual network

    网络构建思路:基本保持各层complexity不变,也就是哪层down-sampling了,就把filter数*2, 网络太大,此处不贴了,大家看paper去吧。 paper中画了一个34层全卷积网络。 没有了后面的几层fc,难怪说152层的网络比16-19层VGG的计算量还低。

    这里再讲下文章中讲实现部分的 tricks

    1. 图片resize:短边长random.randint(256,480)
    2. 裁剪:224*224随机採样,含水平翻转
    3. 减均值
    4. 标准颜色扩充[2]
    5. conv和activation间加batch normalization[3]
      帮助解决vanishing/exploding问题
    6. minibatch-size:256
    7. learning-rate: 初始0.1, error平了lr就除以10
    8. weight decay:0.0001
    9. momentum:0.9
    10. 没用dropout[3]

    事实上看下来都是挺常规的方法。



    3. 实验结果

    1. 34层与18层网络比較:训练过程中,
      34层plain net(不带residual function)比18层plain net的error大
      34层residual net(不带residual function)比18层residual net的error小。更比34层plain net小了3.5%(top1)
      18层residual net比18层plain net收敛快

    2. Residual function的设置:
      A)在H(x)与x维度不同一时候。 用0充填补足
      B) 在H(x)与x维度不同一时候。 带WT
      C)不论什么shortcut都带WT
      loss效果: A>B>C


    4. 重要reference

    [1]. Highway Networks
    [2]. ImageNet Classification with Deep Convolutional Neural Networks
    [3]. Batch Normalization
    [4]. VGG

  • 相关阅读:
    《数据结构》2.2顺序表(sequence list)
    《算法竞赛入门经典》6.3.1二叉树-小球下落
    java_时间戳与Date_相互转化
    java事物
    Mysql如何向存在外键的数据表中插入数据
    git基本配置
    mysql时间属性之时间戳和datetime之间的转换
    【转】变量命名(简短且无歧义)
    【转】mybatis实战教程(mybatis in action),mybatis入门到精通
    [转]DAO层,Service层,Controller层、View层
  • 原文地址:https://www.cnblogs.com/liguangsunls/p/7161657.html
Copyright © 2011-2022 走看看