zoukankan      html  css  js  c++  java
  • 【论文笔记】Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition

    地址:https://arxiv.org/pdf/2006.11538.pdf

    github:https://github.com/iduta/pyconv

     

    目前的卷积神经网络普遍使用3×3的卷积神经网络,通过堆叠3×3的卷积核和下采样层,会在减少图像的大小的同时增加感受野,使用小尺度的卷积核存在两个问题:

    • 实际感受野的大小比理论上的感受野大小要小得多。
    • 在没有获得足够的上下文信息之前就对输入图像进行下采样,会影响学习过程和网络的识别性能。由于感受野不足够大来捕获场景中不同的依赖,以至于有用的细节就损失掉了。

    大体来说就是不同对象在不同场景中可能出现各种各样的大小,或者在同一场景中,相同对象也可能出现不同的大小,使用传统的3×3卷积就不能够学习到这种多样性。

    主要贡献:提出了金字塔卷积,能够捕获不同层级的细节信息,该网络是有效的,与标准的卷积相比只增加了少量的参数量和计算量,并将该网络扩展到了图像分类、场景识别、语义分割、目标检测、视频分类中。

    直接看金字塔卷积,很直观的就是在空间维度上,卷积核大小从上至下依次减少,在通道维度上,卷积核的数量(通道的数目)依次增加,最后这些特征图拼接起来。

    这里要提一下参数量parameters和浮点数计算量FLOPs的计算公式:

     

    $K_{1}$表示的是卷积核的大小,$FM_{i}$表示输入特征图的通道数,$FM_{o} $表示输出的通道数,W、H表示输出特征图的宽和高。

    另一个就是组卷积:

    将特征按通道进行分组,然后分别进行卷积操作。

    上述分别说明了每一个层的卷积操作所带来的参数量和浮点数计算量。

    另外还强调了,为了简便创造出不同的金字塔卷积的网络,每层的金字塔卷积输入的特征图数目、每层的金字塔的分组通道数、每层的金字塔卷积的输出特征图数目最好是2的幂。

    金字塔卷积网络应用在图像分类中?

    瓶颈金字塔残差块:

    所提出的网络结构:

     需要注意的是该网络与原始的残差网络相比,去掉了最初的max pooling。也就是说现在4组卷积块都是在第一个block是进行下采样的。具体原因还是直接看英文比较好:

    其余的任务就不仔细看了,知道大体架构差不多了。

    金字塔卷积网络应用在语义分割中?

     金字塔卷积网络应用在目标检测中?

     

     部分结果:

  • 相关阅读:
    2018-2019-2 网络对抗技术 20165230 Exp2 后门原理与实践
    BZOJ2038: [2009国家集训队]小Z的袜子(hose)
    BZOJ3262陌上花开 树状数组+Treap
    BZOJ1468 Tree 点分治入门练习题
    BZOJ2152 聪聪可可 点分治入门
    BZOJ3506 BZOJ1552 排序机械臂 Splay区间翻转(数组版自底向上的写法)
    BZOJ3196: Tyvj 1730 二逼平衡树 (线段树 + Treap 练习题)
    ZOJ2112 Dynamic Rankings 动态区间Kth(单点修改) 线段树+Treap写法
    OO第4单元总结&课程总结
    OO第三单无总结
  • 原文地址:https://www.cnblogs.com/xiximayou/p/13184551.html
Copyright © 2011-2022 走看看