zoukankan      html  css  js  c++  java
  • SPP空间金字塔池化技术的直观理解

    空间金字塔池化技术,

    厉害之处,在于使得我们构建的网络,可以输入任意大小的图片,不需要经过裁剪缩放等操作。

    是后续许多金字塔技术(psp,aspp等)的起源,主要的目的都是为了获取场景语境信息,获取上下文的联系。

    如图所示,对于选择的不同大小的区域对应到卷积之后的特征图上,得到的也是大小不一致的特征图区域,厚度为256,对于每个区域(厚度为256),通过三种划分方式进行池化:

    (1)直接对整个区域池化,每层得到一个点,共256个点,构成一个1x256的向量

    (2)将区域划分成2x2的格子,每个格子池化,得到一个1x256的向量,共2x2=4个格子,最终得到4个1x256的向量

    (3)将区域划分成4x4的格子,每个格子池化,得到一个1x256的向量,共4x4=16个格子,最终得到16个1x256的向量

    将三种划分方式池化得到的结果进行拼接,得到(1+4+16)*256=21*256的特征。

    SPP做到的效果为:不管输入的图片是什么尺度,都能够正确的传入网络.
       具体思路为:CNN的卷积层是可以处理任意尺度的输入的,只是在全连接层处有限制尺度——

    换句话说,如果找到一个方法,在全连接层之前将其输入限制到等长,那么就解决了这个问题.

    具体实现方案如图:

    如果原图输入是224x224,对于conv5出来后的输出,是13x13x256的,可以理解成有256个这样的filter,每个filter对应一张13x13的activation map.如果像上图那样将activation map pooling成4x4 2x2 1x1三张子图,做max pooling后,出来的特征就是固定长度的(16+4+1)x256那么多的维度了.如果原图的输入不是224x224,出来的特征依然是(16+4+1)x256;直觉地说,可以理解成将原来固定大小为(3x3)窗口的pool5改成了自适应窗口大小,窗口的大小和activation map成比例,保证了经过pooling后出来的feature的长度是一致的.



    原文:https://blog.csdn.net/sinat_33486980/article/details/81902746

  • 相关阅读:
    二叉树
    tomcat和jvm调优
    服务器正向代理
    LRU算法
    《转载》TCP三次握手中SYN,ACK,Seq三者的关系
    python的字符串、集合、for循环、异常等基础语法
    configparser_配置解析器
    hashlib模块
    悟_面向对象_小游戏和进阶
    面向对象_new,__eq__,__hash__
  • 原文地址:https://www.cnblogs.com/ywheunji/p/10655560.html
Copyright © 2011-2022 走看看