SPP空间金字塔池化技术的直观理解

zoukankan html css js c++ java

SPP空间金字塔池化技术的直观理解

空间金字塔池化技术，

厉害之处，在于使得我们构建的网络，可以输入任意大小的图片，不需要经过裁剪缩放等操作。

是后续许多金字塔技术（psp,aspp等）的起源，主要的目的都是为了获取场景语境信息，获取上下文的联系。

如图所示，对于选择的不同大小的区域对应到卷积之后的特征图上，得到的也是大小不一致的特征图区域，厚度为256，对于每个区域（厚度为256），通过三种划分方式进行池化：

（1）直接对整个区域池化，每层得到一个点，共256个点，构成一个1x256的向量

（2）将区域划分成2x2的格子，每个格子池化，得到一个1x256的向量，共2x2=4个格子，最终得到4个1x256的向量

（3）将区域划分成4x4的格子，每个格子池化，得到一个1x256的向量，共4x4=16个格子，最终得到16个1x256的向量

将三种划分方式池化得到的结果进行拼接，得到(1+4+16)*256=21*256的特征。

SPP做到的效果为：不管输入的图片是什么尺度，都能够正确的传入网络.
具体思路为：CNN的卷积层是可以处理任意尺度的输入的，只是在全连接层处有限制尺度——

换句话说，如果找到一个方法，在全连接层之前将其输入限制到等长，那么就解决了这个问题.

具体实现方案如图：

如果原图输入是224x224，对于conv5出来后的输出，是13x13x256的，可以理解成有256个这样的filter，每个filter对应一张13x13的activation map.如果像上图那样将activation map pooling成4x4 2x2 1x1三张子图，做max pooling后，出来的特征就是固定长度的(16+4+1)x256那么多的维度了.如果原图的输入不是224x224，出来的特征依然是(16+4+1)x256；直觉地说，可以理解成将原来固定大小为(3x3)窗口的pool5改成了自适应窗口大小，窗口的大小和activation map成比例，保证了经过pooling后出来的feature的长度是一致的.

原文：https://blog.csdn.net/sinat_33486980/article/details/81902746

查看全文

相关阅读:
Java实现 LeetCode 421 数组中两个数的最大异或值
 Java实现 LeetCode 421 数组中两个数的最大异或值
 Java实现 LeetCode 421 数组中两个数的最大异或值
 Java实现 LeetCode 420 强密码检验器
 Java实现 LeetCode 420 强密码检验器
 Linux系统Wpa_supplicant用法小结
 wpa_supplicant 和 802.11g WPA 认证的配置
 wpa_supplicant无线网络配置
 LINUX系统中动态链接库的创建与使用{补充}
LINUX系统中动态链接库的创建与使用

原文地址：https://www.cnblogs.com/ywheunji/p/10655560.html