理解感受野

zoukankan html css js c++ java

理解感受野
1，原文：https://blog.csdn.net/u010725283/article/details/78593410

       感受野（receptive field）被称作是CNN中最重要的概念之一。为什么要研究感受野呐？主要是因为在学习SSD，Faster RCNN框架时，其中prior box和Anchor box的设计，一直搞不明白。当我理解了感受野才有点恍然大悟的感觉。快速看完这篇文章的前提是，要对CNN有个大致了解，feature map等术语要知道。

       先看八股式定义，感受野：在卷积神经网络CNN中，决定某一层输出结果中一个元素所对应的输入层的区域大小，被称作感受野receptive field。我们看这段定义非常简单，用数学的语言就是感受野是CNN中的某一层输出结果的一个元素对应输入层的一个映射。再通俗点的解释是，feature map上的一个点对应输入图上的区域。注意这里是输入图，不是原始图。好多博客写的都是原图上的区域，经过一番的资料查找，发现并不是原图。

       另外加上一句，目前流行的物体识别方法都是围绕感受野来做的设计，就如上文提到的SSD和Faster RCNN。理解好感受野的本质我觉的有两个好处。一，理解卷积的本质；二，更好的理解CNN的整个架构。

2，https://www.jianshu.com/p/2b968e7a1715
终于在知乎上中找到深度神经网络中的感受野(Receptive Field) - 蓝荣祎的文章 - 知乎
http://zhuanlan.zhihu.com/p/28492837 算是弄清了基本原理，记录以备忘

1.先举个例子：

e.g.两层 3*3 卷积操作的有效区域(感受野)是5*5 (所有filter的stride=1,pad=0),示意图如下：

三层3*3卷积核操作的有效区域是7*7 (所有filter的stride=1，pad=0),示意图如下：

2. 基本定义：

定义：感受野用来表示网络内部的不同神经元对原图像的感受范围的大小，或者说，convNets(cnn)每一层输出的特征图(feature map)上的像素点在原始图像上映射的区域大小。

神经元之所以无法对原始图像的所有信息进行感知，是因为在这些网络结构中普遍使用卷积层和pooling层，在层与层之间均为局部连接。

神经元感受野的值越大表示其能接触到的原始图像范围就越大，也意味着它可能蕴含更为全局，语义层次更高的特征；相反，值越小则表示其所包含的特征越趋向局部和细节。因此感受野的值可以用来大致判断每一层的抽象层次。

3. 感受野的计算

感受野的计算

可以看到在Conv1中的每一个单元所能看到的原始图像范围是3*3，而由于Conv2的每个单元都是由 2*2范围的Conv1构成，因此回溯到原始图像，其实是能够看到5*5的原始图像范围的。因此我们说Conv1的感受野是3，Conv2的感受野是5. 输入图像的每个单元的感受野被定义为1，这应该很好理解，因为每个像素只能看到自己。

image.png

在上图中，数字代表某单元能够看到的原始图像像素，我们用r_n表示第n个卷积层中，每个单元的感受野，用k_n和s_n表示第n个卷积层的kernel_size和stride.
对Raw Image进行kernel_size=3, stride 2的卷积操作所得到的fmap1 (fmap为feature map的简称，为每一个conv层所产生的输出)的结果是显而易见的。序列[1 2 3]表示fmap1的第一个单元能看见原图像中的1，2，3这三个像素，而第二个单元则能看见3，4，5。这两个单元随后又被kernel_size=2，stride 1的Filter 2进行卷积，因而得到的fmap2的第一个单元能够看见原图像中的1,2,3,4,5共5个像素（即取[1 2 3]和[3 4 5]的并集）。接下来我们尝试一下如何用公式来表述上述过程。可以看到，[1 2 3]和[3 4 5]之间因为Filter 1的stride 2而错开（偏移）了两位，而3是重叠的。对于卷积两个感受野为3的上层单元，下一层最大能获得的感受野为 3*2=6，但因为有重叠，因此要减去(kernel_size - 1)个重叠部分，而重叠部分的计算方式则为感受野减去前面所说的偏移量，这里是2. 因此我们就得到

image.png

继续往下一层看，我们会发现[1 2 3 4 5]和[3 4 5 6 7]的偏移量仍为2，并不简单地等于上一层的s_2, 这是因为之前的stride对后续层的影响是永久性的，而且是累积相乘的关系（例如，在fmap3中，偏移量已经累积到4了），也就是说 r_3应该这样求

image.png

同理：

image.png

。。。。。。可抽象如下：

image.png

理解：第n个卷积层的感受野等于前一个卷积层的感受野输出再乘以第n卷积层的kernel_size,即第n卷积层要合并多少个，这里算出的是总的量，还要减去之间有重复的量，第n卷积层总共要合并k_n个，那么前后两两相比较，空隙共有k_n-1个，比如说：第一层和第二层有重复，第二层和第三层也有重复等等，然后就要计算每两个之间重复的量有多少，首先每层共有r_n-1个数字，需要减去往右偏移的量，即stride，第1卷积层的stride_1,第二层会在第一层的基础上偏移stride_2,即总共偏移了 stride_1*stride_2,即偏移量是一个乘积的累计效果，所以式子如下：

image.png

经过去括号简化。可得下面式子：

image.png
查看全文

相关阅读:
团队里A和B吵架了，经理M该干啥？
一个程序员的哲学思考（关于编程、关于人生）
程序员在大学里究竟应该学习什么？
如何检查自己是否平庸？
关于如何读代码？
老说技术更迭快，可十年到底可以淘汰多少知识？
现代软件工程里的困惑
 略谈各国企业的差异
 Silverlight4Beta之操作摄像头/麦克风
 Silverlight4Beta之Binding新特性（下）

原文地址：https://www.cnblogs.com/augustone/p/10528148.html

1.先举个例子：

2. 基本定义：

3. 感受野的计算