这篇是10年ICML的论文,但是它是从原理上来分析池化的原因,因为池化的好坏的确会影响到结果,比如有除了最大池化和均值池化,还有随机池化等等,在eccv14中海油在顶层加个空间金字塔池化的方法。可谓多种多样。本文主要研究了最大池化和均值池化本文的翻译还是烂尾,后面没动力了。
A Theoretical Analysis of Feature Pooling in Visual Recognition
Y-lan Boureau,Jean ponce, yann LeCun
摘要:许多当前的视觉识别算法都包含了有关空间“池化”这一步,是通过将其中的几个邻近的特征检测器的输出组合成一个局部或者全局的“特征袋”,即在保留任务相关的信息的同时移出不相关的细节部分。池化可以用来获得图像变换的不变性,更紧凑的表征和更好的噪音和聚类的鲁棒性。一些论文已经表明池化操作的细节可以很大程度的影响模型的效果,但是到目前的研究都是纯经验式的。在本文中,我们会说明各种池化方法的性能背后的原因是由多种因素混杂在一起的,例如:在一个空间池化中的样本基数之间的连接或者提取到的低等级特征的分辨率等。我们提出了一个详细的有关最大池化和均值池化的理论分析,并给出对象识别任务上大量的经验性的对比。
1引言
现在的计算机视觉结构通常包含这一个空间池化步骤,这通过将从邻近位置上得到的特征检测器的响应值结合到一些统计上去,从而概括在一些感兴趣区域(ROI)上特征的联合分布。这个特征池化的想法来源于Hubel和Wiesel的在视觉皮层中复杂细胞上的开创性工作,并且也与1999年的Koenderink的局部无序图像的概念有关。基于一个局部邻居的池化特征可以具有(在许多视觉识别模型上)输入部分的小的转换不变性(个人:也就是一定程度上的不变性,不是很大程度)。池化操作通常来说是一个和,一个均值,一个最大值或者其他更罕见的一些交换律(即,贡献的特征的顺序之间是独立的,即没有顺序性才能有交换律)组合规则。来自生物灵感的图像识别模型是使用包含神经认知机的特征池化,卷积网络是使用均值池化或者最大池化,HMAX类别模型使用最大池化,和许多初级视觉皮层区域V1的模型是使用均值池化。许多主流的特征提取方法同样适用池化,包括SIFT,定向梯度直方图(HOG)和其他变种。在这些方法中,主要的梯度方向是通过在一些区域上进行测量,然后在基于一个邻居进行池化,得到局部定向直方图。近来的识别系统通常在更高等级上使用池化来计算局部或者全局特征袋。这通过向量量化特征描述子和计算基于局部或全局区域上编码单词的计数来实现的,则等于在一个的索引为1而其他地方为0(1 of k codes)的编码单词上的均值池化向量(意思就是在k个编码单词中挑一个)。
通常来说,池化的目标是将联合特征分布变换成一个新的,更有用的特征,从而保留重要信息的同时舍弃不相关的细节部分,而问题的症结所在在于决定哪个该落入那个类别中。例如:计算直方图的潜在的假设是平均特征激活的情况,而不是准确的空间定位信息。在位置或者灯光的改变的不变性,聚类的鲁棒性和特征的紧凑型都是池化的通常的目标。
空间金字塔模型的在效果上的巨大成功,是因为在空间金字塔细胞上执行了池化操作而不是将整个图像视为一个平原的特征袋模型,这说明了池化邻居的空间结构的重要性。也许更吸引人的是当某个给定的ROI选定之后,所在上面执行的池化的不同方法的戏剧性的效果。所以2009年Jarrett认为池化的类型的问题比使用少量的训练数据来对分类问题的特征的谨慎无监督预训练还要重要,当使用合适的池化的时候可以使用随机特征来获得很好的结果。2009年Yang报告了在几个对象和场景分类标杆性的数据集上的更好的分类效果,他是使用特征的最大值而不是在基于ROI上的均化或者概述的激活值。但是这些结果没有原理性的解释。在之前的工作中(2010 boureau等人)在一个空间金字塔中的硬向量量化特征(生成二值向量来记录池化中特征的存在与否)上使用最大池化的线性分类结果可以获得与2006年Lazebnik通过使用一个交叉核得到的结果同等级别,即使生成的特征是二值的。然而,这里还是没有说清楚为什么在每个样本下不管因子是相似还是不同的环境下最大池化可以得到很好的结果。
这篇论文就是为了填补这个空缺的,并且建立一个贯穿池化的原理性研究。我们通过在一个分类背景中来比较不同的池化操作,并检查相对于统计的行为怎样可以转换成随后的更简单或者更复杂的分类。我们通过在可视对象识别的背景下进行实验,但是这个分析可以应用到所有有关某些池化形式的任务中(即来此特征袋方法的文本处理是最合适的)。本文的主要组织如下:(1)对不同的池化操作的判别能力的广泛的分析研究;(2)几个因子的判别能力的影响池化的效果,例如平滑和特征的稀疏性;(3)几个主流的池化类型的统一成一个单一的连续体。
2池化二值特征
考虑一个两类分类问题。直观上,分类问题是当两个类别中每个点的分布都没有重叠的时候是很简单的。事实上,如果这个分布是另一个的简单的平移得到的(例如:两个有着同样方差的高斯分布),线性可分是随着平移程度(例如:两个同样方差的高斯分布的均值之间的距离)而单调递增的(1985 Bruckstein Cover)。在这章节中,我们分析在当是使用二值向量特征池化的时候,池化是怎么影响生产的特征分布的可分性的(例如,1 of k 编码是通过特征袋模型中的向量量化得到的)。
2.1模型
首先检验在一个特征袋表征中单一的特征的贡献(即如果是没池化的数据为从在P位置上得到的1 of k 编码中的一个P× k 的矩阵,我们提出去一个包含着0 和1的P维列向量 v,用来指示在每个位置上特征出现与否)。简单来说,我们对 v 的P个成分以i.i.d(独立同分布)的伯努力随机变量来进行建模。这里的独立性假设当然是假的,因为临近的图像特征都是有着很强的相关性的,但是这个简单的模型的分析对于预测来说还是可以经验性验证是有用的。向量 v 可以通过池化操作:f 到一个单一的标量f(v)(可以是所有特征中k维表征中的一个成分,即一个直方图中的一个bin,个人:应该就是直方图中的一个数值)来约间。我们考虑两种池化类型:均值池化和最大池化:。
2.2分布的可分性
给定两个类别C1和C2,我们检验和,和的条件分布的可分性,可以将可分性问题看成是信号-to-噪音的问题,更好的可分性可以通过增加两个类的条件分布均值之间的距离来获得,或者减少他们的标准差。
我们首先考虑均值池化:基于P i.i.d的均值的伯努力变量是一个二项式分布。所以,是二项式分布的缩小版,有着均值,方差。的期望值是与样本尺寸P相互独立的,而且方差随着而下降的;因而基于标准差的均值差异的可分性比率是随着单调下降的。
最大池化有一些不那么直观,所以他的均值分离和方差可分性以下面两个部分来介绍。
2.2.1最大池化特征的均值分离
是一个均值和方差的伯努力变量。均值是随着样本尺寸P,从0 到1单调递增的。这里使用作为最大池化特征的类条件期望的可分性,
这里和。我们通过使用来表示在样本基数P和它的扩展到上的两个函数。很容易知道会在0 和下面这个式子的左值之间的范围内增加:
并在和无穷之间减少,它们的极限为:。
注意到是均值池化特征的类条件期望之间的距离,这里有许多的池化基数存在,它们的距离都是有且仅有当时,最大池化比均值池化要大。假设,很简单就得到:。这暗示着选择的特征在平均上表现了超过一半的图像块,而这在通常的编码本包含超过100个编码单词的特征袋背景中是不会发生的。
2.2.2最大池化特征的方差
最大池化特征的方差是。这个函数扩展到实值的连续版本的简单解释是它在0的时候有极限为0和无穷,是先上升然后下降的,在的时候达到它的最大值为0.5。方差的增长可能不利于最大池化特征激活值的期望的更好的分类,当对于两个类来说参数和参数会靠的太近。图1中是几个均值分离和标准差变化的状态。
图1;,表示和平均激活的最大池化特征的期望之间的距离,和表示他们的标准差。和,给出最大和均值池化的分离性的测量。在比更小的基数的时候达到了峰值。(a)特征有着相对的大激活值,小基数上获得的分离性的峰值;(b)有着更稀疏的特征激活值,峰值的范围更大了(注意到x轴上的变化);(c)当一个特征比其他特征更稀疏的时候,一些基数上比更大(阴影区域)。最好的用颜色标出了。
2.2.3总结和预测
我们的简单的分析上的几个预测:
1、最大池化特别适合在特征都是非常稀疏的时候来分离(即,有着非常低的概率去激活)
2、使用所有可用的样本去执行池化也许不是最优的(个人:这里说的是均值池化就是利用了所有的样本点);
3、最优化池化技术会随着字典的尺寸增加而增加。
第一个点可以通过观察特有的池化基数当,来形式化,缩放这个过渡到渐进的状态(regime)(低方差,高激活概率):在的时候方差达到最大值,并且:
所以,在两类间得到很好的分离的最大池化的基数的范围会在两类的特征的激活概率除以2的时候加倍。一个特别有利的状态就是,也就是一个特征虽然是罕见的,但是在这两类中的任何一类上出现的更频繁;在这种情况下,两个类别会在非常不同的采样基数下达到他们的渐进的状态。
我们最近在第二个点上做了相关的实验(2010 Boureau),即,可以通过使用更小的池化基数来得到更好的效果。我们与对整幅图的池化效果、常见的两级空间金字塔池化之间进行了对比,这里的两级金字塔是 有着更小的池化,而且通过随机来代替空间位置选取。在随机金字塔设定中,最大池化的效果介于空间金字塔池化和整幅图像池化的效果之间,而且使用均值池化来分类的效果差于在整幅图上的池化的效果。然而,一些并发因子可以解释这些上升的准确度:(1)更小的池化基数,(2)在多个评估上的平滑(金字塔的每个细胞上),(3)两个不同的特征的评估(在全和部分基数上的最大池化)。在下面章节的更多的实验通过孤立每个因子来解决模糊性。
最后,随着字典尺寸增长而增长的最优化池化基数与特征的稀疏性(这里作为概率为0来定义的)和最大池化的判别能力之间的潜在联系是有关的,因为这里的期望特征的激活值是在通常的特征袋环境(每个位置上只有一个特征被激活)中求和到一个上面的,会生成一个有着k个词的编码本中平均值激活值为(1/k)。所以,对于一个足够大的编码本来说,k 给出一个过渡到渐进状态的特性基数尺度的数量级(个人:k gives an order of magnitude for the characteristic cardinality scale of the transition to the asymptotic regime,这是原句,总觉得翻译的好奇怪)。
2.3实验