by Jiashi Feng, Bingbing Ni, Qi Tian and Shuicheng Yan.
Average pooling: 统计每个visual word在图像中的出现次数,假设visual work $k$ 在一幅图像位置 $m$ 响应记为 $v_m^k$,则所有 $M$ 个图像位置的响应为一个 $M$ 的向量 $\textbf{v}^k$
\[f_a(\textbf{v}^k)=\frac{1}{M}\sum_{m=1}^M v_m^k\]
本文方法基于每个visual word的位置分布能够反映出类别信息的假设,在pooling的时候考虑了visual word的位置信息
\[f_g(\textbf{v}^k;\textbf{w}^k)=\sum_{m=1}^Mw_m^kv^k\]
对于每个类别,每个visual word都有一个位置权重map $\textbf{w}^k$,这是作为模型参数有one-vs-all方法学出。当 $\textbf{w}^k$ 所有元素都相等时,则退化为average pooling
假设:For images from a specific class, their visual features indexed by the same visual word often share similar spatial distribution.