Squeeze-and-Attention Networks for Semantic Segmentation

zoukankan html css js c++ java

Squeeze-and-Attention Networks for Semantic Segmentation
CVPR 2020

Motivation

1. 以前的分割网络都是只关注像素级别的预测，忽略了像素分组。但本文认为语义分割可以分为explicit pixel-wise prediction and implicit pixel grouping. 。为了解决像素分组的问题，论文引入了SA model，并且其结果还可以更好的指导像素的预测

2. 受Squeeze-and-Excitation Networks【SENet】的启发，该文中SANet扩展SENet并引入了channel attention通过通道之间的相关性把重要的特征增强，不重要的特征减弱，从而让提取的特征指向性更强。

SANet与SENet的不同之处：

（1）SA模块的注意通道采用平均池化的方法下采样本特征图，得到的是attention convolution channel，然后再上采样到主干网络中，【上采样的目的是为了和RESNet有相同的维度】

（2）SE model不能保持spatial information,而SA model以扩张的FCN作为主干网络，增加了spatial features来进行pixel level prediction【SA保留了spatial information】

Pixel-group
1. Pixel grouping：强调像素之间的联系
2. 我们引入了像素分组的第二个子任务，直接鼓励属于同一类的像素被分组在一起，而不受空间限制
Model

w(欧米伽)用于重新标定输入的feature map通道的学习权重。【怎么重新标定的呢？见下图】

备注：1、蓝色-Squeeze操作，Global average pooling用来计算channel-wise的统计量；粉色-Excitation操作；黄色-Reweight操作；

图片来源于：https://blog.csdn.net/Z199448Y/article/details/88866965

SANet：

LOSS Function：

可以看到作者语义分割网络一共三个损失，其中Lmask 和Lden计算每个像素的分类损失并求平均，也就是经典的语义分割损失。而Lcat计算的是图像多标签二分类的分类损失

Questions：

1. 论文作者没有提到用Sigmoid或Softmax计算注意力，而是直接用卷积结果作为注意力

2.grouping在哪里体现？感觉本质上还是per-pixel classification，只是从softmax变成了每类的二分类。
查看全文

相关阅读:
第28月第23天 lineFragmentPadding
第28月第22天 iOS动态库
 第28月第21天记事本Unicode 游戏编程中的人工智能技术
 第28月第11天 vim -b
第28月第10天 iOS动态库
 第28月第8天
 第28月第7天本地摄像头方向
 第28月第5天 uibutton交换方法
 第28月第4天 __bridge_transfer
python __getattr__ __setattr__

原文地址：https://www.cnblogs.com/spore/p/13374035.html

Squeeze-and-Attention Networks for Semantic Segmentation

Motivation

SANet与SENet的不同之处：

Pixel-group

SANet：

LOSS Function：

Questions：