zoukankan      html  css  js  c++  java
  • Squeeze-and-Attention Networks for Semantic Segmentation

    CVPR 2020

    Motivation

    1. 以前的分割网络都是只关注像素级别的预测,忽略了像素分组。但本文认为语义分割可以分为explicit pixel-wise prediction and implicit pixel grouping. 。为了解决像素分组的问题,论文引入了SA model,并且其结果还可以更好的指导像素的预测

    2. 受Squeeze-and-Excitation Networks【SENet】的启发,该文中SANet扩展SENet并引入了channel attention通过通道之间的相关性把重要的特征增强,不重要的特征减弱,从而让提取的特征指向性更强。

    SANet与SENet的不同之处:

    (1)SA模块的注意通道采用平均池化的方法下采样本特征图,得到的是attention convolution channel,然后再上采样到主干网络中,【上采样的目的是为了和RESNet有相同的维度】

    (2)SE model不能保持spatial information,而SA model以扩张的FCN作为主干网络,增加了spatial features来进行pixel level prediction【SA保留了spatial information】

     

    Pixel-group

    1. Pixel grouping: 强调像素之间的联系
    2. 我们引入了像素分组的第二个子任务,直接鼓励属于同一类的像素被分组在一起,而不受空间限制

    Model

     

     

     

     

     

    w(欧米伽)用于重新标定输入的feature map通道的学习权重。【怎么重新标定的呢?见下图】

     

    备注:1、蓝色-Squeeze操作,Global average pooling用来计算channel-wise的统计量;粉色-Excitation操作;黄色-Reweight操作;

     图片来源于:https://blog.csdn.net/Z199448Y/article/details/88866965

     SANet:

     LOSS Function:

     可以看到作者语义分割网络一共三个损失,其中Lmask 和Lden计算每个像素的分类损失并求平均,也就是经典的语义分割损失。而Lcat计算的是图像多标签二分类的分类损失

     

    Questions:

     1. 论文作者没有提到用Sigmoid或Softmax计算注意力,而是直接用卷积结果作为注意力

     2.grouping在哪里体现? 感觉本质上还是per-pixel classification,只是从softmax变成了每类的二分类。

     

  • 相关阅读:
    Linux shell 常用命令记录
    [Bat]批量重命名文件
    【转】java术语(PO/POJO/VO/BO/DAO/DTO)
    TesseractOCR3.0语言库训练步骤
    关于Delphi Rtti对应TDatetime的一些启示
    Ubuntu Server 12.04 安装mysql 5.6.10
    Delphi透明 圆角 窗体 【转】
    奇怪的~用法
    很有用的VS2005插件——SlickEdit
    还不习惯Office 2007
  • 原文地址:https://www.cnblogs.com/spore/p/13374035.html
Copyright © 2011-2022 走看看