zoukankan      html  css  js  c++  java
  • Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

    Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

    2021-01-02  00:19:30

     

    Paperhttps://arxiv.org/abs/2012.15840

    Codehttps://github.com/fudan-zvg/SETR 

     

      本文首次将 Transformer 模型用于替换语义分割的骨干模型,即连基础的 CNN 的模型都不用。纯粹的 transformer 模型做 CV 任务,ViT 是第一个工作:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale[J]. arXiv preprint arXiv:2010.11929, 2020. [Paper] [Code]。在此之前,ECCV-2020 也有一个工作:Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation 是纯粹基于 self-attention 来做的。但是这两个工作的主要区别在于:Axial-DeepLab 仍然是采用 encoder-decoder 的框架来做语义分割,即:首先降低分辨率,再提升分辨率的过程。那么,本文就思考,能够利用 transformer 模型,不进行类似降低分辨率的操作呢?

     

      如下图所示,本文借鉴了 ViT 模型,对图像划分 patch 块,然后利用 fc 进行映射以及位置编码。得到对应的表达后,利用 transformer 模型,进行处理。这一块就是作者用到的 Encoder 模型。该过程中一直没有整副图的概念,均是在处理 local patch,所以没有 feature maps 分辨率降低的概念。得到这些 patch 块的表达后,进行 reshape,得到整个图的 feature map,然后利用 decoder模型进行上采样,得到预测结果。

    其中,作者设计了多种 decoder 模型,来进行实验,如下所示:

     

    1) Naive upsampling (Naive)
      两层 1 × 1 conv + sync batch norm (w/ ReLU) + 1 × 1 conv.
     
    2) Progressive UPsampling (PUP)
     
     
    3) Multi-Level feature Aggregation (MLA): 

    2. Experiment

  • 相关阅读:
    java中将表单转换为PDF
    base64图片
    ORACLE中用户等系统信息操作
    jquery中live is not a function的问题
    完全卸载Oracle11G
    jquery 获取鼠标和元素的坐标点
    JS的多线程
    Oracle和SQLServer解锁杀进程
    JAVA 通过LDAP获取AD域用户及组织信息
    oracle基础语法大全
  • 原文地址:https://www.cnblogs.com/wangxiaocvpr/p/14221376.html
Copyright © 2011-2022 走看看