zoukankan      html  css  js  c++  java
  • TransPose: Towards Explainable Human Pose Estimation by Transformer

    TransPose: Towards Explainable Human Pose Estimation by Transformer

    2021-01-05 21:06:22

     

    Paperhttps://arxiv.org/pdf/2012.14214.pdf

    Codehttps://github.com/yangsenius/TransPose

     

    1. Background and Motivation

    本文将 transformer 和 pose estimation 结合在一起,提出 TransPose。核心思想是增强了可解释性。大致的方法如下:

     

    可以看到,是 CNN + transformer 的结构。并且每一个 layer 较好的反映了不同物体之间以及不同 part 的之间的依赖关系。本文的另外的核心观点是,CNN 较好的关注 low-level feature,但是感受野受限,而 Transformer 不存在这种问题。

     

    2. Approach Detail

    该网络主要由三个部分构成:

    1). Backbone network: 本文采用 resnet-50 和 HRNet 作为骨干网络提取 low-level feature; 

    2). Transformer Encoder

        将 CNN 输出的 feature map 进行 reshape,得到多个向量特征。然后输入到 Transformer 模型中。

    3). Prediction Head:  

        首先对 transformer 的输出进行 reshape,得到 C*H*W 的 feature map。然后用 1*1 或者 4*4  conv layers 对得到的 feature vector 进行变换。

     

    3. Experiment

     

     

      

  • 相关阅读:
    SQLServer 知识点
    Entity转换为ViewModel时提供的一种转换方法
    Linq中IGrouping转换为IQueryable
    封装整形属性时对应到枚举
    新的转换列表方式
    工作态度
    EasyFrame
    NewCloud
    将博客搬至CSDN
    Html的语义化
  • 原文地址:https://www.cnblogs.com/wangxiaocvpr/p/14238401.html
Copyright © 2011-2022 走看看