zoukankan      html  css  js  c++  java
  • 《Attention最新进展》

    Attention最新进展

     

    本文主要总结了最新的关于attention的应用文章。

    Attention-based Dropout Layer for Weakly Supervised Object Localization(CVPR19)

    任务:弱监督的物体定位:只给定图像类别的标签,要求定位出目标所在的区域。

    动机:只给定物体类别的话,网络往往只关注最具有判别性的信息,无法挖掘到整个物体信息。能否设计一种drop操作,每次迭代时drop最具判别性的信息,强迫网络关注其他的区域?

    ==> 类似 gradient boosting 

    做法:代替之前采用CAM(类激活图,见下一篇)得到特征的热力图,模型使用(channel-wise pooling)直接生成热力图。采用一个设定的阈值,得到一个drop mask。

    Visual Attention Consistency under Image Transforms for Multi-Label Image Classification (CVPR19)

    任务:多标签图像分类问题

    动机:数据增广被广泛用于图像分类任务,但是数据增广存在缺陷。图像的一些变换(如旋转)应该是比较渐层能学习到的,但是在一般使用数据增广的策略中,都只是使用最后loss来对这种变换进行学习。能否对数据增广学到的特征图进行约束。

    方法:采用两分支结构。输入原始图像I和转换后的图像T(I),利用CAM得到两个特征图的热力图,约束I的热力图经过T的转换后与T(I)的热力图相同。即图像数据增广后仍然关注同样部件的区域。

    AttPool: Towards Hierarchical Feature Representation in Graph Convolutional Networks via Attention Mechanism (ICCV19)

    任务:定义了一个graph pooling操作。

    方法:对于一个有N个节点的图(N,D),首先预测每个节点的得分(N),然后选择前K个节点(K,D),对这K个节点利用全部的N个节点进行更新(GCN)。

    问题:和之前的文章Self-Attention Graph Pooling思想和做法很像,加了一步更新操作。

    Group-wise Deep Object Co-Segmentation with Co-Attention Recurrent Neural Network (ICCV19)

    任务:图像组间的共有物体的定位。

    做法:设计了类似GRU的单元,设定了更新门和重置门,不断的更新隐单元g,使其融入了所有图像的信息,然后返回来指导每个图像的预测生成。

    End-to-End Multi-Task Learning with Attention

    任务:多任务学习

    动机:对于多任务学习,应该有任务共享的特征和任务特定的特征。对于任务共享的特征可以通过在所有任务上学习得到。那么如何得到任务特定的特征呢?

    方法:对于每个任务学习一个attention,作为特征选择器,选择与该任务相关的特征。

    See More, Know More: Unsupervised Video Object Segmentation with Co-Attention Siamese Networks (CVPR19)

    任务:无监督的视频物体分割

    做法:提出了一个co-attention模块,将相邻帧对齐,并将F1(F2)帧的信息整合到F2(F1)上。

    问题:用在视频reID上,相邻帧进行对齐后,再进行特征整合。

    Improving Referring Expression Grounding with Cross-modal Attention-guided Erasing (CVPR19)

    任务:跨模态的检索。给定一个语句描述,检索出图像的那个框是与之对应的。

    动机:图像与语句之中可能存在多个对应关系,但是现有方法往往会过多的关注最具有判别性的对应关系。能否有一种机制,迫使网络可以关注更多的对应关系。

    做法:擦除最具有判别性的语句或者图像区域。

    Cross-Modal Self-Attention Network for Referring Image Segmentation

    任务:跨模态分割,给定一个语句描述,分割出图像对应的物体区域。

    做法:设计了一个扩模态的self attention机制,即对于query,key, value融入了图像特征和语句特征。

    Mask-Guided Attention Network for Occluded Pedestrian Detection (ICCV19)

    任务:遮挡的行人检测

    做法:遮挡会对行人检测的性能产生较大的影响。对于特征,生成一个空间mask,mask掉遮挡区域的特征。利用可见的bounding box监督mask的生成。

    Looking for the Devil in the Details: Learning Trilinear Attention Sampling Network for Fine-grained Image Recognition (CVPR)

    动机:如何自适应地并且无监督的定位出物体各个部件的区域。每个channel可以响应一个特定的物体,但是单个channel的噪声大。能否整合channel使其可以定位出目标物体

    做法:利用self-attention的思想,加强每个channel的特征。X为(C,N) [公式] .此时每个channel可以看做一个空间注意力图,对应一个指定的部件。

    发布于 2020-04-14
    Attention-based Model
    注意力机制
    深度学习(Deep Learning)
  • 相关阅读:
    BNUOJ 12756 Social Holidaying(二分匹配)
    HDU 1114 Piggy-Bank(完全背包)
    HDU 2844 Coins (多重背包)
    HDU 2602 Bone Collector(01背包)
    HDU 1171 Big Event in HDU(01背包)
    HDU 2571 命运 (入门dp)
    HDU 1069 Monkey and Banana(最长递减子序列)
    HDU 1160 FatMouse's Speed (最长上升子序列)
    HDU 2594 KMP
    POJ 3783 Balls --扔鸡蛋问题 经典DP
  • 原文地址:https://www.cnblogs.com/cx2016/p/12848555.html
Copyright © 2011-2022 走看看