zoukankan      html  css  js  c++  java
  • 论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification

    Introduction

    在空间维度上,现有video reid方法局限于把所有帧在相同分辨率下进行特征提取,造成了特征冗余,如图(a)。

    在时间维度上,现有方法要么采用long-term要么采用short-term,也有一些方法同时考虑了两者,却赋予两者相同的权重来融合。但如图(b)所示,当存在遮挡情况时,需要long-term来提供更多信息,当存在快速移动情况时,需要short-term来提取动作模式等。因此需要动态地捕获short-term和long-term的特征。

    作者提出了Bilateral Complementary Network (BiCnet)来提取不同帧中的互补空间特征。其包含了两个分支,Detail Branch对原分辨率进行空间特征提取,Context Branch对下采样图像进行long-term特征提取。之后在每个分支上增加了多个parallel spatial attention模块,来增强局部注意区域的多样性。最后将两个分支的互补信息进行融合。

    此外作者提出了Temporal Kernel Selection (TKS)模块来动态度量short-term和long-term的时序关联。在时间维度上,同时使用小的kernel和大的kernel来捕获时序关联。并且TKS依据全局信息选择了一个dominant temporal scale (主导时序尺度)。将BiCnet和TKS结合,命名为BiCnet-TKS。

    Proposed Method

    (1) Bilateral Complementary Network:

    ① Two-branch Architecture:

    假设输入的视频序列为,划分为(B表示Big;S表示small,分辨率是B的一半),分别输入到两个分支中,即:

    最终将两个特征求平均值。

    ② Cross-Scale Paths:

    在两个分支间设计了Cross-Scale Paths(CSP)将Detail分支的信息传播到Context分支中。假设两个分支的中间特征图为。由于两者的结构不同,需要改变前者的特征图维度,即:

    其中为最大池化,*为卷积,为reshape操作使得维度从转为。特征图维度一致后将两者进行相加融合。

    ③ Diverse Attentions Operation:

    每个分支都嵌入了DAO模块来增强注意力的多样性。对第一帧进行全局平均池化和softmax,获取权重图,而后续帧的权重图计算为:通过卷积层压缩通道为1,空间维度reshape为HW维,在、通过全连接层映射,再重新回复到HxW维,最后进行softmax得到权重。为了训练不同帧关注不同区域,设计了divergence regularization term,即:

    作者采用了dot-product相似度(余弦相似度),上述的公式表示两个区域的区别度(越大越好),因此下面divergence loss越小越好:

    (2) Temporal Kernel Selection Block:

    TKS对一个特征图序列进行处理,分为三个步骤:分割、选择、激励。

    ① Partition Operation:

    由于不同帧的行人图像存在不对齐现象,因此采用分块策略,把每帧分为hxw个空间块,再对每个块采用平均池化,得到region-level的特征图

    ② Select Operation:

     采用K个分支,每个分支采用不同卷积核尺寸的1D空洞卷积,将K个分支的输出相加,再进行全局平均池化,得到全局特征,即:

    对全局特征进行K个投影,再进行正则化,即:

    最后将K个分支的权重进行加权求和,即:

    其中是reshape。

    ③ Excite Operation:

    基于残差的思想,最终的特征图可以计算为:,其中为最邻近上采样。TKS保持了原始特征图尺寸,因此可以插入网络任何阶段。

    (3) Overall Architecture:

    作者采用预训练的ResNet-50作为骨干网络,DAO插入在第三个stage后,而TKS可以插入在任何阶段。两个分支共享权重以降低参数量。

    Experiment

  • 相关阅读:
    程序设计网站综合
    .net 获取url的方法(转)
    制作简单的语音识别系统(阅读文章)
    创建 WPF 不规则窗口
    高斯消元法
    How many ways(DFS记忆化搜索)
    I NEED A OFFER!
    免费馅饼
    N^N(Leftmost Digit )
    Common Subsequence
  • 原文地址:https://www.cnblogs.com/orangecyh/p/14758958.html
Copyright © 2011-2022 走看看