zoukankan      html  css  js  c++  java
  • 论文阅读笔记(七十四)【CVPR2021】:CM-NAS: Cross-Modality Neural Architecture Search for Visible-Infrared Person Re-Identification

    Introduction

    当下众多方法采用双流网络结构来解决RGB-IR跨模态问题。作者通过研究发现,BN层在学习模态分布中发挥着至关重要的作用。对于每一个BN都要设置是否为分离。ResNet包含了53个BN层,因此存在2^53种可能性。作者为此设计了CM-NAS网络来自动搜索最佳的组合。

    Method

    (1) 手动设计架构分析:

    作者设计了如下实验,从图(a)发现:

    ① 分离一个BN,会比Baseline性能更好;

    ② 分离不同块的BN,会带来不同的性能,因此需要合理设置部分BN进行分离;

    ③ 只分离BN,会比分离整个Block性能更好。

    从图(b)-(f)发现:分离两个BN,往往比分离一个BN性能更好。

    (2) Cross-Modality NAS:

    代表两种候选分支。当满足时,则表示采用BN分离,当满足时,则表示采用BN共享。这两个参数设置为[0, 1]之间,通过softmax得出候选分支的概率值:

    最终通过加权求和输出结果:

    【对于上面的图,我存在一个疑问:为什么是把两个不同模态的输出concat?】

     这里通过验证集,对α这些参数进行训练:

    最终在测试时,仅选择概率值更高的分支。

    (3) 目标函数:

    采用CMMD损失(Class-specific Maximum Mean Discrepancy),其中mc和nc分别表示ID=c的样本数,为RKHS(reproducing kernel hilbert space)映射函数:

    考虑到特征相关性,作者约束了VIS和IR模态特征相关性的一致性,具体如下:

    定义如下投影矩阵:

    相似度矩阵为:

    进行L2归一化:

    对相关性进行一致性约束:

    Experiment

     

  • 相关阅读:
    LeetCode:数组(三)
    LeetCode:数组(二)
    LeetCode:数组(一)
    python实现栈的基本操作
    python基本内置函数
    Pycharm的常见Debug调试方法(持续更新)
    计算广告系列(一)-基本概念整理
    es与solr对比
    数据库优化
    java线程池
  • 原文地址:https://www.cnblogs.com/orangecyh/p/14823996.html
Copyright © 2011-2022 走看看