zoukankan      html  css  js  c++  java
  • 论文阅读笔记(四十)【CVPR2017】:Human Semantic Parsing for Person Re-identification

    Introduction

    作者提出了两个问题:

    ①行人重识别性能的提高需要结合很多复杂的模型吗(如关键点提取等)?

    ②使用局部检测框是提取局部特征的最好方法吗?

    针对第一个问题,作者采用了Inception-V3作为骨干网络,采用交叉熵损失,简单的方法也取得了最佳的效果。针对第二个问题,作者采用了语义分割,能更准确的定位部件的位置。

    Methodology

    (1)Inception-V3架构:

    Inception-V3是一个包含48个卷积层的网络架构,相比ResNet152的计算量更小且效果更好。输出的结果为2048维的特征向量。

    SPReID(Human Semantic Parsing for Person Re-identification)整体网络架构为:

    (2)Human Semantic Parsing Model:

    采用了Inception-V3作为语义提取的框架,但做了两个改进:

    ①为了输出的特征映射分辨率足够,将Inception-V3的最后一层stride由2改为1,并改为空洞卷积

    ②去除全局平均池化,引入一个1*1卷积层作为语义分类器。

    最终得到各个部位的概率映射图,部位分成了五个部分:前景、头、上半身、下半身、鞋子。

    (3)Person Re-identification Model:

    上分支用于提取到行人的特征,将特征映射同语义映射加权后累加,即可得到整体的行人特征。由于语义分割模型通常需要较高分辨率的图片,送入上分支之前,图片先要通过双线性插值缩小,提取得到特征映射后再用双线性插值放大,使得与语义映射大小匹配。

    Experiment

    (1)实验设置:

    ①数据集设置:测试数据集:Market-1501、CUHK03、DukeMTMC-reID;除此之外,训练数据集扩充了如下集合:3DPeS、CUHK01、CUHK02、PRID、PSDB、Shinpuhkan、VIPeR。

    ②网络的训练:

    [1]Baseline网络的训练:采用3DPeS、CUHK01、CUHK02、PRID、PSDB、Shinpuhkan、VIPeR组合数据集进行训练,迭代次数为200K次,图像尺寸为492*164;用Market1501、CUHK03、DukeMTMC-reID训练微调,每个迭代次数为50K次,图像尺寸为748*246;

    [2]SPReID网络的训练:用上述10个数据集对进行训练,图像分辨率为512*170;

    [3]语义分割网络的训练:采用Look into Person(LIP)数据集进行训练,效果如下图:

    (2)实验结果:

     

     

      

  • 相关阅读:
    Ubuntu之修改用户名和主机名
    HM中CU,TU的划分
    BZOJ 3237([Ahoi2013]连通图-cdq图重构-连通性缩点)
    Introducing Regular Expressions 学习笔记
    kubuntu添加windows字体
    WISE安装程序增加注册控制
    Linux内核中常见内存分配函数(一)
    Linux内核中常见内存分配函数(二)
    Swift现实
    Android 5.0(L) ToolBar(替代ActionBar) 现实(四)
  • 原文地址:https://www.cnblogs.com/orangecyh/p/13172824.html
Copyright © 2011-2022 走看看