论文阅读笔记（四十）【CVPR2017】：Human Semantic Parsing for Person Re-identiﬁcation

zoukankan html css js c++ java

论文阅读笔记（四十）【CVPR2017】：Human Semantic Parsing for Person Re-identiﬁcation

Introduction

作者提出了两个问题：

①行人重识别性能的提高需要结合很多复杂的模型吗（如关键点提取等）？

②使用局部检测框是提取局部特征的最好方法吗？

针对第一个问题，作者采用了Inception-V3作为骨干网络，采用交叉熵损失，简单的方法也取得了最佳的效果。针对第二个问题，作者采用了语义分割，能更准确的定位部件的位置。

Methodology

（1）Inception-V3架构：

Inception-V3是一个包含48个卷积层的网络架构，相比ResNet152的计算量更小且效果更好。输出的结果为2048维的特征向量。

SPReID（Human Semantic Parsing for Person Re-identification）整体网络架构为：

（2）Human Semantic Parsing Model：

采用了Inception-V3作为语义提取的框架，但做了两个改进：

①为了输出的特征映射分辨率足够，将Inception-V3的最后一层stride由2改为1，并改为空洞卷积

②去除全局平均池化，引入一个1*1卷积层作为语义分类器。

最终得到各个部位的概率映射图，部位分成了五个部分：前景、头、上半身、下半身、鞋子。

（3）Person Re-identification Model：

上分支用于提取到行人的特征，将特征映射同语义映射加权后累加，即可得到整体的行人特征。由于语义分割模型通常需要较高分辨率的图片，送入上分支之前，图片先要通过双线性插值缩小，提取得到特征映射后再用双线性插值放大，使得与语义映射大小匹配。

Experiment

（1）实验设置：

①数据集设置：测试数据集：Market-1501、CUHK03、DukeMTMC-reID；除此之外，训练数据集扩充了如下集合：3DPeS、CUHK01、CUHK02、PRID、PSDB、Shinpuhkan、VIPeR。

②网络的训练：

[1]Baseline网络的训练：采用3DPeS、CUHK01、CUHK02、PRID、PSDB、Shinpuhkan、VIPeR组合数据集进行训练，迭代次数为200K次，图像尺寸为492*164；用Market1501、CUHK03、DukeMTMC-reID训练微调，每个迭代次数为50K次，图像尺寸为748*246；

[2]SPReID网络的训练：用上述10个数据集对进行训练，图像分辨率为512*170；

[3]语义分割网络的训练：采用Look into Person（LIP）数据集进行训练，效果如下图：

（2）实验结果：

查看全文

相关阅读:
JS・TextArea 字符串长度限制
 JavaScript面试题目集锦
 IE内存泄露分析
 JS动态添加样式和脚本
 取消锚(<a/>)点击后页面跳转的几种方法
 JS代码片段整理
 IE缓存问题的解决方法
 字符串与数字转换
 如何安装和配置Cassandra
字类和超类的转化问题

原文地址：https://www.cnblogs.com/orangecyh/p/13172824.html