不使用现有检测框架实现一个简单的物体检测网络

zoukankan html css js c++ java

不使用现有检测框架实现一个简单的物体检测网络
1 项目介绍

基于深度神经网络完成一个极简的物体检测器，实现物体类别和bounding_box的预测。

1.1 数据集
- 数据下载地址/项目地址：https://github.com/rb93dett/CNN_Object_Detection（tiny_vid)
- 每张图像中只有一个物体；大小128*128像素
- 物体类被只有5个：['car', 'bird', 'turtle', 'dog', 'lizard']
- 每个类别包含180张图像
- 标注文件在gt_XX.txt (coordinates are 0-index based): image_index, xmin, ymin, xmax, ymax
1.2 评价指标

定位准确率（IoU>0.5）、分类准确率、分类和定位同时正确率，可视化检测结果

1.3 项目环境
- 硬件配置：MacBook Pro 13’Intel Core i5
- 开发框架：PyCharm + PyTorch
2 项目内容

2.1 实现思路

首先是项目的完整思路，其实并不复杂，具体而言，针对原始图像，由于tiny_vid数据集较小，所以为了得到较好的结果，先对数据实现数据增强，从而获得了更多的训练数据，提高模型效果。接下来，通过扩充后的数据集输入搭建的CNN模型，并导入ground truth标签，完成模型的训练，最终就可以向模型输入待分类和定位的图像，输出预测的物体类别和边框。

2.2 数据增强

上图所示是具体的数据增强方法举例，首先针对一张原始图像，可以对它进行随机的distort，改变饱和度，亮度这些颜色参数，然后还以进行图像翻转，同时对bounding box的位置也进行调整，最后是图像裁切，同样根据裁切后的图像设定新的bounding box即可。

2.3 网络架构

VGG预训练模型下载地址：https://download.pytorch.org/models/vgg16-397923af.pth

接下来是网络的架构，首先将数据输入到backbone网络中完成特征提取，backbone实现了VGG16和MobileNet两个版本，可以在训练之前选择任一一种，然后自己训练网络或者导入预训练的模型参数，然后首先将输出特征送入一个自己定义的回归网络，完成bounding box的预测，另外再使用一个分类模型实现物体识别与分类。具体网络结构如上图。

2.4 项目效果

以VGG为backbone，经过多次训练得到的最好效果如下，对于一个简单的物体检测网络而言，在这个数据集上的表现还可以。

下面是物体识别的可视化结果示例，其中粉色为groud_truth，蓝色为此模型预测的结果。

参考文献：https://github.com/pengzhiliang/object-localization

本项目代码实现参考了上述工作，感谢作者（基本是照搬复现>.<，作者代码思路很清晰），对于基本功是很好的锻炼，通过这篇博文来回顾整个工作，当作复习。希望对大家有所帮助：）
查看全文

相关阅读:
web页面静态化与伪静态化
 mysql 优化之空间换时间
 QPS、PV、UV、RT 之间的关系
 接口
 MySQL 索引
 名词解释
 go 语言标识符
 Git版本控制与工作流
 Maven安装与配置
 IDEA工具使用说明

原文地址：https://www.cnblogs.com/RB26DETT/p/13852604.html

不使用现有检测框架实现一个简单的物体检测网络

1 项目介绍

1.1 数据集

1.2 评价指标

1.3 项目环境

2 项目内容

2.1 实现思路

2.2 数据增强

2.3 网络架构

2.4 项目效果