yolo笔记 - 走看看

zoukankan html css js c++ java

yolo笔记
目标检测之anchor https://zhuanlan.zhihu.com/p/55824651

【深度学习】感受野 https://blog.csdn.net/baidu_27643275/article/details/88711329

感受野详解 https://blog.csdn.net/qq_41076797/article/details/114434415

CNN基础知识——卷积（Convolution）、填充（Padding）、步长(Stride)

https://zhuanlan.zhihu.com/p/77471866

1. yolo v1

（1）优点：

YOLO检测速度非常快。标准版本的YOLO可以每秒处理 45 张图像；YOLO的极速版本每秒可以处理150帧图像。这就意味着 YOLO 可以以小于 25 毫秒延迟，实时地处理视频。对于欠实时系统，在准确率保证的情况下，YOLO速度快于其他方法。

YOLO 实时检测的平均精度是其他实时监测系统的两倍。

迁移能力强，能运用到其他的新的领域（比如艺术品目标检测）。

（2）局限：

YOLO对相互靠近的物体，以及很小的群体检测效果不好，这是因为一个网格只预测了2个框，并且都只属于同一类。

由于损失函数没有完成对大小物体进行区别对待，损失函数没有完成对大小物体进行区别对待 ,因为对IOU影响较大 ,定位误差是影响检测效果的主要原因.

YOLO对数据依赖强 , 对不常见的角度的目标泛化性能偏弱，下采样过多，导致特征过于粗糙。

2. yolo v2

YOLOv2在YOLO的基础上进行了大量的改进：

ü 加入Batch Normalization

ü 为主干网络训练进行高分辨率的fine tune

ü 加入anchor box机制

ü 使用k-mean来辅助anchor的设定

ü 沿用YOLO的方法对anchor中心点进行修正

ü 使用passthrough layer，融合低维度特征

ü 使用multi-scale trainning提高准确率

ü 提出darknet-19来加速

ü 使用hierarchical classification进行超多目标的分类

3. yolo v3

YOLOv3在YOLOv2的基础上主要是融合一些用于提高准确率的方法：

ü 将类别置信度预测改为逻辑独立分类将softmax loss 变成logistic loss

ü 结合FPN的结构进行多level的预测

ü 提出Darknet-53，将shortcut连接加入到网络中

² loss不同：作者v3替换了v2的softmax loss 变成logistic loss，而且每个ground truth只匹配一个先验框。

² anchor bbox prior不同：v2作者用了5个anchor，一个折衷的选择，所以v3用了9个anchor，提高了IOU。

² detection的策略不同：v2只有一个detection，v3一下变成了3个，分别是一个下采样的，feature map为13*13，还有2个上采样的eltwise sum，feature map为26*26，52*52，也就是说v3的416版本已经用到了52的feature map，而v2把多尺度考虑到训练的data采样上，最后也只是用到了13的feature map，这应该是对小目标影响最大的地方。

² backbone不同：这和上一点是有关系的，v2的darknet-19变成了v3的darknet-53，为啥呢？就是需要上采样啊，卷积层的数量自然就多了，另外作者还是用了一连串的3*3、1*1卷积，3*3的卷积增加channel，而1*1的卷积在于压缩3*3卷积后的特征表示，这波操作很具有实用性，一增一减，效果棒棒。
1. yolo v4
输入端采用mosaic数据增强，

Backbone上采用了CSPDarknet53、Mish激活函数、Dropblock等方式，

Neck中采用了SPP、FPN+PAN的结构，

输出端则采用CIOU_Loss、DIOU_nms操作。

（1）BoF（bag of freebies）

在文中是指那些能够提高精度而不增加推断时间的技术。

比如数据增广的方法：图像几何变换、Cutout、grid mask等，

网络正则化的方法：Dropout、Dropblock等，

类别不平衡的处理方法，

难例挖掘方法，

损失函数的设计等，

（2） BoS（bag of specials）

是指那些增加稍许推断代价，但可以提高模型精度的方法。

比如增大模型感受野的SPP、ASPP、RFB等，

引入注意力机制Squeeze-and-Excitation (SE) 、Spatial Attention Module (SAM)等，

特征集成方法SFAM , ASFF , BiFPN等，

改进的激活函数Swish、Mish等，

或者是后处理方法如soft NMS、DIoU NMS等，

5. yolo v5

（1）数据增强

（2）自适应锚框

（3）自适应图片缩放

（4）Focus结构

（5）CSP结构（用于Backbone和Neck）

（6）GIOU

（7）nms非极大值抑制

（1）输入端：Mosaic数据增强、自适应锚框计算、自适应图片缩放

（2）Backbone：Focus结构，CSP结构

（3）Neck：FPN+PAN结构

（4）Prediction：GIOU_Loss
查看全文

相关阅读:
机器人能都返回原点
 解码字母
 学习W3C
字符重排
 字符串相加
 ARC107F Sum of Abs
6830. 【2020.10.25提高组模拟】排列
 6828. 【2020.10.25提高组模拟】幂
 CF1434D Roads and Ramen
2020 计蒜之道线上决赛 C 攀登山峰

原文地址：https://www.cnblogs.com/cekong/p/15083395.html