zoukankan      html  css  js  c++  java
  • yolo笔记

    目标检测之anchor https://zhuanlan.zhihu.com/p/55824651

    【深度学习】感受野 https://blog.csdn.net/baidu_27643275/article/details/88711329

    感受野详解 https://blog.csdn.net/qq_41076797/article/details/114434415

    CNN基础知识——卷积(Convolution)、填充(Padding)、步长(Stride) 

    https://zhuanlan.zhihu.com/p/77471866

    1. yolo v1

    (1)优点:

    YOLO检测速度非常快。标准版本的YOLO可以每秒处理 45 张图像;YOLO的极速版本每秒可以处理150帧图像。这就意味着 YOLO 可以以小于 25 毫秒延迟,实时地处理视频。对于欠实时系统,在准确率保证的情况下,YOLO速度快于其他方法。

    YOLO 实时检测的平均精度是其他实时监测系统的两倍。

    迁移能力强,能运用到其他的新的领域(比如艺术品目标检测)。

    (2)局限:

    YOLO对相互靠近的物体,以及很小的群体检测效果不好,这是因为一个网格只预测了2个框,并且都只属于同一类。

    由于损失函数没有完成对大小物体进行区别对待,损失函数没有完成对大小物体进行区别对待 ,因为对IOU影响较大 ,定位误差是影响检测效果的主要原因.

    YOLO对数据依赖强 , 对不常见的角度的目标泛化性能偏弱,下采样过多,导致特征过于粗糙。

    2. yolo v2

    YOLOv2在YOLO的基础上进行了大量的改进:

    ü 加入Batch Normalization

    ü 为主干网络训练进行高分辨率的fine tune

    ü 加入anchor box机制

    ü 使用k-mean来辅助anchor的设定

    ü 沿用YOLO的方法对anchor中心点进行修正

    ü 使用passthrough layer,融合低维度特征

    ü 使用multi-scale trainning提高准确率

    ü 提出darknet-19来加速

    ü 使用hierarchical classification进行超多目标的分类

    3. yolo v3

    YOLOv3在YOLOv2的基础上主要是融合一些用于提高准确率的方法:

    ü 将类别置信度预测改为逻辑独立分类 softmax loss 变成logistic loss

    ü 结合FPN的结构进行多level的预测

    ü 提出Darknet-53,将shortcut连接加入到网络中

    ² loss不同:作者v3替换了v2softmax loss 变成logistic loss,而且每个ground truth只匹配一个先验框。

    ² anchor bbox prior不同:v2作者用了5anchor,一个折衷的选择,所以v3用了9anchor,提高了IOU

    ² detection的策略不同:v2只有一个detectionv3一下变成了3个,分别是一个下采样的,feature map13*13,还有2个上采样的eltwise sumfeature map26*2652*52,也就是说v3416版本已经用到了52feature map,而v2把多尺度考虑到训练的data采样上,最后也只是用到了13feature map,这应该是对小目标影响最大的地方。

    ² backbone不同:这和上一点是有关系的,v2darknet-19变成了v3darknet-53,为啥呢?就是需要上采样啊,卷积层的数量自然就多了,另外作者还是用了一连串的3*31*1卷积,3*3的卷积增加channel,而1*1的卷积在于压缩3*3卷积后的特征表示,这波操作很具有实用性,一增一减,效果棒棒。

    1. yolo v4

    输入端采用mosaic数据增强,

    Backbone上采用了CSPDarknet53Mish激活函数、Dropblock等方式,

    Neck中采用了SPPFPN+PAN的结构,

    输出端则采用CIOU_LossDIOU_nms操作。

    1BoFbag of freebies

    在文中是指那些能够提高精度而不增加推断时间的技术。

    比如数据增广的方法:图像几何变换、Cutoutgrid mask等,

    网络正则化的方法:DropoutDropblock等,

    类别不平衡的处理方法,

    难例挖掘方法,

    损失函数的设计等,

    2) BoSbag of specials

    是指那些增加稍许推断代价,但可以提高模型精度的方法。

    比如增大模型感受野的SPPASPPRFB等,

    引入注意力机制Squeeze-and-Excitation (SE) Spatial Attention Module (SAM)等 ,

    特征集成方法SFAM , ASFF , BiFPN等,

    改进的激活函数SwishMish等,

    或者是后处理方法如soft NMSDIoU NMS等,

     

    5. yolo v5

    1)数据增强

    2)自适应锚框

    3)自适应图片缩放

    4Focus结构

    5CSP结构(用于BackboneNeck

    6GIOU

    7nms非极大值抑制

    1)输入端:Mosaic数据增强、自适应锚框计算、自适应图片缩放

    2BackboneFocus结构,CSP结构

    3NeckFPN+PAN结构

    4PredictionGIOU_Loss

  • 相关阅读:
    【面积并】 Atlantis
    【动态前k大 贪心】 Gone Fishing
    【复杂枚举】 library
    【双端队列bfs 网格图建图】拯救大兵瑞恩
    【奇偶传递关系 边带权】 奇偶游戏
    【权值并查集】 supermarket
    CF w4d3 A. Pythagorean Theorem II
    CF w4d2 C. Purification
    CF w4d2 B. Road Construction
    CF w4d2 A. Cakeminator
  • 原文地址:https://www.cnblogs.com/cekong/p/15083395.html
Copyright © 2011-2022 走看看