关键词
目标检测用bbox,实例分割用mask,姿态估计用keypoint
bbox 用一个anchor点和指向极值点的四根向量就能确定目标框
mask 一个anchor点和指向轮廓点的n个向量确定mask
keypoint 用一个anchor点和指向17个关键点点的17个向量确定pose。heatmap预测关键点的方式
face landmark 人脸特征点检测 人脸72个关键点, 主要分布在五官和人脸轮廓,对眼、鼻、嘴唇、及脸型轮廓的描绘。
现在升级为150个关键点,更加细腻了
人脸标定 Face Landmark
车牌识别 License Plate Recognition
手势识别 Hand Gesture Recognition
数据标注--数据采集-数据筛选-预处理-规整
模型训练、评测、调整、修剪和导出模型,以进行部署
训练、剪枝、再训练+
training inference
目标检测
###detector=backbone + neck + head
backbone部分的网络就是负责从图像中提取特征。
neck是放在backbone和head之间的,是为了更好的利用backbone提取的特征。
head这一部分的作用就是用于分类+定位
backbone - 骨干
目标检测和图像分类这两个任务具有一定的相似性,
可以将分类的网络,比如VGG、ResNet等,用来做特征提取器称其为backbone。
也许他们对图像中目标的位置不够敏感,但至少他们能够提取出图片中目标的类别特征。
neck:
neck这部分的作用就是更好地融合/提取backbone所给出的feature,然后再交由后续的head去检测,从而提高网络的性能。
head
分类+定位 检测头,用于预测目标的类和Box
head才是决定能否将这些特征转换为我们真正需要的bbox参数和class参数
YOLOv4
输入端 采用mosaic数据增强,
Backbone 采用了CSPDarknet53、Mish激活函数、Dropblock等方式,
Neck 采用了SPP、FPN+PAN的结构,
输出端 采用CIOU_Loss、DIOU_nms操作
数据增强:
Mosaic数据增强方法是YOLOV4论文中提出来的,主要思想是将四张图片进行随机裁剪,再拼接到一张图上作为训练数据。
这样做的好处是丰富了图片的背景,并且四张图片拼接在一起变相地提高了batch_size
Mixup Cutout CutMix
YOLOv5 分别使用 CSPDarknet53+SPP为Backbone,PANet为Neck, YOLO检测Head。
Yolov5代码中给出的网络文件是yaml格式,原本Yolov3、Yolov4中的cfg
Yolov5s网络是Yolov5系列中深度最小,特征图的宽度最小的网络
视觉 Transformer (ViT)-- 构建图像到矢量的转换并保持图像的特征
detector= CNN骨干网+编码器-解码器transformer+一个简单的前馈网络
作为颈部(neck)的 Transformer
作为主干(backbone)的 Transformer
Transformer Prediction Heads(TPH)
分割:
基于 patch 的 Transformer (patch-based Transformer)和基于查询的 Transformer (query-based Transformer)
参考
目标检测中的数据增强、backbone、head、neck、损失函数 https://blog.csdn.net/qq_34437210/article/details/106932193?spm=1001.2014.3001.5501