zoukankan      html  css  js  c++  java
  • SSD算法的实现

    本文目的:介绍一个超赞的项目——用Keras来实现SSD算法

    本文目录:

    • 0 前言
    • 1 如何训练SSD模型
    • 2 如何评估SSD模型
    • 3 如何微调SSD模型
    • 4 其他注意点

    0 前言

    我在学习完SSD算法之后,对具体细节有很多的疑惑,记录如下:

    • SSD的网络是怎么实现的?
    • 已有的数据是什么样子的?
    • 如何把一张图像打散成anchors?
    • 如何根据标注把各anchors打上标签?
    • 正负样本是如何定义的?匹配策略是咋回事?
    • 困难负样本挖掘是怎么实现的?
    • 数据是怎么喂进去的?出来的又是什么?
    • L2 Normalization在哪,如何实现的?
    • Atrous层在哪?
    • SSD的损失函数是怎么实现的?
    • 数据在模型中是怎么流动的?
    • 数据增强是怎么实现的?
    • 预测的结果如何在原图上画框?
    • 如何计算模型在Pascal VOC或MS COCO上的mAP?

    在github上搜索时,发现了这个超赞的项目——用Keras来实现SSD算法,非常适合那些学习了SSD算法,但具体细节有些模糊的同学(主要是我自己)。文档注释非常详细,且提供非常清晰的操作指导,比如如何训练SSD模型,如何评估模型的性能,如何在自己的数据集上微调预训练的模型等等。

    为了便于快速理解,现以其中一个简单版本的SSD网络为例(ssd7_training.ipynb文件)来记录总结,具体细节可参考项目文档注释。

    1 如何训练SSD模型

    主函数流程中,除了库函数的引入,以及通用参数的预定义之外,主要分为四块内容:

    • 准备模型;
      • 构建模型;
      • 自定义损失函数,并编译;
    • 准备数据;
      • 定义训练集和验证集的图像生成器对象datagen;
      • 利用图像生成器的函数读取文件图像和标签信息;
      • 定义图像增强方法链;
      • 利用编码器将标签信息编码成损失函数需要的格式;
      • 定义数据对的迭代器generator;
    • 训练;
      • 定义回调函数;
      • 训练;
      • 训练结果可视化;
    • 预测(可视化检测效果);
      • 定义数据迭代器,并获取一个batch的样本;
      • 将样本送入模型进行预测,并解码得到预测框;
      • 将预测框和真值框画在原图上,对比效果。

    1.1 准备模型

    1.1.1 搭建模型

    以training模式搭建一个小型的SSD模型。从4个地方引出predictor。各个预测特征图上每一个像素点均对应4个锚框。

    模型搭建流程:

    • 搭建base network;
    • 从四个特征图处分别引出predictor;
    • 每个predictor分为三条路径(按照第一篇参考文章的图示);
    • 分类那路需要softmax,最后三路在最后一维度concatenate, 得到(batches, n_total_boxes, 21+4+8),即为模型原始输出raw output,其中n_boxes_total表示四个做预测的特征图对应的锚框总数,最后一个维度是21个类别+gt框偏移量+锚框坐标+variance;
    • 若模式为inference,还需要在最后一层接上解码器DecodeDetections(输出经过置信度阈值、NMS等筛选后的预测框)

    备注:

    • 用AnchorBoxes层生成锚框,但为啥接在boxes4后面,而不是conv4后面,两者一样吗?答:一样的,因为只用了中间两个维度的数值,即特征图的高宽。但根据函数描述,应该接在conv4后面,即输入为(batch, height, width, channels)

    AnchorBoxes层

    • 目的是为了根据输入的特征图,将原图打散成一系列的锚框。
    • 过程:根据参数缩放因子和高宽比,可以计算出特征图一个像素点对应的锚框数量和尺寸,再有特征图的高和宽,即可求得锚框的中心。
    • 输入(batch, height, width, channels),即特征图的尺寸。
    • 输出(batch, height, width, n_boxes, 8),这里n_boxes表示一个特征图对应的锚框总数,8表示锚框信息,即坐标+variance;

    DecodeDetections层

    • 在建模中mode=inference时,接在predictor后面的解码器;
    • 过程:根据置信度阈值、NMS、最大输出数量等参数,对每张图筛选出前top_K个预测框;
    • 输入即为模型的原始输出(batch,n_boxes_total,n_classes+4+8),最后一维是 类别(21)+框偏移量+锚框和variance(centroids格式);
    • 输出(batch,top_k,6),最后一维是 (class_id, confidences, box_coordinates),坐标格式是xmin, ymin, xmax, ymax。这里top_K=200,即便合理的预测框不够,也会凑出200个。

    备注:

    • 输入参数说明里要求,只支持坐标输出为coords='centroids',这里coords='centroids'指的是输入的格式,实际输出格式是[xmin, ymin, xmax, ymax]。

    1.1.2 自定义损失函数,并编译

    (在SSD300模型中,需要先加载预训练的VGG16权重。)

    自定义损失函数keras_ssd_loss.py

    • 定义了一个损失类SSDLoss,里面有各种具体的损失函数,比如smooth L1和log损失;
    • smooth L1损失:两个参数都是(batch_size, #boxes, 4),输出(batch_size, #boxes)。疑惑:这是直接求smooth L1,直接用坐标值求损失?照理说应该是求偏移量的损失啊?还是说输入的本来就应该是偏移量而非直接坐标值?答:在compute_loss函数中调用时传入的就是偏移量,所以OK。log损失很简单;
    • compute_loss函数计算总损失,参数y_true和y_pred都是(batch_size, #boxes, #classes+12),输出scalar。疑问1,总损失为啥除以正样本个数而非总个数?答:正负样本比例为1:3,只是差个倍数,对结果不影响。疑问2,返回结果仍然是(batch,),并非标量?那乘以batch_size还有意义吗?答:keras强制以batch的方式计算各个值,即始终保证batch维度,实际运算的时候会给出(batch,...)对batch的平均值,因为compute_loss计算的是一个batch总的损失,所以keras强制平均后再乘以batch_size即为总和。

    备注:

    • 自定义的损失函数,传给compile的是对象的一个函数,这个函数返回的是根据y_true和y_predict计算的损失;
    • 这个y_pred格式是(batch_size, #boxes, #classes + 12),即模型的raw output;y_true是后续SSDInputEncoder类实例将真值框编码后的输出;
    • 如果是加载保存的模型,注意通过load_model中custom_objects传入自定义的层和函数。

    1.2 准备数据

    这一块内容大体上是通过自定义的图像生成器DataGenerator类及其方法来实现的。其中DataGenerator里面的函数generate()需要接收图像增强链和真值框编码器等参数,所以需要另外自定义两个类。

    DataGenerator类

    • DataGenerator实例化时自动调用__ init __ (),在这里面可以先进行图像增强处理(keras就是这么处理的,此处是在generate函数中做变形处理);
    • DataGenerator里面的函数parser_csv()从文件中读入数据和标签(即真值框),读进来的真值框格式是一个长度为样本个数的list,其中每个元素为一个2D array,即array[[class_id, xmin, ymin, xmax, ymax]...],shape为(n_boxes,5),其中n_boxes为该样本的真值框个数;
    • DataGenerator里面的函数generate()接收图像增强链和真值框编码器等参数,作用是产生一批批的数据对(X,y);(注意:keras内置的flow_from_directory实现了读取文件数据和生成(X,y)两个功能,但由于此处需要解析的文件除了CSV,可能还有其他形式,所以分成了两个函数);
    • 关于加速的方法之一:第一次先用parser_csv读取图像和标签,然后利用create_hdf5_dataset()函数,将图像和标签转成h5文件(训练集近8G,验证集近2G,均已包含真值框,但未编码)。以后创建DataGenerator时就可以直接读取h5文件,然后用generate函数生成数据对,不再需要用parser_csv。但是经过测试,训练时用不用h5文件貌似没有区别,训练一个epoch的时间均为12分钟。

    定义数据增强链

    • DataAugmentationConstantInputSize类中,图像变形,真值框也要变形?否则就对不上了。如何变?答:在形变模块data_generator.object_detection_2d_geometric_ops中的方法,将labels一同放入进行了处理。
    • Python中,如果在创建class的时候写了__ call __ ()方法,那么该class实例化出实例后,实例名()就是调用__ call __ ()方法;在keras中自定义层时用call(),而不是__ call __ ();
    • DataAugmentationConstantInputSize中__ init __ ()集成了一系列变形对象置于sequence中,并在__ call __ ()函数中调用。

    用SSDInputEncoder类实例将真值框编码成损失函数需要的格式y_true(这里用y_encoded表示)

    • 输入的gt_labels是一个长度为batch_size的list,其中每个元素为一个2D array,即array[[class_id, xmin, ymin, xmax, ymax]...];
    • 主要功能在__ call __ ()函数中实现,分为三步:
      • 根据原图尺寸、缩放因子与高宽比、特征图尺寸三个条件,创建y_encoded模板(即一系列的anchors,shape为(batch,#boxes,21+4+4+4),最后为21个类别+gt框坐标+锚框坐标+variance);
      • 匹配真值框和锚框,即更新最后一个维度的21+4;
      • 将gt的坐标转换为锚框的偏移量;

    调用train_dataset.generate()生成需要的数据对(X,y)

    • 准备好数据增强链对象和SSDInputEncoder对象后,同其他参数一起传入train_dataset.generate中,指定生成器返回数据格式为(processed_images,encoded_labels),(前者shape为(batch,h_img,w_img,channel),后者即为用SSDInputEncoder类实例的输出结果),供后续model.fit_generator使用。

    1.3 训练

    定义了几个有用的回调函数,ModelCheckpoint(保存每次epoch之后的模型)、CSVLogger(将损失和指标保存至CSV文件)、EarlyStopping(早停)、ReduceLROnPlateau(平缓区自动减小学习率),在SSD300中还用了LearningRateScheduler(按计划调整学习率)、TerminateOnNaN(遇到NaN数据即停止训练)。其中最为常用的是ModelCheckpoint和CSVLogger。

    训练时参数initial_epoch和final_epoch也很有意思,允许用户从上次中断的地方开始训练。(再也不怕中午睡觉被吵了:-))

    训练结果可视化:可以直接调用fit的返回值,也可以读取CSV文件中记录值。

    1.4 预测(可视化检测效果)

    获取预测值

    • 定义数据迭代器,并获取一个batch的样本;
    • 将这个batch的样本送入模型进行预测,得到预测值;(这时候得到的y_pred是模型的raw output)

    解码器对预测值进行后处理

    • decode_detections函数功能同模型架构中解码器层DecodeDetections功能一样,都是:
      • 偏移量转为坐标(可以是绝对坐标,也可以是相对坐标),同时后12个数转成4个数;
      • 针对每一个类别,进行置信度过滤和NMS;
      • 选取前top_k个预测框(若设置top_k),不足top_k的话直接输出。
    • 输入的y_pred参数:training模式下SSD模型的原始输出(batch,#boxes,21+4+4+4),其中#boxes为所有锚框;
    • 返回值:(batch,filtered_boxes,6),其中filtered_boxes为经过筛选后的预测框数量,6为[class_id, confidence, xmin, ymin, xmax, ymax];
    • 注意: decode_detections函数和DecodeDetections层有不一样处:若经过筛选后预测框数量不足top_k,前者是直接输出,但后者会填充成top_k个(为了计算损失时维度一致)。

    将预测框显示在图像上,对比效果

    • 显示图像,画标注框和预测框的方法;
    • plt中plt.cm可将数值映射成伪色彩,(很有用,因为相对于亮度,人们对颜色的变化更敏感),参考

    1.5 SSD300训练的区别

    • 训练SSD300的模型时,用的是Pascal VOC的数据,标签文件是XML文件;
    • SSD300的模型结构中,有三点需要注意:
      • 模型的结构按照原生SSD搭建;
      • 空洞卷积层:fc6 = Conv2D(1024, (3, 3), dilation_rate=(6, 6),...);
      • L2 Normalization层:conv4_3_norm = L2Normalization(gamma_init=20,...)(conv4_3);
    • 疑问:SSD300定义模型参数的时候,将图像通道换成了BGR来训练,但是最后预测的时候图像通道没有换成BGR?

    2 如何评估SSD模型

    大致要点:

    • 这一块单独列了一个文件,即SSD300_evaluation.ipynb;
    • SSD Evaluation中,创建模型用的是inference模式,下载的权重文件VGG_VOC0712Plus_SSD_300x300_ft_iter_160000.h5 是以training模式创建的模型训练的(既然是权重文件,那肯定是训练得到的,所以模型肯定是以training模式创建的),所以model.load_weights(weights_path, by_name=True)中需要加上by_name,否则对不上号;
    • 绘制PR曲线的方法。

    3 如何微调SSD模型

    这一块内容详见 weight_sampling_tutorial.ipynb。

    作者提供了几种训练好的SSD模型,那么如何微调这些模型,使其能在自己的数据集上完成自己的任务?比如现在我想识别8种物体,而作者提供的是在MS COCO上训练的能识别80种物体的模型,那么该如何操作?

    作者提出了3种方法,并认为最好的方法是直接对分类器的结果进行下采样。比如SSD第一个predictor的分类器输出是(batch, h1, w1, 81 * 4),其中h1和w1是conv4_3特征图的高度和宽度,对输出下采样得到(batch, h1, w1, 9 * 4),其中9表示8种物体和背景,然后在自己的数据集上微调即可。这种方法对那些目标物体在MS COCO的80个类别之内的任务特别有效。

    4 其他注意点

    • model.load_weights('./ssd7_weights.h5', by_name=True):这里by_name是指只加载同名层的权重,适合加载那些结构不同的模型权重,详见
    • 尽量使用model.save保存模型整体,因为分开保存后,重新加载时optimizer的状态会被重置,详见

    Reference:

  • 相关阅读:
    Insus Meta Utility
    The 'Microsoft.ACE.OLEDB.12.0' provider is not registered on the local machine.
    Insus Binary Utility
    asp.net实现文件下载功能
    Column 'Column Name' does not belong to table Table
    程序已被编译为DLL,怎样去修改程序功能
    如何在Web网站实现搜索功能
    如何把数据流转换为二进制字符串
    Asp.net更新文件夹的文件
    如何显示中文月份
  • 原文地址:https://www.cnblogs.com/inchbyinch/p/12045140.html
Copyright © 2011-2022 走看看