zoukankan      html  css  js  c++  java
  • 论文阅读|PointRend: Image Segmentation as Rendering

    标题:PointRend: Image Segmentation as Rendering

    链接:http://arxiv.org/abs/1912.08193

    概要

    论文要解决的是图像分割质量问题,往往图像分割在物体边界处的分割质量很差,不能细致的分割出每个细节。因此作者提出了针对目标轮廓进行细化预测的一个模型:PointRend,其思想是以迭代的方式细化从目标轮廓区域选择的点的分割预测,从而提升目标轮廓分割质量。提出的模型适用于实例分割和语义分割,能预测清晰的目标轮廓,同时也提升了相应的分割精度。如下图,每一步对平滑区域进行双线性上采样,对那些有可能是物体边界的少量点进行高分辨率预测。

    1577001623604

    作者认为图像或者特征这种规则的像素网格在进行预测时,不可避免的在平滑区域过采样,在物体轮廓欠采样。个人理解是将预测的低分辨率特征上采样到原始尺寸时,平滑区域像素较多而轮廓边缘的像素较少,所以造成在平滑区域得到很好的预测,而在目标轮廓的预测却很不精细。

    方法

    PointRend模块包含3个部分:(1)点选择策略(预测和训练时的策略不同),对少量选择的点预测其在高分辨率图中的类别;(2)对选择的每个点的特征表示。(3)point head。根据每个点的特征表示预测类别标签

    1577003174935

    首先是每个点的特征表示。将两种不同的特征(细粒度特征和粗预测特征)拼接作为每个点的特征表示。个人理解这些点是从粗预测中选择得到,然后映射到细粒度特征图中,如上图。细粒度特征图是原图尺寸,对每一个映射的点采用双线性插值得到对应点的细粒度特征,提取出的是多通道单个点的特征,细粒度特征具有物体的细节信息。粗预测特征对于实例分割来说是从RoI特征经过预测得到的K类别Mask中进行插值提取。粗预测特征提供更多的上下文信息,同时表达语义类别。最后拼接作为每个点的最终特征表示。

    然后是Point Head。给定每个点的特征表示,采用MLP进行分割预测,预测点的类别标签。

    最后看选择策略。如下图所示,预测阶段每一次迭代选择N个最不确定的点(比如置信度接近0.5的点)计算特征表示,然后预测标签。

    1577024851400

    训练阶段的策略与预测阶段不同,如下图所示。有三个原则:(1)生成更多的点:以均匀分布取kN个点(k>1)。(2)关注于那些不确定的粗预测点,通过对kN个点进行插值并计算了一个针对特定任务的不确定性估计,然后选择最不确定的(eta)N个点(3)剩下的(1-eta)个点从均匀分布中选取。这种策略更偏重于那些不确定的区域,也就是物体轮廓。

    1577026737002

    实例分割实验

    **粗预测head **改变了Mask R-CNN的Mask head。首先从FPN的P2层通过双线性插值的方法提取(14 imes14)RoI特征,接着是(2 imes 2)的卷积输出尺寸(7 imes7),最后两个1024隐含层生成(7 imes7)的K个类别的Mask粗预测。

    PointRend 拼接两部分特征:一个是从上述Mask粗预测特征插值提取的K维特征向量;另一个是从FPN的P2层插值提取的256维特征向量。使用3层隐含层进行预测,每一层又加上K维的粗预测特征作为补充。

    训练阶段在粗预测特征中,根据各个点插值后的类别概率到0.5的距离进行选择,距离越小越不确定。损失是针对所有点的二值交叉熵之和。另外,训练阶段box和mask分支并行,预测时候串行,还发现训练时的串行不能提高性能。

    预测阶段对(7 imes7)的预测细化5次至(224 imes224)。选择点的策略根据各点预测值与0.5的差绝对值。

    1577086390657

    1577087512064

    语义分割实验

    在DeepLabV3和SematicFPN上做了实验,实现细节基本与实例分割差不多,粗预测特征和细粒度特征对应语义结果和从backbone中特征。有一些细节不同,N = 8096;预测和训练阶段的不确定性估计都采用相同的策略:根据最高置信度和第二置信度之间的插值进行选择点。

    1577090075124

    1577090097369

  • 相关阅读:
    HDU 3389 Game (阶梯博弈)
    国内操作系统OS分析(上)
    激光雷达应用技术分析
    构建深度学习框架运行平台
    GitHub上YOLOv5开源代码的训练数据定义
    GitHub上开源的YOLOv5
    深度学习调用TensorFlow、PyTorch等框架
    CUDA C 纹理提取Texture Fetching
    CPU,GPU,GPGPU
    毫米波RADAR与LIDAR探秘
  • 原文地址:https://www.cnblogs.com/QuintinLiu/p/12084699.html
Copyright © 2011-2022 走看看