PointRCNN：3D目标检测

zoukankan html css js c++ java

PointRCNN：3D目标检测

PointRCNN：3D Object Proposal Generation and Detection from Point Cloud
PointRCNN是CVPR2019录用的一篇三维目标检测论文。

原始点云的3D目标检测，只用点云作为输入。提出一种新的3D物体检测器，用于从原始点云中检测3D物体。所提出的Stage-1网络以自下而上的方式直接从点云生成3D方案，比以前的方案生成方法具有更高的召回率。Stage-2网络将语义特征和局部空间特征结合起来，在规范坐标中对提案进行了优化。此外，新提出的基于bin的损失证明了它在三维边界框回归中的有效性。

两阶段：

第一阶段：自下而上的3D proposal产生。

Stage-1阶段子网络不是从RGB图像或者将点云投影到鸟类视图或者体素中，而是通过将整个场景的点云分割为前景点和背景点，以自下而上的方式直接从点云生成少量高质量的3D提案。

第二阶段：在规范坐标中修改proposal。获得最终的检测结果。

Stage-2阶段子网络将每个提案的池化的点转换为规范坐标，更好地学习局部空间特征，这个过程与Stage-1中学习每个点的全局语义特征相结合，用于Box优化和置信度预测。

对KITTI数据集的3D检测基准的广泛实验表明，该架构优于带有显著边缘的最先进方法。

和2D数据的比较：

和二维图像的目标检测不同，自动驾驶场景中的三维物体被标注的3D边界框很好地分隔开。也即，用于3D物体检测的数据直接提供用于3D目标分割的语义掩模。这是3D检测和2D检测训练数据之间的差异。在2D目标检测中，边界框只能为语义分割提供弱监督。基于这一观察，作者提出了两阶段的3D目标检测框架—PointRCNN，该框架直接运行在3D点云上，具有高鲁棒性和准确的3D检测性能。

PointRCNN包括两个阶段，第一阶段旨在以自下而上的方案生成3D边界框提案，基于3D边界框生成真实分割掩模，分割前景点并同时从分割点生成少量边界框提案。这样的策略避免了在整个3D空间中使用大量3D锚框。第二阶段进行规范的3D box优化。在生成3D提案之后，采用点云区域池化操作来“pool”来自Stage-1学到的点表示。与直接估计全局box坐标的方法不同，“pooled”3D点被转换为规范坐标并与“pooled”的点特征以及Stage-1的分割掩模组合完成坐标优化。该策略充分利用了Stage-1的分割和提案子网络提供的信息。

还提出基于全区域的3D box回归损失以用于提案生成和优化，收敛更快，有更高的召回率。

一、通过点云分割自下而上生成3D提案

提出一种的基于全场景点云分割的精确、鲁棒的三维提案生成算法作为第一阶段子网络。 3D场景中的目标是自然分离的，彼此不重叠。所有三维目标的分割掩模都可以通过3D边界框注释直接获得，即3D框内的3D点被视为前景点。因此，我们建议以自下而上的方式生成3D提案。具体来说，我们逐点学习点的特征、分割原始点云，同时从分割的前景点生成3D提案。基于这种自下而上的策略，避免在3D空间中使用大量预定义的3D框，并且显著限制了生成的3D提案的搜索空间。并且，作者的3D box提案方法比基于3D锚点的提案生成方法有更高的召回率。

    点云的表示使用带有msg（multi-scale grouping）的pointnet++作为backbone，也可以使用VoxelNet等。
    前景点分割：作者的三维提案生成方法直接从前景点生成3D box 提案，同时完成前景分割和三维预测框生成。经backbone处理后的每个点的特征，分别经过前景掩模预测分支和三维提案框回归分支完成相应任务。点分割的真实掩模由3D边界框提供。并且使用focal loss来解决室外场景中，由前景点过少带来的类别不平衡问题。
    基于bin的三维边界框生成：边界回归分支使用前景点回归生成三维提案（要注意，背景点也参与了提案的生成）。为了约束三维提案，作者提出了基于bin的回归损失估计目标的三维边界框。预测3D边界框需要预测中心位置、目标方向与目标尺寸。

二、点云区域池化

在获得三维边界框方案后，根据之前生成的框提案来优化框的位置和方向。根据每个3D提案的位置，对每个点及其特征进行池化。稍稍放大后的边界框内的点及其特征将被保留。然后使用分割掩模区分稍微放大框内的前景、背景点。没有内部点的提案将会被消除。

三、规范3D边界框优化

如图2（b）所示，“pooled”点及其相关特征都被送入Stage-2子网络，以优化3D box的位置和前景目标的可信度。经过图4所示的规范坐标转换，更好地学习每个提案的局部空间特征。

之后，优化子网络将转换后的局部空间点和Stage-1阶段的全局语义特征结合优化框和置信度。在这里，作者在强度和掩模的基础上，增加了深度信息，经全连接层后，“catenate”全局特征送入网络。同样采用类似基于bin回归的损失用于提案优化。Stage-2的loss整体为：

天雨虽宽，不润无根之草。佛门虽广，不渡无缘之人。

查看全文

相关阅读:
ubuntu c++ 关机重启挂起 API
Java 并发 —— Java 标准库对并发的支持及 java.util.concurrent 包
 机器学习： Logistic Regression--python
机器学习：朴素贝叶斯--python
理解YOLOv2训练过程中输出参数含义
 darknet YOLO 编译使用GPU
机器学习：决策树--python
Xmodem通信协议实例
 MQTT协议笔记之连接和心跳
 Android实现推送方式解决方案

原文地址：https://www.cnblogs.com/ariel-dreamland/p/13344249.html