三维重建5：场景中语义分析/语义SLAM/DCNN-大尺度SLAM

zoukankan html css js c++ java

三维重建5：场景中语义分析/语义SLAM/DCNN-大尺度SLAM

前言：
      在实时/非实时大规模三维场景重建中，引入了语义SLAM这个概念，参考三维重建：SLAM的尺度和方法论问题和三维重建：SLAM的粒度和工程化问题。大规模三维场景重建的尺度增大，因此相对于整个重建过程的粒度也从点到特征点到目标物体级别，对场景进行语义标记成为重要的工作。

场景语义标记的传统方法：
       其他：机器人在线场景感知问题，场景识别问题。
       参考文章：场景感知：图像的稀疏表示
     对场景进行目标检测，并串联目标特征或者打包成set，形成场景特征。根据场景特征进行分类场景，既是场景感知。对于大量需要感知的场景，既是场景中有多类物体，形成的场景特征的向量维数变得更大更长，为了降低计算量，引入了稀疏编码的方法。

深度学习的语义标记方法：
         对于超大环境，比如整个中国建立一个三维地图，Agent端的存储能力和计算能力必定达不到海量数据存储和检索的要求。因此，引入C/S模式的云端框架是合适的选择。对于超量的类别进行模式识别，传统的集成学习仍然遇到理论上的困难，比如VC维的约束。因此，基于深度学习的场景语义识别是暂时最佳可选的方案，Agent作为一个数据获取端，把数据传输到云端服务器，在服务器上使用DCNN进行语义检测，用于检测目标和场景，进而判断是否存在闭环/Agent在场景中的位姿。

语义SLAM的关键元素
      目标检测、场景识别、DCNN。
        目标识别的传统方法经典方法利用概率图模型（CRF）对图片进行分割，使用传统模式识别方法进行目标识别（SVM、随机森林等），这些传统方法应对海量数据和高精度的挑战都成问题，比如CRF模型对于大量数据训练极为困难、模式识别方法模型本身就受到VC维的约束。
         场景识别的传统方法如前面所述，使用稀疏编码的方式对每一类场景进行稀疏编码，把图片场景识别拖入模式识别的范畴，使用传统模式识别的方法完成场景识别。
DCNN
         对于检测-识别过程，传统方法的一般模式是，需要对图像进行特征提取，把图像从二维张量空间转化到N维向量空间，称为特征提取；再通过模式识别方法把N维向量空间压缩到0维空间的离散个点上。由此完成分类识别。
        在此过程中，特征提取是一个专家知识极浓的经验过程，并在图像压缩转化过程中必然承受着压缩/特征提取损失。
       CNN具有图像处理过程中张量压缩的天然结构。CNN结构直接把图像在二维张量空间中进行处理，不停的Conv和polling，使用数据来完成~~特征提取，更多的数据得出更可靠的特征~~（特征一词对于CNN没有实际意义，此过程并非形式化，且可以表示为任一步及几步的组合）。不停的Conv和polling，直至图像的X*X像素收敛为1*1，直接把图像从二维张量空间压缩到一维向量空间中的点（也可以称之为二维张量空间上的点，但没有了明确的维度限制）上。
       此外，CNN的二维链接结构，可以使用权值共享和分层乘法来降低参数数量，以至于在添加更多的类别时避免造成参数的指数级增长（传统方法随类别的参数增长一般是指数级别或者亚指数级别的，至少是超多项式的）。
        深度学习方法作为分类模型，发展已久，从AlexNet到GoogleNet，到Residual Network，不断取得更高的精度和处理更多的类别以及获得更快的速度。
        深度学习作为检测模型，经典网络为R-CNN和Yolo-DarkNet，随后更新了多个版本，基于Region Proposal的网络为R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN、R-FCN和Mask RCNN；基于Regression的有Yolo、SSD-Net、YoloV2、LocalNet等。

DCNN检测模型
     基于Region Proposal的网络为R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN、R-FCN和Mask RCNN；基于Regression的有Yolo、SSD-Net、YoloV2、LocalNet等。
       参考文章：SPP-Net：CNNs添加一尺度不变特征-神经元层
       参考文章：Going deeper with convolutions：卷积的更深一些
       参考文章：CVPR 2016论文快讯：目标检测领域的新进展

工程化问题
        语义SLAM中大规模语义分析，通常方法也变为S端使用DCNN做服务器实现场景检测/闭环检测和C端Agent根据返还结果辅助实现三维位姿确定。

查看全文

相关阅读:
Android:使用 DownloadManager 进行版本更新
 Android:UI 沉浸式体验，适合第一屏的引导图片、预览图片。
Android:相机适配及图片处理的一些问题
 Android: 设置 app 字体大小不跟随系统字体调整而变化
 Android: TextView 及其子类通过代码和 XML 设置字体大小的存在差异的分析
 SQLMap 学习
 我的书单
 macos
linux BufferedImage.createGraphics()卡住不动
 Linux 中ifconfig和ip addr命令看不到ip

原文地址：https://www.cnblogs.com/wishchin/p/9199812.html