一、摘要
当前单目SLAM系统能够实时稳定地在静态环境中运行,但是由于缺乏明显的动态异常处理能力,在动态场景变化与运动中往往会失败。作者为解决高度动态环境中的问题,提出一种语义单目SLAM架构,结合基于特征和直接方法实现具有挑战的条件下系统的鲁棒性。作者所提出的方法利用专业概率模型从场景中提取的语义信息,使跟踪和建图的概率最大化依赖于那些相对于相机没有呈现相对运动的场景部分。在KITTI和Synia数据集上,作者展示了在动态环境中更稳定的姿态估计效果以及相比当前最好静态场景下不错的表现。
二、贡献
1、提出了一个概率模型,该模型不仅仅依赖于逐帧的语义信息,还考虑了所有帧的语义信息,以估计每个地图点的语义。除了语义信息之外,作者还使用时间运动信息来论证某个地图点是动态的还是静态的。
2、设计了一个高效在线概率更新模型,该模型的内存消耗较低。
3、提出了一种基于CNN预测的语义先验信息的联合概率模型来建模动态异常值的单目SLAM方法。
三、论文总结
通过依赖关于场景语义的知识,可以检测潜在的动态对象,而不需要直接地跟踪它们。通过对场景中建筑物、车道标线等静态部分的分割,可以指导这些区域的特征提取和匹配。
本文针对高动态环境,提出了一种基于CNN预测的语义先验信息的联合概率模型建模动态异常值的单目SLAM方法。为了提取快速运动相机和无纹理环境中的特征,作者使用描述性与直接特征的组合的方法。与其他方法相比,概率异常模型允许静态和动态之间的平滑过渡,而这在交通场景中很常见。通过近似推理获得的有效在线更新允许实时应用。每个像素的语义信息仅返回对象的类。在户外环境中,静态像素的强度可能受到附近动态对象的影响,例如在道路上。特别是对于直接方法,这会导致产生沿着动态对象的阴影边界的特征,而这些特征并不是想要的。将用于语义分割的CNN延展到以一种基于图像上下文的方式直接预测像素属于动态对象的概率,可以减少获得可靠内点率估计所需的观察次数。使用有效的在线更新方法可以引入观察数据中的时相依赖性。
来自CityScapes数据集的一个示例,该数据集是一个困难且高度动态的场景,其中车辆正站在交通灯前。大部分图像区域属于仅暂时静止且将开始缓慢移动的对象,因此导致仅基于运动线索的异常检测过程失效如图(b)。在图(c)中语义掩膜忽略了潜在动态区域中的所有关键点,因此不会使用停放的车辆进行姿态估计。本文的方法(如图d)使用深度方差以及融合语义信息(如图a)的逐点异常值估计。红圈表示估计的离群点测量值,绿圈表示用于姿态估计的内点。
四、算法结构
ORB-SLAM方法中将直接提取的特征扩展到了建图模块中的匹配过程,因此这些特征可以用于追踪模型中的姿态估计。作者结合了概率模型来更新每个地图点的状态。位姿估计仅使用动态的地图点。增加或者修改模型,集成直接特征和概率内插模型,在图中用红色表示。