直至以来,SLAM的研究共朝着三个方向努力:精度、速度、鲁棒性。尤以鲁棒性居多。通常动态场景中,根据IMU测量值与视觉测量值分别进行计算得到的结果会有所不同。因此需要进行一致性的检测,以得到真值。本文将主要讲运动一致性检测。
运动一致性判断
基于聚类将图片分割之后获得的区域需要判断其运动一致性以分离动态物体和静态背景。
目的:对图片中各部分进行运动一致性判断以分离出目标和背景。
下面介绍各个论文中的判断方法
Nonparametric Statistical and Clustering Based RGB-D Dense Visual Odometry in a Dynamic Environment
该论文将RGB图片与深度图结合后进行k均值聚类以实现图片分割
过程:
- 进行k-means聚类
- 计算每一个簇的残差
- 根据计算出的残差建立非参数统计模型
聚类的好处有两点:
- 能够将非刚体场景表示基于聚类的刚体场景
- 可有效增强密集运动的分割效果,从而支持场景流估计和避障。
本文使用了一个残差模型。该模型基于一个假设:
若图片对齐,则基于静态背景的聚类将会有一个很小的残差。
光照强度残差:
$$
r^p_I(xi)= I_k(W(x^p_{k-n},xi^k_{k-n}))-I_{k-n}(x^p_{k-n})
$$
图像扭曲,Warp函数:
$$
W(x^p_{k-n},xi^k_{k-n})=pi(T^k_{k-n}pi^{-1}(x^p_{k-n},Z_{k-n}(x^p_{k-n})))
$$
第i个聚类的残差计算方法如下所示:
$$
delta^{k,i}{k-n}=cfrac{sum^{S_i-O_i}{p=1}alpha_Ir^p_I+r^P_Z/hat Z_i}{S_i-O_i}
$$
其中,$S_i$是第i类的像素大小。$O_i$是第i类遮挡的区域大小。
$hat Z_i$是第i类的平均深度,$alpha_I$是平衡深度和广度的权重。
$$
r_Z^P(Chi)=Z_k(W(x^p_{k-n},Chi^k_{k-n}))-|T^k_{k-n}|_Z
$$
非参数统计模型
该模型的用途是为了你和实际实验残差的直方图,为每个聚类提供权重以估计相机运动
静态背景部分的运动始终与相机运动具有双重关系。因此,静态簇的残差通常会很小或接近零,因为它们会完美对齐,而这些动态簇的残差通常是较大的值,由于动态对象的独立运动,它们的值会很明显的偏移于零。
对于不同的场景,残差分布并不总是相同的。应该探索聚类残差的分布特征。图2是高动态场景的统计残差直方图示例。
在概率论和统计学中,t-分布(t-distribution)用于根据小样本来估计呈正态分布且方差未知的总体的均值。
受[14,23]的启发,基于t分布的非参数统计模型构造如下:
$$
w_i = cfrac{v_0+1}{v_0+((delta’_i-mu))^2}
$$
$$
delta = 1.4826 Median {|delta’_i-mu|}
$$
其中,$v_0$是t分布的自由度,决定了分布曲线的陡峭程度。
实验中,$v_0$被设置为10,$mu$是样本均值,设为0;
$delta$是样本方差,即基于中位数绝对偏差的非参数统计。
由于统计模型的概率表示簇的运动可能性,因此它可以指导场景运动分割,并为每个聚类提供权重以估计自我运动。
聚类标签根据如下给出:
$$
Beta_i=left{
egin{array}{l}
1,&delta’_ileq1/(min(10,max(3.alpha_Bv_cdelta)))