zoukankan      html  css  js  c++  java
  • 深入理解图优化与g2o:g2o篇

    内容提要

      讲完了优化的基本知识,我们来看一下g2o的结构。本篇将讨论g2o的代码结构,并带着大家一起写一个简单的双视图bundle adjustment:从两张图像中估计相机运动和特征点位置。你可以把它看成一个基于稀疏特征点的单目VO。


    g2o的结构

      g2o全称是什么?来跟我大声说一遍:General Graph Optimization!你可以叫它g土o,g二o,g方o,总之我也不知道该怎么叫它……

      所谓的通用图优化。

      为何叫通用呢?g2o的核里带有各种各样的求解器,而它的顶点、边的类型则多种多样。通过自定义顶点和边,事实上,只要一个优化问题能够表达成图,那么就可以用g2o去求解它。常见的,比如bundle adjustment,ICP,数据拟合,都可以用g2o来做。甚至我还在想神经网络能不能写成图优化的形式呢……

      从代码层面来说,g2o是一个c++编写的项目,用cmake构建。它的github地址在:https://github.com/RainerKuemmerle/g2o 

      它是一个重度模板类的c++项目,其中矩阵数据结构多来自Eigen。首先我们来扫一眼它的目录下面都有什么吧:

      如你所见,g2o项目中含有若干文件夹。刨开那些gitignore之类的零碎文件,主要有以下几个:

    • EXTERNAL  三方库,有ceres, csparse, freeglut,可以选择性地编译;
    • cmake_modules  给cmake用来寻找库的文件。我们用g2o时也会用它里头的东西,例如FindG2O.cmake
    • doc     文档。包括g2o自带的说明书(难度挺大的一个说明文档)。
    • g2o      最重要的源代码都在这里!
    • script    在android等其他系统编译用的脚本,由于我们在ubuntu下就没必要多讲了。

       综上所述,最重要的就是g2o的源代码文件啦!所以我们要进一步展开看一看!

       我们同样地介绍一下各文件夹的内容:

    • apps    一些应用程序。好用的g2o_viewer就在这里。其他还有一些不常用的命令行工具等。
    • core    核心组件,很重要!基本的顶点、边、图结构的定义,算法的定义,求解器接口的定义在这里。
    • examples  一些例程,可以参照着这里的东西来写。不过注释不太多。
    • solvers    求解器的实现。主要来自choldmod, csparse。在使用g2o时要先选择其中一种。
    • stuff    对用户来讲可有可无的一些工具函数。
    • types    各种顶点和边,很重要!我们用户在构建图优化问题时,先要想好自己的顶点和边是否已经提供了定义。如果没有,要自己实现。如果有,就用g2o提供的即可。

      就经验而言,solvers给人的感觉是大同小异,而 types 的选取,则是 g2o 用户主要关心的内容。然后 core 下面的内容,我们要争取弄的比较熟悉,才能确保使用中出现错误可以正确地应对。

      那么,g2o最基本的类结构是怎么样的呢?我们如何来表达一个Graph,选择求解器呢?我们祭出一张图:

      这个图第一次看,可能觉得有些混乱。但是随着g2o越用越多,你会发现越来越喜欢这个图……现在请读者跟着我的顺序来看这个图。

      先看上半部分。SparseOptimizer 是我们最终要维护的东东。它是一个Optimizable Graph,从而也是一个Hyper Graph。一个 SparseOptimizer 含有很多个顶点 (都继承自 Base Vertex)和很多个边(继承自 BaseUnaryEdge, BaseBinaryEdge或BaseMultiEdge)。这些 Base Vertex 和 Base Edge 都是抽象的基类,而实际用的顶点和边,都是它们的派生类。我们用 SparseOptimizer.addVertex 和 SparseOptimizer.addEdge 向一个图中添加顶点和边,最后调用 SparseOptimizer.optimize 完成优化。

      在优化之前,需要指定我们用的求解器和迭代算法。从图中下半部分可以看到,一个 SparseOptimizer 拥有一个 Optimization Algorithm,继承自Gauss-Newton, Levernberg-Marquardt, Powell's dogleg 三者之一(我们常用的是GN或LM)。同时,这个 Optimization Algorithm 拥有一个Solver,它含有两个部分。一个是 SparseBlockMatrix ,用于计算稀疏的雅可比和海塞; 一个是用于计算迭代过程中最关键的一步 $$H Delta x = -b $$ 这就需要一个线性方程的求解器。而这个求解器,可以从 PCG, CSparse, Choldmod 三者选一。

      综上所述,在g2o中选择优化方法一共需要三个步骤:

    1. 选择一个线性方程求解器,从 PCG, CSparse, Choldmod中选,实际则来自 g2o/solvers 文件夹中定义的东东。
    2. 选择一个 BlockSolver 。
    3. 选择一个迭代策略,从GN, LM, Doglog中选。

      这样一来,读者是否对g2o就更清楚的认识了呢?

      小萝卜:师兄你慢点,我已经晕了……


    双视图bundle adjustment:

      既然小萝卜同学已经晕了,想必我们也成功地把读者朋友都绕进去了。既绕之则绕之,下面我们来通过一个实例,更深入地理解 g2o 的用法。这个实例是什么呢?我们来写一个双视图的bundle adjustment吧!

      代码的git地址:https://github.com/gaoxiang12/g2o_ba_example

      首先,师兄还是拿出那两张万年不变的老图:

      我们的目标是估计这两个图之间的运动。虽然我们在《一起做》里讲过这件事怎么做了,但那是在RGBD的条件下。现在,我们没有深度图,只有这两张图像和相机内参,请问如何估计相机的运动?

      呃,这个问题好像还挺复杂的。我们需要用一点数学来描述它。所以请大家耐心看我推一会儿公式。

      求解这个问题,当下有两种思路。其一是通过特征点来求,其二是直接通过像素来求。第一种也叫做 sparse 方式,第二种叫做相对的 dense 方式。由于主流仍在用特征点,所以我们例程也用特征点。

      特征点方法的观点是:一个图像可以用几百个具有代表性的,比较稳定的点来表示。一旦我们有了这些点,就可以忽略图中的其余部分,而只关注这些点。(dense 思路则反对这一观点,认为它丢弃了图像大部分信息,毕竟一个640x480的图有30万个点,而特征点只有几百个)。

      采用特征点的思路,那么问题变为:给定$N$个两张图中一一对应的点,记作:$${z_1} = left{ {z_1^1,z_1^2, ldots ,z_1^N} ight},{z_2} = left{ {z_2^1,z_2^2, ldots ,z_2^N} ight} $$ 以及相机内参矩阵 $C$,求解两个图中的相机运动$R,t$。

      注:字符$z$的上标不是几次方的意思,而是第几个点。采用上标的原因是为了避免双下标带来的麻烦。同时,每个点的具体值$z$,是指该点对应的像素坐标:$z_i^j = [u,v]_i^j$,它们是二维的。

      

      小萝卜:师兄啊,这图一股浓浓的山寨味啊。

      不管它,总之,假设相机1的位姿为单位矩阵,对于任意一个特征点,它在三维空间的真实坐标位于 $X^j$,而在两个相机坐标系上看来是 $z_1^j, z_2^j$。根据投影关系,我们有:

    [ egin{equation} {lambda _1}left[ egin{array}{l}
    z_1^j\
    1
    end{array} ight] = C{X^j},quad {lambda _2}left[ egin{array}{l}
    z_2^j\
    1
    end{array} ight] = Cleft( {R{X^j} + t} ight) end{equation}]

       这里的 $lambda_1, lambda_2$ 表示两个像素的深度值,说白了也就是相机1坐标下$X^j$的$z$坐标。虽然我们不知道这个实际的$X^j$是什么,但它和$z$之间的关系,是可以列写出来的。

       这个问题的传统求解方式,是把两个方程中的$X^j$消去,得到只关于$z, R, t$的关系式,然后进行优化。这条道路通向对极几何和基础矩阵(Essential Matrix),理论上,我们需要大于八个的匹配点就能计算出$R,t$。但这里我们并不这样做,因为我们是在介绍图优化嘛。

      在图优化中,我们构建一个优化问题,并表示成图去求解。这里的优化问题是什么呢?这可以这样写:

    [ egin{equation} mathop {min }limits_{{X^j},R,t} {left| {frac{1}{{{lambda _1}}}C{X^j} - {{left[ {z_1^j,1} ight]}^T}} ight|^2} + {left| {frac{1}{{{lambda _2}}}Cleft( {R{X^j} + t} ight) - {{left[ {z_2^j,1} ight]}^T}} ight|^2} end{equation} ] 

      由于各种噪声的存在,投影关系不能完美满足,所以我们转而优化它们误差的二范数。那么对每一个特征点,我们都能写出这样一个二范数的误差项。对它们进行求和,就得到了整个优化问题:

    [ egin{equation} mathop {min }limits_{X,R,t} sumlimits_{j = 1}^N {{{left| {frac{1}{{{lambda _1}}}C{X^j} - {{left[ {z_1^j,1} ight]}^T}} ight|}^2} + {{left| {frac{1}{{{lambda _2}}}Cleft( {R{X^j} + t} ight) - {{left[ {z_2^j,1} ight]}^T}} ight|}^2}} end{equation} ]

      它叫做最小化重投影误差问题(Minimization of Reprojection error)。当然,它很遗憾地,是个非线性,非凸的优化问题,这意味着我们不一定能求解它,也不一定能找到全局最优的解。在实际操作中,我们实际上是在调整每个$X^j$,使得它们更符合每一次观测$z^j$,也就是使每个误差项都尽量的小。由于这个原因,它也叫做捆集调整(Bundle Adjustment)。

      BA很容易表述成图优化的形式。在这个双视图BA中,一种有两种结点:

    • 相机位姿结点:表达两个相机所在的位置,是一个$SE(3)$里的元素。
    • 特征点的空间位置结点:是一个XYZ坐标。

      相应的,边主要表示空间点到像素坐标的投影关系。也就是

    [lambda left[ egin{array}{l}
    {z^j}\
    1
    end{array} ight] = Cleft( {R{X^j} + t} ight)] 这件事情喽。


     实现

      下面我们来用g2o实现一下BA。选取的结点和边如下:

    • 结点1:相机位姿结点:g2o::VertexSE3Expmap,来自<g2o/types/sba/types_six_dof_expmap.h>;
    • 结点2:特征点空间坐标结点:g2o::VertexSBAPointXYZ,来自<g2o/types/sba/types_sba.h>;
    • 边:重投影误差:g2o::EdgeProjectXYZ2UV,来自<g2o/types/sba/types_six_dof_expmap.h>;

      为了给读者更深刻的印象,我们显示一下边的源码(也请读者最好亲自打开g2o下这几个文件看一下顶点和边的定义):

      这个是 EdgeProjectXYZ2UV 边的定义。它是一个Binary Edge,后面的模板参数表示,它的数据是2维的,来自Eigen::Vector2D,它连接的两个顶点必须是 VertexSBAPointXYZ, VertexSE3Expmap。 我们还能看到它的 computeError 定义,和前面给出的公式是一致的。注意到计算Error时,它调用了 g2o::CameraParameters 作为参数,所以我们在设置这条边时也需要给定一个相机参数。

      铺垫了那么多之后,给出我们的源码:

      1 /**
      2  * BA Example 
      3  * Author: Xiang Gao
      4  * Date: 2016.3
      5  * Email: gaoxiang12@mails.tsinghua.edu.cn
      6  * 
      7  * 在这个程序中,我们读取两张图像,进行特征匹配。然后根据匹配得到的特征,计算相机运动以及特征点的位置。这是一个典型的Bundle Adjustment,我们用g2o进行优化。
      8  */
      9 
     10 // for std
     11 #include <iostream>
     12 // for opencv 
     13 #include <opencv2/core/core.hpp>
     14 #include <opencv2/highgui/highgui.hpp>
     15 #include <opencv2/features2d/features2d.hpp>
     16 #include <boost/concept_check.hpp>
     17 // for g2o
     18 #include <g2o/core/sparse_optimizer.h>
     19 #include <g2o/core/block_solver.h>
     20 #include <g2o/core/robust_kernel.h>
     21 #include <g2o/core/robust_kernel_impl.h>
     22 #include <g2o/core/optimization_algorithm_levenberg.h>
     23 #include <g2o/solvers/cholmod/linear_solver_cholmod.h>
     24 #include <g2o/types/slam3d/se3quat.h>
     25 #include <g2o/types/sba/types_six_dof_expmap.h>
     26 
     27 
     28 using namespace std;
     29 
     30 // 寻找两个图像中的对应点,像素坐标系
     31 // 输入:img1, img2 两张图像
     32 // 输出:points1, points2, 两组对应的2D点
     33 int     findCorrespondingPoints( const cv::Mat& img1, const cv::Mat& img2, vector<cv::Point2f>& points1, vector<cv::Point2f>& points2 );
     34 
     35 // 相机内参
     36 double cx = 325.5;
     37 double cy = 253.5;
     38 double fx = 518.0;
     39 double fy = 519.0;
     40 
     41 int main( int argc, char** argv )
     42 {
     43     // 调用格式:命令 [第一个图] [第二个图]
     44     if (argc != 3)
     45     {
     46         cout<<"Usage: ba_example img1, img2"<<endl;
     47         exit(1);
     48     }
     49     
     50     // 读取图像
     51     cv::Mat img1 = cv::imread( argv[1] ); 
     52     cv::Mat img2 = cv::imread( argv[2] ); 
     53     
     54     // 找到对应点
     55     vector<cv::Point2f> pts1, pts2;
     56     if ( findCorrespondingPoints( img1, img2, pts1, pts2 ) == false )
     57     {
     58         cout<<"匹配点不够!"<<endl;
     59         return 0;
     60     }
     61     cout<<"找到了"<<pts1.size()<<"组对应特征点。"<<endl;
     62     // 构造g2o中的图
     63     // 先构造求解器
     64     g2o::SparseOptimizer    optimizer;
     65     // 使用Cholmod中的线性方程求解器
     66     g2o::BlockSolver_6_3::LinearSolverType* linearSolver = new  g2o::LinearSolverCholmod<g2o::BlockSolver_6_3::PoseMatrixType> ();
     67     // 6*3 的参数
     68     g2o::BlockSolver_6_3* block_solver = new g2o::BlockSolver_6_3( linearSolver );
     69     // L-M 下降 
     70     g2o::OptimizationAlgorithmLevenberg* algorithm = new g2o::OptimizationAlgorithmLevenberg( block_solver );
     71     
     72     optimizer.setAlgorithm( algorithm );
     73     optimizer.setVerbose( false );
     74     
     75     // 添加节点
     76     // 两个位姿节点
     77     for ( int i=0; i<2; i++ )
     78     {
     79         g2o::VertexSE3Expmap* v = new g2o::VertexSE3Expmap();
     80         v->setId(i);
     81         if ( i == 0)
     82             v->setFixed( true ); // 第一个点固定为零
     83         // 预设值为单位Pose,因为我们不知道任何信息
     84         v->setEstimate( g2o::SE3Quat() );
     85         optimizer.addVertex( v );
     86     }
     87     // 很多个特征点的节点
     88     // 以第一帧为准
     89     for ( size_t i=0; i<pts1.size(); i++ )
     90     {
     91         g2o::VertexSBAPointXYZ* v = new g2o::VertexSBAPointXYZ();
     92         v->setId( 2 + i );
     93         // 由于深度不知道,只能把深度设置为1了
     94         double z = 1;
     95         double x = ( pts1[i].x - cx ) * z / fx; 
     96         double y = ( pts1[i].y - cy ) * z / fy; 
     97         v->setMarginalized(true);
     98         v->setEstimate( Eigen::Vector3d(x,y,z) );
     99         optimizer.addVertex( v );
    100     }
    101     
    102     // 准备相机参数
    103     g2o::CameraParameters* camera = new g2o::CameraParameters( fx, Eigen::Vector2d(cx, cy), 0 );
    104     camera->setId(0);
    105     optimizer.addParameter( camera );
    106     
    107     // 准备边
    108     // 第一帧
    109     vector<g2o::EdgeProjectXYZ2UV*> edges;
    110     for ( size_t i=0; i<pts1.size(); i++ )
    111     {
    112         g2o::EdgeProjectXYZ2UV*  edge = new g2o::EdgeProjectXYZ2UV();
    113         edge->setVertex( 0, dynamic_cast<g2o::VertexSBAPointXYZ*>   (optimizer.vertex(i+2)) );
    114         edge->setVertex( 1, dynamic_cast<g2o::VertexSE3Expmap*>     (optimizer.vertex(0)) );
    115         edge->setMeasurement( Eigen::Vector2d(pts1[i].x, pts1[i].y ) );
    116         edge->setInformation( Eigen::Matrix2d::Identity() );
    117         edge->setParameterId(0, 0);
    118         // 核函数
    119         edge->setRobustKernel( new g2o::RobustKernelHuber() );
    120         optimizer.addEdge( edge );
    121         edges.push_back(edge);
    122     }
    123     // 第二帧
    124     for ( size_t i=0; i<pts2.size(); i++ )
    125     {
    126         g2o::EdgeProjectXYZ2UV*  edge = new g2o::EdgeProjectXYZ2UV();
    127         edge->setVertex( 0, dynamic_cast<g2o::VertexSBAPointXYZ*>   (optimizer.vertex(i+2)) );
    128         edge->setVertex( 1, dynamic_cast<g2o::VertexSE3Expmap*>     (optimizer.vertex(1)) );
    129         edge->setMeasurement( Eigen::Vector2d(pts2[i].x, pts2[i].y ) );
    130         edge->setInformation( Eigen::Matrix2d::Identity() );
    131         edge->setParameterId(0,0);
    132         // 核函数
    133         edge->setRobustKernel( new g2o::RobustKernelHuber() );
    134         optimizer.addEdge( edge );
    135         edges.push_back(edge);
    136     }
    137     
    138     cout<<"开始优化"<<endl;
    139     optimizer.setVerbose(true);
    140     optimizer.initializeOptimization();
    141     optimizer.optimize(10);
    142     cout<<"优化完毕"<<endl;
    143     
    144     //我们比较关心两帧之间的变换矩阵
    145     g2o::VertexSE3Expmap* v = dynamic_cast<g2o::VertexSE3Expmap*>( optimizer.vertex(1) );
    146     Eigen::Isometry3d pose = v->estimate();
    147     cout<<"Pose="<<endl<<pose.matrix()<<endl;
    148     
    149     // 以及所有特征点的位置
    150     for ( size_t i=0; i<pts1.size(); i++ )
    151     {
    152         g2o::VertexSBAPointXYZ* v = dynamic_cast<g2o::VertexSBAPointXYZ*> (optimizer.vertex(i+2));
    153         cout<<"vertex id "<<i+2<<", pos = ";
    154         Eigen::Vector3d pos = v->estimate();
    155         cout<<pos(0)<<","<<pos(1)<<","<<pos(2)<<endl;
    156     }
    157     
    158     // 估计inlier的个数
    159     int inliers = 0;
    160     for ( auto e:edges )
    161     {
    162         e->computeError();
    163         // chi2 就是 error*Omega*error, 如果这个数很大,说明此边的值与其他边很不相符
    164         if ( e->chi2() > 1 )
    165         {
    166             cout<<"error = "<<e->chi2()<<endl;
    167         }
    168         else 
    169         {
    170             inliers++;
    171         }
    172     }
    173     
    174     cout<<"inliers in total points: "<<inliers<<"/"<<pts1.size()+pts2.size()<<endl;
    175     optimizer.save("ba.g2o");
    176     return 0;
    177 }
    178 
    179 
    180 int     findCorrespondingPoints( const cv::Mat& img1, const cv::Mat& img2, vector<cv::Point2f>& points1, vector<cv::Point2f>& points2 )
    181 {
    182     cv::ORB orb;
    183     vector<cv::KeyPoint> kp1, kp2;
    184     cv::Mat desp1, desp2;
    185     orb( img1, cv::Mat(), kp1, desp1 );
    186     orb( img2, cv::Mat(), kp2, desp2 );
    187     cout<<"分别找到了"<<kp1.size()<<""<<kp2.size()<<"个特征点"<<endl;
    188     
    189     cv::Ptr<cv::DescriptorMatcher>  matcher = cv::DescriptorMatcher::create( "BruteForce-Hamming");
    190     
    191     double knn_match_ratio=0.8;
    192     vector< vector<cv::DMatch> > matches_knn;
    193     matcher->knnMatch( desp1, desp2, matches_knn, 2 );
    194     vector< cv::DMatch > matches;
    195     for ( size_t i=0; i<matches_knn.size(); i++ )
    196     {
    197         if (matches_knn[i][0].distance < knn_match_ratio * matches_knn[i][1].distance )
    198             matches.push_back( matches_knn[i][0] );
    199     }
    200     
    201     if (matches.size() <= 20) //匹配点太少
    202         return false;
    203     
    204     for ( auto m:matches )
    205     {
    206         points1.push_back( kp1[m.queryIdx].pt );
    207         points2.push_back( kp2[m.trainIdx].pt );
    208     }
    209     
    210     return true;
    211 }

       在这个程序中,我们从命令行参数读取两个图像所在的位置,然后构建一个图估计图像间运动和特征点的空间位置。

      整个工程的编译方式使用cmake,请参考 github 工程进行编译,这里就不详细说明了。(因为肯定又要提一堆Cmake方面的事情。)

      编译完成后,可以运行此程序,结果如下:

      我们显示了特征点的数量,估计的位姿变换,以及各特征点的空间位置。最后,还显示了inliers的数量(我们把误差太大的边认为是outlier):

      在652条边中有614条边是inlier,说明匹配还是挺正确的。


    讨论

      关于单目BA还有一点要说,就是 scale 不确定性。由于投影公式中的$lambda$存在,我们只能推得一个相对的深度,而无法确切的知道特征点离我们有多少距离。如果我们把所有特征点的坐标放大一倍,把平移量$t$也乘以二,得到的结果是完全一样的。

      比方说:看奥特曼时,我们并不知道这其实是人类演员在模型里打架。这就是单目带来的尺度不确定性。

      小萝卜:师兄你现在才知道吗?我小时候就知道了啊!


    小结

      本节介绍了g2o的大致框架,并提供了一个计算单目双视图Bundle Adjustment的例程供读者练习。

      

      如果你觉得我的博客有帮助,可以进行几块钱的小额赞助,帮助我把博客写得更好。

      

  • 相关阅读:
    Java内存模型原理,你真的理解吗?
    CentOS 7.4 下搭建 Elasticsearch 6.3 搜索群集
    CentOS 7下ElasticSearch集群搭建案例
    分布式系统理论基础
    分布式系统理论进阶
    Paxos,Raft,Zab一致性协议-Raft篇
    P2P 网络核心技术:Gossip 协议
    分布式系统Paxos算法
    Hacker News的热门排名算法(转)
    Elasticsearch分布式机制和document分析
  • 原文地址:https://www.cnblogs.com/gaoxiang12/p/5304272.html
Copyright © 2011-2022 走看看