zoukankan      html  css  js  c++  java
  • DuLa-Net: A Dual-Projection Network for Estimating Room Layouts from a Single RGB Panorama和BiFuse: Monocular 360◦ Depth Estimation via Bi-Projection Fusion

    这两篇论文做的工作都是关于全景图的工作,一篇是做layout的估计,另外一篇是做深度估计,他们相同点是都用了不同视角的图像来作为输入,将全景图和透视图之间的特征进行融合来做高层的任务。

    dula-net

    这篇文章做的工作做的任务是估计非cuboid的室内场景的layout,作者使用了两路branch,一路是panorama的branch,另外一路是ceilling的branch,通过一个E2P的stn将其特征进行变换和融合,然后将最终的结果也进行融合,并且生成最后的layout
    作者的贡献点在于使用了两种不同的输入,以及feature fusion这样的一个层,并且作者说不怎么需要后处理就能够得到比较好的layout,因为作者处理的case不仅仅包含cuboid的shape,作者也处理非规则的cuboid,所以建了个数据集,corners比较多。流程图如下

    feature 融合的方式是从panorama向下融合,直接采用相加的方式

    注意上图还是有post process的,训练的方式是对两个网络分别使用交叉熵loss,作者做了一些实验验证其方法是有效的,对比对象主要是layoutnet,发现都是超过之前的试验结果的。
    感觉这篇文章的主要创新点在于使用了一个E2P的stn layer,下一篇文章也是类似的创新

    BiFuse

    这一篇文章做的是深度估计,和上一篇文章是一样的,ta提出了一个是e2c还有一个是c2e的两个stn,用于融合两个branch的特征,同时作者提出了一种spherecial的padding方法,

    对比的对象有omnidepth的一篇文章,以及FCRN的单目图像估计的文章
    作者在消融实验部分也比较了是否添加fuse,两个单路的情况是怎么样的,发现加了fuse对于有些指标提升并不是很大

  • 相关阅读:
    撕裂寂寞
    创业中的“孙子兵法”
    生命的颜色占卜
    常常激励我们的36句话
    创建自己的3D虚拟身体!
    富人和穷人的八大差异
    有时,孤单是一种享受
    JavaScript类
    上网的十条基本礼节
    程序设计中的感悟
  • 原文地址:https://www.cnblogs.com/yongjieShi/p/14019747.html
Copyright © 2011-2022 走看看