zoukankan      html  css  js  c++  java
  • 泡泡一分钟】高精度轻量级实时语义分割网络:2K视频分割可达24.3GFLOPS和36.5FPS

    【泡泡一分钟】高精度轻量级实时语义分割网络:2K视频分割可达24.3GFLOPS和36.5FPS

    泡泡一分钟 泡泡机器人SLAM 今天

    每天一分钟,带你读遍机器人顶级会议文章

    标题:Segmenting 2K-Videos at 36.5 FPS with 24.3 GFLOPs: Accurate and Lightweight Realtime Semantic Segmentation Network

    作者:Dokwan Oh, Daehyun Ji, Cheolhun Jang, Yoonsuk Hyun, Hong S. Bae, Sungju Hwang

    来源:2020 IEEE International Conference on Robotics and Automation (ICRA)

    编译:魏春雨

    审核:柴毅,王靖淇

    这是泡泡一分钟推送的第 673 篇文章,欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

    图片

    摘要

    图片

        本文提出了一种快速、轻量级的端到端卷积网络体系结构NfS-SegNet,用于高分辨率视频的实时分割,NfS-SegNet可以在24.3GFLOPS的情况下,以36.5FPS的速度分割2K视频。我们将NfS-SegNet的这种速度和计算效率归结为以下原因:1)编码器网络NfS-Net以简单的构建块进行了速度优化,没有进行深度卷积等内存密集型操作,在图像分类上的速度明显高于SqueezeNet[2]、MobileNet v1[3]&v2[4]和ShuffleNet v1[5]&v2[6]等最先进的轻量级CNN体系结构。2)NfS-SegNet是一种非对称结构,具有较深的编码器和较浅的解码器,这种设计是基于我们经验的发现,解码器是计算中的主要瓶颈,对最终性能的贡献相对较小。3)提出了一种新的不确定性感知知识提取方法,引导教师模型将知识传递集中在最困难的图像区域。我们用CITYSCAPE[1]基准测试验证了NfS-SegNet的性能,在该基准上,它在精确度和速度上都达到了轻量级分割模型中最先进的性能。

    图片

    图1:CITYSCAPES[1]排行榜上不同模型的速度精度(IOU)。与基线实时语义分割方法相比,NfS-SegNet在速度和准确率上都达到了最快的水平。

    图片

    图2:系统概述:我们的网络由一个快速编码器组成,具有不对称的体系结构,编码器比解码器要“重”,并且通过不确定性感知知识蒸馏进行训练。快速编码器网络(NfS-Net)和实时分段网络(NFS-SegNet)在第III-A节和第III-B节中描述。第IV-A和IV-C部分介绍了我们的不确定性感知知识提炼,以利用更大的教师网络(GD-Net)的知识和来自CITYSCAPES的未标记数据[1]。

    图片

    表I:2K输入时与浅层分类网络的比较。尽管NfS-Net的GFLOPS略高于最“轻”基线,但它是最快的。运算时间是使用Caffe在GTX 1080Ti和E5-2620CPUs上运行1000次的平均值,该实现利用了Cuda 10.0和Cudnn 7.4.1库。

    图片

    图3:将每个网络层的运行时间与MobileNet v2和ShffleNet v2在2K输入图像上的运行时间进行比较。

    图片

    图4:NfS-Seg及其变体在每个网络层的运行时间和GFLOPS的展示。每个图例表示最后一个网络层的过滤器形状。

    图片

    表II:K.D.的可训练数据集。除了CITYSCAPES中的验证和测试序列[1]。group是为Ch V-B的增量学习场景而定义的。

    图片

    图5:在图4中的实验中可以看到,解码结构越简单,相对于精度的降低,速度提高的幅度越大。

    图片

    图6:模型显示了物体边界和难以分类的区域的高度不确定性,我们的U-KD关注于那些具有挑战性的图像区域来执行知识转移。

    图片

    图7:增量学习的收敛曲线。这种不确定性从看不见的数据中得出有用的信息。

    图片

    图9:不同教师网络的实验。教师网络:ENet和PSPNet,学生网络:NfS-SegNet。在以ENet为教师网络的情况下,较“轻”的学生网络表现优于较“重”的教师网络。

    图片

    Abstract

      We propose a fast and lightweight end-to-end convolutional network architecture for real-time segmentation of high resolution videos, NfS-SegNet, that can segement 2K-videos at 36.5 FPS with 24.3 GFLOPS. This speed and computation-efficiency is due to following reasons: 1) The encoder network, NfS-Net, is optimized for speed with simple building blocks without memory-heavy operations such as depthwise convolutions, and outperforms state-of-the-art lightweight CNN architectures such as SqueezeNet [2], MobileNet v1 [3] & v2 [4] and ShuffleNet v1 [5] & v2 [6] on image classification with significantly higher speed. 2) The NfS-SegNet has an asymmetric architecture with deeper encoder and shallow decoder, whose design is based on our empirical finding that the decoder is the main bottleneck in computation with relatively small contribution to the final performance.3) Our novel uncertainty-aware knowledge distillation method guides the teacher model to focus its knowledge transfer on the most difficult image regions. We validate the performance of NfS-SegNet with the CITYSCAPE [1] benchmark, on which it achieves state-of-the-art performance among lightweight segementation models in terms of both accuracy and speed.

    如果你对本文感兴趣,请点击点击阅读原文下载完整文章,如想查看更多文章请关注【泡泡机器人SLAM】公众号(paopaorobot_slam)

    百度网盘提取码:2q2f

    欢迎来到泡泡论坛,这里有大牛为你解答关于SLAM的任何疑惑。

    有想问的问题,或者想刷帖回答问题,泡泡论坛欢迎你!

    泡泡网站:www.paopaorobot.org

    泡泡论坛:http://paopaorobot.org/bbs/

    图片图片

    泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!

    商业合作及转载请联系paopaorobot@163.com

    阅读原文
    阅读 708
  • 相关阅读:
    H5调用Android播放视频
    JavaScript调Java
    Java调用JavaScript
    python的下载和安装
    s5_day1作业
    s5_day2作业
    pycharm激活(转)
    for…else和while…else
    小练习
    09 grep、正则表达式和sed
  • 原文地址:https://www.cnblogs.com/shuimuqingyang/p/14265762.html
Copyright © 2011-2022 走看看