zoukankan      html  css  js  c++  java
  • ILSVRC2014检测总结

    ILSVRC 2014结束一段时间了。从下面的表格来看,基本都是RCNN的路子,但是这些牛队都做了改进。自己和人家比差的太远啊,努力。

    team

    results

    Spotlights and improve

    GoogLeNet

    0.439329(6 m)

     0.38(1m)

    Rcnn

    1. Increase size of super-pixels by 2X

    2. Add multibox* proposals

    CUHK DeepID-Net

    0.406659

    RCNN +

    Bounding box rejection using def-pooling layer

    1000 object-level annotation

    200 object-level annotation

    Deep Insight

    0.404517

    Original RCNN                                                                                                                                                                                                                                                       

    + 9conv + SPM

    + more iterations

    + Structural Edge Proposal

    + 7/8/9 Conv Ensemble                                                   

    + CLS Context

    NUS

    0.37212

    Rcnn framework, with nin in cnn

    UvA-Euvision

    0.354213(aug)

    0.32.253(prov)

    Selective search + cnn

    MSRA Visual Computing

    0.351103

     A combination of multiple SPP-net-based models (no outside data)

    Berkeley Vision

    0.345213

    R-CNN baseline

    读这些单位的文章,记录一下:

    Googlenet,测试过,确实减少了量。

    deepid用1000类的bb训练,在200类的BB做fine tuning.还类似于SPP一样,引入了一个pooling层。

    NUS,用了nin,其中使用的是hcp,其思路就是用bing生成若干个regions,计算这些regions之间的iou作为weights,然后利用normalized cuts等进行聚类,减少regions的个数,然后再利用CNN进行特征提取和分类,在分类后,每一个regions得到一个c类的vector,然后对这些region的vectors通过max pooling,得到该张图片的mult labels。这个方法大大提高了像pascal的分类这些多类分类的效果,其实是借助于检测达到分类效果,速度应该慢。但是从检测上来说,效果肯定差,因为使用的regions数目少,再者本身聚类得到的regions很难保证是最好的?其中提到用到了ctx信息,今天找到他们的ctx文章,看了一下,说不麻烦吧,还挺麻烦的。基本上从原理上来讲,就是对特征扩展了维度信息,比如对分类来说,检测的结果输出是ctx信息,检测的结果可以取top 2的结果。而对检测来说,分类的结果可以作为其ctx信息,比如文中用到的bow信息。个人感觉吧,单纯就在训练svm时添加上这些信息,应该是有帮助的,文章中写的那么复杂,可能做的时候应该没那么复杂,可惜作者没公开代码。猜测在检测中,如果走rcnn的路线,通过cnn得到的分类结果,将结果作为ctx信息。

    微软的SPP,这几天把windows版本的搭建起来了,速度确实比rcnn快,而且可以随意输入大小,确实很赞。

    转载请注明出处,谢谢。
  • 相关阅读:
    Bootstrap Table
    XML CDATA识别“<,>”
    LigerUI之Grid使用详解(一)——显示数据 --分页
    Oracle中对XMLType的简单操作(extract、extractvalue...)
    Qt实现应用程序单实例运行--LocalServer方式
    Live m3u8播放3个文件自动停止问题
    markdown
    node.js 知识记录
    .NET 高级架构师 WEB架构师 ------时间 总结 专注
    .NET 高级架构师 WEB架构师 ------走正确的路
  • 原文地址:https://www.cnblogs.com/jianyingzhou/p/3998210.html
Copyright © 2011-2022 走看看