zoukankan html css js c++ java

ILSVRC2014检测总结

ILSVRC 2014结束一段时间了。从下面的表格来看，基本都是RCNN的路子，但是这些牛队都做了改进。自己和人家比差的太远啊，努力。

team	results	Spotlights and improve
GoogLeNet	0.439329(6 m) 0.38(1m)	Rcnn 1. Increase size of super-pixels by 2X 2. Add multibox* proposals
CUHK DeepID-Net	0.406659	RCNN + Bounding box rejection using def-pooling layer 1000 object-level annotation 200 object-level annotation
Deep Insight	0.404517	Original RCNN + 9conv + SPM + more iterations + Structural Edge Proposal + 7/8/9 Conv Ensemble + CLS Context
NUS	0.37212	Rcnn framework, with nin in cnn
UvA-Euvision	0.354213(aug) 0.32.253(prov)	Selective search + cnn
MSRA Visual Computing	0.351103	A combination of multiple SPP-net-based models (no outside data)
Berkeley Vision	0.345213	R-CNN baseline

读这些单位的文章，记录一下：

Googlenet，测试过，确实减少了量。

deepid用1000类的bb训练，在200类的BB做fine tuning.还类似于SPP一样，引入了一个pooling层。

NUS，用了nin，其中使用的是hcp,其思路就是用bing生成若干个regions，计算这些regions之间的iou作为weights，然后利用normalized cuts等进行聚类，减少regions的个数，然后再利用CNN进行特征提取和分类，在分类后，每一个regions得到一个c类的vector，然后对这些region的vectors通过max pooling，得到该张图片的mult labels。这个方法大大提高了像pascal的分类这些多类分类的效果，其实是借助于检测达到分类效果，速度应该慢。但是从检测上来说，效果肯定差，因为使用的regions数目少，再者本身聚类得到的regions很难保证是最好的？其中提到用到了ctx信息，今天找到他们的ctx文章，看了一下，说不麻烦吧，还挺麻烦的。基本上从原理上来讲，就是对特征扩展了维度信息，比如对分类来说，检测的结果输出是ctx信息，检测的结果可以取top 2的结果。而对检测来说，分类的结果可以作为其ctx信息,比如文中用到的bow信息。个人感觉吧，单纯就在训练svm时添加上这些信息，应该是有帮助的，文章中写的那么复杂，可能做的时候应该没那么复杂，可惜作者没公开代码。猜测在检测中，如果走rcnn的路线，通过cnn得到的分类结果，将结果作为ctx信息。

微软的SPP，这几天把windows版本的搭建起来了，速度确实比rcnn快，而且可以随意输入大小，确实很赞。

转载请注明出处，谢谢。

查看全文

相关阅读:
显示磁盘信息
 给VG增加磁盘，给文件目录增加空间
 第8.11节 Python类中记录实例变量属性的特殊变量__dict__
Python中format_map与format字符串格式化的区别
 生成器函数与函数的区别
 什么是Python生成器？与迭代器的关系是什么？
第8.10节使用__class__查看Python中实例对应的类
 Python运算符的优先级是怎样的？
Python怎么控制将一个整数输出成指定长的十六进制数？
Python中函数的参数带星号是什么意思？

原文地址：https://www.cnblogs.com/jianyingzhou/p/3998210.html