本文以下内容来自读论文以后认为有价值的地方,论文来自:convolutional Neural Networks Applied to House Numbers Digit Classification 。
对于房门号的数字识别问题,文中提出的方法是基于卷积神经网络的,卷积神经网络集特征提取与目标分类于一体,这一点有别于传统的识别方法(传统方法中一般都是基于人工设计的特征提取器,然后把提取到的特征输入给分类器)。
文中在传统的卷积神经网络基础上有两点改进:
第一:pooling层,传统的方法的pooling层一般都为max pooling 或着 average pooling方法, 而文中采用的方法为:Lp—pooling,这一里,要用到高斯核。具体可以看论文A theoretical analysis of feature pooling in vision algorithms.。
第二点:Multi-stage features。传统方法中一般都是选择把最后一stage的特征输入给分类器,而本文中采用的方法为:把每stage的特征都输入给分类器,这就是MS,而传统的方法为single-stage feature(SS). 在本文听效果不是很明显。
文中不足点:没有说明文中采用的激活函数为什么啊,即没说说明non-linearity的问题。
一个重要的资源:EBLearn C++ open-source framework . eblearn.sf.net