在视觉/图像识别中,一个关键问题就是:如何得到内在的特征表示(internal representation of feature).在传统的方法中,人们都是通过一个手工设计的特征提取器(hand crafted feature)来得到需要的特征,然后把特征输入给分类器. 而现在在解决的问题是: 一个系统如何能够自动学习到我们需要的特征。 (看到区别了吧,传统的方法是手工设计特征提取器,而现在我们要求它能够自动的学习的这个特征)
好的内在特征表示是分等级的(good internal representations are hierarchical), 这就要求我们的识别系统也是由一级级的组成。所以,卷积神经网络就是这样的结构,所以它学习到的特征就是分等级的。
对于 一个卷积神经网络,一个重要的概念:feature map, 我认为它就是一个特征表示。从一个原始的图像中,我们可以提取出很多个不多的特征,所以就可以有好多个feature map.
一个卷积神经网络的组成:它因为是分级的,所以可以由好几级组成,每一级通常包括3层:filter bank layer, non-linearity layer, feature pooling layer.
第一层:滤波层,它就相当于去提取输入的特征,对于每一个特征,要用于一个卷积核。Spatially translating the input of a feature detection layer will translate the output but leave it otherwise unchanged.
非线性层:传统的一般都是tanh()函数,该文中提出了一个新的方法:叫做:rhe rectified sigmoid Rabs.具体再说这是什么。
对于pooling层:1,可以有这么一层,如果没有这么一层的话,可以在通过在滤波层控制步长变向的来达到这一目的。
2,以前会在pooling层以后,再加一个tanh()函数或其它非线性函数,现在大多数不这么做的。
文中也介绍了卷积神经网络的历史及应用。
非监督学习方法,,——————PSD
参考文献为:Convolutional Networks and Applications in Vision。