模型的结构大致由图可以完整展现,三个分类是否人脸的12、24、48net,再加上三个用于修正预测框的分类网络;
这三个分类是否人脸的网络,结构逐渐变复杂,
由上图可以看出,前2阶的网络都非常简单,只有第3阶才比较复杂。这不是重点,重点是我们要从上图中学习多尺度特征组合。
以第2阶段的24-net为例,首先把上一阶段剩下的窗口resize为24*24大小,然后送入网络,得到全连接层的特征。同时,将之前12-net的全连接层特征取出与之拼接在一起。最后对组合后的特征进行softmax分类。
这三个网络用于矫正人脸检测框的边界,往往得分最高的边界框并非最佳结果,经过校准后其能更好的定位人脸,其矫正原理其实很简单,
就是对原图做45次变换,然后每个变换后的边界框都有一个得分,对于得分高于某个设定的阈值时,将其累加进原边界,最后结果取平均,就是最佳边界框。
级联的好处:
1.初始网络不用设计很复杂,减小计算量,可以设置较宽松的阈值,保证高召回率的同时排除大量非人脸窗口;
2.第三个网络虽复杂,为了保证足够的性能,但是只需要处理之前网络得到少量窗口,效率提升;
3.采用了多个弱分类器结合达到好效果。