Abstract
1.目标是对面部属性进行更精确地识别
2.借助GANs生成的abstraction image进行识别
3.构建双路径识别网络(dual-path)分别对真实图片和抽象图片进行特征集成
4.一般来说,抽象图片能更好的与真实图片互补(complementary)
5.抽象图片可用来对局部器官或特征进行定位
Introduction
1.Facial attribute recognition的用途及历史。
2.难点:背景噪音和动态背景变换;部分特征与其他的特征无关,如是否佩戴帽子可能与头发特征相关,但与嘴唇识别无关
3.过往切割出局部信息的方法通过采用bbox或者语义分割,各有各的坏处,前者无法切割干净,后者可能丢失纹理细节信息。因此,激发出本文的实现手段:生成抽象图片,既去掉了背景的干扰,又保证了局部特征信息。抽象图片的生成是受局部特征分割的启发而来,关键的不同点是,抽象图片的生成算法以尽可能多地保留图片原始图片的信息为原则(使用GAN)。
4.同时将抽象图片和真实图片送往两个子网络,分别抽取特征后进行合成(concatenated),最终进行属性的识别。
5.Facial abstraction net 是基于pix2pixHD模型构建的。
文章主要贡献即提供了一个双路径网络进行人脸属性的识别,并用GAN生成与原始图片成对的抽象图片(包含了局部位置信息和纹理信息),借助于抽象图片在识别率上有较大提升。
Related Work
- 面部属性识别
总体来说,分为两种:局部识别和全局识别(part-based and holistic approaches)。
局部识别:[Kumar et al., 2009] 采用基于手工预定义特征的方式利用svm来对面部属性进行识别,[Zhang et al., 2014] 使用poselet+CNN来对局部特征进行抽取识别
全局识别:多任务识别模型 [Liu et al., 2015b; Rudd et al., 2016; Lu et al., 2017;Han et al., 2017],[Ding et al., 2017]采用弱监督信息来识别属性
[Kalayeh et al., 2017]采用语义分割的方式进行属性识别,本文与之不一样的点在于:前者使用decoder-encoder架构来做语义分割,后者使用GAN来生成抽象图片;此外,前者分割出来的语义图片是作为mask来激活属性,后者的抽象图片是直接参与到属性预测的训练中去
Methodology
基本结构如图所示,最终两个子网络的特征做了concat后经过了一个sigmoid cross entropy层。
- 问题定义
对于包含N张图片M个属性的训练集来说,I表示样本,a表示标签名,L表示标签,则第i张图片的第j个属性或。给定一张未标注图片,则需要学习一个映射关系来预测,对于多个属性来说,则有
- 基本属性预测网络
- 抽象图片属性预测网络(Facial Abstraction Network)
抽象图片属性预测网络致力于从原始图片中合成抽象图片,采用GAN架构,其中G使用pix2pixHD,pix2pixHD用来基于segmentation image生成真实图片,在本例中,反其道而行之,基于真实图片生成抽象图片。训练数据是一对图片(ri, ai),则生成对抗loss为:
pix2pixHD使用了3个不同层级的D处理不同scale的图片,则GAN的目标函数化为
Training Process
由于成对出现样本组(真实图片,抽象图片)具备不同的visual appearance,因此两个子网络并不能共享权值,文中介绍了两个网络的不同实现细节。
Experiment
数据集采用CelebA和LFWA,都具备相同的40个标签,评测标准采用:
(1)40个属性的mean accuracy (acc)
(2)针对样本不均衡的问题(如对于CelebA来说,判定全部图片为秃头,将取得97.88%的准确率),增加了一种基于lable的测量标准balanced-accuracy和3种基于instance的测量标准precision (prec), recall (rec) and F1-score (F1).
后者加入了正样本数量Pi和负样本数量Ni的考量
对于Facial Abstraction Networks(GANs),使用了Helen数据集进行训练,该数据集对背景,面部,双眼,双眉,鼻子,上下唇,头发进行了标注,同时使用[Liu et al., 2015a]来生成对应的ground truth abstraction images,用[Wang et al., 2017a]来训练抽象图片GANs网络的生成。
在实验对比中,分别与FaceTracer [Kumar et al., 2008],PANDA [Zhang et al., 2014],LNets+ANet [Liu et al.,2015b],Off-the-Shelf CNN[Zhong et al., 2016],Walk and Learn[Wang et al.,2016],Moon [Rudd et al., 2016] learns,SOMP[Lu et al., 2017],MCNN-AUX [Hand and Chellappa, 2017],PaW [Ding et al., 2017],[Kalayeh et al., 2017],ResNet18 + SVM,ResNet50 + SVM
[Kumar et al., 2009] Neeraj Kumar, Alexander C Berg, Peter
N Belhumeur, and Shree K Nayar. Attribute and simile
classifiers for face verification. In ICCV, pages 365–372.
IEEE, 2009.
[Zhang et al., 2014] Ning Zhang, Manohar Paluri,
Marc’Aurelio Ranzato, Trevor Darrell, and Lubomir
Bourdev. Panda: Pose aligned networks for deep attribute
modeling. In CVPR, 2014.
[Liu et al., 2015b] Ziwei Liu, Ping Luo, Xiaogang Wang,
and Xiaoou Tang. Deep learning face attributes in the wild.
In ICCV, 2015.
[Rudd et al., 2016] Ethan M Rudd, Manuel G¨unther, and
Terrance E Boult. Moon: A mixed objective optimization
network for the recognition of facial attributes. In ECCV.
Springer, 2016.
[Lu et al., 2017] Yongxi Lu, Abhishek Kumar, Shuangfei
Zhai, Yu Cheng, Tara Javidi, and Rogerio Feris. Fullyadaptive
feature sharing in multi-task networks with applications
in person attribute classification. In CVPR, 2017.
[Han et al., 2017] Hu Han, Anil K Jain, Shiguang Shan, and
Xilin Chen. Heterogeneous face attribute estimation: A
deep multi-task learning approach. TPAMI, 2017.
[Ding et al., 2017] Hui Ding, Hao Zhou, Shaohua Kevin
Zhou, and Rama Chellappa. A deep cascade network for
unaligned face attribute classification. In AAAI, 2017.
[Liu et al., 2015a] Sifei Liu, Jimei Yang, Chang Huang, and
Ming-Hsuan Yang. Multi-objective convolutional learning
for face labeling. In CVPR, June 2015.
[Wang et al., 2017a] Ting-Chun Wang, Ming-Yu Liu, Jun-
Yan Zhu, Andrew Tao, Jan Kautz, and Bryan Catanzaro.
High-resolution image synthesis and semantic manipulation
with conditional gans. arXiv:1711.11585, 2017.