CVPR 2018 微表情识别论文Enriched Long-term Recurrent Convolutional Network for Facial Micro-Expression Recognition

zoukankan html css js c++ java

CVPR 2018 微表情识别论文Enriched Long-term Recurrent Convolutional Network for Facial Micro-Expression Recognition

paper：https://arxiv.org/abs/1805.08417

GitHub：https://github.com/IcedDoggie/Micro-Expression-with-Deep-Learning

摘要

面部微观表情（ME）的识别对于研究人员在运动和有限数据库中的细微处理造成巨大挑战。最近，人工技术已经在微型表达识别中取得了优异的性能，但是以区域特异性和繁琐的参数调谐为代价。在本文中，我们提出了一个丰富的长期递归卷积网络（ELRCN），首先通过CNN模块将每个微表情帧编码成特征向量，然后通过将特征向量通过一个长-短期记忆（LSTM）模块。该框架包含两种不同的网络变体：

（1）空间富集的输入数据的通道叠加

（2）用于时间富集的特征的功能性叠加。

我们证明所提出的方法能够实现合理的良好性能，而不需要数据增强。此外，我们还介绍了对预测微表情类别时CNN“看到”的框架和可视化进行的消融研究。

关键词：微表情识别; 目标类; LRCN; 网络改进，跨数据库评估

1. 简介

面部微表情（ME）是引发隐藏某种真实情绪的短暂和不自主的快速面部表情[1]。标准的微表情持续时间在1/5到1/25之间，通常只发生在脸部的特定部位[2]。微表情的微妙和简洁是对肉眼的巨大挑战; 因此，近年来已经提出了很多工作来利用计算机视觉和机器学习算法来实现自动微表情式识别。

面部动作编码系统（FACS）[3]的建立编码面部肌肉对情感状态的改变。该系统还为每个行动单位（AU）确切的开始和结束时间奠定了基础。不同的数据库[4]，[5]，[6]可能包含不同的微表情类，它们由经过培训的编码人员根据AU的存在标记。然而，最近Davison等人的论述[7]认为，使用AU而不是情绪标签可以更精确地定义微表情，因为训练过程可以根据特定的面部肌肉运动模式进行学习。他们进一步证明，这能够实现更高的分类准确性

在这个研究领域，一些作品[8] [9] [10]已经实现了令人印象深刻的微表情识别性能。这些作品提出了精心制作的描述符和或方法，其中涉及繁琐的参数调整以获得最大的结果。鉴于这些笨拙的步骤，采用深度学习技术或深度神经网络已经开始起飞，从几次新的尝试中可以看出[11]，[12]。然而，由于样本稀缺和大多数微表情数据中的类别不平衡，深度神经网络的使用给ME识别带来了挑战。

2. 相关工作

　　A. Handcrafted Features人工特征

在过去的五年中，已经提出了许多工作来解决ME识别问题。为了促进自发面部微表情分析（即SMIC [4]，CASME II [5]，SAMM [6]，[7]）的计算研究而建立的数据库主要选择具有三个正交平面的局部二值模式（LBP-TOP） [13]作为他们的主要基线特征提取器。 LBP-TOP是经典的局部二进制模式（LBP）描述符[14]的时空扩展，它通过将二进制码矢量编码为直方图来表征局部纹理信息。 LBP-TOP从三个平面（XY，XT，YT）中的每一个中提取所述直方图并将它们连接成单个特征直方图。 LBP虽然以其简单的计算而闻名，但由于其对照度变化和图像变换的鲁棒性而被广泛使用。

Wang等人[15]通过在3D平面中仅利用六个交点来构造特征描述符来减少LBPTOP中的冗余。后来，黄等人[10]提出了一种带有积分投影的时空LBP（STLBP-IP），该算法将LBP算子应用于基于差分图像的水平和垂直投影。他们的方法是保持形状的，并且对白噪声和图像转换具有很强的鲁棒性。

有几项作品使用了LBP-TOP和相应的预处理技术。最常见的是时间插值模型[4]，该模型用于从构造的数据流形中均匀地采样固定数量的图像帧。最近，[16]提出了Sparsity Promoting Dynamic Mode Decomposition（DMDSP），它在合成动态压缩序列时仅选择重要的时间动态。许多其他作品[17]，[18]选择放大视频，试图突出特征提取之前的微妙变化。

运动信息可以很容易地描绘出微表情所带来的微妙变化。 Shreve等人 [19]提出了提取称为光学应变的光学流量的衍生物，该衍生物最初用于ME识别，但后来被用作ME识别的特征描述符[20]，[21]。利用光流的判别性，其他有趣的方法已经出现，其中包括双重加权定向光流（Bi-WOOF）[8]和面部动态地图[22]。

　　B. 深度神经网络

尽管深度学习技术或深度神经网络在识别任务中广泛流行，但对于这一研究领域而言，它们还是相当新颖的。一项早期的工作[11]利用深度学习提出了一种基于表达式状态的特征表示。研究人员采用卷积神经网络（CNN）编码不同的表达状态（即起始，起始到顶点，顶点，顶点以抵消和抵消）。在空间学习期间优化若干目标函数以改善表达类别可分离性。之后，编码的特征被传递到长时间短期记忆（LSTM）网络以学习与时间尺度相关的特征。

3. 提出的网络PROPOSED FRAMEWORK

在这项工作中，我们提出了一种用于微表情识别的增强型长期递归卷积网络（ELRCN），该算法采用[23]的架构，同时执行特征丰富来编码微妙的面部变化。 ELRCN模型包括深层次的空间特征提取器和表征时间动态的时间模块。介绍了网络的两种变体：1）通过输入通道叠加来丰富空间维度，2）通过深度特征叠加来丰富时间维度。图1通过预处理模块和两种学习模块变体提出了框架

A. Preprocessing预处理

微表情视频首先使用TV-L1 [24]光流近似方法进行预处理，这有两个主要优点：更好的噪声鲁棒性和流动不连续性的保留。光流以矢量化符号对对象的运动进行编码，指示运动的方向和强度或图像像素的“流动”。光流的水平和垂直分量定义如下：

其中dx和dy分别表示沿x和y维度的像素估计变化，而dt表示时间变化。为了形成三维流动图像，我们连接水平和垂直流动图像，p和q以及光流量值，m = | v |。由于运动变化非常微妙（不占用大范围的值），所以我们不需要对流图像进行归一化处理; 这也被经验证明，其性能下降可以忽略不计。

我们还通过计算光流的导数来获得光学应变[19]。通过采用光学应变，我们能够正确表征两个连续帧之间存在的可变形物体的微小移动量。这由位移矢量描述，u = [u，v] ^T。有限应变张量定义为：

每个像素的光学应变大小可以使用法向和剪切应变分量的平方和来计算：

B. Spatial Learning空间学习

最近的深度模型[25,27,27,28]已经证明，非线性函数的许多“层”的组合可以实现各种计算机视觉问题的突破性结果，例如对象识别和对象检测。为了以顺序的方式利用深度卷积神经网络（CNN）的优点，输入数据x首先用CNN编码成固定长度的矢量φ（xt），其表示时间t处的空间特征。随后，φ（xt）然后被传递到递归神经网络以学习时间动态。

在本文中，我们还假设通过使用原始输入样本的附加衍生信息，在涉及样本富集的过程中，我们可以最小化学习模型中的欠拟合，这反过来可以导致更高的识别性能。图1描述了我们提出的两个可能的变体：空间维度浓缩（SE）和时间维度浓缩（TE）的我们提出的增强型长期递归卷积网络（ELRCN）的总体框架。

SE模型通过沿输入叠加光流图像（F∈R ³），光学应变图像（S∈R²）和灰度原始图像（R∈R²），使用更大的输入数据维度进行空间学习通道，我们表示为x_t =（F_t，S_t，G_t）。因此，输入数据为224 * 224 * 5，这就需要从头开始训练VGG-Very-Deep-16（VGG16）[29]模型。最后的完全连接（FC）层将输入数据编码成4096个固定长度的矢量φ（x_t）。

TE模型利用传递学习[30]和来自VGG-Face模型[31]的预训练权重，该模型在野外大规模标记人脸（LFW）数据集[32]中进行训练，以进行人脸识别。我们调整了VGG-Face的预训练权重的微观表达数据，以使模型更有效地学习和适应。这也有助于更快地收敛，因为微表情和LFW数据都涉及面和它们的组件。由于VGG-Faces模型需要224 * 224 * 3的输入，我们复制了S和G图像（R²→R³），以便它们符合所需的输入尺寸（如图1所示）。在训练阶段，我们对每个输入数据在单独的VGG-16模型中进行微调，每个模型产生一个4096长度的特征向量φ（x_t）在他们的最后FC层。这导致12288长度的特征向量被传递到随后的循环网络。

C. 时序学习Temporal Learning

D. 通用网络配置

网络训练使用自适应时期或早期停止，最大设置为100个时期。基本上，当损失评分停止改善时，每次折叠的训练将停止。我们使用自适应矩估计（ADAM）[35]作为优化器，学习率为10^-5，衰减为10^-6。由于微观表达的微妙性导致学习困难，学习率被调整为小于典型比率。对于时间学习，我们将LSTM层之后的FC层的数量固定为1。这没有经过实验，因为我们的重点在于这些层中的复发层和单位的数量（参见第IV-E节中的消融研究）。

4. EVALUATION估计

A. 数据库

CASME II [5]是一个全面的自发微表情数据库，包含247个视频样本，来自26个亚洲参与者，平均年龄为22.03岁。这个数据库中的视频显示，一个参与者被五种微表情中的一种引起：幸福，厌恶，镇压，惊奇，其他。

自发行为和微运动（SAMM）[6]是一个新的数据库，包含来自32名参与者的平均年龄为33.24岁的人群自发诱发的159个微动作（每个视频一个视频），以及一个男性女性性别分离。最初打算用于调查微面部运动，SAMM是基于7种基本情绪诱发的。

最终，作者[7]提出了基于FACS行动单元的“客观类别”作为微表情识别的类别。 CASME II和SAMM数据库有许多共同之处：它们以200 fps的高速帧率记录，并且它们具有客观类别，如[7]中所述。

B. Preprocessing & Settings预处理与设置

使用Dlib [36]对SAMM数据集进行预处理以进行面部对齐，同时使用Face ++ API [37]提取面部地标。然后，根据脸部边缘的选定脸部标志对每个视频帧进行裁剪。同时，CASME II提供了我们直接使用的预裁剪视频帧。所有视频帧都调整为224 * 224像素分辨率，以便将输入空间维度与网络匹配。对两个数据库应用长度为10的时间插值模型（TIM）[4]，以将样本序列拟合到期望固定时间长度的递归模型中。我们比较的基线方法是使用具有线性内核和C = 10000的大规则化参数的支持向量机（SVM）实现的。

我们进行了两组实验：（1）仅涉及一个数据库的单域实验（CASME II），（2）涉及两个数据库（CASME II和SAMM）的跨域实验，具体地，使用两个设置 - 一个支持每次一个数据库，另一个支持来自两个数据库的所有样本。

实验使用F1-得分，加权平均召回（WAR）或准确性和不加权平均召回（UAR）进行测量。 UAR类似于“平衡”准确度（平均每个班级的准确性分数而不考虑班级人数）。我们报告微平均F1分数，当考虑高度不平衡的数据时，它提供了平衡的指标[38]。

C. Single Domain Experiment单畴实验

在这个实验中，CASME II数据库是我们评估领域的选择。使用Leave-One-Subject-Out（LOSO）交叉验证进行培训，因为该方案可防止学习期间受试者的偏见。表I比较了我们提出的方法与基线LBP-TOP方法（转载）的性能以及文献中最近的和相关的一些作品。所提出的ELRCN方法的TE变量明显优于其SE对应方，这表明为每种类型的数据微调单独网络的重要性。

表1：本文提出的方法与其他微表情识别方法的比较

D. Cross Domain Experiment跨域实验

为了测试我们的深度神经网络结构的稳健性和它从样本中学习显着特征的能力，我们使用由微表情大挑战（MEGC）20181-综合数据库评估（CDE）和Holdout数据库评估（HDE）。 HDE和CDE分别是MEGC 2018中的任务A和B.CDE将两个数据库（CASME II和SAMM）组合在一起，这些数据库省略了第6和第7个目标类别（来自[7]），然后进行了LOSO评估，总计为47个主题。 HDE从相对的数据库中采集训练和测试集（即在CASME II上训练，在SAMM上测试，反之亦然）。然后将两个褶皱的结果平均并报告为总体结果。

表2比较了我们的两个ELRCN变体与CDE（任务B）协议中再现的LBP-TOP基线的性能。与基线方法相比，所提出的方法在广泛应用于大量对象方面显然优越。有趣的是，SE变体发布了比TE变体更强的结果（WAR 0.57）这与仅CASME II的结果相反。

表III显示了HDE（任务A）协议的结果。挑战组织者提供HOG-3D和HOOF方法作为其他竞争基线。我们还重现了与挑战组织者提供的结果不同的基线LBP-TOP方法。这可能是由于面部裁剪步骤或预处理步骤（如TIM）中的某些差异，这些差异在撰写本文时尚未详细披露。同样，我们观察到所提议的方法的SE变体的强大性能，其超过了TE变体和所提供的基线。

为了更好地理解后面的内容，我们在2中提供了ELRCN-SE与CDE协议的混淆矩阵。由于训练样本数量较大，I类和III类的结果可能最好。此外，我们还为图3和图4中的两个折叠（即CASME II-SAMM和SAMM-CASME II的训练测试配对）提供了混淆矩阵。CASME II-SAMM折叠（F1 0.409，UAR 0.485，WAR 0.382）比SAMM-CASME II倍显着更好（F1 0.274，UAR 0.384，WAR 0.322）。 CASME II的第三类训练样本最多; 它表现最好。同样，在训练集（CASME II中的II类，SAMM中的IV和V类）中表现相对不足的类表现非常差。因此，小样本量可能仍然是深度学习方法的绊脚石。

E. Ablation Study消融学习

为了进一步分析，我们通过删除我们提出的ELRCN的某些部分来进行广泛的消融研究，以了解这是如何影响性能的。这是使用CASME II数据库（单一域）进行的。

1）空间学习：我们只学习VGG16 CNN来自己观察空间模块的能力。我们将每个视频帧视为单个图像而不是序列。图5中关于空间模块不同配置的结果表明，仅空间性能可能比基线性能差。

2）仅时间学习：由于具有大量循环单元的循环模型在计算上要求很高，因此图像调整为50 * 50像素分辨率。我们将像素强度视为样本的基本表示，作为时间模块的输入。考虑了各种配置，包括1层和2层LSTM。图6中的结果表明，仅使用像素强度作为2层LSTM网络的输入就可以超越基准性能。参考仅限空间的方法，时间动态的重要性非常明显，可以在这里看到。

3）时空LRCN：从前两个研究中，我们通过将两个模块中的一个固定到合理选择好的方法并改变其他方法来评估所提出的方法（SE变体）的性能。

我们仅使用流量数据（最好来自空间研究），使用2层LSTM（3000-1024）上的VGG-16 CNN的倒数第二个完全连接（FC）层的空间特征进行测试，这是迄今为止仅有研究的最佳体系结构（见图6）。 7中的结果表明，从4096长度的最后一个FC层获得的空间特征是最具有区别性的。在此之后，相反的研究继续针对许多时间网络架构测试这个选定的空间特征。图8中的结果显示了当使用基于图像的特征而不是像素强度时，单层LSTM在ELRCN框架中执行优于2层LSTM的有趣情况。另外，我们注意到使用更多的经常性单位也不一定会产生更好的结果，但肯定会增加计算成本。

这些研究表明，空间和时间模块在框架内扮演不同的角色，并且他们高度相互依赖以达到良好的绩效水平。

5. 讨论

使用更多数据：深度学习技术的局限性在样本量方面最为明显。典型的深层架构需要大量的数据才能很好地学习。我们尝试使用更多的内插帧（更高的TIM），但是它导致的结果比之前的作品[4]，[38]推荐的结果差，即10或15的TIM。然而，如果在我们提出的网络上使用适当的数据增强。

可视化：为了更好地“看”提出的网络如何达到其预测，我们在空间网络的最后一个卷积层上利用梯度加权类激活映射（Grad-CAM）[40]来提供视觉解释，面对分类决定做出贡献。图9中的可视化图根据可见光谱中的颜色着色，范围从蓝色（未激活）到红色（高度激活）。激活对应于对预测类别贡献最大的空间位置。

我们首先展示单域实验的可视化。来自图9（a）中样品的AU 12（唇角拉拔器）与嘴唇侧面附近的绿色区域非常精确地对应。图9（b）中对象脸颊周围的区域也显示出相对较强的激活，对应于AU 14，即实际情况。从跨域试验中，我们也发现了类似的图9（c）和（d）中AU匹配空间激活的证据。图9（c）中的AU分别是4,6,7,23，它涉及围绕眼部区域和上部脸颊的运动，这两个区域都很红。同时，图9（d）中的样本具有涉及引起眉毛的AU 1。比较同一样品在不同实验（图9（e）中显示）的Grad-CAMs通常表明，在单个域上训练的模型比在跨域上的模型具有更多的显着位置。

6.结论

在本文中，我们已经提出了用于微表情识别的丰富LRCN模型的两种变体 - 一种是用于空间富集（SE）的各种输入数据的叠加，另一种是用于时间富集（TE）的叠加特征的另一种。在经验上，TE模型在单个数据库上表现更好，而SE模型在跨域中学习得更好。选定样本的Grad-CAM可视化表明，这些模型的预测与专家标记的AU相符。通过我们的消融研究，我们还发现，使用光流信息比使用原始像素强度更有利于提供网络输入数据的正确特征。今后，我们希望通过适当的数据增强和预处理技术扩展我们的前期工作。

-----------------------------------------------------------------------------------------------------------------

后续进行个人实验结果的更新

查看全文

相关阅读:
openjudge 2750
hexo部署云服务器
 freemaker传输数据问题
 FormData在axios中的骚操作
 Docker安装与初次使用
 docker-compose实现前后端分离的自动化部署
 centos7下设置静态ip
centos7 安装mariadb 并配置主从复制
 centos7安装solr服务
 centos7安装redis

原文地址：https://www.cnblogs.com/shirley-bhu/p/9111663.html