第49卷第6期2022年6月
Vol.49,No.6
Jun.2022湖南大学学报(自然科学版)
Journal of Hunan University(Natural Sciences)
基于多层感知机改进型Xception人脸表情识别
韩保金1†,任福继2
(1.合肥工业大学计算机与信息学院,安徽合肥230601;2.德岛大学先端技术科学教育部,德岛7708502,日本)
摘要:针对使用深度学习提取人脸表情图像特征时易出现冗余特征,提出了一种基于多层感知机(MLP)的改进型Xception人脸表情识别网络.该模型将Xception网络提取的特征输
入至多层感知机中进行加权处理,提取出主要特征,滤除冗余特征,从而使得识别准确率得到
提升.首先将图像缩放为48*48,然后对数据集进行增强处理,再将这些经过处理的图片送入
本文所提网络模型中.消融实验对比表明:本文模型在CK+数据集、JAFFE数据集和MMI数据
集上的正确识别率分别为98.991%、99.02%和80.339%,Xception模型在CK+数据集、JAFFE数
据集和MMI数据集上的正确识别率分别为97.4829%、90.476%和74.0678%,Xception+2lay模
型在CK+数据集、JAFFE数据集和MMI数据集上的正确识别率分别为98.04%、84.06%和
75.593%.通过以上消融实验对比,本文方法的识别正确率明显优于Xception模型与Xception+
2lay模型.与其他模型相比较也验证了本文模型的有效性.
关键词:人脸表情识别;卷积神经网络(CNN);多层感知机;Xception;深度可分离卷积
中图分类号:TP391.41文献标志码:A
Improved Xception Facial Expression Recognition Based on MLP
HAN Baojin1†,REN Fuji2
(1.School of Computer and Information,Hefei University of Technology,Hefei230601,China;
2.Graduate School of Advanced Technology and Science,University of Tokushima,Tokushima7708502,Japan)
Abstract:Aiming at the problem of redundant features when using deep learning to extract facial expression im⁃age features,an improved Xception facial expression recognition network based on multi-layer perceptron(MLP)is proposed.In this model,the features extracted from the Xception network are input into the multi-layer perceptron for weighting,the main features are extracted,and the redundant features are filtered out so that the recognition accu⁃racy is improved.First,the image is scaled to48*48,then the data set is enhanced,and these processed images are fed into the network model proposed in this paper.A comparison of ablation experiments show that:The correct rec⁃ognition rates of this model on the CK+dataset,JAFFE dataset,and MMI dataset are98.991%,99.02%and 80.339%respectively.The correct recognition rates of Xception model on the CK+dataset,JAFFE dataset and MMI dataset are97.4829%,90.476%,and74.0678%,respectively.The correct recognition rates of the Xception+2lay ∗收稿日期:2021-03-31
基金项目:国家自然科学基金项目(61672202,61673156),National Natural Science Foundation of China(61672202,61673156);国家自然科学基金-深圳联合基金重点项目(U1613217),State Key Program of NSFC-Shenzhen Joint Foundation(U1613217)
作者简介:韩保金(1988—),男,合肥工业大学博士研究生
†通信联系人:E-mail:*********************
文章编号:1674-2974(2022)06-0065-08DOI:10.16339/jki.hdxbzkb.2022283
湖南大学学报(自然科学版)2022年model on the CK+dataset,JAFFE dataset and MMI dataset are98.04%and74.0678%,84.06%,and75.593%,re⁃spectively.By comparing the above ablation experiments,the recognition accuracy of this method is significantly bet⁃ter than the Xception model and the Xception+2lay model.Compared with other models,the effectiveness of this model is also verified.
Key words:facial expression recognition;convolutional neural network(CNN);multilayer perceptron(MLP);Xception;depth separable convolution
人脸表情识别是人类情绪状态识别的有效技术之一,表情识别技术广泛应用于智能问答、在线学习、用户线上体验等智能化人机交互系统中,具有巨大的市场潜力与应用背景,成为了人工智能领域的研究热点[1].
人脸表情识别根据研究方法的不同,分为传统方法与深度学习方法,传统方法包括Gabor小波、局部
二值模式(LBP,Local binary patterns)[2]、方向梯度直方图(HOG,Histogram of Gradient)等.Gabor小波,可获得最佳的局部化和类人式视觉接收场模型.局部二值模式具有旋转不变性和灰度不变性等显著的优点.方向梯度直方图对图像几何和光学形变都能保持很好的不变性,允许有一些细微的动作变化并不影响检测效果.李文辉等[3]提出了一种多通道Ga⁃bor人脸识别方法:依据各通道特征可分离性判据确定特征提取区域,计算通道权值,采用模糊加权规则融合多通道的识别结果.基于特征的中性直方图(包括灰度直方图)特征和典型的表情特征,Mlakar等[4]提出一种有效的特征选择系统应用于人脸表情识别系统.Kwong等[5]提出了关键人脸检测、显著性映射、局部二值模式和方向梯度直方图的12种可能组合,以及6种机器学习分类算法,共生成72个模型.伴随而来的又有许多辅助人脸表情识别的方法,如汤红忠等[6]提出的人脸验证方法,判断是否为同一个身份.这样为以后处理人脸表情识别时可加上身份验证,从而提高识别正确率.综上所述,传统方法各有优点且取得了较好的实验结果,但是由于传统方法中提取的特征均在人工选定区域内,这样就使得提取出来的特征只能在特定空间中,在没有额外训练的情况下,很难形成其它特征用于提高人脸表情识别率.同时,由于人脸姿态、图片光照、摄影角度与不同肤的人种等各种外界因素的改变对于识别正确率也造成了一些干扰,为了提高识别正确率需要在实验中加入更多的数据量,以提取充分的信息.
随着计算机技术的发展,计算机软硬件在性能上得到了显著提升,为深度学习的提出与应用创建了环境,其中以卷积神经网络为主的一系列网络变体在理论与实际应用中得到了广泛的研究与应用.其优势
在于不用针对特定的图像数据集或分类方式提取具体的人工特征,而是用类人式的视觉处理机制对图像进行抽象化处理,自动进行特征提取并筛选,这就能实现批量式的图像处理,从而完成了对图像自动化处理的操作,免去了大量的人工劳动且相较于之前的正确率得到了提升.卷积神经网络是一种有监督的学习模型,具有局部连接、权值共享、下采样的特点,能够有效地挖掘出数据局部特征,对图像的平移缩放、旋转都有较好的稳定性.它能以原始数据作为输入,通过卷积、池化与非线性激活函数等一系列操作,用于提取数据集中的特征.常用于图像分类的CNN(Convolutional Neural Networks)[7-8]结构模型种类繁多,如AlexNet[9]、VGG、ResNet[10]、
BDBN.AlexNet网络模型创新性地采用ReLU激活函数,加快了模型的收敛速度.VGG-Net模型使用较小
3*3卷积核代替大卷积核,同时增加了模型深度. ResNet模型解决了深度网络的退化问题.TANG 等[11]提出一种基于表情识别的课堂智能教学评价方法,该方法具有实时性、客观性和细粒度的特点,该方法充分考虑了学生的情绪状态,将情绪状态模型与传统的教学评价方法相结合,利用经典的卷积神经网络AlexNet完成了人脸表情识别的预训练,并在相应的数据集上取得了良好的效果.
FEI等[12]提出通过一种新的解决方案来处理面部图像并解释情绪的时间演变过程,从AlexNet的完
66
第6期韩保金等:基于多层感知机改进型Xception 人脸表情识别
全连通的第6层提取深层特征,并利用标准的线性判别分类器来获得最终的分类结果.SARKAR 等提出[13]一种基于VGGNet 的卷积神经网络和一种新的处理技术,所提出的方法可显著提高数据集的性能,与不同数据集比较也证明了该方法的优越性.TRIPATHI 等[14]提出了一种基于语音特征并在聚焦损失下训练的残差卷积神经网络(ResNet )来识别语音情感.
上述研究方法针对情感分类问题从多个方向进行了改进,如网络深度、激活函数、损失函数等,但没有使用能够提取特征信息较丰富的网络结构且对于冗余特征也未做处理.
本文针对人脸表情识别中提取的特征信息丰富度较低与冗余特征未被处理等问题,进行了两个方面的改进:1)选择了能够提取较丰富特征信息的卷积神经网络作为基础;2)增加了多层感知机,通过标定不同特征的权重来提取主要特征,抑制冗余特征.
1Xception 算法介绍与改进
1.1Xception 算法介绍
本文主要的研究框架是基于Xception 模型构建,如图1所示,其框架由3个主要部分组成,分别为
输入层,中层和输出层.输入层主要作用是用来不断下采样,减少空间维度.中层的主要作用是为了不断学习关联关系,优化特征.输出层的主要作用为最终汇总,整理特征,交由全连接层(FC ,fully conne
cted layer )进行表达.
Xception 算法是在inceptionv3基础上进行改进
的,把inceptionv3中的3*3模块全部换成了depth⁃wise separable convolution (深度可分离卷积).通常标准卷积操作将特征图的空间相关性与通道间相关性一并处理,而深度可分离卷积则将空间与通道信息处理过程完全分开.Depthwise 卷积的主要作用
为将每个输入特征通道单独卷积,若输入特征图数量为n ,卷积核大小为m*m ,这样每个输入特征图都将对应一个独立的m*m 卷积核进行卷积,输出n 个特征图.而Pointwise 卷积使用1*1的标准卷积来关联特征通道之间的相关性输出特征.其结构如
图2所示.
深度可分离卷积可以在保留较高准确率的情况下减少大量的模型参数和计算量.虽然深度可分离卷积减少了参数量,但是Xception 模型的总参数量与InceptionV3相差不大,主要原因为Xception 模型旨在提高分类效果,在网络其他位置增加了参数量.
图1Xception 模型的主要网络模块示意图[15]
Fig.1Diagram of main network module of Xception model [15]
Conv32.3*3.stride=2ReLU
Conv64.3*3
SeparableConv128.3×3
ReLU
ReLU
SeparableConv128.3×3
MaxPooling 3×3.stride=2
ReLU ReLU
SeparableConv256.3×3SeparableConv256.3×3
MaxPooling 3×3.stride=2
Con1×1
Stride=2
循环2次
Con1×1Stride=2
循环3次
SeparableConv728.3×3
Con1×1Stride=2
ReLU
未识别的网络ReLU
ReLU
ReLU SeparableConv1536.3×3SeparableConv2048.3×3SeparableConv1024.3×3
SeparableConv728.3×3MaxPooling3×3,stride=2
Qptional full-connected layer (s )
Global AveraqePooling 2048-dimensional vectors
Softmax
67
湖南大学学报(自然科学版)2022年
3*33*33*3
1*1
1*1
1*1
图2深度可分离卷积结构图[16]
Fig.2Architecture of depth separable convolution [16]
1.2多层感知机
多层感知机(multilayer perceptron ,MLP )由感知机发展而来,其主要特征是有多个神经元层.其基本结构包括输入层、隐含层与输出层,其隐含层的数量可多可少,输入层到隐含层可看作一个全连接层,隐含层到输出层可看作一个分类器.
图3所示的多层感知机模型中,输入和输出个数分别为4和3,中间的隐藏层中包含了5个隐藏单元(hidden unit ).由于输入层不涉及计算,所以图3中的多层感知机的层数为2.由图3可见,隐藏层中的神经元和输入层中各个输入完全连接,输出层中的神经元和隐藏层中的各个神经元也完全连接.因此,多层感知机中的隐藏层和输出层都是全连接层.
输入层
输出层
隐藏层
I 1I 2
I 3I 4
h 2
O 1
O 3
O 2h 4
h 3h 1
h 5
图3多层感知机结构图
Fig.3Structure diagram of multilayer perceptron
1.3采用MLP 改进Xception 模型
由图1,输入层在不断下采样,减少空间维度,同时也在保持原始特征的学习,这样就可以提取更深
层的特征避免了原始特征的丢失.中层在不断学习关联关系,优化特征,同时也在学习输入层中所学习
的特征,如此既能学习到中层特征也能学习到输入层中的特征,进而能够获得较丰富的特征信息.由图3可以直观看出多层感知机的结构,输入层与隐藏层直接相连,隐藏层与输出层直接相联,而且多层感知机中隐藏层的参数随着训练的进行随时变动,更加有利于输入层信息量与输出层信息量达到尽量相一致,同时又可以对特征进行加权处理,从而加强了重要特征的权重.
将由Xception 网络模型提取出的特征向量送入多层感知机中,并利用softmax 函数对所提取的特征向量进行权重学习,从而得到一组最优的权重分布.通过训练集对网络进行有监督的训练,不断地学习图像中的内容.在训练过程中,通过不断地调整MLP 中的层数与层内的各参数,最终确定在层数为3时,整个模型效果最好,所以本文提出了[(Xception+3lay )如下图4(a )所示的网络结构],为对比网络效果,还作出了图4(b )(Xception+2lay )的结构作为一种对比网络结构.
2实验与分析
2.1实验数据集
为了评估本文提出的算法,本节将在三个公开的面部表情数据集上进行实验,这三个数据集分别是日本女性面部表情库(JAFFE )、扩展的Cohn-kanade 库(CK+)表情库和MMI 数据集.由于本文实
验针对静态图像,因此截取视频序列((CK+)表情库与MMI 表情库)的表情变化的三个峰值作为图
像样本,及对JAFFE 数据库的表情对其眼部周围添加噪声,所有图片缩放为48*48.如图5所示为处理后照片的形式,前三张为(CK+)表情库处理后的照片形
式,中间三张为JAFFE 表情库处理后的照片形式,后三张为MMI 表情库处理后的照片形式.如表1所示,各个表情数据集的分布与对应情感类图像数量,其中CK+图像总数量为981张,JAFFE 图像总数量为639张.MMI 图像总数量为609张,形成的总图片数为2229张.
实验中,在训练阶段,采用随机切割44*44的图像,并将图像进行随机镜像,然后送入训练.在测试
68
第6期韩保金等:基于多层感知机改进型Xception 人脸表情识别
阶段,避免训练集中的图像进入测试集中.将图片在左上角、左下角、右上角、右下角、中心进行切割并做镜像操作,这样的操作使得所要训练的数据集的数量扩大了10倍,再将这10张图片送入模型中.然后将得到的概率值取平均,最大的值即为对应表情类别,这种方法有效地降低了误识别率.
表1JAFFE 、CK+和MMI 样本分布
Tab.1Sample distribution of JAFFE 、CK +and MMI
表情类别JAFFE CK+
MMI 高兴316942
生气304532
悲伤302832
厌恶315928
惊讶318341
害怕302528
中性3000
蔑视018
2.2实验环境与设置相关参数
实验需用相关环境如下:操作系统为18.04.1-Ubuntu 版本,显卡为12G 显存Nvidia GeForce GTX1080Ti 一块,CPU 为Intel (R )Xeon (R )CPU E5-2620v3@2.40GHz ,Python 版本为Python3.6.10,深度学习框架安装pytorch1.6.0,TensorFlow 版本为1.14.0.实验使用GPU 加快模型计算速度,减少训练时间,选择小批次带动量参数的随机梯度下降法(stochastic gradient descent ,SGD )作为模型参数优化器(Optimizer ).学习率更新采用固定周期缩减策略,将初始学习率设置为0.01;其余相关设置见表2,本实验所需相关参数是在实验中不断调试后才最终确
图4增加lay 结构的输出层Fig.4Add the output layer of lay structure
图5处理后照片的形式Fig.5Form of processed
photos
Optional full-connected layer (2048)Optional full-connected layer (6)Optional full-connected layer (2048)
Softmax
2048-dimensional vectors
Global Average Pooling SeparableConv2048,3×3
SeparableConv1536,3×3ReLU
ReLU
SeparableConv1024,3×3MaxPooling 3×3,stride=2ReLU
ReLU
SeparableConv728,3×3
Con1×1
Stride=2
Con1×1
Stride=2
ReLU
ReLU
ReLU
SeparableConv728,3×3
SeparableConv1024,3×3MaxPooling 3×3,stride=2SeparableConv1536,3×3SeparableConv2048,3×3
ReLU
Global AveragePooling 2048-dimensional vectors
Optional full-connected layer (2048)
Optional full-connected layer (2048)
Softmax
(b )
(a )
69