第29卷第2期 2021年4月
Vol.29 No.2Apr. 2021
电脑与信息技术Computer and Information Technology
文章编号:1005-1228(2021)02-0024-03
基于MobileNet-V2模型的性别识别
刁  琦
(浙江东方职业技术学院 信息传媒与自动化学院,浙江 温州 325000)
摘 要:文章主要将MobileNet-V2模型应用于人脸性别识别,分别对单人脸及多人脸图像集进行性别识别。针对304950张单人脸图像集,实验结果表明,该方法性别识别精度达到98.01%。较MobileNet-V1方法识别精度高3.6个百分点,较ResNet50方法识别精度高3.2个百分点。同时,对多人脸图像进行性别识别,其识别精度达到91.07%以上。关键词:图像 性别 识别
中图分类号:TP391.4  文献标识码:A
Gender Classification Based on MobileNet-V2 model
DIAO  Qi
(Zhejiang Dongfang PolyteChinc College of Information Media and Automation, Wenzhou 325011,China)
Abstract:This paper mainly applies the MobileNet-V2 model to face gender recognition, and performs gender recognition on single face and multi-face image sets respectively. For 304950 single face image sets, the experimental results show that the gender recognition accuracy of this method reaches 98.01%. Compared with the MobileNet-V1 method, the recognition accuracy is 3.6 percentage points higher than the ResNet50 method, and the recognition accuracy is 3.2 percentage points higher. At the same time, the gender recognition of multi-face images has a recognition accuracy of over 91.07%.Key words: image; gender; recognition
收稿日期:2020-10-15
作者简介:刁琦(1989-),男,助教  ,硕士,主要研究方向:智能计算及应用。
深度学习的发展,使得卷积神经网络向着更深和更复杂的网络发展,从而提高网络结构的学习与预测精
度。传统的性别识别方法运用PCA 等提取特征,通过支持向量机(Support Vector Machine ,SVM)分类器进行识别,但识别率较低。人脸识别作为深度学习领域研究的热点之一,研究者采用多种改进的方法进行提高精度。汪济民采用卷积神经网络(Convolutinal Neural Networks,CNN)进行人脸性别识别,证明该方法克服了旋转、遮挡等因素的影响,具有较好的鲁棒性[1];陈济楠采用改进的CNN 对Adience 数据集进行性别识别,识别精度达到93.3%[2];姜雨欣采用人脸高层特征学习与低层特征学习相结合的深层网络模型进行性别识别,具有较好的学习能力和泛化能力[3];石学超提出一种基于多层特征融合与可调监督函数机制结合的卷积神经网络(L-MFCNN)模型对人脸性别进行识别,较传统CNN 模型、跨层连接CCNN、多层融合MCCNN 的识别精度有所提高[4];
董兰芳采用深度学习与随机森林相结合的方法进行性别识别,对复杂光照及姿态变化的人脸图像进行准确识别[5]。
MobileNet 模型的提出,减少了网络权值参数同时提升了运算速度,为大规模人脸图像识别问题提供了更强的性能。
1 MobileNet 结构描述
1.1 MobileNet-V1
MobileNet 的基础是深度可分离卷积(Depthwise Separable Convolution),是一种基于流线型结构使用深度可分离卷积来构造轻型权重深度神经网络,可分解为深度卷积(Depthwise  Convolution)和点卷积(Pointwise Convolution)(1*1卷积核)。也就是说,MobileNet 模型分两步,第一步是对每个单个的输入通道应用单个滤波器进行滤波,第二步则是对每个点进行卷积组合后输出,较标准卷积(一次对所有的输
第29卷第2期·25·
入进行一系列新的输出)。标准卷积与深度可分离卷积的计算量对比解释如下:
假设:标准卷积层输入为Df*Df*M,其输出为Dg*Dg*M。其中,Df 与Dg 分别为输入特征与输出特征的宽和高,M、N 分别为输入与输出通道数。图1所示为标准卷积所需的滤波器,标准卷积计算所需的核数量为Dk*Dk*M*N,Dk 为核的长宽。那么,采用标准卷积所需的运算次数为
Dk*Dk*M*N*Df*Df。
图1 标准卷积
图2所示为深度卷积所需的滤波器。由于每个输入通道都需要一个核,共需要M 个核,并与每个通道进行卷积可得到M 个值,得到Dk*Dk*M。此过程计算次数为Dk*Dk*M *Df*Df。
图2 深度卷积
图3所示为点卷积所需的滤波器。图2为第一步的中间结果,共有N 个核(1*1*M),得到结果Df*Df*N,此过程计算次数为N*M *Df*Df。
图 3 深度可分离卷积
根据深度可分离卷积的计算过程,计算次数共计Dk*Dk*M*Df*Df+N*M *Df*Df,与标准卷积计算次数比为1/N+1/Dk 2
(N 远小于Dk)。在MobileNet 中多数采用3*3卷积核,在计算次数可缩减到标准卷积计算次数的1/9。由此可见,采用标准卷积与深度可分离卷积能获得同样的结果,但采用深度可分离卷积的优点在于大大减少了计算量。
同时,MobileNet 采用两个全局超参数:宽度乘法器(width multipier)和分辨率乘法器(resolution multipier),使得在延迟度和 精准度之间能够有效均衡,根据建模者对实际问题的大小选择适合的模型大小。较现有其他网络模型,MobileNet 折中考虑优化延迟与模型大小。MobileNet-V1虽然减少了计算量,但存在问题如下:
1.2 MobileNet-V2
MobileNet-V2是对MobileNet-V1的改进,在本质上仍然属于轻量化卷积神经网络,架构是基于反向残差结构。共同点在于两者均是采用深度卷积和点卷积实现特征提取,计算量较标准卷积都有所减少。Mark Sandler 等在《MobileNetV2: Inverted Residuals and Linear Bottlenecks》[6]文中指出MobileNet-V2较MobileNet-V1的区别主要在两方面:(1)Depth-wise convolution 之前多了一个1*1的“扩张“层,目的在于提升通道的数量,获取更多的图像特征。由于DW 自身无法去改变通道数量,输出通道数量取决于上层传输的通道数量。若上层通道数量较少,使得DW 在低维无法获取较好的特征,在DW 前加PW 使得可在高维提取特征;(2)MobileNet-V2采用Linear,并不是Relu(Rectified Linear Unit)。由于输入特征主要处于低维空间内,采用ReLU 确保了输入信息的完整性。对于低纬度空间处理,ReLU 近似为线性转换。目的在于防止Relu 破坏特征。
ResNet 算法在不良图片识别[7]、人脸检测与识别[8]、图像检索[9]以及文本识别[10]方面的准确率较
高。同样,MobileNet-V2与ResNet 的结构也有所区别,主要体现在于ResNet 的过程是先压缩,再卷积提特征,后扩张。而MobileNet-V2的过程刚好相反,先扩张,再卷积提特征,后压缩,即Inverted  residuals。
2 实验结果分析
硬件环境:计算机采用联想E431型号,处理器
为I5-3230M,内存为4G,显卡为1G 独显。软件环境:操作系统为Win7 64位。在Anaconda2.0中安装Tensorflow-gpu 环境,并安装所需的依赖包。
图像集:本实验测试图像共计304950
张,其中
图4  部分男性图像集
刁 琦:基于MobileNet-V2模型的性别识别
电脑与信息技术 2021年4月
·26·男性图片为168844张,女性图片为136106张。图像大小为224*224。部分男性图像集与女性像集展示分别如图4、5
所示:
图5 部分女性图像集
在训练过程中,Train loss 与Val loss 情况如图6所示,通过图5曲线趋势可看出,train loss 从初始位置不断下降,迭代500次后逐渐趋于收敛。
图6 Train loss 与
Val loss
图7 Train  acc 与Val acc
Train acc 与Val acc 情况如图7所示,通过图6曲线趋势可看出,迭代到500次后,train acc 的曲线趋近于平滑,这也表明训练模型已建立完毕。在1-500 Epochs 过程中,主要是MobileNet-V2训练的过程。
单张图像识别结果如图8、9所示,识别结果为与实际情况相符。
    图8 女性图片识别效果      图9 男性图片识别效果
采用MobileNet-V2的识别精度对比情况见表1:
表1 几种不同方法性别识别的精度对比方法
识别率/%MobileNet-V298.01MobileNet-V194.42resnet50
93.33
通过上述三种方法对比可知,采用MobileNet-V2进行性别识别的精度最高。随着图片数据集的增加,上述方法在识别时间上都有所增加。较CPU 环境,采用Tensorflow–gpu 环境可缩短识别时间,但对计算机的性能要求较高。
同时,本文采用MobileNet-V2对多人脸图像进行识别,识别效果如图10所示:
图10 多人脸性别识别结果
由于多人脸图像的人较多,人脸间距较小,识别过程中难免出现漏检测及识别错误现象。为统计多人脸图像的性别识别精度,见表2。
表2 MobileNet-V2结构的多人脸识别精度
样本数量/个
图像分辨率漏识数量/个
识错数量/个
识别率/%2750*13340
100111200*7920010012
3872*259200100465760*384000100641134*7561196.87661481*9810198.48112
1600*960
6
4
91.07
(下转第39页)
第29卷第2期·39·
3.
[3]  林峰, 张雷, 梁明亮.基于NVIDIA Jetson TX1的HEVC
编码和传输系统设计[J].沈阳航空航天大学学报, 2018, 35(5):51-56.
[4]  秦端振. Linux下基于Gstreamer的流媒体播放器设计[J].
科学大众,2014,757:149.
[5]  N VIDIA Corporation.NVIDIA Jetson.The AI Platform for
Autonomous Machines[EB/OL]developer.nvidia/ embedded/develop/hardware.Html.2018- 05-10.
[6]  李靖波.基于纹理特性与视觉关注度的HEVC优化研究
[D].兰州理工大学, 2017:2-6.
[7]  张前进.基于的实时传输系统的设计与实现[J].企业技术
开发, 2011, 30(23):1-8.
[8]  孟凡飞,刘金海,吴宗泽.基于GStreamer的嵌入式流媒
体播放器的设计[J].嵌入式系统应用, 2010, 26(2-7):5-9.
[9]  许宁.基于协议的移动视频监控系统的设计[J].通信技术,
2014, 47(4):4-54.
[10]  吴蒙, 陈晓霜.基于Gstreamer的视频采集与编码系统[D].
南京邮电大学,2015.
[11]  左登超,刘永康,左登峰.基于GStreamer的音视频播放
器的设计.[J].铁路计算机应用,2017,26(11):41-45.
[12]  吴蒙,宫健.基于Gstreamer的嵌入式流媒体传输系统的
研究与实现[D].南京邮电大学,2016.
[13]  刘瑞泽, 郭江宇,郝志超,等.一种全高清视频采集编码
传输系统设计[J].火力与指挥控制,2020,45(4):169-172. [14]  崔永艳,曹鹏飞.基于Gstreamer的安全视频流传输系统
的开发与实现[J].自动化与仪器仪表,2016,12:241-242. [15]  刘文,谢维波.多标准视频编码器的性能评价研究[J].计
算机应用研究, 2017, 34(2):6-17.
[16]  李校林,刘利权,张杰.基于的视频流实时打包传输的研
究[J].计算机工程与科学, 2012, 34(5):1-8.
[17]  Y AN HAN,ERDAL ORUKLU.Traffic sign recogni-tion based
on the nvidia jetson tx1 embedded system using convolutional neural networks[C].2017 IEEE60th International Midwest Symposium on Circuitsand Systems( M WSCAS), 2017: 184 - 187.
[18]  Y AHIA BENMOUSSA, JALIL BOUKHOBZA, ERIC SENN,
et al.Energy consumption Modeling of H.264/AVC Video Decoding for GPP and DSP[C].2013 Euromicro Conference on Digital System Design(DSD), 2013: 890-897.
张 雷等:基于Gstreamer的视频采集编码与传输系统的设计(上接第26页)
从表2 中可看出,在一幅图像中,随着人脸图像的增加,采用MobileNet-V2的性别识别精度有所下降。但识别精度与图像分辨率也存在一定关系,实际应用中为了获取较好的识别精度,需要提高图片质量。
3 结束语
本文采用MobileNet-V2对304950张单人脸图像进行人脸性别识别,较MobileNet-V1及resnet50方法,其识别精度较高。在多人脸图像性别识别中,识别效果尚好。在进一步研究中,将对更多的人脸图像集进行测试和验证,并将其应用于手机端。
参考文献:
[1]  汪济民,陆建峰.基于卷积神经网络的人脸性别识别[J].
现代电子技术,2015,38(07):81-84.
[2]  陈济楠,李少波,高宗,等.基于改进CNN的年龄和性别
识别[J].计算机工程与应用,2018,54(16):135-139+175. [3]  蒋雨欣,李松斌,刘鹏,等.基于多特征深度学习的人脸
性别识别[J].计算机工程与设计,2016,37(01):226-231. [4]  石学超,周亚同,池越.基于多层特征融合可调监督函
数卷积神经网络的人脸性别识别[J/OL].计算机应用研
究,2019(04):1-8[2018-11-18].
张杰图片大全
[5]  董兰芳,张军挺.基于深度学习与随机森林的人脸年龄与
性别分类研究[J].计算机工程,2018,44(05):246-251. [6]  M obileNetV2: Inverted Residuals and Linear B
ottlenecks,
Sandler M, Howard A, Zhu M, Zhmoginov A, Chen LC. arXiv preprint. arXiv:1801.04381, 2018.
[7]  王景中,杨源,何云华.基于多分类和ResNet的不良图片
识别框架[J].计算机系统应用,2018,27(09):100-106. [8]  朱超平,杨艺.基于YOLO2和ResNet算法的监控视频
中的人脸检测与识别[J].重庆理工大学学报(自然科学),2018,32(08):170-175.
[9]  J inyun Lu. Image Retrieval Based on ResNet and KSH[A].
Wuhan Zhicheng Times Cultural Development Co., Ltd.
Proceedings of 2018 International Conference on Network, Communication, Computer Engineering (NCCE 2018)[C] [10]  H u Han. Attention-based ResNet for Chinese Text Sentiment
Classification[A]. Science and Engineering Research Center.
Proceedings of 2018 International Conference on Computer Science, Electronics and Communication
Engineering (CSECE2018)[C].Science and Engineering Research Center:Science and Engineering Research Center,2018:5.