收稿日期:2019-03-05
修回日期:2019-05-07
作者简介:任江涛(1995-),男,山西吕梁人,硕士研究生。研究方向:系统工程。
摘
inception 网络与深度残差网络作为训练网络用于Faster R-CNN 。在TensorFlow 框架下,搭建相应的网络模型,并选取飞机、车辆、操场以及水箱的遥感图像进行了实验验证。实验结果表明,相比于VGG16网络,基于inception 网络与深度残差网络作为训练网络的Faster R-CNN 模型在识别精度和识别速度上都具有明显的优势。
关键词:目标识别,Faster R-CNN ,遥感图像,inception 网络,深度残差网络中图分类号:TP393文献标识码:A
DOI :10.3969/j.issn.1002-0640.2020.04.032
引用格式:任江涛,李定主,屠惠琳.基于训练网络的目标检测方法及应用[J ].火力与指挥控制,2020,45(4):
173-177.
基于训练网络的目标检测方法及应用
任江涛,李定主,屠惠琳
(北方自动控制技术研究所,太原030006)
Research on Target Detection Method and Application Based on Training Network
REN Jiang-tao ,LI Ding-zhu ,TU Hui-lin
(North Automatic Control Technology Institute ,Taiyuan 030006,China )
Abstract :The traditional Faster -RCNN object detection network uses VGG16as the training
network ,but its feature extraction capability is weak and its detection speed is slow.In this paper ,we
propose using inception networks and deep residual networks as training networks for Faster R-CNN.Under the TensorFlow framework ,the network model is built ,and remote sensing images of aircraft ,vehicles ,playgrounds and tanks are selected for experimental verification.The experimental results show that ,compared with the VGG16network ,the Faster R-CNN models using the inception network and the deep residual network as the training network have obvious advantages in the recognition accuracy and recognition speed.
Key words :object detection ,Faster R-CNN ,remote sensing image ,inception netowork ,deep residual network
Citation format :
REN J T ,LI D Z ,TU H L.Research on target detection method and application based on training network [J ].Fire Control &Command Control ,2020,45(4):173-177.
0引言
近年来,随着大数据技术的不断发展,图像目标的识别分类已经成为非常重要的研究热点。在地物遥感图像识别领域,通过目标识别分类,可以在遥感图像中获取不同目标的位置信息以及具体目标的类型[1]。在民用方面,可以用于资源调查、环境
检测以及防灾减灾等;在军用方面,可以用于军事
测绘、战略侦查以及目标打击等[2-3],因此,针对遥
感影像的目标识别分类具有十分重要的意义[4-6]。近几年来,随着对地观测技术的进步,遥感数据有着非常明显的大数据的特征,从而可以为目标识别分类提供大量的可用数据,在此基础上,基于深度学习的遥感目标识别分类得到了广泛的应用[7-9]。
文章编号:1002-0640(2020)
04-0173-05Vol.45,No.4Apr ,2020
火力与指挥控制
Fire Control &Command Control 第45卷第4期2020年4月
173··
(总第45-)火力与指挥控制2020年第4期
2014年Ross Girshick等人提出了目标检测算
法R-CNN(Region-based Convolutional Neutral Net-
work)[10],其结合了卷积神经网络[11]和区域候选
(Region Proposal)方法,在目标检测与行人检测上取得
了较好的成绩,然而也存在着效率低下,花费时间长等
一系列问题。随后,Ross Girshick等人提出了Fast
R-CNN,Shaoqing Ren等人在Fast R-CNN的基础上
提出了Faster R-CNN模型[12],将区域建议、特征提
取、建议框回归等整合到同一个端对端的网络中,
有效地减少了算法对计算资源的占用,大大加快了
模型的速度,在目标检测领域拥有最好的检测精度,是目前应用最为广泛的模型之一。
在Faster R-CNN模型中的特征提取阶段,VGG16模型是目前使用较多的训练网络。在网络深度方面,V
GG16网络相比之后出现的inception网络和深度残差网络而言层数太少,不能更好地提取高维度的特征,从而在特征提取上不占优势;在速度方面,VGG16网络的网络参数数量过多,占用了太多的内存和算力,严重影响模型的训练速度和检测速度;在模型结构方面,VGG16模型网络结构简单,无法解决训练中出现的梯度爆炸以及梯度消失的问题,从而严重影响模型的训练,以及最后模型的检测精度。
本文针对Faster R-CNN模型中的VGG16训练网络提取能力弱、检测速度慢等问题,对Faster R-CNN模型中原有的VGG16训练网络进行改进并进行实验,分别替换为inception、ResNet50以及ResNet101[13]等CNN网络模型,在遥感卫星图像飞机、车辆、水箱和操场等数据集上进行训练并进行对比实验。实验结果表明,本文中提出的新模型相比传统模型,在多种遥感目标上都具有识别精度高和识别速度快的优势。
1Faster R-CNN网络模型构建
Faster R-CNN将目标检测所需的候选区域生成、特征提取、分类器分类以及回归器回归整合到一个深度神经网络框架上运行,并且全部运行在GPU上,与Fast R-CNN相比,Faster R-CNN最大的优势就是提出了区域建议网络(Region Proposal Networks,RPN),用来生成高质量建议区域框。RPN 的出现取代了Fast R-CNN中的选择性搜索(Selec-tive Search,SS)方法。
Faster R-CNN模型整体构造如图1所示。
Faster R-CNN由4个部分组成:
1)卷积神经网络,用于提取图片的特征,输入为整张图片,经过CNN网络前向传播至最后共享的卷积层,一方面得到供RPN网络输入的特征图,另一方面继续前向传播至特有卷积层,产生更高维特征图;
2)RPN网络,用于推荐候选区域;
3)感兴趣区域池化层(Region of Interest pool-ing,RoI pooling),将不同大小的输入转换为固定长度的输出;
4)分类和回归,这一层输出候选区域所属的种类,以及候选区域在图像的精确位置。
1.1RPN网络
RPN网络是Faster R-CNN组成的一部分,是目前最先进的建议框提取算法。RPN网络的输入为一张任意大小的图片,输出为一系列矩形的目标建议选择框。特征图在RPN网络与训练网络之间是共享的,这样可以大大缩短提取过程的时间,加快运行的速度,并节约大量的内存和计算力。
RPN的核心机制在于使用全卷积网络(Fully Convolutional Network,FCN)产生建议区域,其本质是基于滑动窗口的无类别目标检测器。RPN独有的锚点(anchors)机制和边框回归机制可以得到多尺度
的建议区域,并通过采用anchors来解决边界框列表长度不定的问题,即在原始图像中统一放置固定大小的参考边界框。不同于直接检测目标的位置,RPN将图像转化为两部分解决:对每一个an-chor而言,anchor是否包含相关的目标,以及如何调整anchor以更好地拟合相关的目标。
Anchor的机制是:预训练网络卷积层的最后一层特征图上的每一个像素映射回原图,并以该点所在区域的感受野中心为基准点,生成k种不同缩放比例和宽高比的anchors,其面积大小分别为1282、2562和5122,每种面积又分成3种长宽比,长宽比分别为:1∶1、1∶2和2∶1。
RPN网络中的两个卷积层/全连接层,第1个卷积层将特征图中每个滑动窗口的位置编码成一个特征向量,然后传递到第2个卷积层;第2个卷积层输出两个特征向量,分别为对应的每个滑动窗口位置输出的k个区域得分,表示该位置的anchor 为物体的概率,这部分的输出特征向量长度为2×
k
图1Faster R-CNN网络模型
174
··
0734
(总第45-)
(每个anchor都对应有着正样本和负样本之分,即
物体的概率与不是物体的概率);以及k个回归后
的区域建议(框回归),目的是输出目标所在的精确
位置,一个anchor对应4个框回归参数,因此,框回
归部分的总输出特征向量长度为4×k。最后得到区
域建议的得分和回归建议框,输出到ROI池化层。
不是所有的anchor都用来训练,随机抽取128个正
样本和128个负样本进行训练。
1.2网络结构
Faster R-CNN目前提供了3种训练网络模型,
分别是ZF模型(小型)、VGG_CNN_M_1024模型(中型)和VGG16模型(大型),以对应不同的训练场合,其中最常用的是VGG16网络。但是VGG16网络训练速度缓慢,耗费大量的计算资源,而且在网络深度上只有16层,在抽象的高层次特征提取上不占优势。本文拟采用inception网络、ResNet50以及ResNet101来代替VGG网络进行特征的提取。
1.2.1inception网络
Inception网络模型的结构如图2所示,其中inception1模块和inception2模块的具体网络结构如图3和图4所示:
图2inception网络的基本结构
图3inception1模块的网络结构
Inception网络采用了模块化inception结构,方便增添和修改。Inception网络在多个不同尺寸的卷积核上同时进行卷积运算后再进行聚合,并使用1×1的卷积进行降维以减少计算成本。该实验使用的inception网络共使用了10个inception模块。原始输入图像为224×224×3和600×600×3两种。各个卷积层的卷积核大小不同,分别为7×7,3×3以及1×1,卷积后进行ReLU非线性激活函数。池化层采用maxpool和avgpool,池化核大小为3×3和7×7。最后的卷积层输出7×7×1024大小的特征图,RPN和Fast R-CNN共享这个特征图。
1.2.2深度残差网络
随着网络的深度变化,出现了训练集准确率下降和错误率上升的现象,即网络的退化现象。错误率升高的原因是网络越深,梯度消失的现象就越明显,在后向传播的过程中,无法有效地把梯度更新到前面的网络层,靠前的网络层参数无法更新,导致训练和测试效果变差。深度残差网络正是针对这种问题而出现的。
深度残差网络的基本单元如图5所示。
图5深度残差网络的基本单元结构
深度残差网络共有5种深度不同的网络结构,根据深度分别命名为ResNet18、ResNet34、ResNet50、ResNet101以及ResNet152,其中ResNet50和ResNet 101得到了广泛的应用。本文选择ResNet50和ResNet101深度残差网络模型作为Faster R-CNN的训练网络。
ResNet50的网络模型结构如下页图6所示。
该实验中的ResNet50网络共使用了16个残差单元,共50层。每个单元有3个卷积核,其大小分别为1×1,3×3以及1×1,如图5所示,卷积后进行ReLU非线性激活函数
。
图4inception2模块的网络结构
任江涛,等:基于训练网络的目标检测方法及应用
175
··
0735
(总第45-)火力与指挥控制2020年第4期
ResNet101网络的结构和ResNet50网络一致,ResNet101中残差单元共有33个。最后的卷积层输出7×7
×1024大小的特征图,同时输入到RPN 和Fast R-CNN 中。
2实验分析
2.1数据准备
实验采用的数据均来自西北工业大学的Yi Yang 等人的UCMerced_LandUse [14]数据集,以及武汉大学的Jingwen Hu 的AID [15]数据集,图像大小分别为256×256和600×600。拟选取飞机、汽车、水箱以及操场等4种类别进行实验。因数据样本太少,为防止出现特征不明显的情况,需要进行数据扩充的操作,采用几种常见的数据扩充方式进行操作:随机修剪、旋转变换、彩抖动、噪声扰动等。经过数据扩充,得到共计7891张图片,按照4∶1的比例将数据分为train set 和eval set 进行训练。
原始图像文件均为JPEG 格式,参照VOC2007数据格式,对原始图像进行处理和标注。原始图像的目标坐标信息为xml 格式的文件,使用工具labelImg 对图像标注,然后在同一个文件夹下生成同名的xml 格式的位置文件。共获得飞机目标6451个、汽车目标3645个、水箱目标5366个、操场目标1492个。2.2实验过程及结果
实验在windows10操作系统,anaconda3环境下进行,配置了NVIDIA GeForce GTX 1060的显卡,显存为6GB 。选择在TensorFlow 深度学习框架下进行实验。图片以及图片位置信息的xml 文件输入到Faster
R-CNN 中。分别使用inception 网络、ResNet50网络和ResNet101网络作为Faster R-CNN 的训练网络。迭代次数设置为60000次,学习率采取阶梯下降策略,初始值为0.002,40000步之后下降为0.0002。
训练得到的模型在WHU-RS19[16]数据集上进行测试,该数据集是来自武汉大学的遥感数据集,包含机场、桥梁等共计19种遥感目标,图片大小为600×600。共选取326张图片在训练得到的不同模型上进行测试。测试得到的检测效果如图7所示,图中分别为飞机、车辆、水箱以及操场的目标识别结果效果图,图中文字为该目标的类别名,数字为该类别的置信度。在3种不同训练网络下,针对不同遥感目标的识别精度的对比结果如表1所示。
通过比较表1可以看出,不同训练网络对于目
标识别精度的影响。与inception 网络相比,深度残差网络层数更深,而且深度残差网络的残差单元可以很好地解决深层次网络的退化问题和梯度消失、梯度爆炸的问题,因此,在4类目标上具有最高的识别精度。
本文给出了基于VGG16、inception 网络、ResNet 50和ResNet101的Faster R-CNN 模型在飞机遥感
目标类别Inception
ResNet50ResNet101
识别精度%
飞机93.6695.8397.14汽车92.3995.0696.23水箱92.7394.9395.87操场
86.49
88.64
90.27表1几种模型识别精度
对比
(d )水箱
图7目标识别结果效果图(a )飞机
(b )车辆
(c )操场图6ResNet50的网络模型结构
176··
0736
(总第45-)
表2VGG16与3种训练网络的精度对比识别精度%
识别精度%
VGG1692.87Inception 93.66ResNet5095.83ResNet101
97.14
识别速度/s
VGG160.23Inception 0.13ResNet500.18ResNet101
0.21
表3VGG16与3种训练网络的速度对比识别速度/s
数据集上的实验结果,不同训练网络下的识别精度
对比如表2所示,不同训练网络下的平均识别速度对比如表3所示。
在识别精度上,使用VGG16网络的Faster R-CNN 模型在飞机数据集的识别精度为92.87%,在4种模型对比中处于劣势,而使用层数最深ResNet101网络的Faster R-CNN 模型拥有最高的识别精度,达到了97.14%。
在识别速度上,使用inception 网络作为训练网络的Faster R-CNN 模型拥有最快的识别速度0.13s ,相比VGG16,inception 网络使用了特有的inception 模块结构,大幅度降低了参数数量,因而在速度上有很大的提升;相比VGG16,ResNet50和ResNet101在参数数量上有所减少,而且使用的shortcut 方法大幅度提升了计算效率,所以在识别速度上也有提升;相比inception 网络,ResNet50和ResNet101的结构更加复杂,具有更多的参数数量,因而在速度上不及inception 网络。
3结论
本文在TensorFlow 深度学习框架下,搭建了基于inception 网络、ResNet50网络和ResNet101网络作为训练网络的Faster R-CNN 模型,通过对高分辨率遥感图像中的4种特定目标进行识别,研究了不同训练网络对于识别结果的影响。实验结果表明,相比VGG16网络,inception 网络、ResNet50和ResNet101
在高分辨率的遥感图像数据集上均展示出了更好的识别精度和识别速度。在识别精度上,inception 网络不及ResNet50和ResNet101;在识别速度上,inception 网络优于ResNet50和ResNet101。今后将针对更加复杂的遥感目标以及小样本数据上的目标识别开展进一步的研究工作。
军事训练目的参考文献:
[1]王金传,谭喜成,王召海,等.基于Faster R-CNN 深度网
络的遥感影像目标识别方法研究[J ].地球信息科学学报,2018,20(10):132-140.
[2]赵冬,赵光恒,叶建设.航天遥感图像感兴趣区域的自动
提取方法[J ].无线电工程,2009,39(9):10-12.
[3]刘扬,付征叶,郑逢斌.高分辨率遥感影像目标分类与识
别研究进展[J ].地球信息科学学报,2015,17(9):1080-1091.
[4]戴陈卡,李毅.基于Faster RCNN 以及多部件结合的机场
场面静态飞机检测[J ].计算机应用,2017,37(S2):85-88.[5]周敏,史振威,丁火平.遥感图像
飞机目标分类的卷积神
经网络方法[J ].中国图象图形学报,2017,22(5):702-708.
[6]徐伟,陈彦彤,朴永杰,等.基于吉林一号遥感图像的星载
目标快速识别系统[J ].光学精密工程,2017,25(1):255-262.
[7]刘敦强,沈峘,夏瀚笙,等.一种基于深度残差网络的车型
识别方法[J ].计算机技术与发展,2018,28(5):48-52.[8]孟佳佳,王弢.基于深度残差网络的遥感数据分类[J ].数
字技术与应用,2019,37(1):99-101.
[9]周俊宇,赵艳明.卷积神经网络在图像分类和目标检测应
用综述[J ].计算机工程与应用,2017,53(13):34-41.[10]GIRSHICK R ,DONAHUE J ,DARRELL T ,et al.Rich fea-ture hierarchies for accurate object detection and semantic segmentation [C ]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition ,2014:580-587.[11]KRIZHEVSKY A ,SUTSKEVER I ,HINTON G E.Imagenet
classification with deep convolutional neural networks [M ].Cambridge :MIT Press ,2012:1097-1105.
[12]REN S ,HE K ,GIRSHICK R ,et al.Faster r-cnn :towards
real-time object detection with region proposal networks [J ].Advances in Neural Information Processing Systems ,2015:91-99.
[13]HE K ,ZHANG X ,Ren S ,et al.Deep residu al learning for
image
recognition
[J ].
arXiv
preprint
arXiv :
1512.03385,2015.
[14]YI Y ,SHAWN N.Bag-of-visual-words and spatial exten-sions for land-use classification [C ]//ACM Sigspatial Inter-national Conference on Advances in Geographic Information Systems (ACM GIS ),2010.
[15]XIA G S ,HU J ,HU F ,et al.AID :a benchmark dataset for
performance evaluation of aerial scene classification [J ].IEEE Transactions on Geoscience and Remote Sensing ,2016,55(7):3965-3981.
[16]LONG Y ,GONG Y ,XIAO Z ,et al.Accurate object localiza-tion in remote sensing images based on convolutional neural networks [J ].IEEE Transactions on Geoscience &Remote Sensing ,2017,55(5):2486-2498.
任江涛,等:基于训练网络的目标检测方法及应用177··
0737
发布评论