基于YOLOv3网络的自然环境下青苹果检测与识别

李大华等：基于Y0L0v3网络的自然环境下青苹果检测与识别

〈〈激光杂志》2021 年第 42 卷第 1 期LASER JOURNAL(Vol.42，No. 1,2021)71

基于Y0L0v3网络的自然环境下青苹果检测与识别

李大华，包学娟，于晓，高强

天津理工大学电气电子工程学院，天津市复杂系统控制理论与应用重点实验室，天津300384

摘要：针对自然环境下青苹果目标与树叶颜相似导致检测与识别困难的问题，提出一种基于YOLOv3 网络的青苹果检测与识别方法。利用Y0L0v3网络检测出图像中的青苹果目标区域，对目标区域进行H SV和YU V颜空间分量下的阈值分割，选取青苹果目标提取效果较好的H、V和Y、U分量下的结果，通过形态学运算去除不连通的小区域得到青苹果目标。实验结果表明：在单个果实、两个果实和多个果实图像中，H、V和Y、U分量下青苹果目标提取的真阳性率均值为90_ 12%，假阳性率为5.74%，其中Y U V颜空间下Y分量的青苹果目标识别效果最好，真阳性率均值为93. 93%。

关键词：青苹果目标;YOLOv3网络;H SV颜空间；Y U V颜空间；形态学运算

中图分类号:TN291 文献标识码：A d o i：10. 14016/j.c n k i.jgzz.2021. 01.071

Detection and recognition of green apple in natural

environment based on YOLOv3 network

LI Dahua,BAO Xuejuan,YU X iao,GAO Qiang

Tianjin Key Laboratory for Control Theory & Applications in Complicated Systems，School of

Electrical and Electronic Engineerings Tianjin University o f Technology, Tianjin 300384, China

Abstract：Regarding the difficulty of detecting and recognizing the color sim ilarity between the green apple target and the leaves in natural environm ent,a green apple detection and recognition m ethod based on YOLOv3 network is proposed.The YOLOv3 network is used to detect the green apple target area in im age.The threshold segm entation under HSV and YUY color space com ponents in the target area is p erform ed,and the H,V and Y,U com ponents with better extraction effect of the green apple target are selected.Morphological operations remove the sm all areas that are not connected to get the green apple target.In the im ages of single fru it,two fruits and m ulti-fru its,the experim ental results show that the true average positive rate of green apple target extraction under H,V,Y,and U com ponents is 90. 12% ,and the false average positive rate is5. 74%.M eanw hil

e,the Y com ponent green apple target recognition in the YUV color space is the b e s t,and the true average positive rate is 93. 93%.

Key words:green apple ta rg e t;Y0L0v3 netw ork;HSV color s p a c e;YUV color s p a c e;morphological operation

i引言

青苹果因富含大量的维生素、矿物质和膳食纤

收稿日期2020-09-12

基金项目：天津市自然科学基金（N o. 18JCQNJC01000)；天津市复杂系统控制理论及应用重点实验室开放基金（N o. TJKL-CTACS-201907)

作者简介：李大华（1978-)，男，副教授，硕士，主要研究方向为图形图像处理、教学理论研究与实践。

通讯作者：于晓（1985-)，男，副教授，研究方向为机器视觉与人工智能。E-mail:***************维，具有极高的营养价值而深受人们喜爱。近年来青苹果的种植面积不断扩大，研究开发青苹果自动采摘

技术具有重要意义，而青苹果的识别与定位是自动化采摘的关键步骤。青苹果由于果实颜和树叶及树干等颜极为相近，在自然环境下相较于红苹果具有更加复杂的背景干扰，国内青苹果采摘主要依靠人工实现，面对当前我国农业劳动力不足、人口老龄化和迅猛增加的青苹果需求量的问题，实现青苹果的精确

李大华等：基于Y0L0v3网络的自然环境下青苹果检测与识别《激光杂志》2021 年第 42 卷第 1 期LASER JOURNAL(Vol.42 ,No. 1,2021) 72

检测和识别对于压缩劳动力成本、实现农业自动化、提升青苹果的市场竞争力具有重要的意义。

目前国内外在青苹果的检测与识别方面的研究已经取得了一定的进展。廖崴等人[1]利用R G B颜空间进行了 0TSU阈值分割和滤波处理，平均识别正确率为88%。张春龙等人[2]采用归一化的g分量和 HSV颜空间中H、S分量为特征参数的支持向量机和超绿算子为特征的阈值分类器组合的混合分类器，实现了绿苹果在近背景中的有效识别，平均识别正确率为89. 30%。Nguyen等人[3]提出基于颜和形状特征的红苹果和双苹果的检测与定位算法，应用于果实图像实现了苹果目标的高精度和快速检测。Gan.H等人[4]提出了一种新的彩-热组合概率(CTCP)算法，有效地融合了彩图像和热图像中的信息，可将潜在的图像区域分为水果类和非水果类，有效地改善了未成熟青果的检测。Sun.S等人[5]将模糊集合理论与流形排序算法（FSMR)融合，选取特定的查询节点对整个图像中的像

素进行排序，解决了在相似背景区域（如树叶）中识别青苹果的困难。以上对自然环境下青苹果检测与识别方法都是基于传统的检测与识别方法做了改进与提升。

近些年深度学习技术在目标检测领域快速发展，深度卷积网络可通过卷积核来获取图像的空间信息和丰富且具有表征性的语义特征，相比于传统的阈值法或模板匹配方法更具优势。在基于回归的目标检测框架研究中,Y0L0和SSD检测算法在检测精度和实时性都具有非常好的效果，但SSD检测算法对小物体的检测效果不够理想[8]。而Y0L0v3在目标检测精度和实时性均具有更好的效果。因此，提出深度卷积网络 Y0L0v3( You Only Look Once v3)的青苹果目标进行检测与识别。

首先在测试样本中标记出青苹果目标区域，再利用标记后的青苹果样本训练Y0L0v3网络，最后在青苹果目标区域结合H SV和Y U V颜空间及其各分量信息，实现自然环境下的青苹果目标检测与识别。该方法检测与识别青苹果目标时准确度高，且算法运行速度快，对实现青苹果的采摘自动化技术具有重要的推动意义。

2青苹果目标检测

2. 1图像获取及选择

为实现青苹果图像的准确检测，选择青苹果中具有代表性的王林苹果为研究对象。采用Canon EOS 2

00D数码相机于9月下旬在北京御馨园苹果种植中心进行图像采集。为保证青苹果样本的丰富性和多样性，采集图像包括自然环境中无重叠遮挡、重叠遮挡、顺光和逆光等多种情形下拍摄，相机与果实样本间的拍摄距离为40 ~ 100 cm之间。共采集研究对象 600张，图像分辨率为3 984x2 656，图像格式保存为 JPEG。为了方便算法研究，将采集的图像统一裁剪为 640x480像素。所采集的样本图像中包括单个果实、两个果实和多果实图像，同时还有重叠、遮挡和有光斑图像，通过对比所有样本图像，选择如图1所示的包括遮挡、重叠和光斑等多种特征的样本图像进行算法试验。

(a)单个果实图像（b)两个果实图像（c)多果实图像

图1自然环境下的青苹果

2.2检测流程

将采集到的600张自然环境下的青苹果图片随机的选出400张作为训练集样本，将剩下的200张图片作为测试集样本。首先采用Y0L0v3网络进行模型训练，选择训练集中的300张图片作为训练子集，训练集中剩下的1〇〇张作为验证集。将训练集样本中的青苹果目标利用Labeling工具箱进行手工标注，并将标记好的目标区域和图片分开命名生成对应的标签文件，主要包括目标框的4个顶点坐标，文件格式为xml。保存训练过程中验证集准确率最高的模型作为最优模型，然后用最有模型对测试集样本进行检测，将检测到的青苹果目标用方框标记，返回目标所在边框的四角坐标值。保留目标框内信息，

框外部分视为背景，在目标框内除了青苹果目标外，还有天空、土壤、树枝和树叶等背景干扰，为了去除背景干扰识别青苹果目标，在目标框内通过H S V颜空间和YUV颜空间中的各分量信息对比，将各分量结果利用阈值分割法对目标框内的青苹果目标进行识别，将识别后的青苹果目标通过形态学运算去除目标区域中的背景干扰得到最终的青苹果目标提取结果，算法实现流程如图2所示。

Y 0L 0v 3网络结构中每次采样步长为2，包括一次1倍下采样，一次2倍下采样,2次8倍下采样和一次4倍下采样共5次下采样，网络结构如图4所示。

类型卷积信息

特征图大小卷积层卷积层

416x 416208x208

残差块卷积层256

3x 3/252x 52

卷积层

卷积层残差块128256

1x 13x 3

52x 52卷积层5123x 3/226x 26

卷枳层卷积层残差块2565121x 13x 3

26x 26

卷积层10243x 3/213x 13

卷积层卷积层残差块

5121024

1x 13x 3

13x 13

尺度3

尺度2

尺度1

r #n ]/i 卷积层[/|卷积层|t t

YOLO 检澜

丨

图4 Y 0L 0v 3网络结构

损失函数作为决定网络效果的重要参数，为了保证得到在自然环境下青苹果目标快速准确的检测网络，

在网络训练中需要不断地优化损失函数，使得损失值不断减小，保证目标预测框、置信度和类别的误差达到平衡。Y 0L C W 3的损失函数主要是由边界框中心点(*，7)的预测误差、边界框的宽高（％/〇预测误差、置信度误差和分类预测误差等4部分组成。 Y 0L 0v 3的损失函数为：

L 〇s s

= Ac o o r d Y

Y ,

未识别的网络

^b J [ (^i - ^)2 + (r ,- -

y 'i )2] +

i=0 j=0

A c o o r d X X C [ ( VV : - 以)+ (^/K

~ \

f^i ) ] ~

I I /f [(^l 〇g (C ；)) + (1 -6i )l 〇g(l -C i )]

i=0 j=0

A ^i Z ^b ,[(^l 〇g (Ci ) + +

1=0 ;=0

(1 -^)l 〇g(l -C \))]-S

[A (c )i 〇g (<p ,(c )) +

j = 0

c e classes

-/>,(〇 )l 〇g (l

-P ,(C ))]

如式1所示，A _d 表示坐标预测的权重系数，入™^为不包含目标的惩罚系数;S 2为特征图的划分维度,B 表示每一个网格中所预测的目标框数量；参数

表示第i 个网格中第i 个目标是否检测该物体，检

(1)

图2青苹果识别流程图

2. 3 Y 0L 0 算法

TensorFlow 是基于DistBelief 进行研发的将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统，拥有多层级结构，可部署于各类服务器、PC 终端和网页并支持GPU 和TPU 高性能数值运算，小到一部智能手机、大到数千台数据中心服务器的各种设备平台均可顺利运行[9]。Kems 是为了支持快速实践而对TensorFlow 进行再次封装的深度学习库，可以作为TensorFlow 的高阶应用程序接口，进行深度学习模型的设计、调试、评估、应用和可视化。

2015年由Redmon 等人[1°_11]提出Y 0L 0网络模型Y 0L 0v 3网络在Y 0L 0算法的基础上做了巨大改进，采用多尺度融合方式在特征图上进行类别和位置预测，提高了目标检测的精确度和时效性，成为应用最广泛的目标检测算法之一。Y 0L 0v 3使用基于残差神将网络改进的Darknet -53网络作为特征提取器, Darioiet -53借鉴了残差单元的思想，残差结构将生成的特征图与输人叠加起来，将叠加后的特征图作为新的输人下一层，大量的残差模块组成Y 0L 0主体，减小了梯度爆炸的风险，加强了网络学习能力[12]。残差网络结构如图3所示。

Xrelu

|卷I 1、层丨

图3残差网络结构图

《激光杂志》2021 年第 42 卷第 1 期 LASER JOURNAL (V 〇1. 42, No _ 1,2021)

《激光杂志》2021 年第 42 卷第 1 期 LASER JOURNAL (Vol . 42, Na 1，2021)

测矽为i ，否则为〇，参数/r b j 与C 相反W 、

4和 < 均为预测值A 2、以、纪J 和3为实验真是

数据值。损失函数曲线如图5所示。

2.4青苹果目标检测结果

基于Y 0L 0v 3网络的自然环境下青苹果目标检测中，修改网络模型参数得到最优网络模型，对网络模型进行从单张到批量测试，最后生成检测结果文件并保存。Y 0L 0v 3网络下青苹果目标检测结果如图6所示。

图6 Y 0L 0v 3网络青苹果目标检测结果

3青苹果目标识别

示颜的明暗程度，亮度为0%时为黑，亮度为 100%时为白，介于0 ~ 100%之间时，则用来表示各个颜的明暗程度[13_14]。R G B 颜空间与H SV 颜空间的转换关系为：

0°

60°x (^^mod6) U

心

‘

叫

#+2)

人

;

60°x (^^+4) ,C ^

B '

r 〇，C miI=05= A

;

I T ；—- C ma»

L l

m a x

^C max；

(2)式中：/?' = ft /255，G ' = G /255 , B ，= B /255，Cm a x =

max W

')，Q = min (/?，，C '，ZT)，A =

-C r a i 0

在青苹果目标区域中，青苹果目标和背景之间的差别通过HSV 颜空间进行提取，根据HSV 颜空间图像提取各分量信息并对比，最终选择青苹果目标提取效果更好的H 分量结果和V 分量结果识别出目标区域中的青苹果目标，如图7所示。

原图

通过Y 0L 0v 3网络，得到了自然环境中的青苹果

目标框，目标框能够标记出整幅样本图像中青苹果目标所在的区域。目标框外均为天空、土壤、树枝和树等背景，为了方便进行青苹果目标的识别，保留目标框内的信息，将目标框外的背景用黑表示以避免目标识别过程中形成干扰，减少了目标识别算法的运算步骤，提升了算法对青苹果的识别速度。

H 分量

S 分量

V 分量

H 分量直方图

S 分量直方图

V 分量直方图

3.1 HSV 颜空间

HSV 颜空间能够直观地表达彩的明暗、调以及鲜艳程度，便于进行颜之间的对比和情感传达，在图像处理中得到广泛地应用。H (相）用来表示颜的类别，其中红是〇°，绿是120°，蓝是

240°。S (饱和度）用来表示颜的鲜艳程度，灰的

饱和度是〇% ，纯粹的颜（比如大红（255,0,0)青

(0,255,255)等的饱和度是100%。V (亮度）用来表

H 分量提取结果

S 分量提取结果

V 分量提取结果

图7 HSV 颜空间目标提取结果

从青苹果目标区域的H SV 颜空间图可以看出，在青苹果目标、光斑和树枝等背景均有明显的差别。其H 、S 和V 3个分量图之间的区别，也充分体现

《激光杂志》2〇21 年第 42 卷第 1 期LASER JOURNAL(Vol.42，N〇. 1，2〇2丨）75

出了该空间相、饱和度和亮度信息，各分量直方图中，不同分量的直方图信息差别明显，根据H、S和V 分量图的各分量信息提取苹果目标。H分量提取结果中，青苹果目标提取受到光斑的影响，没有提取出光斑区域所在的青苹果目标，同时目标区域中的树叶背景仍然存在，但是H分量的提取结果很好地剔除了树枝背景。S分量的提取结果中，青苹果目标的整个光斑区域几乎都没有得到提取，同时背景中的树枝也没有得到剔除，但是S分量的提取结果中树叶背景被剔除。V分量的提取结果相对H和S分量而言，整个青苹果的目标区域提取的十分完整，并没有受到光斑的影响，虽然树枝背景没有被剔除，但是整体提取效果较好。的目标提取效果较好，轮廓完整没有受到光斑的影响，但是目标区域

中的树叶和树枝背景仍没有实现完全剔除，存在少部分的背景。U分量提取结果中，很好地剔除了目标区域中的树枝和树叶背景，保留了青苹果目标，但是部分青苹果目标区域被过度分割，导致青苹果目标提取不完整。

4青苹果检测与识别结果与分析

4. 1YOLOv3网络结果

采用Y0L0v3网络对自然条件下的青苹果进行目标检测，将检测到的青苹果目标用矩形框标记出来。200张测试集中，198张被正确检测,2张检测失败。该算法的正确检测率为99%，检测失败的图片如图9所示。

3.2 Y U V颜空间

Y U V颜空间中Y代表灰度值，U代表蓝偏量，V代表红偏量，是R G B颜空间的一种线性变化[15]，两者间的对应关系为：

r Y=0. 299R+0.587G+0. 114B

,U=-0. \47R-0.289G+0. 4365(3) ,V=0. 6\5R-0.515C-0. \00B (a)大面积光斑（b)大面积遮挡

图9未检测成功的样本

提取YUV颜空间的中Y、U、V3个分量信息，利用不同分量信息提取的青苹果目标结果如图8所

Y分量 U分量 V分量

图8 YUV颜空间目标提取结果

v分量提取结果

在YU V颜空间中，V分量代表的是红偏量，由于试验对象是青苹果且目标区域中的背景也是绿树叶，因此,V分量的提取结果完全是黑的，无法提取辨别中青苹果目标。Y分量提取结果中，青苹果

未被Y0L0v3网络成功检测到的两张图片中，(a)图中青苹果目标由于受到光照的影响，在整个青苹果目标的50%以上区域都是白的光斑，同时受到青苹果目标上方的树叶遮挡，在青苹果目标中有大量的阴影区域，青苹果目标受到复杂背景干扰的影响大，算法未成功检测目标区域。（b)中青苹果目标65%以上的区域被树叶遮挡，存在大面积的遮挡影响并且图片整体光线较暗，导致算法未能成功检测

到目标。其余198张样本无论是背光还是部分遮挡、重叠的情况，利用Y〇LOv3网络均得到很好的检测效果，说明该算法在自然环境下对青苹果目标的检测具有较好的检测效果。

4.2颜空间提取结果

HSV颜空间和YU V颜空间的不同分量下青苹果目标提取效果各有优劣.H SV颜空间中H分量和S分量下青苹果目标中的光斑区域未被识别，V 分量提取结果下青苹果目标保留完整，未受到光斑的影响。YU V空间中，Y分量提取结果中青苹果目标保留完整，U分量青苹果目标提取结果边缘存在过度分割，V分量下青苹果目标分割结果为黑，目标和背景都没有被识别，分割结果如图10所示。

基于YOLOv3网络的自然环境下青苹果检测与识别

发布评论取消回复

最近发表

热门文章

标签列表