李大华等:基于Y0L0v3网络的自然环境下青苹果检测与识别
〈〈激光杂志》2021 年第 42 卷第 1 期LASER JOURNAL(Vol.42,No. 1,2021)71
基于Y0L0v3网络的自然环境下青苹果检测与识别
李大华,包学娟,于晓,高强
天津理工大学电气电子工程学院,天津市复杂系统控制理论与应用重点实验室,天津300384
摘要:针对自然环境下青苹果目标与树叶颜相似导致检测与识别困难的问题,提出一种基于YOLOv3 网络的青苹果检测与识别方法。利用Y0L0v3网络检测出图像中的青苹果目标区域,对目标区域进行H SV和YU V颜空间分量下的阈值分割,选取青苹果目标提取效果较好的H、V和Y、U分量下的结果,通过形态学运 算去除不连通的小区域得到青苹果目标。实验结果表明:在单个果实、两个果实和多个果实图像中,H、V和Y、U分量下青苹果目标提取的真阳性率均值为90_ 12%,假阳性率为5.74%,其中Y U V颜空间下Y分量的青苹 果目标识别效果最好,真阳性率均值为93. 93%。
关键词:青苹果目标;YOLOv3网络;H SV颜空间;Y U V颜空间;形态学运算
中图分类号:TN291 文献标识码:A d o i:10. 14016/j.c n k i.jgzz.2021. 01.071
Detection and recognition of green apple in natural
environment based on YOLOv3 network
LI Dahua,BAO Xuejuan,YU X iao,GAO Qiang
Tianjin Key Laboratory for Control Theory & Applications in Complicated Systems,School of
Electrical and Electronic Engineerings Tianjin University o f Technology, Tianjin 300384, China
Abstract:Regarding the difficulty of detecting and recognizing the color sim ilarity between the green apple target and the leaves in natural environm ent,a green apple detection and recognition m ethod based on YOLOv3 network is proposed.The YOLOv3 network is used to detect the green apple target area in im age.The threshold segm entation un­der HSV and YUY color space com ponents in the target area is p erform ed,and the H,V and Y,U com ponents with better extraction effect of the green apple target are selected.Morphological operations remove the sm all areas that are not connected to get the green apple target.In the im ages of single fru it,two fruits and m ulti-fru its,the experim ental results show that the true average positive rate of green apple target extraction under H,V,Y,and U com ponents is 90. 12% ,and the false average positive rate is5. 74%.M eanw hil
e,the Y com ponent green apple target recognition in the YUV color space is the b e s t,and the true average positive rate is 93. 93%.
Key words:green apple ta rg e t;Y0L0v3 netw ork;HSV color s p a c e;YUV color s p a c e;morphological operation
i引言
青苹果因富含大量的维生素、矿物质和膳食纤
收稿日期2020-09-12
基金项目:天津市自然科学基金(N o. 18JCQNJC01000);天津市复杂系 统控制理论及应用重点实验室开放基金(N o. TJKL-CTACS-201907)
作者简介:李大华(1978-),男,副教授,硕士,主要研究方向为图形图 像处理、教学理论研究与实践。
通讯作者:于晓(1985-),男,副教授,研究方向为机器视觉与人工智 能。E-mail:***************维,具有极高的营养价值而深受人们喜爱。近年来青 苹果的种植面积不断扩大,研究开发青苹果自动采摘
技术具有重要意义,而青苹果的识别与定位是自动化 采摘的关键步骤。青苹果由于果实颜和树叶及树 干等颜极为相近,在自然环境下相较于红苹果具有 更加复杂的背景干扰,国内青苹果采摘主要依靠人工 实现,面对当前我国农业劳动力不足、人口老龄化和 迅猛增加的青苹果需求量的问题,实现青苹果的精确
李大华等:基于Y0L0v3网络的自然环境下青苹果检测与识别《激光杂志》2021 年第 42 卷第 1 期LASER JOURNAL(Vol.42 ,No. 1,2021) 72
检测和识别对于压缩劳动力成本、实现农业自动化、提升青苹果的市场竞争力具有重要的意义。
目前国内外在青苹果的检测与识别方面的研究 已经取得了一定的进展。廖崴等人[1]利用R G B颜 空间进行了 0TSU阈值分割和滤波处理,平均识别正 确率为88%。张春龙等人[2]采用归一化的g分量和 HSV颜空间中H、S分量为特征参数的支持向量机 和超绿算子为特征的阈值分类器组合的混合分类器,实现了绿苹果在近背景中的有效识别,平均识别 正确率为89. 30%。Nguyen等人[3]提出基于颜和 形状特征的红苹果和双苹果的检测与定位算法,应 用于果实图像实现了苹果目标的高精度和快速检测。Gan.H等人[4]提出了一种新的彩-热组合概率(CTCP)算法,有效地融合了彩图像和热图像中的 信息,可将潜在的图像区域分为水果类和非水果类,有效地改善了未成熟青果的检测。Sun.S等人[5]将 模糊集合理论与流形排序算法(FSMR)融合,选取特 定的查询节点对整个图像中的像
素进行排序,解决了 在相似背景区域(如树叶)中识别青苹果的困难。以上对自然环境下青苹果检测与识别方法都是基于传 统的检测与识别方法做了改进与提升。
近些年深度学习技术在目标检测领域快速发展,深度卷积网络可通过卷积核来获取图像的空间信息 和丰富且具有表征性的语义特征,相比于传统的阈值 法或模板匹配方法更具优势。在基于回归的目标 检测框架研究中,Y0L0和SSD检测算法在检测精度 和实时性都具有非常好的效果,但SSD检测算法对小 物体的检测效果不够理想[8]。而Y0L0v3在目标检 测精度和实时性均具有更好的效果。因此,提出深度 卷积网络 Y0L0v3( You Only Look Once v3)的青苹果 目标进行检测与识别。
首先在测试样本中标记出青苹果目标区域,再利 用标记后的青苹果样本训练Y0L0v3网络,最后在青 苹果目标区域结合H SV和Y U V颜空间及其各分 量信息,实现自然环境下的青苹果目标检测与识别。该方法检测与识别青苹果目标时准确度高,且算法运 行速度快,对实现青苹果的采摘自动化技术具有重要 的推动意义。
2青苹果目标检测
2. 1图像获取及选择
为实现青苹果图像的准确检测,选择青苹果中具有代表性的王林苹果为研究对象。采用Canon EOS 2
00D数码相机于9月下旬在北京御馨园苹果种植中 心进行图像采集。为保证青苹果样本的丰富性和多 样性,采集图像包括自然环境中无重叠遮挡、重叠遮 挡、顺光和逆光等多种情形下拍摄,相机与果实样本 间的拍摄距离为40 ~ 100 cm之间。共采集研究对象 600张,图像分辨率为3 984x2 656,图像格式保存为 JPEG。为了方便算法研究,将采集的图像统一裁剪为 640x480像素。所采集的样本图像中包括单个果实、两个果实和多果实图像,同时还有重叠、遮挡和有光 斑图像,通过对比所有样本图像,选择如图1所示的 包括遮挡、重叠和光斑等多种特征的样本图像进行算 法试验。
(a)单个果实图像(b)两个果实图像(c)多果实图像
图1自然环境下的青苹果
2.2检测流程
将采集到的600张自然环境下的青苹果图片随 机的选出400张作为训练集样本,将剩下的200张图 片作为测试集样本。首先采用Y0L0v3网络进行模 型训练,选择训练集中的300张图片作为训练子集,训练集中剩下的1〇〇张作为验证集。将训练集样本 中的青苹果目标利用Labeling工具箱进行手工标注,并将标记好的目标区域和图片分开命名生成对应的 标签文件,主要包括目标框的4个顶点坐标,文件格 式为xml。保存训练过程中验证集准确率最高的模型 作为最优模型,然后用最有模型对测试集样本进行检 测,将检测到的青苹果目标用方框标记,返回目标所 在边框的四角坐标值。保留目标框内信息,
框外部分 视为背景,在目标框内除了青苹果目标外,还有天空、土壤、树枝和树叶等背景干扰,为了去除背景干扰识 别青苹果目标,在目标框内通过H S V颜空间和YUV颜空间中的各分量信息对比,将各分量结果利 用阈值分割法对目标框内的青苹果目标进行识别,将 识别后的青苹果目标通过形态学运算去除目标区域 中的背景干扰得到最终的青苹果目标提取结果,算法 实现流程如图2所示。
Y 0L 0v 3网络结构中每次采样步长为2,包括一 次1倍下采样,一次2倍下采样,2次8倍下采样和一 次4倍下采样共5次下采样,网络结构如图4所示。
类型卷积信息
特征图大小卷积层卷积层
416x 416208x208
残差块卷积层256
3x 3/252x 52
卷积层
卷积层残差块128256
1x 13x 3
52x 52卷积层5123x 3/226x 26
卷枳层卷积层残差块2565121x 13x 3
26x 26
卷积层10243x 3/213x 13
卷积层卷积层残差块
5121024
1x 13x 3
13x 13
尺度3
尺度2
尺度1
r #n ]/i 卷积层[/|卷积层|t  t
1
YOLO 检澜
图4 Y 0L 0v 3网络结构
损失函数作为决定网络效果的重要参数,为了保 证得到在自然环境下青苹果目标快速准确的检测网 络,
在网络训练中需要不断地优化损失函数,使得损 失值不断减小,保证目标预测框、置信度和类别的误 差达到平衡。Y 0L C W 3的损失函数主要是由边界框中 心点(*,7)的预测误差、边界框的宽高(%/〇预测误 差、置信度误差和分类预测误差等4部分组成。 Y 0L 0v 3的损失函数为:
L 〇s s
= Ac o o r d  Y
,
Y ,
未识别的网络
^b J [ (^i  - ^)2 + (r ,- -
y 'i )2] +
i=0 j=0
A c o o r d  X  X  C  [ ( VV : - 以)+ (^/K
~ \
f^i  ) ] ~
S2
B
I  I /f [(^l 〇g (C ;)) + (1 -6i )l 〇g(l  -C i )]
i=0 j=0
A ^i  Z ^b ,[(^l 〇g (Ci ) + +
1=0 ;=0
(1 -^)l 〇g(l  -C \))]-S
2
m
[A (c )i 〇g (<p ,(c )) +
j  = 0
c e  classes
(1
-/>,(〇 )l 〇g (l
-P ,(C ))]
如式1所示,A _d 表示坐标预测的权重系数, 入™^为不包含目标的惩罚系数;S 2为特征图的划分维 度,B 表示每一个网格中所预测的目标框数量;参数
表示第i 个网格中第i 个目标是否检测该物体,检
(1)
图2青苹果识别流程图
2. 3 Y 0L 0 算法
TensorFlow 是基于DistBelief 进行研发的将复杂 的数据结构传输至人工智能神经网中进行分析和处 理过程的系统,拥有多层级结构,可部署于各类服务 器、PC 终端和网页并支持GPU 和TPU 高性能数值运 算,小到一部智能手机、大到数千台数据中心服务器 的各种设备平台均可顺利运行[9]。Kems 是为了支持 快速实践而对TensorFlow 进行再次封装的深度学习 库,可以作为TensorFlow 的高阶应用程序接口,进行 深度学习模型的设计、调试、评估、应用和可视化。
2015年由Redmon 等人[1°_11]提出Y 0L 0网络模 型Y 0L 0v 3网络在Y 0L 0算法的基础上做了巨大改 进,采用多尺度融合方式在特征图上进行类别和位置 预测,提高了目标检测的精确度和时效性,成为应用 最广泛的目标检测算法之一。Y 0L 0v 3使用基于残差 神将网络改进的Darknet -53网络作为特征提取器, Darioiet -53借鉴了残差单元的思想,残差结构将生成 的特征图与输人叠加起来,将叠加后的特征图作为新 的输人下一层,大量的残差模块组成Y 0L 0主体,减 小了梯度爆炸的风险,加强了网络学习能力[12]。残 差网络结构如图3所示。
Xrelu
|卷I 1、层丨
图3残差网络结构图
《激光杂志》2021 年第 42 卷第 1 期 LASER  JOURNAL (V 〇1. 42, No _ 1,2021)
73
74
《激光杂志》2021 年第 42 卷第 1 期 LASER  JOURNAL (Vol . 42, Na  1,2021)
测矽为i ,否则为〇,参数/r b j 与C 相反W 、
4和 < 均为预测值A  2、以、纪J 和3为实验真是
数据值。损失函数曲线如图5所示。
2.4青苹果目标检测结果
基于Y 0L 0v 3网络的自然环境下青苹果目标检 测中,修改网络模型参数得到最优网络模型,对网络 模型进行从单张到批量测试,最后生成检测结果文件 并保存。Y 0L 0v 3网络下青苹果目标检测结果如 图6所示。
图6 Y 0L 0v 3网络青苹果目标检测结果
3青苹果目标识别
示颜的明暗程度,亮度为0%时为黑,亮度为 100%时为白,介于0 ~ 100%之间时,则用来表示各 个颜的明暗程度[13_14]。R G B 颜空间与H SV 颜 空间的转换关系为:
60°x (^^mod6) U
#+2)
^
;
60°x (^^+4) ,C ^
B '
r 〇,C miI=05= A
;
I T ;—- C ma»
L  l
m a x
^C max;
(2)式中:/?' = ft /255,G ' = G /255 , B ,= B /255,Cm a x  =
max  W
'),Q  = min (/?,,C ',ZT),A  =
-C r a i 0
在青苹果目标区域中,青苹果目标和背景之间的差别 通过HSV 颜空间进行提取,根据HSV 颜空间图 像提取各分量信息并对比,最终选择青苹果目标提取 效果更好的H 分量结果和V 分量结果识别出目标区 域中的青苹果目标,如图7所示。
原图
通过Y 0L 0v 3网络,得到了自然环境中的青苹果
目标框,目标框能够标记出整幅样本图像中青苹果目 标所在的区域。目标框外均为天空、土壤、树枝和树 等背景,为了方便进行青苹果目标的识别,保留目标 框内的信息,将目标框外的背景用黑表示以避免目 标识别过程中形成干扰,减少了目标识别算法的运算 步骤,提升了算法对青苹果的识别速度。
H 分量
S 分量
V 分量
H 分量直方图
S 分量直方图
V 分量直方图
3.1 HSV 颜空间
HSV 颜空间能够直观地表达彩的明暗、调 以及鲜艳程度,便于进行颜之间的对比和情感传 达,在图像处理中得到广泛地应用。H (相)用来表 示颜的类别,其中红是〇°,绿是120°,蓝是
240°。S (饱和度)用来表示颜的鲜艳程度,灰的
饱和度是〇% ,纯粹的颜(比如大红(255,0,0)青
(0,255,255)等的饱和度是100%。V (亮度)用来表
H 分量提取结果
S 分量提取结果
V 分量提取结果
图7 HSV 颜空间目标提取结果
从青苹果目标区域的H SV 颜空间图可以看 出,在青苹果目标、光斑和树枝等背景均有明显的差 别。其H 、S 和V 3个分量图之间的区别,也充分体现
《激光杂志》2〇21 年第 42 卷第 1 期LASER JOURNAL(Vol.42,N〇. 1,2〇2丨)75
出了该空间相、饱和度和亮度信息,各分量直方图 中,不同分量的直方图信息差别明显,根据H、S和V 分量图的各分量信息提取苹果目标。H分量提取结 果中,青苹果目标提取受到光斑的影响,没有提取出 光斑区域所在的青苹果目标,同时目标区域中的树叶 背景仍然存在,但是H分量的提取结果很好地剔除了 树枝背景。S分量的提取结果中,青苹果目标的整个 光斑区域几乎都没有得到提取,同时背景中的树枝也 没有得到剔除,但是S分量的提取结果中树叶背景被 剔除。V分量的提取结果相对H和S分量而言,整个 青苹果的目标区域提取的十分完整,并没有受到光斑 的影响,虽然树枝背景没有被剔除,但是整体提取效 果较好。的目标提取效果较好,轮廓完整没有受到光斑的影响,但是目标区域
中的树叶和树枝背景仍没有实现完 全剔除,存在少部分的背景。U分量提取结果中,很 好地剔除了目标区域中的树枝和树叶背景,保留了青 苹果目标,但是部分青苹果目标区域被过度分割,导 致青苹果目标提取不完整。
4青苹果检测与识别结果与分析
4. 1YOLOv3网络结果
采用Y0L0v3网络对自然条件下的青苹果进行目标检测,将检测到的青苹果目标用矩形框标记出来。200张测试集中,198张被正确检测,2张检测失 败。该算法的正确检测率为99%,检测失败的图片如 图9所示。
3.2 Y U V颜空间
Y U V颜空间中Y代表灰度值,U代表蓝偏 量,V代表红偏量,是R G B颜空间的一种线性变 化[15],两者间的对应关系为:
r Y=0. 299R+0.587G+0. 114B
,U=-0. \47R-0.289G+0. 4365(3) ,V=0. 6\5R-0.515C-0. \00B (a)大面积光斑 (b)大面积遮挡
图9未检测成功的样本
提取YUV颜空间的中Y、U、V3个分量信息,利用不同分量信息提取的青苹果目标结果如图8所
Y分量 U分量 V分量
-
图8 YUV颜空间目标提取结果
v分量提取结果
在YU V颜空间中,V分量代表的是红偏量,由于试验对象是青苹果且目标区域中的背景也是绿 树叶,因此,V分量的提取结果完全是黑的,无法 提取辨别中青苹果目标。Y分量提取结果中,青苹果
未被Y0L0v3网络成功检测到的两张图片中,(a)图中青苹果目标由于受到光照的影响,在整个青 苹果目标的50%以上区域都是白的光斑,同时受到 青苹果目标上方的树叶遮挡,在青苹果目标中有大量 的阴影区域,青苹果目标受到复杂背景干扰的影响大,算法未成功检测目标区域。(b)中青苹果目标65%以上的区域被树叶遮挡,存在大面积的遮挡影响 并且图片整体光线较暗,导致算法未能成功检测
到目 标。其余198张样本无论是背光还是部分遮挡、重叠 的情况,利用Y〇LOv3网络均得到很好的检测效果,说明该算法在自然环境下对青苹果目标的检测具有 较好的检测效果。
4.2颜空间提取结果
HSV颜空间和YU V颜空间的不同分量下青 苹果目标提取效果各有优劣.H SV颜空间中H分 量和S分量下青苹果目标中的光斑区域未被识别,V 分量提取结果下青苹果目标保留完整,未受到光斑的 影响。YU V空间中,Y分量提取结果中青苹果目标保 留完整,U分量青苹果目标提取结果边缘存在过度分 割,V分量下青苹果目标分割结果为黑,目标和背 景都没有被识别,分割结果如图10所示。