DIGITAL PRINTING    Tol.209    No.6  2020.12数字印刷  2020年第6期(总第209期)
RESEARCH  PAPERS
研究论文
收稿日期:2020-09-09    修回日期:2020-10-23
项目来源:陕西省烟草公司西安市公司基金项目(No.XYKJ-2018-02);西安市科技计划项目(No.2019217814GXRC014CG
015-GXYD14.18)
基于卷积神经网络的商品图像识别
刘 莹1,王晓宇1,徐卓飞2,喻 丹2,董晨曦3
(1.陕西省烟草公司 西安市公司,西安 710038;2.西安理工大学 印刷包装与数字媒体学院,西安
710048;3.北京金尚互联科技股份有限公司,北京 100191)
摘要 在无人零售与智能超市等新型商业终端环节中需要准确识别商品的种类等信息,但实际识别过程中往往会受到复杂背景、光照不均、角度距离等多种因素的干扰,对识别算法的泛化能力提出了更高要求。为解决上述问题,本研究利用深度学习中的卷积神经网络(CNN )模型对商品图像进行了系列识别研究,通过模型的自主学习特性和强泛化能力,实现复杂条件下的商品图像识别,主要内容包括:首先,以烟包图像为例,分析了商品图像识别在实际应用中存在的具体困难,通过改变环境背景、光照条件、拍摄距离、商品角度等条件采集了系列商品图像信息样本;同时,构建了双层卷积神经网络模型,在完成图像处理后开展了卷积与池化计算,获取了商品图像的多层次抽象化特征;进而,对获取特征集进行了全链接并集成了分类器,实现了复杂环境下商品图像的分类,对中间特征图像进行了抽取与分析;最后,将同样数据集输入BP 神经网络、RBF 神经网络、SVM 等进行了对比,在2组对比实验中最高识别准确率分别为90.48%和78.48%,明显低于CNN 模型的98.42%和98.52%。所提出方法可有效克服常见场景的因素干扰,在无人零售、智能超市、商品检测等领域具有广泛应用价值。
关键词 深度学习;商品包装;卷积神经网络;印刷图像识别
中图分类号 TS801.3; TP183                    文献标识码 A                    文章编号 2905-9540(2020)06-33-08DOI 10.19370/jki10-1304/ts.2020.06.005
Recognition of Commodities Images Based on the Convolutional
Neural Network
LIU Ying 1, WANG Xiao-yu 1, XU Zhuo-fei 2, YU Dan 2, DONG Chen-xi 3
(1. Xi’an Branch , Shaanxi Tobacco Company , Xi’an 710038, China ; 2. Faculty of Printing , Packaging and Digital Media Technology , Xi’an University of Technology , Xi’an 710048, China ; 3. Beijing Jinshang Internet Technology Co., Ltd.,
Beijing 100191, China )
Abstract  In the new business terminal links such as unmanned retail and intelligent supermarket, the types of goods and other information are needed to be recognized. However, in the actual recognition process, some strict requirements are put forward for the recognition algorithm due to various interference conditions such as complex background, uneven illumination, angle distance and others. In order to solve the problems above, a series of commodity image was recognized based on the convolution neural network in this work. Recognition for commodity images under complex conditions was realized with the self-learning characteristics and strong generalization abilities in deep learning. The main contents
34数字印刷2020年第6期(总第209期)
were as follow. Firstly, common cigarette packaging images were taken as recognition objects, and a series of samples were collected by changing the environmental background, lighting conditions, shooting distance, commodity angle and other conditions. Secondly, a two-layer convolution neural network model was constructed to realize the calculation of convolution and pooling, multi-level abstract features of commodity image were obtained. Then, the feature set was fully linked and a classifier was integrated to realize the classification of commodity images in complex environment, the intermediate feature images were also extracted and analyzed. Finally, the same data set was also input into BP neural network, RBF neural network and support vector machine. In these two groups of experiments, the highest recognition accuracy was 90.48% and 78.48%, which was obviously lower than 98.42% and 98.52% in the CNN model. The proposed method can effectively overcome the interference of common scenes, and has wide application value in many fields such as unmanned retail, intelligent supermarket and commodity detection.
Key words Deep learning; Commodity packaging; Convolution neural network; Recognition of print image
0引言
近年来,随着物联网和人工智能等新兴技术的迅猛发展,各类商品的生产制造、印刷包装、物流运输等环节的智能化程度得到有效提升,在提高生产效率的同时,也使得商品零售模式产生了巨大改变,以无人超市、新型零售为代表的智能销售平台正在快速发展普及[1-4]。
各类新零售模式及智能服务平台的不断发展,要求系统能精准识别出商品类型以完成销售服务,而商品信息识别技术是完成这一功能的基础[5-7]。在商品信息识别环节中,通常以图像信息识别为核心目标,许多学者在相关领域开展了广泛研究。在已有平台中,各类条码图像识别方法应用最多[8],但由于其在使用中会受到距离、光照、角度和背景等因素的影响,且对拍照有着相对严格要求[9-10],导致其应用范围难以继续扩展。
在图像识别方法中,纹理特征是商品图像识别的重要内容,它可以反映物体表面组织结构排列的重要信息以及它们与周围环境的联系[11],这类方法对于纹理鲜明的物体具有很好的效果;但由于商品包装的图像往往体现的是商业品牌内容信息,主要由实地块和Logo标识组成,不具备明显纹理特性,致使这类方法受制于模型的泛化能力而难以应用[12-13]。为了提升商品识别能力,张毅等[14]针对烟包码垛的复杂性和组合匹配的特性,设计了基于机器视觉的不规则烟包校对码垛系统,有效提取烟包角点特征,进而实现了烟包的识别匹配,该方法能够应用于各类自动化生产线,但是由于未考虑包装信息内容的差异化,仍不适用于商品品牌信息的识别[15]。目前商品识别的研究多集中在质量检测方面,主要针对印刷包装图像的缺陷进行筛选和剔除,其拍摄角度和光源相对固定,模型学习数据相对单一,
在应对复杂场景时其泛化能力不足,未能充分考虑零售终端识别[16]。卢振利等[17]设计了一种盒装香烟的识别与分拣系统,通过条码、字符、颜等多元信息识别实现了产品自动识别功能,该方法增加了信息类型,使得识别效果较好,但其多源信息类型的选择具有很强经验性,模型通用性会受到一定限制。通过以上内容,发现已有商品识别研究多在单一场景或特定工况下开展,虽然在特定和封闭的环境中具有较强识别能力,但普遍对各种背景因素干扰考虑不足,相关识别模型泛化能力有待进一步提升。
近年来,随着新零售、无人超市等各类应用场景的增加,商品识别技术逐步由环境相对简单的生产线和仓库转向日常生活场景,实际场景中的光线、背景、识别图像的角度、距离都会存在一定差异,识别难度大幅度提升,已有方法难以适应新的场景。因此,近年来具有更强学习泛化能力的深度学习模型得到重视[18],例如刘照邦等[19]提出一种基于深度神经网络的货架商品自动识别方法,对超市饮料商品进行了分析,有效获取了库存保有单位和
35
研究论文
刘 莹等:基于卷积神经网络的商品图像识别其中,*表示卷积操作,M j 代表特征图的集合,l 代表第l 层网络,k 代表卷积核参数,b 为网络偏置,l
j x 代表l 层输出,x j l -1表示l 层输入,f (·)为激活函数。
1.2 池化层
池化层包括最大池化层和平均池化层,其作用
主要是对提取的特征进行缩放映射,如果特征提取之后输出的特征图太大,使得计算量增大则会降低网络训练速度,进而需要产生过拟合现象,需要通过池化层进行降维加快卷积神经网络的训练速度。通过选取某一特定区域上特征值的最大值或平均值来代表当前特征值就是最大池化和平均池化。其神
经元的计算方法如式(2)所示。
其中,down (·)表示下采样函数,βj l 表示乘性
偏置。1.3 全连接层
经过卷积层和池化层得到的全部特征在全连接层进行整合,全连接层中的每个神经元与前一层的每个神经元进行连接,将特征整合到一起输出一个值,最终得到列向量,这样可以减少特征位置对分类的影响,全连接层和输出层对样本进行分类处理过程如式(3)所示。
其中,k 代表网络层的序号,y k 表示全连接层的输出,x k-1为特征向量,w k 是权重系数,b k 表示偏置项。1.4 构建CNN 网络
针对不同条件下采集的烟包图像,构建两层卷积神经网络进行特征抽取与商品图像识别研究,CNN 参数记录在表1中。模型输入为预处理后的训练集图像,图像尺寸为64像素×64像素;图像输入后进行两层卷积和池化运算,每次计算所采用的算子模板尺寸为3像素×3像素,图像在卷积和池化过程中逐渐减小尺寸并增加深度,选用最大池化层来
缩减模型的大小以加快计算效率,经过池化层2后图像大小为6像素×6像素,深度为64;最后通过全
(1)
(2)
(3)
()(
)
l
j l j
l
j l
j b x down f x +=−1
β()
k
k k b x w f y k
+=−1位置关系,虽然在检测复杂包装形态以及密集堆放商品时,算法性能有所下降,但仍反映出深度神经网络在提升模型通用性上具有明显优势。为了使商品图像信息识别模型能够应对各类复杂条件的干扰,本研究在深度学习理论基础上对商品图像识别进行研究,以复杂环境下的烟包识别问题为例,旨在获取具有较强泛化能力和通用性的识别方法,以实现基于小样本学习的商品信息分类目标,并克服光线、背景、角度、距离等因素干扰,为商品识别提供理论支撑和解决方案。
1 卷积神经网络
在深度学习方法中,卷积神经网络(Convolutional Neural Network ,CNN )与图像信息密切相关,故本研究依托CNN 理论开展。CNN 是深度学习模型中的一种重要前馈神经网络,主要分为前向传播和反向传播两部分,前向传播是指将数据输入到卷积神经网络中得到输出,反向传播是根据损失函数计算误差值,将误差传递至每一层,进而更新权重并优化神经网络。由于卷积运算在图像处理中具有良好的解析能力,因而CNN 在图像识别中应用广泛[20-21]。
CNN 既可以作为分类器使用,以实现各类图像的复杂模式识别;也可以获取图像中隐含的特征值,特征获取在很大程度上具有自主特性,不依赖于人工先验知识[22]。一个典型的卷积神经网络包括输入层、卷积层、池化层(下采样层)、全连接层以及输出层,可以有多个卷积层和池化层。1.1 卷积层
卷积层的作用主要是对输入的数据进行特征提取,其实质是多个滤波器的叠加,用卷积核与输入图像进行乘积,再加上偏置函数,通过激活函数激活,得出卷积之后每个神经元的输出结果。卷积层的数学模型如式(1)所示。
36
数字印刷2020年第6期(总第209期)
连接层将池化后数据连接并进行分类输出,全连接层将卷积层和池化层输出的所有局部特征重新通过权值矩阵重组图像;输出层的结果个数与商品种类相对应。
分类器为Softmax ,激活函数本次选取Relu 函数。在整个训练过程中计算量逐步减少,大部分神经元输出为0,网络稀疏性逐步增强。
2 商品图像识别
香烟作为特殊快销商品,对其开展新零售研究有利于烟草渠道管控和未成年人保护,但由于香烟包装尺寸接近且图像布局和颜具有很大相似性,其商品信息识别具有很大难度。故本研究以香烟包装图像为识别对象。2.1 图像采集
图像采集分为两组:第1组实验采用了单一背景,包含了距离、角度、光照等因素,烟包拍摄距离(镜头前端到烟盒表面的距离)分别为50mm 、100mm 、200mm ,用LED 点光源进行补光,商品局部存在不同程度的反光;第2组实验引入复杂背景模式以模拟不同场景中的识别效果,包括3种不同距离下的多种室内外场景,拍摄距离分别为100mm 、150mm 、200mm ,其光照条件由拍摄环境决定。
图1a 和图1b 分别为图像采集示意图。实验采集图片的详细情况记录在表2中。图像传感器选用IMX363,有效像素为4032×3024(1220万)像素,单位像素尺寸1.4μm ,采集图像为RGB 图像。
部分采集图像如图2所示:第1组实验进行不同距离、角度、光照的识别;第2组实验主要实现复杂背景下的识别。
表1 CNN 卷积层与池化层参数设置
Tab.1 CNN parameter settings of convolutional layer and pooling layer
卷积层1
池化层1卷积层2池化层2算子大小3×33×33×33×3输出形状
(62×62, 32)
(21×21, 32)
(19×19, 64)
(6×6, 64)未识别的网络
b.第2组
a.第1组
图1 香烟商品图像采集示意图
Fig.1 Schematic diagram of images collection of
cigarette products
表2 图像采集种类及数量
Tab.2 Types and quantity of image collection
编号商品种类拍摄距离每类商品图片数
图片总数13种3种60张180张2
10种
3种
90张
900张
在进行CNN 分析之前需要对两组图像进行灰度化和压缩处理,RGB 图像转换灰度图像如式(4)所示。
经过灰度化处理后,进一步将其压缩为64×64的8位灰度图像。若假设原图像大小为(m ,n ),压缩后图像大小为(a ,b )。则两幅图像的长宽比分别为m /a 和n /b 。对于压缩后图像的一个像素点(x ,y )而言,其对应坐标为(,)m
n
x y a b ××,按照新坐标进行插值,通过双线性插值方法实现重采样。2.2 实验结果分析2.2.1 商品种类识别结果
第1组实验中,训练集和测试集按照比例3∶7进行划分,选取每种品牌图片18张(合计54张)作为训练集用于建立模型;选取每种品牌图片42张(合计126张)作为测试集用以实际分类。第2组实验中,由于实验种类和场景较多,因此增加了训练
(4)
光源
相机
相机
拍摄距离200mm 拍摄距离200mm 拍摄距离100mm
拍摄距离150mm
拍摄距离100mm
拍摄距离50mm
位置1
位置1
位置2
位置2
位置3
位置3
单一背景
实际环境背景
Gray =R ×0.299+G ×0.587+B ×0.114
37
研究论文
刘 莹等:基于卷积神经网络的商品图像识别集的比例,训练集和测试集按照4∶6进行划分,训练集360张,测试集540张。
分类结果记录在表3中,CNN 在完成训练后,测试集正确率分别达到98.42%和98.52%。说明CNN 可以克服光照、距离和复杂环境等因素干扰,达到较高识别准确率,说明模型具有很强的泛化能力。
图3为图2a 中第一幅图像在卷积层和池化层中的
表3 CNN 识别结果
Tab.3 Recognition results of convolutional neural network
正确率(%)第1组第2组训练集100%99.14%测试集
98.42%
98.52%
输出。用多种不同的卷积核对图像进行卷积以得到不同卷积核上的响应,作为图像的特征,结果如图3a 和图3c 所示;对输入矩阵3像素×3像素的区域做
最大值池化运算,池化后特征如图3b 和图3d 所示。2.2.2 卷积特征图像分析
CNN 在进行卷积和池化过程中会提取出特征图像,它们具有抽象化特性,可以表征原图中的部分要素和结构,是网络识别的重要依据。图4和图5展示了部分两次卷积过程的中间特征图像。
由图4可知,烟包原始图像经过第1层卷积后的结果可以分为边缘信息和纹理信息两类:边缘信息仅保留了商品的边界信息,不同卷积核获取的边界各有侧重;纹理信息中淡化了背景与光照不均等因素的干扰,结果仍以商品主体为主,保留了大量细节和整体轮廓;此外,可以发现经过训练的卷积模型有效过滤了局部光照和复杂背景相关要素,突出了商品图像的核心区域。
图5为第2层卷积结果,由于期间经历了1次池
化计算,图像尺寸被大幅压缩,但同时形成了更为抽象的线条与纹理要素。图5的结果对边缘和纹理
b.池化层1
c.卷积层2
d.池化层2
图3 图像卷积与池化效果
Fig.3 Effect of image convolution and pooling
a.卷积层
1
b.第2组
c.所采用的10种商品类型
图2 香烟商品图像采集示意图
Fig.2 Schematic diagram of image collection
of cigarette products
a.第1
50mm
100mm 200mm
50mm
100mm
200mm
50mm 100mm
200mm
50mm
100mm 200mm
室内
户外
楼道