改进胶囊网络优化分层卷积的亚健康识别算法
利,邱存月,张凯鑫,张大波+,罗
辽宁大学信息学院,沈阳110036+通信作者E-mail:*************** 摘
要:针对传统卷积神经网络(CNN )为获得高准确率不断堆叠卷积层、池化层致使模型结构复杂、训练时
间长且数据处理方式单一的问题,提出改进胶囊网络优化分层卷积的亚健康识别算法。首先,对原始振动数据进行小波降噪和小波包降噪两种数据处理,更好地保留原始信号中对亚健康识别有用的信息;其次,CNN 采用分层卷积的思想,并行3个不同尺度的卷积核,多角度地进行特征提取;最后,将卷积核提取的特征输入到剪枝策略的胶囊网络中进行亚健康识别,改进的胶囊网络在保证准确率的同时加快亚健康识别时间,解决CNN 结构过于复杂以及识别效果不佳的问题。实验结果表明,提出算法识别准确率高且识别时间较少。
关键词:亚健康识别;卷积神经网络(CNN );胶囊网络;小波降噪;小波包降噪文献标志码:A
中图分类号:TP311;TP391
Optimized Layered Convolutional Sub-health Recognition Algorithm of Improved Capsule Network
ZHANG Li,QIU Cunyue,ZHANG Kaixin,ZHANG Dabo +,LUO Hao
College of Information,Liaoning University,Shenyang 110036,China
Abstract:Aiming at the problem that traditional convolutional neural network (CNN)continuously stacks convo-lutional layers and pooling layers in order to obtain high accuracy,resulting in complicated model structure,long training time,and single data processing method,a optimized layered convolutional sub-health recognition algorithm of improved capsule network is proposed.Firstly,the original vibration data are transformed by wavelet denoising and wavelet packet denoising to better retain the useful information in the original signal for sub-health recognition.Secondly,CNN adopts the idea of layered convolution,parallelizes three convolution kernels of different scales,and carries on multi-angle feature extraction.Finally,the features extracted by the convolution kernels are input into the improved capsule network with pruning strategy for sub-health recognition.The improved capsule network can not only guarantee the accuracy,but also accelerate the sub-health recognition time,thus the problems of too compli-cated CNN structure and
poor recognition effect are solved.Experimental results show that the proposed algorithm has high recognition accuracy and less recognition time.
Key words:sub-health recognition;convolutional neural network (CNN);capsule network;wavelet denoising;wavelet packet denoising
计算机科学与探索
1673-9418/2021/15(04)-0712-11doi:10.3778/j.issn.1673-9418.2004017
基金项目:国家自然科学基金(51704138)。
This work was supported by the National Natural Science Foundation of China (51704138).收稿日期:2020-04-08
修回日期:2020-06-10
Journal of Frontiers of Computer Science and Technology
张利等:改进胶囊网络优化分层卷积的亚健康识别算法
随着工业应用的不断发展,工厂设备都趋向大型化和智能化,安全问题一直备受关注。滚动轴承是旋转设备必不可少的关键性部件,由于其工作时间较长且工作负荷较大,不免会有零部件的损坏,轻则会影响工厂效益,重则会对操作者的生命安全产生一定损害。在医学上“亚健康”是形容一种带病的状态,因此,考虑到轴承故障也不是一瞬间形成的,可以借鉴医学上的“亚健康”状态表征轴承带病运行状态,处于这个状态的设备不会马上发生故障,但是继续运行下去而不更新零件就会带来严重的后果,因而对“亚健康”设备的健康状态监测很有经济意义和安全意义[1-4]。
鉴于人工智能学者不断对故障检测及诊断技术的钻研,轴承亚健康状态识别已经达到比较成熟的地步,且随着深度学习的发展,一种端到端的深度学习模型——卷积神经网络也被广泛应用于诸多领域。虽然有很多专家和学者将深度学习的知识应用到轴承的亚健康识别中,并取得较好的亚健康识别效果,但其仍处于发展阶段,需要不断地进行学习与探索[5-7]。
2019年国外两位学者在进行故障诊断时应用的基本模型都是卷积神经网络。韩国的Hoang等学者将一维振动信号转换为二维图像,利用卷积神经网络在图像分类中的优越性,取得了很好的识别效果,具有鲁棒性,忍受嘈杂环境的能力且不需要特征提取步骤[8]。Islam以卷积神经网络为基本模型,提出适应性较好的深度卷积神经网络,利用原始声发射信号的二维可视化来提供方位健康状态信息,用离散小波变换作为2D可视化工具,通过定义新的评估指标来精确表示每种故障情况,自动学习有用的轴承故障特征[9]。
虽然卷积神经网络(convolutional neural network,CNN)在一定领域取得了很好的效果,但是仍存在特征提取时一些神经元的标量活动降低,池化层会使具体的空间信息丢失等问题。2017年Hinton等人提出的胶囊网络解决CNN的问题[10],鉴于胶囊网络的优势,有很多故障诊断领域的专家也开始进行研究。
Zhu等学者将原始信号经过短时傅里叶变换把信号转换为二维图像,在动态路由胶囊网络的启发下,将二维图形输入到具有Inception模块和回归分支的新型胶囊网络,胶囊的长度即为对应的故障类别,另外的两个分支,一个用最长胶囊来回归胶囊的损伤大小,另一个分支重建输入图,实验表明提出的模型泛化能力很强,且识别结果准确率较高[11]。Chen 等学者提出随机delta规则的深胶囊网络,目的是克服使用原始振动信号带来工作负载变化和噪声影响的挑战,其提出的模型具有很深的结构,无需池化操作的一维卷积层可提取更高级别的特征并扩展胶囊的接收区域,输入为原始的振动信号,且将噪声注入到第一宽层中以用来提高抗噪声的能力,实验表明这种方法在负载不同的情况下也达到了非常高的精度[12]。
上述相关研究学者为获得高准确率设计深度卷积神经网络,模型结构深且复杂,而使用胶囊网络的学者对胶囊内部特征冗余没有提出解决的方法,因而在国内外相关学者现有研究的基础上,本文提出改进胶囊网络优化分层CNN的亚健康识别模型,将原始振动数据经过小波降噪和小波包降噪后输入到分层CNN中进行特征提取,然后输入到改进胶囊网络中进行亚健康识别,减少胶囊向量中的特征冗余,
提出的模型在保证识别准确率的同时加快了亚健康的识别时间。
1相关理论基础
1.1卷积神经网络
卷积神经网络(CNN)是由YannLeCun在1989年提出的,最开始是应用在手写数字的识别,而后广泛地应用在图像处理领域,由于其不需要进行特征提取的预处理,输入原始图像就可以直接输出结果,因而被广泛使用,这种处理模式也被称作是一种“端到端”的处理模式[13-14]。简单的CNN结构示意图如图1所示。
典型的卷积神经网络体系是由卷积层、池化层、全连接层构成的,不同种类的层扮演者不同的角。卷积层是CNN的最主要的模块之一,使用卷积核对输入信号的局部区域进行卷积操作,利用卷积核的滑动操作来卷积整个上一层的输入数据,在进行卷积操作的时候,最重要的一点是权重共享。卷积过程可以用式(1)表示:
X l
j=f
æ
è
ç
ö
ø
÷
i=1
N
x l-1
i∙k l ij+b l j(1)
其中,N是在第l-1层的卷积核树,x l-1
i
是卷积核的
输入,X l
j
是卷积核的输出,k和b是对应卷积核和偏差,f()是非线性激活函数,用来通过非线性操作提高特征的表达能力。
713
Journal of Frontiers of Computer Science and Technology 计算机科学与探索2021,15(4)
池化层用于减少网络的参数并实现平移不变性,最常用的池化函数有均值池化和最大池化[15]。均值池化就是将卷积核内部的均值作为输出值,而最大池化就是将卷积核内部的最大值作为输出值,公式分别如式(2)、式(3)所示:
p i l +1(j )=1w ∑t =(j -1)w +1
jw
a i l (t )
(2)p i l +1(j )=max (j -1)w +1≤t ≤jw
{a i l (t )}(3)
其中,w 为池化宽度,p i l +1(j )为第l +1层神经元对应的值,a i l (t )为第l 层中第i 个特征面内第t 个神经元的激活值。
全连接层用于分类。具体操作是:首先将前一层的神经元展成一维特征向量,然后将输入与输出进行全连接[16]。
1.2胶囊网络
胶囊网络(capsule network ,CAPSNET )主要有卷
积层、主要帽层、数字帽层、解码器,在胶囊网络中应用一种名为动态路由的算法来不断更新参数[17-18],其模型图如图2所示。
胶囊网络的结构包括四个部分[19-22]
(1)卷积层:就是对输入的数据进行简单的处理以提取特征,卷积的公式如式(1)所示,胶囊网络的卷积操作与卷积神经网络的卷积操作类似。
(2)主要帽层:作用是将不同的特征化分为向量值胶囊,该层可以捕获输入的实例化参数,用公式可以表示成式(4):
u l (i ,j )
=f s æè
çççççç
çççç
öø÷÷÷÷÷÷÷÷÷÷f a ()z
l (i ,j )1
f a ()z l (i ,j )2⋮
f a ()
z l (i ,j )m
=f s æèççççççççççççö
ø÷÷÷÷÷÷÷÷÷÷÷÷f a æèöøK l 1i ∙x l (r j )f a æèöøK l 2i ∙x l (r j )⋮f a æè
öøK l mi ∙x l (r j
)(4)
其中,u
l (i ,j )
是主要胶囊,f a (z l (i ,j )
m )是卷积层的激活输
出,并且f s 表示“挤压”功能。
(3)数字帽层:这一层主要应用压缩和动态路由,在进行一次“挤压”操作和三次动态路由算法后,将结果输出到分类中。
由于胶囊是由长度表示概率的,那么就要将其压缩在0-1范围内,因而有“挤压”函数如式(5)所示:
v j =
||s j ||2
1+||s j ||2s j
||s j ||
(5)
其中,s j 是“挤压”函数的输入,v j 是“挤压”函数的输出。通过“挤压”函数可以将长度挤压在0-1之间,且s j
||s j ||表示方向,||s j ||21+||s j ||2
表示缩放倍数,因此可以很好地保存方向特征到更高级别的胶囊。
动态路由是一个不断更新的过程,有:
s j =∑i
c ij u j |i
(6)
其中,u j |i 是预测向量,c ij 是耦合系数,
且有∑i
c ij =1。耦合系数由Softmax 函数确定:
c ij =
exp(b ij )∑j
exp(b ij )
(7
Fig.2
Schematic diagram of capsule network 图2
胶囊网络示意图
Fig.1Schematic diagram of CNN 图1
CNN 示意图
714
张利等:改进胶囊网络优化分层卷积的亚健康识别算法
其中,b ij 是预测的u j |i 与高级胶囊s j 耦合对数先验概率。
u j |i =W ij u i
(8)
其中,
u i 是第i 个输入胶囊,W ij 是权重矩阵。b ij 公式如式
(9)所示:b ij ←b ij +u j |i ∙v j
(9)
其中,
u j |i ∙v j 对应于胶囊u j |i 和v j 之间的对数似然。以上式(5)到式(9)就是动态路由更新的过程,完成动态路由过程也即完成了两个胶囊层之间的参数更新。
(4)分类层:用于对最后输出结果进行分类。
2改进胶囊网络优化分层CNN 的亚健康识别模型
2.1
多输入数据处理
传统输入信号的降噪处理都仅仅是采用单一的
小波变换、傅里叶变换、快速傅里叶变换等,而本文采用两种数据降噪处理方式,即小波包降噪和小波降噪。根据学者研究了解到小波变换、小波包变换分别对信号中的低频信息、高频信息提供自己独有的精细分解,保留相应的部分[23]。因此对原始信号采用两种降噪处理方式,分别输入到卷积层中训练,解决单一降噪算法导致的亚健康识别信息丢失问题,更好地保留原始信号中有用信息,为之后的多层卷积操作特征提取做准备。
小波变换的主要过程是分析和综合,通过分析过程进行信号分解获得近似信号和细节信号,近似信号是主信号较低分辨率的近似值,细节信号确保可以通过合成过程回复高分辨率信号。而小波降噪的过程就是先进行小波分解,分解为近似信号和细节信号,然后进行降噪处理,最后恢复成降噪后的振动信号,完成降噪的处理[24-25]。具体包含以下3个步骤:
(1)信号分解:选择合适的小波基函数和分解层数,通过小波变换将原始信号进行分解,可以得到相应的近似系数(即信号中的低频部分)和详细系数(即信号中的高频部分)。
(2)阈值降噪:对于分解得到的高频信号,选择合适的阈值,对高频部分进行量化处理,也即降噪处理。
(3)信号重构:通过执行逆小波变换从分解的最低层到第1层,将量化后的高频信号和未处理的近似信号进行重构,得到降噪处理后的信号。
在进行阈值降噪时,一般选择的处理方式有两种,即软阈值和硬阈值,公式分别如式(10)和式(11)所示:w i ,k ′=ìíî
w j ,k ,|w j ,k |≥λ
0,|w j ,k |<λ(10)
w i ,k ′=ìíî
sign(w j ,k )×(w j ,k -λ),|w j ,k |≥λ0,|w j ,k |<λ(11)
其中,w i ,k ′是w j ,k 的降噪版本;
sign(∙)是符号函数;λ是阈值。
这两种方法都是在实践中被广泛使用的降噪方法,虽然经过软阈值处理后的降噪次信号整体连续性更好,但是会产生一定的偏差,甚至会影响重构信号的真实性,而硬阈值处理后的信号虽然不具有原始信号的平滑性,但是其在均方差方面要优于软阈值,为了保证降噪后的信号更加贴近原始的振动信号以及误差小,最终选取硬阈值法。
小波包降噪的过程跟小波降噪的过程类似,对高频信号进行降噪,最终执行小波包逆变换得到降噪后的信号,此处不再赘述。
2.2分层CNN
传统的卷积神经网络为获得更高精度,不断地
堆叠卷积层、池化层,从而使网络结构十分复杂、训练时间长、网络结构深,且池化操作会迫使失去所有位置等有关信息的数据,导致最终诊断结果不准确。因此提出适合一维振动信号的一维分层卷积神经网络,且在模型中减少池化层的使用,会尽量保留位置等有关信息的数据,其结构如图3所示。
从图3中看到,分层卷积的前一层为正常卷积层的输出,分层卷积共有3层,设计的卷积核大小分别为1×1、3×1、5×1,这样做的目的是既可以多尺度、多角度地提取信号中有用的信息,同时由于并行操
作,
又可以减少训练时间。
Fig.3Layered CNN 图3
未识别的网络分层CNN
715
Journal of Frontiers of Computer Science and Technology 计算机科学与探索2021,15(4)
2.3改进的胶囊网络
胶囊网络是模仿人类视觉系统的很有发展前途
的架构,而最开始提出胶囊网络的目的就是解决卷积神经网络不能很好地根据部分与整体的关系来识别最终结果的缺点。与卷积神经网络相比,胶囊网络更加遵循人类的常识,输出的识别结果也更加符合人们的预期。但是胶囊网络也不是十分完美的,一直以来的问题是受大量参数学习的困扰,会使胶囊网络更新参数十分慢且计算成本高,占用大量内存,从而那些对内存资源少或延迟要求严格的应用程序中就不是十分适用,这也是限制胶囊网络发展的原因[26]。
针对胶囊网络更新参数费时的问题,提出剪枝机制。为节约不必要参数的计算,也即低层与高层胶囊想要表达东西不一致的时候,耦合系数就会变得很小,当耦合系数小于一定阈值的时候,可以认为低层胶囊与对应的这个高层胶囊表达的东西完全不一致,在之后的动态路由策略中就不必要花费时间在二者更新的参数上,因此采用剪枝策略。c ij 剪枝示意图如图4所示。
假设c 12的值小于阈值,就进行剪枝操作,同时相
应的权重矩阵中w 12值被置为0,此后的反向传播进行参数更新时就不再对其值进行更新,得到权重修剪示意图如图5所示。
改进后动态路由的参数更新过程如算法1所示。算法1改进的动态路由算法
1.程序路由(u j |i ,r ,l )
2.初始化耦合系数对数c ij 。
3.for r iterations do :
4.if (c ij <threshold )
5.
c ij =0
6.else 对于在l 层的胶囊i 和在(l +1)层的胶囊j
c j |i =softmax(b j |i )
7.对于在(l +1)层的胶囊j :v j =Squashing æèçö
ø
÷
∑i c j |i u j |i 8.对于在l 层的胶囊i 和在(l +1)层的胶囊j b j |i =b j |i +u j |i ∙v j
改进的动态路由算法与原始的动态路由算法相比,只是增加判断语句,改进前后算法的时间复杂度均为O (n ),空间复杂度为O (1)。
2.4改进胶囊网络优化改进CNN 的亚健康识
别算法
综上所述,本文提出的改进胶囊网络优化分层
CNN 的亚健康识别模型如图6所示。
从图6可知,改进胶囊网络优化分层CNN 的亚健康识别算法可以看作是由两部分组成的:
第一部分以卷积神经网络为主要原型,为最大
限度地保留原始信号中有用的特征,设计两种数据降噪预处理方式,即小波降噪和小波包降噪,
然后数
Fig.6Sub-health recognition model of improved capsule
network optimized layered CNN
图6
改进胶囊网络优化分层CNN
的亚健康识别模型
Fig.4Pruning iteration diagram of parameter c ij
图4
参数c ij
剪枝迭代图
Fig.5
Pruning schematic diagram of parameter w ij
图5
参数w ij 修剪示意图
716