第36卷第6期2022年11月
兰州文理学院学报(自然科学版)
J o u r n a l o fL a n z h o uU n i v e r s i t y o
fA r t s a n dS c i e n c e (N a t u r a l S c i e n c e s )V o l .36N o .6
N o v .2022
收稿日期:2022G03G15
基金项目:甘肃省自然科学基金(22J R 5R A 217)作者简介:徐成俊(1977G),男,甘肃白银人,教授,硕士,研究方向:大数据可视化技术㊁数据采集㊁网络技术.E Gm a i l
:g s x u c j @q q
.c o m.㊀㊀文章编号:2095G6991(2022)06G0064G05
基于P i x 2P i x 网络的水印去除
徐成俊1,陈怀圆2
(1.兰州文理学院数字媒体学院,甘肃兰州730010;
2.兰州交通大学电子与信息工程学院,甘肃兰州730070
)摘要:水印是一种保护版权的有效方法,广泛应用于计算机图像处理,比如图像水印检测㊁水印去除和反去除等方面.日常从互联网下载的图像,有些不美观且有版权,为了避免带有水印保护的图像版权,一般就丢弃不用或者通过P S 方法去掉水印继续使用,后者会造成一些不必要的麻烦.本文研究了P i x 2P i x 网络模型,利用H S V
颜空间技术去除图片印章,对需要检测的图像查其水印(印章)等,通过图像二值化㊁椭圆拟合㊁图像腐蚀模型和图像轮廓等方法进行检测,明确印章水印位置,实现水印的自动检测,最终利用P i x 2P i x 技术实现图像水印自动去除.实验结果证明,P i x 2P i x 网络可以自动去除印章.关键词:P i x 2p i x 网络;二值化;空间H S V 方法;水印中图分类号:T P 391.1㊀㊀㊀文献标志码:A
W a t e r m a r kR e m o v a l B a s e do nP i x 2p
i xN e t w o r k X UC h e n g Gj u n 1,C H E N H u a i Gy
u a n 2(1.S c h o o l o fD i g i t a lM e d i a ,L a n z h o uU n i v e r s i t y o
fA r t s a n dS c i e n c e ,L a n z h o u730010,C h i n a ;2.S c h o o l o fE l e c t r o n i c a n d I n f o r m a t i o nE n g i n e e r i n g ,L a n z h o u J i a o t o n g U n i v e r s i t y
,L a n z h o u730070,C h i n a )A b s t r a c t :W a t e r m a r k i n g i s a ne f f e c t i v em e t h o d t o p r o t e c t c o p y r i g h t ,w h i c h i sw i d e l y u
s e d i n a l a r g e n u m b e r o f c o m p u t e r i m a g e p r o c e s s i n g ,s u c ha s i m a g
ew a t e r m a r kd e t e c t i o n ,w a t e r m a r k r e m o v a la n da n t i Gr e m o v a la p p l i c a t i o n s .W a t e r m a r k h i g h l i g h t i n g i s p a r t i c u l a r l y i m p o r t a n t .S o m e i m a g e sd o w n l o a d e df r o mt h e I n t e r n e ta r eu g l y b u ta l s oh a v ec o p y r i g
h t .T oa v o i dt h e c o p y r i g h t o f i m a g e sw i t h w a t e r m a r k p r o t e c t i o n ,i t i s g e n e r a l l y d i s c a r d e do rr e m o v e db y P S m e t h o d t o c o n t i n u e t ou s e ,w h i c hw i l l c a u s es o m eu n n e c e s s a r y t r o u b l e l a t e r .I nt h i s p a p
e r ,t h eP i x 2P i xn e t w o r km o d e l i s s t u d i e d .T h eH S Vc o l o r s p a c e t e c h n o l o g y
i s u s e d t o r e m o v e t h e i m a g e s e a l ,a n d t h ew a t e r m a r k (s e a l )i s f o u n d f o r t h
e i m a g e t o b e d e t e c t e d .T h r o u g h t h e i m Ga g eb i n a r i z a t i o n ,e l l i p s e f i t t i n g m e t h o d ,i m a g e c o r r o s i o nm o d e l a n d i m a g
e c o n t o u rd e t e c t i o n ,t h e p o s i t i o n o
f t h e s e a l w a t e r m a r k i s c l a r i f i e d ,a n d t h e a u t o m a t i c d e t e c t i o n o f t h ew a t e r m a r k i s
r e a l i z e d .F i n a l l y ,t h eP i x 2P i xt e c h n o l o g y i su s e dt or e a l i z e t h ea u t o m a t i cr e m o v a l o f i m a g e w a t e r m a r k .E x p e r i m e n t a l r e s u l t ss h o wt h a tP i x 2P i xn e t w o r kc a na u t o m a t i c a l l y r e m o v et h e s e a l s .
K e y w
o r d s :p i x 2p i xn e t w o r k ;b i n a r i z a t i o n ;s p a c eH S V m e t h o d ;w a t e r m a r k ㊀㊀随着智能图像识别技术的发展,
二维码标识技术已经应用于发票的真假判别,公众通过二维码识别可以获取发票所记录的票面信息,这种技
术目前还没有大面积推广,很多单位的发票加载了二维码但票面信息不够完整,甚至有些单位的发票没有标识二维码.针对没有加载二维码信息
的票据,需要光学字符识别(O p t i c a lC h a r a c t e r R e c o g n i t i o n,O C R)[1]技术扫描票面信息以便提取我们需要的一些信息.水印技术也是纸质发票的组成部分,其目的是杜绝的出现.通常水印会使部分文字变得模糊,采用O C R技术扫描这些信息时,存在字迹模糊㊁信息重叠等影响文字效果情况.票据水印剔除和信息提取技术是研究者长期关注的重要技术问题,对此研究者从不同角度和层面提出了剔除图片水印的思路.赵永涛等[2]利用H S V颜空间阈值设置提取水印,通过图像灰度模型㊁二值化处理等技术实现图片水印剔除.季婧婧等[3]提出二次分割技术去除图片水印,先分割图片与水印,再分割图片与文字信息,将文字信息保留,实现水印的剔除.蒋冲宇等[4]使用M o b i l e N e tGS S D检测出图片水印的坐标位置,以矩形等形式标记出来,根据标记区域的颜信息提取图片水印㊁被水印影响的文字信息和原图文字信息,通过把水印遮挡的信息与原票据信息进行掩码叠加技术,实现图片水印剔除的效果.朱军民等[5]通过图像预处理提取水印图片区域,利用生成对抗网络G A N原理,设计两个生成器和判别器基于G A N网络模型来剔除水印.文中参考研究者们的科研基础和思路,采用P i x2P i x网络模型对日常一些票据信息进行水印剔除研究.
1㊀水印定位及去除
1.1㊀Pix2Pix使用UGNet网络结构
UGN e t网络是一种E n c o d e rGD e c o d e r模型, UGN e t按照自己特有的跳层连接进行训练,这与E n c o d e rGD e c o d e r模型是有区别的,而传统的G A N网络模型训练的所有信息在处理时都要经过输入㊁输出各个层,训练会增加时长.这种模型训练出来的图像剔除功能,都要经过输入和输出等复杂步骤进行转换,最终形成目标图片.在输入和输出图片过程中他们的结构大体相同,即这种模型在图片训练的输入和输出步骤中他们部分信息和网络结构基本可以共享,直接使用而不再进行信息转化.可以看出,G A N网络模型在处理图片信息训练时耗时耗力,造成资源浪费.对图像剔除时我们要调整其网络模型构造,尽量让其在输入和输出步骤中实现图片信息共享.E n c o d e rGD eGc o d e r与UGN e t对比情况如图1所示
图1㊀传统E n c o d e rGD e c o d e r与UGN e t对比
㊀㊀2015年UGN e t网络模型采用e n c o d eGd e c o d e 的结构正式提出[6],在图像分割方面的优势被多个深度学习领域使用,其结构如图2所示.这种网络架构主要优势在于运行环境中图像大小相同的编码和解码会自动连接,产生一个新的模型直接跳过后续比较复杂的训练过程,这样就形成了一个跳层连接(s k i pGc o n n e c t i o n s).针对UGN e t模型的图像信息特征分布和解码之后形成的掩码特征通过跳层进行连接,这样s k i pGc o n n e c t i o n s将分辨率较低的低层训练信息进行预留,在后续的训练中将图像部分信息利用跳层连接方式直接转化
图2㊀e n c o d eGd e c o d e的结构
1.2㊀水印坐标定位
文中以我们日常票据作为图像样本进行水印剔除,收集了近600张医保票据带水印的图片进行分析.P i x2P i x网络模型通过导入600多张票据信息作为原训练数据集,并且选用25%图片进行标记做测试数据集.做了标记的数据集没有对应原图水印的位置坐标,主要解决采集的原始数据标签化,研究思路是:采集600张数据集中的水印样本和数量,利用大量的模拟训练模仿票据中水印的印记,将模仿的某个水印处理到原图片且不与原水印重叠的区域,从而得到一个新的带水印图片.将新的水印位置和长方形进行掩码连接
56
第6期徐成俊等:基于P i x2P i x网络的水印去除
生成新的数据集,再将原始不带水印位置的图片产生新的标签数据集.
水印坐标定位主要有两方面作用:第一,获取水印样本时同时提取原始图片水印坐标位置;第二,利用P i x2P i x网络对图片水印进行训练时须与原图的位置相对接,到原图片水印的坐标位置.
按照水印定位作用采用H S V颜空间[7]获取票据图片的灰度区域,将获取到的灰度区域与原图片大小相同且背景为白的地图相重叠,然后将获取到的图片进行二值化㊁椭圆拟合[8]㊁图片腐蚀模型㊁图片轮廓检测等处理,形成的图片就是一个带有水印的二值化图,采用轮廓集检测算法提取该图的轮廓集,通过阈值规则挑选出原图水印集,最后按照正方形方法选择出水印的正方形坐标位置.
1.2.1㊀H S V提取灰度区域
水印坐标定位就是在原来票据图片上到水印的坐标位置,600个票据样本的数据集水印灰度都在正方形中,利用颜筛选模型将图片中包含水印的信息进行提取,按照其他模型和技术固定水印的图像坐标,应用H S V颜空间提取颜区域㊁调㊁饱和度及亮度等信息的取值范围如表1所列.
表1㊀H S V范围空间
名称调饱和度亮度
黑0~1800~2550~46
灰0~1800~4346~220
白0~1800~30221~255
红0~1043~25546~255
橙11~2543~25546~255
黄26~3443~25546~255
绿35~7743~25546~255
青78~9943~25546~255
蓝100~12443~25546~255
紫125~15543~25546~255
㊀㊀按照H S V取值范围设置图像的各类信息,按照一定的比例剔除其他配方颜特征,保留下来的灰度图像区域位置就是我们需要的信息.1.2.2㊀中值滤波和腐蚀操作
600个票据样本按照H S V颜范围空间剔除灰度以外的像素,票据图像就会形成一些灰度小点和残留噪声值,将其剔除后生成我们需要的图像,便于后期的水印信息训练.利用中值滤波剔除灰度小点和残留噪声值可以有效利用非线性图像信息处理技术和排序统计知识进行噪声值的剔除,其基本思路
是:将相邻图像像素按照灰度由小到大进行排序,数字图像序列一个点的值被相邻另一点的中央值置换为基于相邻灰度值的像素,使得各相邻像素的值接近实际值,并除去相邻的孤立噪声点[9].选取卷积核为9的中值滤波技术对图像噪声进行中值滤波,效果如图3所示
大学生毕业自我鉴定范文.
图3㊀中值滤波过滤噪声
㊀㊀消除噪声值后对图像的水印进行训练和检测,通常利用正方形图框绘制的灰度区域拟合算法检测水印,有时会把图像中一些字符或者汉字的形状也做成水印检测出来,这样形成多个水印坐标位置,对实际消除灰度小点起反作用,在正式检测水印区域时,我们只利用事先标注的正方形边框就可以了.所以,文中利用腐蚀算法,连接了图像灰度小点,应用正方形边框方法进行处理,剔除其他灰度小点从而形成一个大的检测区域.利用图像二值化和腐蚀算法训练出来的票据信息效果如图4所示
崔健为什么被禁
赵欣喻
图4㊀图像腐蚀
㊀㊀分析图4可知,票据图像原来属于二值化后的3个区域,经过图像相互连通,同时将附近的灰度小点应用腐蚀算法进行连通,就得到了3个大的正方形区域.
1.2.3㊀椭圆拟合和面积比值
票据信息图片通过图像腐蚀算法产生3个大的连通区域,有时也会存在多个连通区域,这主要取决于图片二值化产生灰度点的大小,可以采用
66㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀兰州文理学院学报(自然科学版)㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第36卷
一些算法统计出灰度小点的数量,利用H S V 取
值范围剔除这些灰度小点部分,剩余正方形区域就是一些水印大区域.然后对这些水印大区域利用形状拟合算法进行处理,即采用最小二乘法算法去拟合水印的图像信息,获取正方形㊁圆形的长轴㊁短轴或角度等位置信息,分析每个形状面积与水印之间的比例关系.利用H S V 颜空间设置计算水印真实的形状,以此来提取水印图像的具体位置,采用外接矩形算法分析出水印的外接形状.
2㊀水印去除
2.1㊀数据集增广
本文采用600多张票据图片作为P i x 2P i x 网络图像训练集,采用数据集增广思路确定了3560
张票据图片作为训练数据集.对这些票据信息利
用P S 技术加工之后得到有效的水印位置,实际票据信息通过扫描形成数据集,存在水印信息不清晰㊁倾斜㊁残缺㊁分辨率低等问题.对获取到的图像水印采用多种技术进行改变,随机选择几张训练图片进行分析,尤其对水印位置判断其与原图之间是否存在重叠.对这几张图像的水印位置与二值化㊁腐蚀算法得到的水印位置通过H S V 颜空间阈值的R G B 等通道值进行标定,取R G B
3个通道的最小值作为水印的坐标位置信息,
得到的水印训练数据集如图5所示.
得到水印图片的75%作为训练数据集,另外25%为测试数据集,
训练数据集和测试数据集互不重复,这也就适合实际应用中机器自动检测需要的数据,同时剔除了不需要的水印,更好地模拟现实训练场景
图5㊀水印数据集增广
2.2㊀Pix2Pix 网络去除水印基于P i x 2P i x 网络对上面得到的训练数据进
行水印剔除[10G11
].首先,利用P i x 2P i x 网络生成器
和判断器将水印图像传入生成器;再将产生的图像和水印图像有效连接之后作为伪测试样本移交到判别器中进行有序训练;最后将不带水印的图像和伪测试样本与实际训练样本移交到判别器进行训练,生成器和判别器的样本相互交替训练使之达到平衡值,进而达到生成器剔除图片水印的目的.
3㊀实验结果与分析
实验采用医保票据验证水印剔除的效果,训
练架构是T e n s o r F l o w 深度学习技术,硬件环境:操作系统为红旗L i n u x (64位),C P U 为英特i 5G
10351.00G H z 1.19G H z ,内存为16G B ,
显卡为英伟达M X 230,经过多次实验确定了训练权值,从中选取最优的一组训练值作为水印图像训练方案,生成器和判别器利用A d a m 优化器,经过100多次的训练,P i x 2P i x 网络生成器学习率为1.8∗10-5,学习衰减率为0.18,判别器学习率为10-4,学习衰减率为0.18,L 1系数为98.训练表明当生成器的学习率低于判别器的学习率时,水印图片剔除效果较好,其中生成器的损失率维持在10%左右,判别器的损失维持在0.38%左右.判别器和生成器的损失率如图6和图7所示,当模拟训7
6第6期徐成俊等:基于P i x 2P i x 网络的水印去除
练次数达到180000次时,
模型基本达到平衡
临沂2手车市场
.图6㊀
判别器损失率
图7㊀生成器损失率
㊀㊀上述训练方法与C G A N 模型训练效果相比,
C G A N 模型生成的图像背景颜和标签图像的背景颜反差比较大,而P i x 2P i x 网络处理背景颜和剔除水印的效果较好.虽然C G A N 网络和P i x 2P i x 网络都能对水印重叠覆盖的文字进行恢复,但是P i x 2P i x 网络恢复原图文字较为明显,两种网络对水印剔除整洁程度来说,C G A N 网络训练之后图像仍然会存在一些水印影子,P i x 2P i x
网络对水印图像的处理能力较强,不存在水印影子.上述实验结果表明,利用P i x 2P i x 网络训练水印图片㊁剔除水印信息具有较强的适应性.4㊀结论
文中首先对水印位置的确定和水印的剔除进
行了研究,进而利用P i x 2P i x 网络对图片中水印进行实际训练,以600张医保票据为例,采取水印区域定位,利用票据信息水印特征,通过H S V 颜空间阈值设置选取图像水印等信息,采用中值滤波技术㊁图像腐蚀算法㊁椭圆拟合技术选取票据
中不同地方的水印坐标区域.水印剔除采用文中采集的训练数据集,将数据集按照75%㊁25%分成两部分传送到P i x 2P i x 网络中,通过生成器和判别器进行多次相互训练,使两者达到平衡,从而到最优配置确立水印剔除的生成器.最后对
C G A N 网络和P i x 2P i x 网络进行验证对比,
证明P i x 2P i x 网络剔除图片水印效果较佳.参考文献:
[1]MO R I S ,S U E NCY ,Y AMAMO T O K.H i s t o r i c a l r e G
v i e w o f O C R r e s e a r c h a n d d e v e l o p
m e n t [C ]//P r o Gc e e d i n g s o f t h eI E E E ,N e w Y o r k :I E E E ,1992:1029G1058.
[2
]赵永涛,李志敏,王洪建,等.水印识别中的图像预处理研究[C ]//中国仪器仪表学会第六届青年学术会议,重庆:仪器仪表学报,2004:356G357.[3
]季婧婧,娄震.基于二次分割的银行票据彩水印的滤除[J ].现代电子技术,2014,37(22):5G9.
[4
]
蒋冲宇,鲁统伟,闵峰,等.基于神经网络的发票文字检测与识别方法[J ].武汉工程大学学报,2019,41
(6):586G590.
[5
]龚礼春,姚晔,唐观根,等.基于命名实体识别的医疗文本零水印方案[J ].密码学报,2020,7(5):643G654.
[6]I S O L AP ,Z HUJY ,Z HO U T ,e t a l .I m a g e Gt o Gi m a g
e t r a n s l a t i o n w i t h c o n d i t i o n a l a d v e r s a r i a l n e t w o r k s [C ]//I E E E C o n
f e r e n c eo nC o m p
u t e rV i s i o n &P a t Gt e r nR e c o g n i t i o n ,L a sV e g a s ,I E E E ,2016:238G247.[7]杨奇,吴云东,陈水利.基于H S V 颜空间的候选车
牌区域筛选[J ].集美大学学报(自然科学版),2013
(5):382G386.
[8
]安新源,周宗潭,胡德文.椭圆拟合的非线性最小二乘方法[J ].计算机工程与应用,2009(18):188G190.
[9]X I A O B OL I U ,Y U L I N Q I A O ,Y O N G HU A X I O N G ,
e ta l .C a s c a d ec o n d i t i o n a l g e n e r a t i v ea d v e r s a r i a ln e t s
f o rs p a t i a l Gs p e c t r a lh y p e r s p e c t r a ls a m p l e和班尼特一起攻克难关
g e n e r a t i o n [J ].中国科学(信息科学(英文版)),2020(4):81G96.[10]常佳,王玉德,吉燕妮.基于改进的U GN e t 生成对抗
网络的图像翻译算法[J ].通信技术,2020,53(2)
:73G80.
[11
]刘波.基于深度学习的图像可见水印的检测及去除方法研究[D ].哈尔滨:哈尔滨工业大学,2019.
[责任编辑:李㊀岚]
6㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀兰州文理学院学报(自然科学版)㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第36卷如何用qq邮箱发邮件