人工智能及识别技术
本栏目责任编辑:唐一东
陈盈祾,潘玉霞
(三亚学院信息与智能工程学院,海南三亚572000)
摘要:古文字作为中国上下五千年以来的使用文字,记录了我国从古至今的文化发展历史,对于我国的历史文化研究具有
十分重要的作用。对古文字的识别能够将那些珍贵的文献材料转换为电子文档,便于这些珍贵文献材料的保存和传播。该文将深度学习中经典的卷积神经网络技术应用到古文字识别中,剖析了运用的卷积神经网络技术的原理结构,并阐述了系统在识别方面所运用的技术。
关键词:古文字识别;深度学习;卷积神经网络中图分类号:TP393
文献标识码:A
文章编号:1009-3044(2021)10-0207-02
开放科学(资源服务)标识码(OSID ):
1前言
古文字学——这一门古老但是却极其富有生命力的学科,在我们研究中国的古代历史以及文化中具有的十分重要的作用,它是打开古代历史文化宝库的一把钥匙。我国历经上下五千年,文化厚重繁多,经过历史变迁,无数的朝代都拥有独属于自己的文化,尤其是文字。文字最初的诞生传说是由于仓颉造字,后来随着历史演变,朝代更迭,文字慢慢进化。在殷商时期有了我们熟悉的甲骨文,这是我们目前见到的最早的,较系统的成熟的文字。再往后又进化出了金文,石鼓文,大小篆等。
目前,市面上现有的古文字识别系统可以根据用户所输入的简体汉字来查询出各个历史朝代对应的古文字。但是,这些古文字识别系统却仅仅能够根据简体汉字来查询古文字,而不能通过古文字来查询简体字或者形近字。而在考古方面出土文献的处理应用上,我们需要根据未知的古文字的字型来检视我们该文字已知的形近字及相关资料信息来辅助推断未知古文字的含义,例如:如果我们在某文物上发现刻有古文字,那我们如何快速的确定其是否为已知的古文字,抑或者我们又该如何快速地获取其
已知形似字及该形近字的相关资料信息以便于我们推测其含义呢?如果没有一种技术或者产品能够辅助解决这个难题,无疑会给古文字工作者的工作带来极大的不便,影响古文字研究工作的迅速开展。
除此之外,在我们日常古文字的学习上由于我们对于古文字的不了解,以至于我们甚至都不能识别部分简单的古文字,若我们对学习古文字有兴趣,我们甚至都不知道如何去查询,因为我们需要的辨认我们不认识的古文字,而目前的系统还未有这种功能,这将会对我们的兴趣产生极大的打击。所以我们打算设计一款古文字识别系统帮助人们更好的认识和识别古文字。
2系统简介
目前市面上的文字识别系统花样繁多,但是古文字识别系
统就较为稀少,而且几乎大部分的古文字识别系统都是基于简体汉字上的识别翻译从而出与该简体汉字相对应的各个朝代的古文字。但是,不论是从科研,也就是考古方面出土文献的处理应用上还是日常生活的汉语文学的学习上来说,更多的都是从未知的古文字入手去查询其简体汉字或形近字及其意思,而目前几乎没有基于此的应用。我们的古文字识别系统是基于手写古文字识别的识别系统,不同于别的古文字识别系统仅仅只能通过简体汉字来实现其古文字及其形近字的查。我们的古文字识别系统是建立在用户日常学习和研究需求上的,从用户需求出发,与用户形成良好的人机交互感受,并且能够具有较高的识别查正确率。
不同于较为简单的数字识别和常见的简体汉字识别,对于古文字识别来说,古文字的书写较简体汉字和数字来说更加的复杂,笔画也更加冗长,且某些象形文字会更趋近于图形而非汉字。由于没有统一的规范,古文字识别的复杂性也随之而增加。虽然目前的文字识别技术获得了较大的发展,但是由于历史和区域发展的不平衡以及古文字的不常用使得古文字识别当前的研究甚少。而且日常的古文字学习基本都为手写,手写的多样性毫无疑问会增加识别的难度。因此,古文字识别的困难主要表现在:
(1)缺乏成熟的手写样本库。手写样本库对于古文字识别有很重要的作用,这决定着古文字识别的效果。而目前古文字的研究方面几乎没有一个系统的已知古文字的整理库,很难到可用的古文字手写样本库。
(2)古文字字体字形变化较多,且没有统一的标准,不同的朝代书写的规则不同,体例和格式变化较多,增加了识别的难度。
3系统介绍
本系统可实现功能有识别大部分手写的古文字包括但不限于甲骨文,金文,小篆等,以及搜索与该古文字相近或者形似
收稿日期:2020-12-01
基金项目:2019年海南省国家级大学生创新创业训练计划项目,项目名称:古文字识别系统(项目号:201913892015)作者简介:陈盈祾,三亚学院信息与智能工程学院学生;潘玉霞,三亚学院信息与智能工程学院副教授。
207
未识别的网络Computer Knowledge and Technology 电脑知识与技术第17卷第10期(2021年4月)
本栏目责任编辑:唐一东
人工智能及识别技术的古文字,同时还可以识别部分简体字,用户可通过主界面的搜索栏来上传需识别的图,同时系统会输出识别结果及其相似字与形近字。
本系统的核心技术为卷积神经网络。最初的卷积神经网络是1987年由Alexander Waibel 等提出的时间延迟网络[1],其为一个隐含层是由两个一维的卷积核组成的用于语音识别方面的卷积神经网络。第一个二维卷积神经网络——平移不变人工神经网络是由Wei Zhang 提出,并且最终被其应用到医学影像的检测方面[2]。LeNet 最初的版本[3]同样于1988年被Yann LeCun 构建并应用与计算机视觉方面,其包含有两个卷积层和两个全连接层,共六万个学习参数,同时还与现代的卷积神经
网络在结构上十分相近[4]
。同年,YannLeCun 在LeNet 的基础上,与其合作者一起构建了更加完备的卷积神经网络LeNet-5并且在手写数字的识别方面中取得了成功。
卷积神经网络分别由数据输入层、卷积层、激励层、池化层、全连接层以及输出层组成。
(1)数据输入层
卷积神经网络的数据输入层主要是对原始图像进行预处理,其中包括去均值,归一化和PAC/白化。并且还可以处理多维数据,由于卷积神经网络在计算机视觉领域应用较广,因此输入数据一般为三维,即平面的二维像素点以及RGB 通道。与此同时,由于卷积神经网络使用梯度下降法进行学习,其输入特征需要进行标准化处理,这有利于提升卷积神经网络的学习效率和表现。
(2)卷积层
卷积层是卷积神经网络最重要的一个层次,功能是对输入的数据进行特征的提取,内部包含有多个卷积核。在这个卷积层有两个关键操作即局部关联和窗口滑动。神经元是神经网络最基本的构成单元,一个神经元模型由输入信号、权值、偏置、加法器和激活函数共同构成的。
卷积层内每个神经元都会与前一层的局部感受野相连接,这并不意味着这部分局部连接的神经元权值相同,而是意味着同一平面层的神经元权值共享,拥有相同程度的位移、旋转不变性。卷积层在对图
像进行卷积操作时可以理解为有一个滑动窗口把卷积和与对应的图像像素做乘积然后求和。感受野的扫描间隔为步长,当步长较大时,扫描边界特征可能会使得感受野“出界”,这时就需要对边界进行填充。而一个带有卷积核的感受野扫描生成的神经元矩阵就是特征图。当卷积核在工作时,会有规律地扫过输入特征,在感受野内对输入特征做矩阵元素乘法求和并叠加偏差量。
(3)激励层
激励层就是把卷积层的输出结果做非线性映射,而卷积神经网络常用的激励函数一般为ReLU(修正线性单元),梯度简单而且收敛快。
ReLU 函数具有单侧抑制,即输入是负值时都会变为0,而输入为正值的时候就为原值。这意味着全部的神经元不会在同一时间下被激活,这就使得网络会变得比较稀疏,最终使得计算效率变得特别高。但是当一个比较大的梯度流过ReLU 函数的神经元时就会导致这个神经元永久性的失活,并且不可逆,此后,这个神经元的梯度一直为0。
(4)池化层
池化层位于连续的卷积层中间,能够压缩数据和参数的量,在一定程度上可以防止过拟合,即若输入的是图像,那么池化层最主要的作用就是能够压缩图像。池化层压缩图像时拥有特征不变性,即图像
压缩时会过滤除去一些无关紧要的信息,从而留下一些具有尺度不变性特征的信息,这些特征时最能够表达图像的特征。池化层的池化操作还能够进行特征降维,即去除图像中没有太多用途或者有重复的冗余信息,而把最重要的特征给提取出来。池化层一般用Max pooling 和aver⁃age pooling 来进行池化操作,即选取局部区域的最大值或者平均值,其中用的比较频繁的就是Max pooling ,选取局部区域的最大值。
(5)全连接层
卷积神经网络中的全连接层就相当于前馈神经网络中的隐含层,每一层都是由许多神经元所组成的平铺结构,通常其位于卷积神经网络的尾部并且两层之间的所有神经元都是拥有权重连接的。
(6)输出层
输出层是卷积神经网络的最后一层,一般使用逻辑函数或归一化指数函数即softmax function 来对于图像分类问题输出分类标签。输出层会将上层输出的特征向量通过内部的分类器进行处理,最后输出分类标签。常用的分类算法有朴素贝叶斯分类算法、支持向量机算法、K 近邻近算法等。其中使用比较频繁的是softmax 和支持向量机算法。
4总结
深度学习身为机器学习的一个新的研究方向,近几年随着机器学习的飞速发展,深度学习技术也越来越先进和成熟,人们对于人工智能的热情也日渐增强。而机器视觉是通过机器将摄取到的目标转化成图像信号,可以说是相当于是人工智能领域的眼睛,也是该领域的一个重要研究方向。本文通过对于机器学习中深度学习的横向研究,选择了在机器视觉领域具有十分优秀效果的卷积神经网络来对我们的项目“古文字识别系统”展开纵向的研究。本文主要就我们课题所使用的卷积神经网络的发展与结构进行剖析,逐步展开卷积神经网络技术的使用,最终成功地完成了课题的研究任务。
参考文献:
[1]Waibel A.Phoneme recognition using time-delay neural net⁃works[C].Meeting of the Institute of Electrical,Information and Communication Engineers (IEICE).Tokyo,Japan,1987.
[2]Zhang W.Shift-invariant pattern recognition neural network and its optical architecture[C].Proceedings of annual confer⁃ence of the Japan Society of Applied Physics,1988.
[3]LeCun Y,Boser B,Denker J S,etal.Backpropagation applied to handwritten zip code recognition[J].Neural Computation,1989,1(4):541-551.
[4]LeCun Y,Kavukcuoglu K,Farabet C.Convolutional networks and applications in vision[C]//Proceedi
ngsof2010IEEE Interna⁃tional Symposium on Circuits and Systems.May 30-June2,2010,Paris,France.IEEE,2010:253-256.
【通联编辑:代影】
208
发布评论