OCR(Optical Character Recognition,光学字符识别),是属于图型识别的一门学问。其目的就是要让计算机知道它到底看到了什么,尤其是文字资料。本文为您详细介绍OCR技术的发展、应用。
也许提到“OCR”,许多人都会觉得非常陌生,其实OCR是光学字符识别技术(Optical Character Recognition)简称,它是针对印刷体字符,采用光学的方式将文档资料转换成为原始资料黑白点阵的图像文件,然后通过识别软件将图像中的文字转换成文本格式,以便文字处理软件进一步编辑加工的系统技术。
看了这个概念,你可能会认为,这么深奥的一个技术和我肯定没有多大关系。不过你错了,就在你的身边,OCR技术的应用无处不在,而OCR也在时刻改变着你的生活……
OCR技术由来已久
1929年,德国的科学家Tausheck首先提出了OCR的概念,并且申请了专利。几年后,美国科学家Handel 也提出了利用技术对文字进行识别的想法。但这种梦想直到计算机的诞生才变成了现实。OCR的意思就演变成为利用光学技术对文字和字符进行扫描识别,转化成计算机内码。
在60~70年代,世界各国相继开始了OCR的研究,而研究的初期,多以文字的识别方法研究为主,且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例,1960年左右开始研究OCR的基本识别理论,
初期以数字为对象,直至1965至1970年之间开始有一些简单的产品,如印刷文字的识别系统,识别邮件上的,帮助邮局作区域分信的作业;也因此至今一直是各国所倡导的地址书写方式。
汉字OCR技术发展迅速
对于汉字的识别最早可以追溯到60年代。1966年,IBM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了1,000个印刷体汉字。
70年代以来,日本学者做了许多工作,其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000汉字的单体印刷汉字识别系统;80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平。
此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统。这些系统在方法上,大都采用基于K-L数字变换的匹配方案,使用了大量专用硬件,其设备有的相当于小型机甚至大型机,价格极其昂贵,没有得到广泛应用。
我国OCR技术自70年代才开始对数字、英文字母及符号的识别进行研究。
是什么同国外相比,我国的光学字符识别研究起步较晚。但由于我国政府对汉字自动识别输入的研究从80年代
开始给予了充分的重视和支持,经过科研人员十多年的辛勤努力,汉字识别技术的发展和应用,有了长足进步:从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率已达到了98%以上。
OCR的“三级跳”