什么是OCR

OCR（Optical Character Recognition，光学字符识别），是属于图型识别的一门学问。其目的就是要让计算机知道它到底看到了什么，尤其是文字资料。本文为您详细介绍OCR技术的发展、应用。

也许提到“OCR”，许多人都会觉得非常陌生，其实OCR是光学字符识别技术（Optical Character Recognition）简称，它是针对印刷体字符，采用光学的方式将文档资料转换成为原始资料黑白点阵的图像文件，然后通过识别软件将图像中的文字转换成文本格式，以便文字处理软件进一步编辑加工的系统技术。

看了这个概念，你可能会认为，这么深奥的一个技术和我肯定没有多大关系。不过你错了，就在你的身边，OCR技术的应用无处不在，而OCR也在时刻改变着你的生活……

OCR技术由来已久

1929年，德国的科学家Tausheck首先提出了OCR的概念，并且申请了专利。几年后，美国科学家Handel 也提出了利用技术对文字进行识别的想法。但这种梦想直到计算机的诞生才变成了现实。OCR的意思就演变成为利用光学技术对文字和字符进行扫描识别，转化成计算机内码。

在60～70年代，世界各国相继开始了OCR的研究，而研究的初期，多以文字的识别方法研究为主，且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例，1960年左右开始研究OCR的基本识别理论，

初期以数字为对象，直至1965至1970年之间开始有一些简单的产品，如印刷文字的识别系统，识别邮件上的，帮助邮局作区域分信的作业；也因此至今一直是各国所倡导的地址书写方式。

汉字OCR技术发展迅速

对于汉字的识别最早可以追溯到60年代。1966年，IBM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文，在这篇论文中他们利用简单的模板匹配法识别了1,000个印刷体汉字。

70年代以来，日本学者做了许多工作，其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000汉字的单体印刷汉字识别系统；80年代初期，日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统，代表了当时汉字识别的最高水平。

此外，日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统。这些系统在方法上，大都采用基于K-L数字变换的匹配方案，使用了大量专用硬件，其设备有的相当于小型机甚至大型机，价格极其昂贵，没有得到广泛应用。

我国OCR技术自70年代才开始对数字、英文字母及符号的识别进行研究。

是什么同国外相比，我国的光学字符识别研究起步较晚。但由于我国政府对汉字自动识别输入的研究从80年代

开始给予了充分的重视和支持，经过科研人员十多年的辛勤努力，汉字识别技术的发展和应用，有了长足进步：从简单的单体识别发展到多种字体混排的多体识别，从中文印刷材料的识别发展到中英混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别，解决了多体多字号混排文本的识别问题，对于简单的版面可以进行有效的定量分析，同时汉字识别率已达到了98%以上。

OCR的“三级跳”

什么是OCR

发布评论取消回复

最近发表

热门文章

标签列表