2012年8月
内蒙古科技与经济
李倩资料A ugust 2012
第16期总第266期
Inner M o ngo lia Science T echnolo gy &Economy N o .16T o tal N o .266
荆永菊
(郑州航空工业管理学院图书馆,河南郑州 450015)
摘 要:图书资料的数字化是数字图书馆建设中一项基本内容,扫描的图书资料文件是其中的重要组成部分。基于图书资料的扫描图像,研究了其中插图页面的自动检测问题。通过区别文字区域和插图部分,可以从文档的扫描文件中自动检测出含有插图的页面,为数字图书馆智能化信息处理提供服务。
关键词:图书资料;扫描;插图;检测
中图分类号:G 250.71 文献标识码:A 文章编号:1006—7981(2012)16—0054—02 数字图书馆是当前高校图书馆现代化建设的一个核心内容。随着社会现代化、信息化过程的深入,以计算机和网络通信为基础的图书馆数字化也得到蓬勃发展[1,2],而且将日益成为高校的学术信息中心和知识传播媒介。在数字图书馆建设中,数字化是基础,文献资料只有数字化之后才能运用计算机进行操作处理,并在网络上被加以利用。需要数字化的资料除了文本信息外,还有许多非文本信息,如图像、声音、录像等[3,4],而且有些文字信息也被扫描成图像格式,这就需要对这些非文本信息进行相应的压缩、存储和加工处理,因此,多媒体处理技术也被广泛地应用于数字图书馆建设。多媒体处理技术中应用最多是数字图像处理,图像资料一般包括图书资料扫描件、图片和插图、照片、地图以及其他的地理影像资料[5-7]。相对于文本信息,图像资料占用的存储空间巨大,这些海量的信息资源存储之后,涉及资源的分类、文件的检索及索引的制定等问题,又必然涉及多媒体元数据的规范问题。这就需要研究开发与之相适应的数字图像处理技术,以便更好地管理、利用数字化信息资源。
本文研究图书资料扫描文件中的插图页面的自动检测问题,为数字化的图书信息的检索以及元数据的建立提供支持。1 数字图像预处理
由于图书资料的页面扫描质量受到原件质量和
扫描设备等因素的影响,页面背景往往不是白,而是有较均匀的灰。采用二值化方法,将前景和
背景分开,前景为黑,背景为白,有利于下一步的检测。二值化方法很多[8,9],由于二值化是本文的插图检测过程中的一个步骤,因此采用一种简单有效的方法,Ot su 方法。Ot su 方法是一种全局化的动态二值化方法,又叫大津法,是一种灰度图像二值化的常用算法。
Ot su 算法的基本思想是:将图像直方图用某一灰度值分割成两组,当两组方差最大时,此灰度值就作为图像二值化处理的阈值。设给定图像具有L 个灰度级,先统计出图像的灰度直方图,设阈值为T ,然后把灰度大于或小于T 的像素分为A 和B 两类,分别计算这两类中的像素数目及灰度平均值。计算它们的类间方差,并取类间方差中的最大值对应的灰度为阈值。类间方差的计算公式如下。
2
(T )=N A (M A -M )2+N B (M B -M )2其中,T 为某一灰度值,N A 、N B 分别为A 、B 两类中的像素数目,M A 、M B 分别为两类中的像素的平均值,M 为所有像素的平均灰度值。选择由上式计算所得的最大方差对应的阈值T 作为最佳阈值,进行图像的二值化。
Ot su 方法二值化见图1所示,其中图1(a)为原图,(b)为二值化结果。
(a)扫描原件 (b)二值化结果
图1 背景灰文档的二值化
・
54・
收稿日期:2012-05-23
基金项目:国家自然科学基金(批准号:41001235);航空科学基金(批准号:2011ZC55005)。作者简介:荆永菊(1978-),女,河南荥阳人,助理馆员,主要从事信息处理与数字图书馆研究。
发布评论