slimzhao.cublog2007-11-24
书签即目录,列在左边方便在电子书中导航的东西.如果一本书真的对你有价值,而PDF里面本身没有目录页,或者即使有目录也是图片,没有链接的话,值得对你经常要参考的PDF做一个书签.
我们以<<GDI+程序设计>>为例,462页,图片版的PDF文件,显然是从超星的PDG制作的.也可能就是我本人制作的,忘了,直到最近经常看这本电子书,发现颇有价值,值得雕琢一番.
1.用老马的FreePic2PDF抽取现有书签,即使它是个空的,这可以生成两个稍候用于制作书签的文件:
FreePic2Pdf.itf
其中第一个文件是放置书签定义的文件,现在是0字节.因为要制作的PDF没有任何书签.
2.好了,现在制作书签的两个文本文件已经抽取完毕,但现在还不是时候.接下来想
办法得到目录的文字和页码.
3.得到要OCR的目录页的图片文件,下面是Acrobat7里的菜单操作.
先打开要制作目录的完整PDF文档,提取包含目录的页面,另存为图片文件,这会每一个PDF页面保存一个文件.TIFF或JPG均可.但下文会看到,紫光OCR对图片格式和内容有时候很敏感.
4.中文OCR
手机照片删了如何恢复工具:紫光9.0
这个不用多说了,在中文识别的同类产品中,经常与汉王等产品对比,这个识别率是最
高的.值得一提的是这里只用它来OCR中文,英文它不在行,效果只能说还过得去,但夹杂在中文里的英文也不可能单抠出来用abbyy识别了,不准确的手工校正.注意下面我特意把后面页码部分的数字给排除在外了
胎压多少是正常范围
对本文中的举例来说,紫光还是在第6个文件上失败了,目录页一共是7页,上面的是我失败之后,单独把TIF另存为JPG再重新OCR最后两页的截图,一开始把第6页另存为BMP,再OCR,还是弹出一个程序错误的对话框,点"确定"把这个对话框关闭之后,紫光就得用进程管理器强制杀死了,否则既不能正常退出,也不能重新识别.具体错误
没抓屏.反正对图片的内容有时候好像恰好碰到它的临界值一样.因为JPG有损压缩的特性,往往可以有效地绕过这一点.
5.中文文本.
下面是把OCR过的文本COPY到一个编辑器中,OCR不可能100%准确的,要手工再校正.
2021清明祭英烈留言要注意添加图片文件时,紫光有一个奇怪的BUG:你选择从1到7多个文件时,第7个文件排在第一位,但接下来第2到第6个文件顺序倒是正确,用鼠标拖动第7个文件到最后可以把顺序调整过来.切记,否则不留神容易把识别后的文本顺序弄反.
6.页面数字的OCR.
当然用Abbyy Fine reader8.0我所用过的最好的英文OCR,识别率么,做超星的PDG 格式转出来的目录页码数字,光说数字部分,几乎是100%.(写这个教程的同时做的这本书,识别率又是100%)
父亲节2020飞机简笔画注意要手工圈选后面的数字页码部分,排除前面的汉字,术业有专攻,汉字它不在行滴.对于制作目录来说,一般目录页也就是3-15页,这个例子中是7页,手工逐个圈选可以忍受.
发布评论