(C#)中使用pdf2htmlEX实现pdf向html的格式转换器
pdf转html  1 背景
  目前,网络阅读平台在线阅读pdf文档的较为流行的解决方案是将pdf文档转换成swf格式,然后使用flash播放器进行播放。该解决方案的缺点较多:一,对于没有安装flash播放器的用户,pdf文档内容可能不能正常显示;二,使用flash在线播放容易导致清晰度降低,影响阅读;三,用户无法复制其中的内容;四,对屏幕尺寸各异的移动设备缺乏自适应能力。将pdf转换成html文档则可以解决上述问题。
  网络上和文献中分享的该领域的技术大部分是通过Java语言实现的。笔者通过查阅文献和相关技术资料,结合本人的开发实践,提供了(C#)中基于pdf2htmlEX开源工具的格式转换器的实现技术。
  2 使用pdf2htmlEX在(C#)中实现pdf向html的转换
  2.1 pdf2htmlEX介绍
  pdf 转换为html(下文部分地方简称为pdf2html)的技术思路是将pdf文档中的文字、图片、字体等信息提取出来,然后按照html的语法写入html文档中[1]。pdf2htmlEX是免费使用的可高保真地对pdf至html转换的工具,作者为王璐,在网上能到较多的版本,笔者所使用的版本的下载地址是:http://download.csdn/detail/zhouyifan2009/8552783。pdf2htmlEX的主要特点有以下四个:首先,它能准确提取字体,保证最大限度地原样输出;第二,保证渲染准确性,针对Web进行优化,如对文件进行必要的压缩等;第三,其他内容用背景图片的形式显示;第四,单文件输出,即转换结果是生成一个html文件,图片等信息不存放在单独的文件中。[2]
  2.2 实现步骤
  pdf2htmlEX工具是控制台程序,没有自己的用户界面(点击文件时,程序窗口一闪而过,用户不能直接使用),必须由操作系统自带的调用或者其他第三方程序调用来实现它的功能。本文将介绍C#语言编写程序调用实现pdf2html的功能。具体步骤如下。
  1)创建项目
  通过Visual Studio 2013(笔者的开发工具,也可以使用其他版本的Visual Studio),创建Windows窗体应用程序。
  2)添加控件和修改属性
  创建项目后,在默认生成的Form1窗体添加Label和Button控件,并且修改它们的(Name)和Text属性。如图1所示。
  窗体界面简单,共有4个Label控件和1个Button控件。其中“选择文件”Label控件的作用是,用户点击后弹出一个打开文件的对话框,以选择需要转换格式的pdf文件;“选择保存路径”Label控件的作用是,用户点击后弹出保存文件对话框,以指定生成的html文件的保存路径。“格式转换”Button控件用于执行文件的格式转换。
  3)编写实现代码
  实现代码分为三部分,一是选择文件的实现代码,二是选择文件保存路径的实现代码,三是进行文件格式转换(pdf2html)的实现代码。
  ①选择文件的实现代码。鼠标双击“选择文件”Label控件,进入代码编写界面,添加实现代码如下:
  //定义string类型的变量,以存放pdf文件路径
  string pdfFilePath = null;
希望以上资料对你有所帮助,附励志名言3条:
1、要接受自己行动所带来的责任而非自己成就所带来的荣耀。
2、每个人都必须发展两种重要的能力适应改变与动荡的能力以及为长期目标延缓享乐的能力。
3、将一付好牌打好没有什么了不起能将一付坏牌打好的人才值得钦佩。