[Java] 利用xpdf库获取pdf文件的指定范围文本内容

news/2024/7/1 21:08:32

[Java] 利用xpdf库获取pdf文件的指定范围文本内容

编写者

日期

关键词

郑昀@ultrapower

2005-8-2

Java PDF xpdf

 

读取PDF文件的某一部分文本内容,可以使用开源项目xpdf

Java中调用xpdf,我们参照了《Java抽取WordPDF的四种武器》文章最后提到的办法。

总而言之,调用xpdf十分简单,下面讲一下xpdf的配置问题。

系统基础环境要求

下面是对运行xpdf软件服务的计算机的要求:

l         您可以从以下位置下载并安装 xpdf分发版本-补丁3Win32版本:
ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.00pl3-win32.zip

l         还需要从以下位置下载并安装 xpdf针对中文简体的语言支持包:
ftp://ftp.foolabs.com/pub/xpdf/xpdf-chinese-simplified.tar.gz

 

(更多下载信息参考http://www.foolabs.com/xpdf/download.html)

 

调用示范

下载完毕,请将xpdf-3.00pl3-win32.zip解压缩到Cxpdf目录下,我们将以c:/xpdf作为xpdf的工作路径。

然后,请将xpdf-chinese-simplified.tar/xpdf-chinese-simplified的内容解压缩到xpdf根目录下的chinese-simplified目录中。

为了启用中文简体语言包,您必须将xpdf目录下的sample-xpdfrc文件另存为xpdfrc文件。

注意:此文件为配置文件,而且名称必须是xpdfrc。如果是别的名字,即使调用pdftotext.exe时,传入-cfg xpdfrc2来告诉xpdf配置文件的名字,好像pdftotext.exe也并没有使用这个配置文件。所以为了减少误解,请您将配置文件直接命名为xpdfrc

 

修改配置文件一:

并在这个xpdfrc文件最后加上这么一段话:

#----- begin Chinese Simplified support package (2004-jul-27)

cidToUnicode     Adobe-GB1  C:/xpdf/chinese-simplified/Adobe-GB1.cidToUnicode

unicodeMap ISO-2022-CN     C:/PublicInstall/xpdf/chinese-simplified/ISO-2022-CN.unicodeMap

unicodeMap EUC-CN       C:/xpdf/chinese-simplified/EUC-CN.unicodeMap

unicodeMap GBK      C:/xpdf/chinese-simplified/GBK.unicodeMap

cMapDir      Adobe-GB1  C:/xpdf/chinese-simplified/CMap

toUnicodeDir                 C:/xpdf/chinese-simplified/CMap

#displayCIDFontTT   Adobe-GB1  /usr/..../gkai00mp.ttf

#----- end Chinese Simplified support package

注意Map文件的路径一定要正确。

 

修改配置文件二:

另外,配置文件中原先没有加上一个“textPageBreaks”控制。为了避免这个分页符号,我们需要在xpdfrc文件“text output control”下面加上这么一段话:

# If set to "yes", text extraction will  insert  page

# breaks  (form feed characters) between pages.  This

# defaults to "yes".

textPageBreaks      no

 

设置textPageBreaksno的意思是:在PDF文档的两页之间不加入分页符号。

之所以这样,是因为这个符号有时候会引起SAX解析XML上的困难。

 

修改配置文件三:

配置文件中原先把textEncoding注释了。这样默认的字符集是Latin1。我们必须打开它,并且就是指定textEncodingUTF-8,而不是GB2312

调用示范

下面的代码,演示了利用xpdf工具集中的pdftotext应用程序读取test.pdf的从第100个字符到第300个字符。给pdftotext.exe的运行参数中,“"-q"”指的是不打印转换中的错误提示;“"-cfg", "xpdfrc"”指的是采用配置文件xpdfrc

String PATH_TO_XPDF="C://xpdf//pdftotext.exe";

               String filename="c://test.pdf";

                

                 int Begin = 100;

                 int End = 300;

                

                 String strResponse = "";

                

                String[] cmd = new String[]

                    { PATH_TO_XPDF,

                            "-cfg", "xpdfrc", "-q", filename, "-"};

               Process p = Runtime.getRuntime().exec(cmd);

               BufferedInputStream bis = new BufferedInputStream(p.getInputStream());

               InputStreamReader reader = new InputStreamReader(bis, "UTF-8");

 

                

                 if(Begin > 0)

                 {

                      // 跳过Begin个字符

                      reader.skip(Begin);

                 }

                  

                

                 // 本次要读取的字符数

                 int nLengthRead = End - Begin;

                 if(nLengthRead > 0)

                 {

                      // 准备好缓冲区

                     char [] buf = new char[nLengthRead];

                      // 输出到缓冲区

                     int nLengthWriteToBuffer = reader.read(buf);

                     reader.close();

                     

                      // nLengthWriteToBuffer就是当前读取到缓冲区的字符数

                      if(nLengthWriteToBuffer > 0)

                      {

                            // 只有nLengthWriteToBuffer大于0,才说明文档有内容

                            strResponse = new String(buf);

                      }

                      else

                      {

                            // 否则可能是到了文档结尾

                            strResponse = "PDF_EOF_OF_DOC";

                      }

                 }

                

               System.out.println("/t/r/n" + strResponse);

 

编写者

日期

关键词

郑昀@ultrapower

2005-8-2

Java PDF xpdf

 





http://www.niftyadmin.cn/n/3649544.html

相关文章

项目管理构建工具Maven的自定义安装

Maven项目对象模型(POM),可以通过一小段描述信息来管理项目的构建,报告和文档的项目管理工具软件。 Maven 除了以程序构建能力为特色之外,还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性,所以常常用两三行 M…

[Java] 利用Axis库调用C#的Web Service

[Java] 利用Axis库调用C#的Web Service编写者日期关键词郑昀ultrapower2005-8-2Java Web Service Axis C#试图从Java调用C#编写的Web Service,借用了王咏刚的wsCaller源代码中DynamicInvoker类。开始不清楚DynamicInvoker类的portName的含义,望文生义&am…

angular使用高德地图_使用传单在Angular中构建地图,第1部分:生成地图

angular使用高德地图Leaflet is an awesome JavaScript library for creating maps. It comes packed with nice features and is extremely mobile-friendly. Let’s see how we can integrate Leaflet into our Angular app. Leaflet是一个很棒JavaScript库,用于创…

拒绝加班!今天是1024程序员节!

这一天,致敬所有的程序开发者。 1024程序员节是广大程序员的共同节日。1024是2的十次方,二进制计数的基本计量单位之一。针对程序员经常周末加班与工作日熬夜的情况,部分互联网机构倡议每年的10月24日为1024程序员节,在这一天建议…

图片的压缩的几种方法

首先该文章是总结, 不是原创, 是通过看网上其他大神的文章和自己的一些实践总结出来的. 一.图片的存在形式 1.文件形式(即以二进制形式存在于硬盘上) 2.流的形式(即以二进制形式存在于内存中) 3.Bitmap形式这三种形式的区别: 文件形式和流的形式对图片体积大小并没有影响,也就…

[Wap]OnViewStateExpire异常的处理办法

[Wap]OnViewStateExpire异常的处理办法编写者日期关键词郑昀ultrapower2005-7-14Wap ASP.NET session timeout OnViewStateExpire我们的Wap页面由dotNET 编写而成,当页面停留时间过长后,由于IIS的session超时时间是20分钟,这时候再点击页面上…

css网格_在CSS网格中放置,扩展和密度

css网格介绍 (Introduction) The most common thing you learn in CSS Grid is usually related to the grid container and rather than the grid items. A generic grid definition applied to the grid container is enough for a basic layout structure. However, when yo…

华为云鲲鹏云服务器介绍

由于我的服务器到期,所以现在重新选购了一款服务器,基于ARM架构的华为云鲲鹏ECS。 ▣ 博主主站地址:微笑涛声 【www.cztcms.cn】 ▣ 博主其他平台: CSDN 简书 开源中国 思否 华为云博客 ◈ 华为鲲鹏处理器,坚持持续创…