将PDF转换为文本的Python模块

pyPDF工作正常(假设您使用的是格式良好的pdf)。如果你想要的只是文本(带空格)，你可以这样做:

import pyPdf
pdf = pyPdf.PdfFileReader(open(filename, "rb"))
for page in pdf.pages:
    print page.extractText()

您还可以轻松地访问元数据、图像数据等。

extractText代码中的注释指出:

定位所有文本绘图命令，在方法中提供的顺序内容流，并提取文本。这适用于一些PDF文件，但对其他人来说很糟糕，这取决于发电机使用。这将是未来精致。不要依赖文字的顺序函数，因为它会改变如果这个功能变得更加复杂。

这是否是一个问题取决于你对文本所做的事情(例如，如果顺序不重要，这很好，或者如果生成器按照它将显示的顺序将文本添加到流中，这很好)。我有pyPdf提取代码在日常使用中，没有任何问题。

PDFMiner试试。它可以从PDF文件中提取HTML, SGML或“标记PDF”格式的文本。

带标记的PDF格式似乎是最干净的，去掉XML标记只留下纯文本。

Python 3版本如下:

https://github.com/pdfminer/pdfminer.six

pyPDF工作正常(假设您使用的是格式良好的pdf)。如果你想要的只是文本(带空格)，你可以这样做:

import pyPdf
pdf = pyPdf.PdfFileReader(open(filename, "rb"))
for page in pdf.pages:
    print page.extractText()

您还可以轻松地访问元数据、图像数据等。

extractText代码中的注释指出:

定位所有文本绘图命令，在方法中提供的顺序内容流，并提取文本。这适用于一些PDF文件，但对其他人来说很糟糕，这取决于发电机使用。这将是未来精致。不要依赖文字的顺序函数，因为它会改变如果这个功能变得更加复杂。

这是否是一个问题取决于你对文本所做的事情(例如，如果顺序不重要，这很好，或者如果生成器按照它将显示的顺序将文本添加到流中，这很好)。我有pyPdf提取代码在日常使用中，没有任何问题。

今天找到了解决方案。对我来说很好。甚至将PDF页面转换为PNG图像。 http://www.swftools.org/gfx_tutorial.html

PDFminer给了我也许一行[第1页7…在我尝试使用它的pdf文件的每一页上。

到目前为止，我有最好的答案是pdftopipe，或者是基于Xpdf的c++代码。

请参阅我的问题，了解pdftopipe的输出是什么样的。

Pdftotext一个开源程序(Xpdf的一部分)，你可以从python调用它(不是你想要的，但可能有用)。我用过没有问题。我认为谷歌在谷歌桌面使用它。

推荐文章