是否有任何python模块转换PDF文件为文本?我尝试了在Activestate中发现的一段代码,它使用pypdf,但生成的文本之间没有空格,没有任何用处。


当前回答

PDFminer给了我也许一行[第1页7…在我尝试使用它的pdf文件的每一页上。

到目前为止,我有最好的答案是pdftopipe,或者是基于Xpdf的c++代码。

请参阅我的问题,了解pdftopipe的输出是什么样的。

其他回答

slate是一个项目,使它非常简单地使用PDFMiner从一个库:

>>> with open('example.pdf') as f:
...    doc = slate.PDF(f)
...
>>> doc
[..., ..., ...]
>>> doc[1]
'Text from page 2...'   

PDFMiner试试。它可以从PDF文件中提取HTML, SGML或“标记PDF”格式的文本。

带标记的PDF格式似乎是最干净的,去掉XML标记只留下纯文本。

Python 3版本如下:

https://github.com/pdfminer/pdfminer.six

PDFminer给了我也许一行[第1页7…在我尝试使用它的pdf文件的每一页上。

到目前为止,我有最好的答案是pdftopipe,或者是基于Xpdf的c++代码。

请参阅我的问题,了解pdftopipe的输出是什么样的。

此外,还有PDFTextStream,这是一个商业Java库,也可以从Python中使用。

我需要在python模块中将特定的PDF转换为纯文本。我使用PDFMiner 20110515,在阅读了他们的pdf2txt.py工具后,我写了这个简单的片段:

from cStringIO import StringIO
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams

def to_txt(pdf_path):
    input_ = file(pdf_path, 'rb')
    output = StringIO()

    manager = PDFResourceManager()
    converter = TextConverter(manager, output, laparams=LAParams())
    process_pdf(manager, converter, input_)

    return output.getvalue()