将PDF转换为文本的Python模块

是否有任何python模块转换PDF文件为文本?我尝试了在Activestate中发现的一段代码，它使用pypdf，但生成的文本之间没有空格，没有任何用处。

当前回答

Pdftotext一个开源程序(Xpdf的一部分)，你可以从python调用它(不是你想要的，但可能有用)。我用过没有问题。我认为谷歌在谷歌桌面使用它。

2008-08-28 09:46:53

其他回答

PDFMiner试试。它可以从PDF文件中提取HTML, SGML或“标记PDF”格式的文本。

带标记的PDF格式似乎是最干净的，去掉XML标记只留下纯文本。

Python 3版本如下:

https://github.com/pdfminer/pdfminer.six

2008-08-25 05:21:22

PDFminer给了我也许一行[第1页7…在我尝试使用它的pdf文件的每一页上。

到目前为止，我有最好的答案是pdftopipe，或者是基于Xpdf的c++代码。

请参阅我的问题，了解pdftopipe的输出是什么样的。

2008-08-26 02:04:10

我已经使用pdftohtml与-xml参数，读取结果与subprocess.Popen()，这将给你x坐标，y坐标，宽度，高度和字体，在pdf中的每个文本片段。我认为这是'evince'可能也使用的，因为同样的错误消息喷吐出来。

如果您需要处理柱状数据，它会变得稍微复杂一些，因为您必须发明一种适合您的pdf文件的算法。问题在于，生成PDF文件的程序并不一定会以任何逻辑格式布局文本。你可以尝试简单的排序算法，它有时是有效的，但可能会有一些小的“散乱者”和“散乱者”，文本片段没有按照你认为的顺序排列。所以你必须要有创造力。

我花了大约5个小时才为我正在做的pdf文件找到一个。但它现在运行得很好。祝你好运。

2010-11-12 22:34:05

Pdftotext一个开源程序(Xpdf的一部分)，你可以从python调用它(不是你想要的，但可能有用)。我用过没有问题。我认为谷歌在谷歌桌面使用它。

2008-08-28 09:46:53

重新利用pdfminer附带的pdf2txt.py代码;你可以创建一个函数来获取pdf文件的路径;可选的输出类型(txt|html|xml|标签)和命令行pdf2txt {'-o': '/path/to/outfile.txt'…}。默认情况下，你可以调用:

convert_pdf(path)

将创建一个文本文件，它是文件系统中原始pdf文件的兄弟文件。

def convert_pdf(path, outtype='txt', opts={}):
    import sys
    from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, process_pdf
    from pdfminer.converter import XMLConverter, HTMLConverter, TextConverter, TagExtractor
    from pdfminer.layout import LAParams
    from pdfminer.pdfparser import PDFDocument, PDFParser
    from pdfminer.pdfdevice import PDFDevice
    from pdfminer.cmapdb import CMapDB

    outfile = path[:-3] + outtype
    outdir = '/'.join(path.split('/')[:-1])

    debug = 0
    # input option
    password = ''
    pagenos = set()
    maxpages = 0
    # output option
    codec = 'utf-8'
    pageno = 1
    scale = 1
    showpageno = True
    laparams = LAParams()
    for (k, v) in opts:
        if k == '-d': debug += 1
        elif k == '-p': pagenos.update( int(x)-1 for x in v.split(',') )
        elif k == '-m': maxpages = int(v)
        elif k == '-P': password = v
        elif k == '-o': outfile = v
        elif k == '-n': laparams = None
        elif k == '-A': laparams.all_texts = True
        elif k == '-D': laparams.writing_mode = v
        elif k == '-M': laparams.char_margin = float(v)
        elif k == '-L': laparams.line_margin = float(v)
        elif k == '-W': laparams.word_margin = float(v)
        elif k == '-O': outdir = v
        elif k == '-t': outtype = v
        elif k == '-c': codec = v
        elif k == '-s': scale = float(v)
    #
    CMapDB.debug = debug
    PDFResourceManager.debug = debug
    PDFDocument.debug = debug
    PDFParser.debug = debug
    PDFPageInterpreter.debug = debug
    PDFDevice.debug = debug
    #
    rsrcmgr = PDFResourceManager()
    if not outtype:
        outtype = 'txt'
        if outfile:
            if outfile.endswith('.htm') or outfile.endswith('.html'):
                outtype = 'html'
            elif outfile.endswith('.xml'):
                outtype = 'xml'
            elif outfile.endswith('.tag'):
                outtype = 'tag'
    if outfile:
        outfp = file(outfile, 'w')
    else:
        outfp = sys.stdout
    if outtype == 'txt':
        device = TextConverter(rsrcmgr, outfp, codec=codec, laparams=laparams)
    elif outtype == 'xml':
        device = XMLConverter(rsrcmgr, outfp, codec=codec, laparams=laparams, outdir=outdir)
    elif outtype == 'html':
        device = HTMLConverter(rsrcmgr, outfp, codec=codec, scale=scale, laparams=laparams, outdir=outdir)
    elif outtype == 'tag':
        device = TagExtractor(rsrcmgr, outfp, codec=codec)
    else:
        return usage()

    fp = file(path, 'rb')
    process_pdf(rsrcmgr, device, fp, pagenos, maxpages=maxpages, password=password)
    fp.close()
    device.close()

    outfp.close()
    return

2010-07-18 19:17:56

将PDF转换为文本的Python模块

推荐文章

最新文章

标签