是否有任何python模块转换PDF文件为文本?我尝试了在Activestate中发现的一段代码,它使用pypdf,但生成的文本之间没有空格,没有任何用处。
当前回答
PDFMiner试试。它可以从PDF文件中提取HTML, SGML或“标记PDF”格式的文本。
带标记的PDF格式似乎是最干净的,去掉XML标记只留下纯文本。
Python 3版本如下:
https://github.com/pdfminer/pdfminer.six
其他回答
我已经使用pdftohtml与-xml参数,读取结果与subprocess.Popen(),这将给你x坐标,y坐标,宽度,高度和字体,在pdf中的每个文本片段。我认为这是'evince'可能也使用的,因为同样的错误消息喷吐出来。
如果您需要处理柱状数据,它会变得稍微复杂一些,因为您必须发明一种适合您的pdf文件的算法。问题在于,生成PDF文件的程序并不一定会以任何逻辑格式布局文本。你可以尝试简单的排序算法,它有时是有效的,但可能会有一些小的“散乱者”和“散乱者”,文本片段没有按照你认为的顺序排列。所以你必须要有创造力。
我花了大约5个小时才为我正在做的pdf文件找到一个。但它现在运行得很好。祝你好运。
重新利用pdfminer附带的pdf2txt.py代码;你可以创建一个函数来获取pdf文件的路径;可选的输出类型(txt|html|xml|标签)和命令行pdf2txt {'-o': '/path/to/outfile.txt'…}。默认情况下,你可以调用:
convert_pdf(path)
将创建一个文本文件,它是文件系统中原始pdf文件的兄弟文件。
def convert_pdf(path, outtype='txt', opts={}):
import sys
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, process_pdf
from pdfminer.converter import XMLConverter, HTMLConverter, TextConverter, TagExtractor
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFDocument, PDFParser
from pdfminer.pdfdevice import PDFDevice
from pdfminer.cmapdb import CMapDB
outfile = path[:-3] + outtype
outdir = '/'.join(path.split('/')[:-1])
debug = 0
# input option
password = ''
pagenos = set()
maxpages = 0
# output option
codec = 'utf-8'
pageno = 1
scale = 1
showpageno = True
laparams = LAParams()
for (k, v) in opts:
if k == '-d': debug += 1
elif k == '-p': pagenos.update( int(x)-1 for x in v.split(',') )
elif k == '-m': maxpages = int(v)
elif k == '-P': password = v
elif k == '-o': outfile = v
elif k == '-n': laparams = None
elif k == '-A': laparams.all_texts = True
elif k == '-D': laparams.writing_mode = v
elif k == '-M': laparams.char_margin = float(v)
elif k == '-L': laparams.line_margin = float(v)
elif k == '-W': laparams.word_margin = float(v)
elif k == '-O': outdir = v
elif k == '-t': outtype = v
elif k == '-c': codec = v
elif k == '-s': scale = float(v)
#
CMapDB.debug = debug
PDFResourceManager.debug = debug
PDFDocument.debug = debug
PDFParser.debug = debug
PDFPageInterpreter.debug = debug
PDFDevice.debug = debug
#
rsrcmgr = PDFResourceManager()
if not outtype:
outtype = 'txt'
if outfile:
if outfile.endswith('.htm') or outfile.endswith('.html'):
outtype = 'html'
elif outfile.endswith('.xml'):
outtype = 'xml'
elif outfile.endswith('.tag'):
outtype = 'tag'
if outfile:
outfp = file(outfile, 'w')
else:
outfp = sys.stdout
if outtype == 'txt':
device = TextConverter(rsrcmgr, outfp, codec=codec, laparams=laparams)
elif outtype == 'xml':
device = XMLConverter(rsrcmgr, outfp, codec=codec, laparams=laparams, outdir=outdir)
elif outtype == 'html':
device = HTMLConverter(rsrcmgr, outfp, codec=codec, scale=scale, laparams=laparams, outdir=outdir)
elif outtype == 'tag':
device = TagExtractor(rsrcmgr, outfp, codec=codec)
else:
return usage()
fp = file(path, 'rb')
process_pdf(rsrcmgr, device, fp, pagenos, maxpages=maxpages, password=password)
fp.close()
device.close()
outfp.close()
return
今天找到了解决方案。对我来说很好。甚至将PDF页面转换为PNG图像。 http://www.swftools.org/gfx_tutorial.html
你也可以很容易地使用pdfminer作为一个库。您可以访问pdf的内容模型,并可以创建自己的文本提取。我这样做是为了将pdf内容转换为分号分隔的文本,使用下面的代码。
该函数只是根据TextItem内容对象的y坐标和x坐标对其进行排序,并输出具有相同y坐标的项作为一个文本行,并用';'字符分隔同一行上的对象。
使用这种方法,我能够从pdf中提取文本,而其他任何工具都无法从中提取适合进一步解析的内容。我尝试过的其他工具包括pdftotext、ps2ascii和在线工具pdftextonline.com。
Pdfminer是一个非常宝贵的pdf抓取工具。
def pdf_to_csv(filename):
from pdflib.page import TextItem, TextConverter
from pdflib.pdfparser import PDFDocument, PDFParser
from pdflib.pdfinterp import PDFResourceManager, PDFPageInterpreter
class CsvConverter(TextConverter):
def __init__(self, *args, **kwargs):
TextConverter.__init__(self, *args, **kwargs)
def end_page(self, i):
from collections import defaultdict
lines = defaultdict(lambda : {})
for child in self.cur_item.objs:
if isinstance(child, TextItem):
(_,_,x,y) = child.bbox
line = lines[int(-y)]
line[x] = child.text
for y in sorted(lines.keys()):
line = lines[y]
self.outfp.write(";".join(line[x] for x in sorted(line.keys())))
self.outfp.write("\n")
# ... the following part of the code is a remix of the
# convert() function in the pdfminer/tools/pdf2text module
rsrc = PDFResourceManager()
outfp = StringIO()
device = CsvConverter(rsrc, outfp, "ascii")
doc = PDFDocument()
fp = open(filename, 'rb')
parser = PDFParser(doc, fp)
doc.initialize('')
interpreter = PDFPageInterpreter(rsrc, device)
for i, page in enumerate(doc.get_pages()):
outfp.write("START PAGE %d\n" % i)
interpreter.process_page(page)
outfp.write("END PAGE %d\n" % i)
device.close()
fp.close()
return outfp.getvalue()
更新:
上面的代码是针对旧版本的API编写的,请参阅下面我的评论。
pyPDF工作正常(假设您使用的是格式良好的pdf)。如果你想要的只是文本(带空格),你可以这样做:
import pyPdf
pdf = pyPdf.PdfFileReader(open(filename, "rb"))
for page in pdf.pages:
print page.extractText()
您还可以轻松地访问元数据、图像数据等。
extractText代码中的注释指出:
定位所有文本绘图命令,在 方法中提供的顺序 内容流,并提取文本。 这适用于一些PDF文件, 但对其他人来说很糟糕,这取决于 发电机使用。这将是 未来精致。不要依赖 文字的顺序 函数,因为它会改变如果这个 功能变得更加复杂。
这是否是一个问题取决于你对文本所做的事情(例如,如果顺序不重要,这很好,或者如果生成器按照它将显示的顺序将文本添加到流中,这很好)。我有pyPdf提取代码在日常使用中,没有任何问题。
推荐文章
- 如何为python模块的argparse部分编写测试?
- 在python中是否有用于均方根误差(RMSE)的库函数?
- 如何从matplotlib (pyplot。Figure vs matplotlib。figure) (frameon=False matplotlib中有问题)
- django test app error -在创建测试数据库时出现错误:创建数据库的权限被拒绝
- 识别使用pip安装的python包的依赖关系
- 从字符串变量导入模块
- 如何删除Python中的前导空白?
- python中的assertEquals和assertEqual
- 如何保持Python打印不添加换行符或空格?
- 为什么Python的无穷散列中有π的数字?
- Python 3.7数据类中的类继承
- 如何在PyTorch中初始化权重?
- 计数唯一的值在一列熊猫数据框架像在Qlik?
- 使用Pandas将列转换为行
- 从matplotlib中的颜色映射中获取单个颜色