如何从PDF文件中提取文本?

我试图使用Python提取包含在这个PDF文件中的文本。

我正在使用PyPDF2包(版本1.27.2)，并有以下脚本:

import PyPDF2

with open("sample.pdf", "rb") as pdf_file:
    read_pdf = PyPDF2.PdfFileReader(pdf_file)
    number_of_pages = read_pdf.getNumPages()
    page = read_pdf.pages[0]
    page_content = page.extractText()
print(page_content)

当我运行代码时，我得到以下输出，这与PDF文档中包含的输出不同:

 ! " # $ % # $ % &% $ &' ( ) * % + , - % . / 0 1 ' * 2 3% 4
5
 ' % 1 $ # 2 6 % 3/ % 7 / ) ) / 8 % &) / 2 6 % 8 # 3" % 3" * % 31 3/ 9 # &)
%

如何提取PDF文档中的文本?

当前回答

下面的代码是Python 3中该问题的解决方案。在运行代码之前，请确保已在您的环境中安装了PyPDF2库。如果未安装，打开命令提示符，执行以下命令:

pip3 install PyPDF2

使用PyPDF2 <= 1.26.0的解决方案代码:

import PyPDF2
pdfFileObject = open('sample.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObject)
count = pdfReader.numPages
for i in range(count):
    page = pdfReader.getPage(i)
    print(page.extractText())

2018-05-23 13:38:45

其他回答

目的:从PDF中提取文本

所需工具:

Poppler for windows: windows中pdftotext文件的包装器对于anaanaconda: conda install -c conda-forge pdftotext实用程序转换PDF到文本。

步骤: 安装荡漾。windows操作系统:在env路径下增加“xxx/bin/” PIP安装pdftotext

import pdftotext
 
# Load your PDF
with open("Target.pdf", "rb") as f:
    pdf = pdftotext.PDF(f)
 
# Save all text to a txt file.
with open('output.txt', 'w') as f:
    f.write("\n\n".join(pdf))

2021-12-27 15:52:05

从2021年开始，我想推荐pdfreader，因为pypddf2 /3现在看起来很麻烦，tika实际上是用java写的，需要在后台安装jre。Pdfreader是python的，目前维护得很好，这里有大量的文档。

正常安装:pip install pdfreader

用法的简短例子:

from pdfreader import PDFDocument, SimplePDFViewer

# get raw document
fd = open(file_name, "rb")
doc = PDFDocument(fd)

# there is an iterator for pages
page_one = next(doc.pages())
all_pages = [p for p in doc.pages()]

# and even a viewer
fd = open(file_name, "rb")
viewer = SimplePDFViewer(fd)

2021-08-12 07:23:40

如何从PDF文件中提取文本?

首先要了解的是PDF格式。它有一个用英文编写的公共规范，请参阅ISO 32000-2:2017，并阅读超过700页的PDF 1.7规范。当然，你至少需要阅读维基百科关于PDF的页面

一旦你理解了PDF格式的细节，提取文本或多或少是容易的(但是出现在图形或图像中的文本呢?它的数字1)?不要指望在几周内单独编写一个完美的软件文本提取器....

在Linux上，你也可以使用pdf2text，你可以从你的Python代码中弹出。

一般来说，从PDF文件中提取文本是一个定义不清的问题。对于人类读者来说，一些文本可以由不同的点制成(图形)，或者一张照片等等。

谷歌搜索引擎能够从PDF中提取文本，但据传需要超过5亿行的源代码。你有必要的资源(人力和预算)来发展一个竞争对手吗?

一种可能是将PDF打印到一些虚拟打印机(例如使用GhostScript或Firefox)，然后使用OCR技术提取文本。

相反，我建议处理生成PDF文件的数据表示，例如原始的LaTeX代码(或Lout代码)或OOXML代码。

在所有情况下，您都需要为至少几个人年的软件开发预算。

2020-08-21 07:08:40

Pdfplumber是一个更好的从pdf中读取和提取数据的库。它还提供了读取表数据的方法，在经历了大量这样的库之后，pdfplumber最适合我。

请注意，它最适合机器编写的pdf，而不是扫描的pdf。

import pdfplumber
with pdfplumber.open(r'D:\examplepdf.pdf') as pdf:
first_page = pdf.pages[0]
print(first_page.extract_text())

2021-10-19 14:04:35

如果想要从表格中提取文本，我发现tabula很容易实现，准确且快速:

获取熊猫数据框架:

import tabula

df = tabula.read_pdf('your.pdf')

df

默认情况下，它忽略表之外的页面内容。到目前为止，我只在单页、单表文件上进行了测试，但是有一些kwarg可以容纳多页和/或多表。

安装通过:

pip install tabula-py
# or
conda install -c conda-forge tabula-py

在直接的文本提取方面，请参阅: https://stackoverflow.com/a/63190886/9249533

2020-09-21 02:12:52

如何从PDF文件中提取文本?

推荐文章

最新文章

标签