如何从PDF文件中提取文本?

我试图使用Python提取包含在这个PDF文件中的文本。

我正在使用PyPDF2包(版本1.27.2)，并有以下脚本:

import PyPDF2

with open("sample.pdf", "rb") as pdf_file:
    read_pdf = PyPDF2.PdfFileReader(pdf_file)
    number_of_pages = read_pdf.getNumPages()
    page = read_pdf.pages[0]
    page_content = page.extractText()
print(page_content)

当我运行代码时，我得到以下输出，这与PDF文档中包含的输出不同:

 ! " # $ % # $ % &% $ &' ( ) * % + , - % . / 0 1 ' * 2 3% 4
5
 ' % 1 $ # 2 6 % 3/ % 7 / ) ) / 8 % &) / 2 6 % 8 # 3" % 3" * % 31 3/ 9 # &)
%

如何提取PDF文档中的文本?

当前回答

使用textract。

http://textract.readthedocs.io/en/latest/ https://github.com/deanmalmgren/textract

它支持包括pdf在内的多种文件类型

import textract
text = textract.process("path/to/file.extension")

2016-11-12 10:55:19

其他回答

PyPDF2确实有效，但结果可能有所不同。我从其结果提取中看到了相当不一致的结果。

reader=PyPDF2.pdf.PdfFileReader(self._path)
eachPageText=[]
for i in range(0,reader.getNumPages()):
    pageText=reader.getPage(i).extractText()
    print(pageText)
    eachPageText.append(pageText)

2018-12-14 21:18:08

您可能希望使用经过时间验证的xPDF和派生工具来提取文本，因为pyPDF2在文本提取方面似乎仍然存在各种问题。

长的答案是，文本如何在PDF中编码有很多变化，它可能需要解码PDF字符串本身，然后可能需要与CMAP映射，然后可能需要分析单词和字母之间的距离等。

如果PDF被损坏(即显示正确的文本，但复制时产生垃圾)，并且您确实需要提取文本，那么您可能需要考虑将PDF转换为图像(使用ImageMagik)，然后使用Tesseract使用OCR从图像中获取文本。

2016-01-18 08:42:47

如何从PDF文件中提取文本?

首先要了解的是PDF格式。它有一个用英文编写的公共规范，请参阅ISO 32000-2:2017，并阅读超过700页的PDF 1.7规范。当然，你至少需要阅读维基百科关于PDF的页面

一旦你理解了PDF格式的细节，提取文本或多或少是容易的(但是出现在图形或图像中的文本呢?它的数字1)?不要指望在几周内单独编写一个完美的软件文本提取器....

在Linux上，你也可以使用pdf2text，你可以从你的Python代码中弹出。

一般来说，从PDF文件中提取文本是一个定义不清的问题。对于人类读者来说，一些文本可以由不同的点制成(图形)，或者一张照片等等。

谷歌搜索引擎能够从PDF中提取文本，但据传需要超过5亿行的源代码。你有必要的资源(人力和预算)来发展一个竞争对手吗?

一种可能是将PDF打印到一些虚拟打印机(例如使用GhostScript或Firefox)，然后使用OCR技术提取文本。

相反，我建议处理生成PDF文件的数据表示，例如原始的LaTeX代码(或Lout代码)或OOXML代码。

在所有情况下，您都需要为至少几个人年的软件开发预算。

2020-08-21 07:08:40

它包括根据文档中的页数动态设置为每个PDF页创建一个新工作表。

import PyPDF2 as p2
import xlsxwriter

pdfFileName = "sample.pdf"
pdfFile = open(pdfFileName, 'rb')
pdfread = p2.PdfFileReader(pdfFile)
number_of_pages = pdfread.getNumPages()
workbook = xlsxwriter.Workbook('pdftoexcel.xlsx')

for page_number in range(number_of_pages):
    print(f'Sheet{page_number}')
    pageinfo = pdfread.getPage(page_number)
    rawInfo = pageinfo.extractText().split('\n')

    row = 0
    column = 0
    worksheet = workbook.add_worksheet(f'Sheet{page_number}')

    for line in rawInfo:
        worksheet.write(row, column, line)
        row += 1
workbook.close()

2021-10-09 10:40:19

一种更健壮的方法，假设有多个PDF或只有一个!

import os
from PyPDF2 import PdfFileWriter, PdfFileReader
from io import BytesIO

mydir = # specify path to your directory where PDF or PDF's are

for arch in os.listdir(mydir): 
    buffer = io.BytesIO()
    archpath = os.path.join(mydir, arch)
    with open(archpath) as f:
            pdfFileObj = open(archpath, 'rb')
            pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
            pdfReader.numPages
            pageObj = pdfReader.getPage(0) 
            ley = pageObj.extractText()
            file1 = open("myfile.txt","w")
            file1.writelines(ley)
            file1.close()

2020-08-01 17:53:30

如何从PDF文件中提取文本?

推荐文章

最新文章

标签