合并PDF文件

是否有可能，使用Python，合并单独的PDF文件?

假设是这样，我需要进一步扩展它。我希望循环通过目录中的文件夹，并重复此过程。

我可能是得过其实了，但是否可以排除每个pdf文件中包含的一页(我的报告生成总是创建一个额外的空白页)。

当前回答

可以使用PyPdf2s PdfMerger类。

文件连接

您可以使用append方法简单地连接文件。

from PyPDF2 import PdfMerger

pdfs = ['file1.pdf', 'file2.pdf', 'file3.pdf', 'file4.pdf']

merger = PdfMerger()

for pdf in pdfs:
    merger.append(pdf)

merger.write("result.pdf")
merger.close()

如果需要，可以传递文件句柄而不是文件路径。

文件合并

如果您希望对合并进行更细粒度的控制，可以使用PdfMerger的合并方法，该方法允许您在输出文件中指定插入点，这意味着您可以在文件中的任何位置插入页面。可以将append方法看作是一个合并，其中插入点是文件的末尾。

e.g.

merger.merge(2, pdf)

在这里，我们将整个pdf插入到输出中，但在第2页。

页面范围

如果希望控制从特定文件中追加哪些页面，可以使用pages关键字参数append和merge，以(start, stop[， step])的形式传递一个元组(类似于常规的range函数)。

e.g.

merger.append(pdf, pages=(0, 3))    # first 3 pages
merger.append(pdf, pages=(0, 6, 2)) # pages 1,3, 5

如果你指定了一个无效的范围，你会得到一个IndexError。

注意:另外，为了避免文件处于打开状态，当合并文件被写入时，应该调用pdffilemergeners关闭方法。这确保及时关闭所有文件(输入和输出)。遗憾的是pdffil急诊没有作为上下文管理器实现，所以我们可以使用with关键字，避免显式的关闭调用，并获得一些简单的异常安全。

您可能还想看看作为pypdf2的一部分提供的pdfcat脚本。您可以潜在地避免完全编写代码的需要。

PyPdf2 github还包括一些演示合并的示例代码。

PyMuPdf

另一个值得一看的库是PyMuPdf。合并同样简单。

从命令行:

python -m fitz join -o result.pdf file1.pdf file2.pdf file3.pdf

从代码中

import fitz

result = fitz.open()

for pdf in ['file1.pdf', 'file2.pdf', 'file3.pdf']:
    with fitz.open(pdf) as mfile:
        result.insert_pdf(mfile)
    
result.save("result.pdf")

有大量的选项，详细说明在项目维基。

注意:在旧版本的PyMuPDF中insert_pdf为insertPDF

2016-06-21 13:12:13

其他回答

使用Pypdf或其后续版本PyPDF2:

作为PDF工具包构建的Pure-Python库。它能够: 逐页拆分文档，逐页合并文件，

(以及更多)

下面是一个适用于这两个版本的示例程序。

#!/usr/bin/env python
import sys
try:
    from PyPDF2 import PdfFileReader, PdfFileWriter
except ImportError:
    from pyPdf import PdfFileReader, PdfFileWriter

def pdf_cat(input_files, output_stream):
    input_streams = []
    try:
        # First open all the files, then produce the output file, and
        # finally close the input files. This is necessary because
        # the data isn't read from the input files until the write
        # operation. Thanks to
        # https://stackoverflow.com/questions/6773631/problem-with-closing-python-pypdf-writing-getting-a-valueerror-i-o-operation/6773733#6773733
        for input_file in input_files:
            input_streams.append(open(input_file, 'rb'))
        writer = PdfFileWriter()
        for reader in map(PdfFileReader, input_streams):
            for n in range(reader.getNumPages()):
                writer.addPage(reader.getPage(n))
        writer.write(output_stream)
    finally:
        for f in input_streams:
            f.close()
        output_stream.close()

if __name__ == '__main__':
    if sys.platform == "win32":
        import os, msvcrt
        msvcrt.setmode(sys.stdout.fileno(), os.O_BINARY)
    pdf_cat(sys.argv[1:], sys.stdout)

2010-08-09 22:40:53

使用正确的python解释器:

conda activate py_envs

pip install PyPDF2

Python代码:

from PyPDF2 import PdfMerger

#set path files
import os
os.chdir('/ur/path/to/folder/')
cwd = os.path.abspath('')
files = os.listdir(cwd)

def merge_pdf_files():
    merger = PdfMerger()
    pdf_files = [x for x in files if x.endswith(".pdf")]
    [merger.append(pdf) for pdf in pdf_files]
    with open("merged_pdf_all.pdf", "wb") as new_file:
        merger.write(new_file)

if __name__ == "__main__":
    merge_pdf_files()

2022-11-28 09:28:45

可以使用PyPdf2s PdfMerger类。

文件连接

您可以使用append方法简单地连接文件。

from PyPDF2 import PdfMerger

pdfs = ['file1.pdf', 'file2.pdf', 'file3.pdf', 'file4.pdf']

merger = PdfMerger()

for pdf in pdfs:
    merger.append(pdf)

merger.write("result.pdf")
merger.close()

如果需要，可以传递文件句柄而不是文件路径。

文件合并

e.g.

merger.merge(2, pdf)

在这里，我们将整个pdf插入到输出中，但在第2页。

页面范围

如果希望控制从特定文件中追加哪些页面，可以使用pages关键字参数append和merge，以(start, stop[， step])的形式传递一个元组(类似于常规的range函数)。

e.g.

merger.append(pdf, pages=(0, 3))    # first 3 pages
merger.append(pdf, pages=(0, 6, 2)) # pages 1,3, 5

如果你指定了一个无效的范围，你会得到一个IndexError。

您可能还想看看作为pypdf2的一部分提供的pdfcat脚本。您可以潜在地避免完全编写代码的需要。

PyPdf2 github还包括一些演示合并的示例代码。

PyMuPdf

另一个值得一看的库是PyMuPdf。合并同样简单。

从命令行:

python -m fitz join -o result.pdf file1.pdf file2.pdf file3.pdf

从代码中

import fitz

result = fitz.open()

for pdf in ['file1.pdf', 'file2.pdf', 'file3.pdf']:
    with fitz.open(pdf) as mfile:
        result.insert_pdf(mfile)
    
result.save("result.pdf")

有大量的选项，详细说明在项目维基。

注意:在旧版本的PyMuPDF中insert_pdf为insertPDF

2016-06-21 13:12:13

合并目录下的所有pdf文件

把pdf文件放到目录下。启动程序。你会得到一个合并了所有pdf文件的pdf。

import os
from PyPDF2 import PdfMerger

x = [a for a in os.listdir() if a.endswith(".pdf")]

merger = PdfMerger()

for pdf in x:
    merger.append(open(pdf, 'rb'))

with open("result.pdf", "wb") as fout:
    merger.write(fout)

今天我该如何编写上面相同的代码呢

from glob import glob
from PyPDF2 import PdfMerger



def pdf_merge():
    ''' Merges all the pdf files in current directory '''
    merger = PdfMerger()
    allpdfs = [a for a in glob("*.pdf")]
    [merger.append(pdf) for pdf in allpdfs]
    with open("Merged_pdfs.pdf", "wb") as new_file:
        merger.write(new_file)


if __name__ == "__main__":
    pdf_merge()

2017-11-17 17:40:50

您也可以使用pikepdf(源代码文档)。

示例代码可以是(摘自文档):

from glob import glob

from pikepdf import Pdf

pdf = Pdf.new()

for file in glob('*.pdf'):  # you can change this to browse directories recursively
    with Pdf.open(file) as src:
        pdf.pages.extend(src.pages)

pdf.save('merged.pdf')
pdf.close()

如果想要排除页面，可以采用另一种方法，例如将页面复制到新的pdf中(然后，您可以选择不复制哪些页面。Pages对象的行为类似于一个列表)。

它仍然被积极维护，截至2022年2月，PyPDF2和pdfrw似乎都不是这种情况。

我还没有对它进行基准测试，所以我不知道它比其他解决方案更快还是更慢。

在我的例子中，与PyMuPDF相比的一个优点是有一个官方的Ubuntu包可用(python3-pikepdf)，可以根据它来打包我自己的软件。

2022-02-22 18:01:20

合并PDF文件

推荐文章

最新文章

标签