合并PDF文件

是否有可能，使用Python，合并单独的PDF文件?

假设是这样，我需要进一步扩展它。我希望循环通过目录中的文件夹，并重复此过程。

我可能是得过其实了，但是否可以排除每个pdf文件中包含的一页(我的报告生成总是创建一个额外的空白页)。

当前回答

from PyPDF2 import PdfFileMerger
import webbrowser
import os
dir_path = os.path.dirname(os.path.realpath(__file__))

def list_files(directory, extension):
    return (f for f in os.listdir(directory) if f.endswith('.' + extension))

pdfs = list_files(dir_path, "pdf")

merger = PdfFileMerger()

for pdf in pdfs:
    merger.append(open(pdf, 'rb'))

with open('result.pdf', 'wb') as fout:
    merger.write(fout)

webbrowser.open_new('file://'+ dir_path + '/result.pdf')

Go 回购：https://github.com/mahaguru24/Python_Merge_PDF.git

2018-07-27 02:24:48

其他回答

它是可能的，使用Python，合并单独的PDF文件?

Yes.

下面的例子将一个文件夹中的所有文件合并为一个新的PDF文件:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from argparse import ArgumentParser
from glob import glob
from pyPdf import PdfFileReader, PdfFileWriter
import os

def merge(path, output_filename):
    output = PdfFileWriter()

    for pdffile in glob(path + os.sep + '*.pdf'):
        if pdffile == output_filename:
            continue
        print("Parse '%s'" % pdffile)
        document = PdfFileReader(open(pdffile, 'rb'))
        for i in range(document.getNumPages()):
            output.addPage(document.getPage(i))

    print("Start writing '%s'" % output_filename)
    with open(output_filename, "wb") as f:
        output.write(f)

if __name__ == "__main__":
    parser = ArgumentParser()

    # Add more options if you like
    parser.add_argument("-o", "--output",
                        dest="output_filename",
                        default="merged.pdf",
                        help="write merged PDF to FILE",
                        metavar="FILE")
    parser.add_argument("-p", "--path",
                        dest="path",
                        default=".",
                        help="path of source PDF files")

    args = parser.parse_args()
    merge(args.path, args.output_filename)

2014-03-31 16:41:53

您可以从PyPDF2模块使用pdffilemerge。

例如，要从路径列表中合并多个PDF文件，可以使用以下函数:

from PyPDF2 import PdfFileMerger

# pass the path of the output final file.pdf and the list of paths
def merge_pdf(out_path: str, extracted_files: list [str]):
    merger   = PdfFileMerger()
    
    for pdf in extracted_files:
        merger.append(pdf)

    merger.write(out_path)
    merger.close()

merge_pdf('./final.pdf', extracted_files)

这个函数从父文件夹中递归地获取所有文件:

import os

# pass the path of the parent_folder
def fetch_all_files(parent_folder: str):
    target_files = []
    for path, subdirs, files in os.walk(parent_folder):
        for name in files:
            target_files.append(os.path.join(path, name))
    return target_files 

# get a list of all the paths of the pdf
extracted_files = fetch_all_files('./parent_folder')

最后，使用这两个函数进行声明。可以包含多个文档的parent_folder_path，以及用于合并PDF的目的地的output_pdf_path:

# get a list of all the paths of the pdf
parent_folder_path = './parent_folder'
outup_pdf_path     = './final.pdf'

extracted_files = fetch_all_files(parent_folder_path)
merge_pdf(outup_pdf_path, extracted_files)

你可以从这里获得完整的代码(来源):如何使用Python合并PDF文档

2021-11-13 18:43:40

pdfrw库可以很容易地做到这一点，假设您不需要保存书签和注释，并且您的pdf文件没有加密。Cat.py是一个示例拼接脚本，而子集.py是一个示例页面子集脚本。

串联脚本的相关部分——假设input是一个输入文件名列表，outfn是一个输出文件名:

from pdfrw import PdfReader, PdfWriter

writer = PdfWriter()
for inpfn in inputs:
    writer.addpages(PdfReader(inpfn).pages)
writer.write(outfn)

正如你所看到的，省略最后一页是很容易的，例如:

    writer.addpages(PdfReader(inpfn).pages[:-1])

免责声明:我是pdfrw的主要作者。

2017-04-02 00:04:57

您也可以使用pikepdf(源代码文档)。

示例代码可以是(摘自文档):

from glob import glob

from pikepdf import Pdf

pdf = Pdf.new()

for file in glob('*.pdf'):  # you can change this to browse directories recursively
    with Pdf.open(file) as src:
        pdf.pages.extend(src.pages)

pdf.save('merged.pdf')
pdf.close()

如果想要排除页面，可以采用另一种方法，例如将页面复制到新的pdf中(然后，您可以选择不复制哪些页面。Pages对象的行为类似于一个列表)。

它仍然被积极维护，截至2022年2月，PyPDF2和pdfrw似乎都不是这种情况。

我还没有对它进行基准测试，所以我不知道它比其他解决方案更快还是更慢。

在我的例子中，与PyMuPDF相比的一个优点是有一个官方的Ubuntu包可用(python3-pikepdf)，可以根据它来打包我自己的软件。

2022-02-22 18:01:20

使用正确的python解释器:

conda activate py_envs

pip install PyPDF2

Python代码:

from PyPDF2 import PdfMerger

#set path files
import os
os.chdir('/ur/path/to/folder/')
cwd = os.path.abspath('')
files = os.listdir(cwd)

def merge_pdf_files():
    merger = PdfMerger()
    pdf_files = [x for x in files if x.endswith(".pdf")]
    [merger.append(pdf) for pdf in pdf_files]
    with open("merged_pdf_all.pdf", "wb") as new_file:
        merger.write(new_file)

if __name__ == "__main__":
    merge_pdf_files()

2022-11-28 09:28:45

合并PDF文件

推荐文章

最新文章

标签