使用 PyMuPDF 按页码范围分割 PDF 并保留目录-Python教程-PHP中文网

使用 PyMuPDF 按页码范围分割 PDF 并保留目录

霞舞

发布： 2025-08-31 16:13:01

原创

591人浏览过

使用 PyMuPDF 按页码范围分割 PDF 并保留目录

本文档旨在提供一个使用 PyMuPDF 库分割 PDF 文件并保留对应目录的教程。我们将介绍如何提取原始 PDF 的目录，针对分割后的每个部分，调整目录结构以符合 PyMuPDF 的规范，并将调整后的目录添加到分割后的 PDF 文件中，确保分割后的文档仍然具有完整的导航功能。 ### 前提条件确保已经安装了 PyMuPDF 库。如果没有安装，可以使用 pip 进行安装： ```bash pip install pymupdf

提取目录

首先，我们需要从原始 pdf 文件中提取目录。pymupdf 提供了 document.get_toc() 方法来获取目录信息。目录信息以嵌套列表的形式返回，每个子列表代表一个目录项，包含层级、标题和页码。

import fitz

def extract_toc(input_pdf_path):
    """
    从 PDF 文件中提取目录。

    Args:
        input_pdf_path (str): 输入 PDF 文件的路径。

    Returns:
        list: 目录列表，每个元素是一个包含层级、标题和页码的列表。
    """
    pdf_document = fitz.open(input_pdf_path)
    toc = pdf_document.get_toc()
    pdf_document.close()
    return toc

登录后复制

分割 PDF 并调整目录

接下来，我们需要根据指定的页码范围分割 PDF 文件，并为每个分割后的文件调整目录。关键在于，分割后的每个 PDF 的目录必须符合 PyMuPDF 的目录规则：

第一个目录项的层级必须为 1。
后续目录项的层级只能与前一个目录项相同、高一级或低于前一个目录项。

def split_pdf_with_toc(input_pdf_path, output_folder, page_ranges):
    """
    分割 PDF 文件并保留目录。

    Args:
        input_pdf_path (str): 输入 PDF 文件的路径。
        output_folder (str): 输出文件夹的路径。
        page_ranges (list): 页码范围列表，每个元素是一个包含起始页和结束页的元组。
    """
    pdf_document = fitz.open(input_pdf_path)
    original_toc = pdf_document.get_toc()

    for i, (start_page, end_page) in enumerate(page_ranges, start=1):
        # 创建新的 PDF 文件
        chapter_pdf = fitz.open()
        chapter_pdf.insert_pdf(pdf_document, from_page=start_page - 1, to_page=end_page - 1)

        # 提取对应页码范围的目录
        chapter_toc = []
        for level, title, page in original_toc:
            if start_page <= page <= end_page:
                chapter_toc.append([level, title, page - start_page + 1]) # 页码需要重新计算

        # 调整目录结构
        if chapter_toc:
            first_level = chapter_toc[0][0]
            if first_level != 1:
                for j in range(1, first_level):
                    chapter_toc.insert(0, [j, "dummy", 1])

        # 设置目录
        chapter_pdf.set_toc(chapter_toc)

        # 保存新的 PDF 文件
        output_pdf_path = f"{output_folder}/Chapter_{i}.pdf"
        chapter_pdf.save(output_pdf_path)
        chapter_pdf.close()

    pdf_document.close()

登录后复制

示例

以下是一个使用示例：

# 示例用法
input_pdf_path = "input.pdf"  # 替换为你的输入 PDF 文件路径
output_folder = "output"  # 替换为你的输出文件夹路径
page_ranges = [(1, 10), (11, 20), (21, 30)]  # 定义页码范围

split_pdf_with_toc(input_pdf_path, output_folder, page_ranges)

登录后复制

在这个例子中，我们将 input.pdf 文件分割成三个部分，分别包含第 1-10 页、第 11-20 页和第 21-30 页。分割后的文件将保存在 output 文件夹中，文件名分别为 Chapter_1.pdf、Chapter_2.pdf 和 Chapter_3.pdf。每个分割后的 PDF 文件都将包含与其内容对应的目录。