
首先,我们需要从原始 pdf 文件中提取目录。pymupdf 提供了 document.get_toc() 方法来获取目录信息。目录信息以嵌套列表的形式返回,每个子列表代表一个目录项,包含层级、标题和页码。
import fitz
def extract_toc(input_pdf_path):
"""
从 PDF 文件中提取目录。
Args:
input_pdf_path (str): 输入 PDF 文件的路径。
Returns:
list: 目录列表,每个元素是一个包含层级、标题和页码的列表。
"""
pdf_document = fitz.open(input_pdf_path)
toc = pdf_document.get_toc()
pdf_document.close()
return toc接下来,我们需要根据指定的页码范围分割 PDF 文件,并为每个分割后的文件调整目录。关键在于,分割后的每个 PDF 的目录必须符合 PyMuPDF 的目录规则:
def split_pdf_with_toc(input_pdf_path, output_folder, page_ranges):
"""
分割 PDF 文件并保留目录。
Args:
input_pdf_path (str): 输入 PDF 文件的路径。
output_folder (str): 输出文件夹的路径。
page_ranges (list): 页码范围列表,每个元素是一个包含起始页和结束页的元组。
"""
pdf_document = fitz.open(input_pdf_path)
original_toc = pdf_document.get_toc()
for i, (start_page, end_page) in enumerate(page_ranges, start=1):
# 创建新的 PDF 文件
chapter_pdf = fitz.open()
chapter_pdf.insert_pdf(pdf_document, from_page=start_page - 1, to_page=end_page - 1)
# 提取对应页码范围的目录
chapter_toc = []
for level, title, page in original_toc:
if start_page <= page <= end_page:
chapter_toc.append([level, title, page - start_page + 1]) # 页码需要重新计算
# 调整目录结构
if chapter_toc:
first_level = chapter_toc[0][0]
if first_level != 1:
for j in range(1, first_level):
chapter_toc.insert(0, [j, "dummy", 1])
# 设置目录
chapter_pdf.set_toc(chapter_toc)
# 保存新的 PDF 文件
output_pdf_path = f"{output_folder}/Chapter_{i}.pdf"
chapter_pdf.save(output_pdf_path)
chapter_pdf.close()
pdf_document.close()以下是一个使用示例:
# 示例用法 input_pdf_path = "input.pdf" # 替换为你的输入 PDF 文件路径 output_folder = "output" # 替换为你的输出文件夹路径 page_ranges = [(1, 10), (11, 20), (21, 30)] # 定义页码范围 split_pdf_with_toc(input_pdf_path, output_folder, page_ranges)
在这个例子中,我们将 input.pdf 文件分割成三个部分,分别包含第 1-10 页、第 11-20 页和第 21-30 页。分割后的文件将保存在 output 文件夹中,文件名分别为 Chapter_1.pdf、Chapter_2.pdf 和 Chapter_3.pdf。每个分割后的 PDF 文件都将包含与其内容对应的目录。
通过使用 PyMuPDF 库,我们可以方便地分割 PDF 文件并保留目录。关键在于理解 PyMuPDF 的目录规则,并根据这些规则调整分割后 PDF 文件的目录结构。希望本教程能够帮助你更好地处理 PDF 文件。
以上就是使用 PyMuPDF 按页码范围分割 PDF 并保留目录的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号