Python实例详解pdfplumber读取PDF写入Excel

WBOY

发布时间：2022-06-20 11:58:11

7924人浏览过

来源于CSDN

转载

本篇文章给大家带来了关于python的相关知识，其中主要介绍了关于pdfplumber读取pdf写入excel的相关问题，包括了pdfplumber模块的安装、加载pdf，以及一些实战操作等等，下面一起来看一下，希望对大家有帮助。

Python实例详解pdfplumber读取PDF写入Excel

推荐学习：python视频教程

一、Python操作PDF 13大库对比

PDF（Portable Document Format）是一种便携文档格式，便于跨操作系统传播文档。PDF文档遵循标准格式，因此存在很多可以操作PDF文档的工具，Python自然也不例外。

Python操作PDF模块对比图如下：

立即学习“Python免费学习笔记（深入）”；

在这里插入图片描述

本文主要介绍pdfplumber专注PDF内容提取，例如文本（位置、字体及颜色等）和形状（矩形、直线、曲线），还有解析表格的功能。

二、pdfplumber模块

其他几个 Python 库帮助用户从 PDF 中提取信息。作为一个广泛的概述，pdfplumber它通过结合以下功能将自己与其他 PDF 处理库区分开来：

轻松访问有关每个 PDF 对象的详细信息
用于提取文本和表格的更高级别、可自定义的方法
紧密集成的可视化调试
其他有用的实用功能，例如通过裁剪框过滤对象

1. 安装

cmd控制台输入：

pip install pdfplumber

导包：

import pdfplumber

案例PDF截图（两页未截全）：
在这里插入图片描述

2. 加载PDF

读取PDF代码：pdfplumber.open("路径/文件名.pdf", password = "test", laparams = { "line_overlap": 0.7 })

参数解读：

password ：要加载受密码保护的 PDF，请传递password关键字参数
laparams：要将布局分析参数设置为pdfminer.six的布局引擎，请传递laparams关键字参数

案例代码：

import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:
    print(pdf)
    print(type(pdf))

输出结果：

<pdfplumber.pdf.PDF object at 0x000001A56C323DC0><class 'pdfplumber.pdf.PDF'>

3. pdfplumber.PDF类

pdfplumber.PDF类表示单个 PDF，并具有两个主要属性：

属性	说明
`.metadata`	从PDF的Info中获取元数据`键 /值对`字典。通常包括“ CreationDate”，“ ModDate”，“ Producer”等。
`.pages`	返回一个包含pdfplumber.Page实例的列表，每一个实例代表PDF每一页的信息

1. 读取PDF文档信息（.metadata）：

import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:
    print(pdf.metadata)

运行结果：

Joker AIx

一站式AI创意生产平台，覆盖图像、视频、音频、文案全品类创作

下载

{'Author': 'wangwangyuqing', 'Comments': '', 'Company': '', 'CreationDate': "D:20220330113508+03'35'", 'Creator': 'WPS 文字', 'Keywords': '', 'ModDate': "D:20220330113508+03'35'", 'Producer': '', 'SourceModified': "D:20220330113508+03'35'", 'Subject': '', 'Title': '', 'Trapped': 'False'}

2. 输出总页数

import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:
    print(len(pdf.pages))

运行结果：

4. pdfplumber.Page类

pdfplumber.Page类是pdfplumber整个的核心，大多数操作都围绕这个类进行操作，它具有以下几个属性：

属性	说明
`.page_number`	顺序页码，从1第一页开始，从第二页开始2，依此类推。
`.width`	页面的宽度。
`.height`	页面的高度。
`.objects/.chars/.lines/.rects/.curves/.figures/.images`	这些属性中的每一个都是一个列表，每个列表包含一个字典，用于嵌入页面上的每个此类对象。有关详细信息，请参阅下面的“对象”。

常用方法如下：

方法名	说明
`.extract_text()`	用来提页面中的文本，将页面的所有字符对象整理为的那个字符串
`.extract_words()`	返回的是所有的单词及其相关信息
`.extract_tables()`	提取页面的表格
`.to_image()`	用于可视化调试时，返回PageImage类的一个实例
`.close()`	默认情况下，Page对象缓存其布局和对象信息，以避免重新处理它。但是，在解析大型 PDF 时，这些缓存的属性可能需要大量内存。您可以使用此方法刷新缓存并释放内存。

1. 读取第一页宽度、高度等信息

import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:
    first_page = pdf.pages[0]  # pdfplumber.Page对象的第一页
    # 查看页码
    print('页码：', first_page.page_number)
    # 查看页宽
    print('页宽：', first_page.width)
    # 查看页高
    print('页高：', first_page.height)

运行结果：

页码： 1页宽： 595.3页高： 841.9

2. 读取文本第一页

import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:
    first_page = pdf.pages[0]  # pdfplumber.Page对象的第一页
    text = first_page.extract_text()
    print(text)

运行结果：

店铺名 价格 销量 地址
小罐茶旗舰店 449 474 安徽
零趣食品旗舰店 6.9 60000 福建
天猫超市 1304 3961 上海
天猫超市 139 25000 上海
天猫超市 930 692 上海
天猫超市 980 495 上海
天猫超市 139 100000 上海
三只松鼠旗舰店 288 25000 安徽
红小厨旗舰店 698 1767 北京
三只松鼠旗舰店 690 15000 安徽
一统领鲜旗舰店 1098 1580 上海
新大猩食品专营9.8 7000 湖南.......舰店
蟹纳旗舰店 498 1905 上海
三只松鼠坚果at茶 188 35000 安徽
嘉禹沪晓旗舰店 598 1517 上海

3. 读取表格第一页

import pdfplumberimport xlwtwith pdfplumber.open("1.pdf") as pdf:
    page_one = pdf.pages[0]  # PDF第一页
    table_1 = page_one.extract_table()  # 读取表格数据
    # 1. 创建Excel表对象
    workbook = xlwt.Workbook(encoding='utf8')
    # 2. 新建sheet表
    worksheet = workbook.add_sheet('Sheet1')
    # 3. 自定义列名
    col1 = table_1[0]
    # print(col1)# ['店铺名', '价格', '销量', '地址']
    # 4. 将列属性元组col写进sheet表单中第一行
    for i in range(0, len(col1)):
        worksheet.write(0, i, col1[i])
    # 5. 将数据写进sheet表单中
    for i in range(0, len(table_1[1:])):
        data = table_1[1:][i]
        for j in range(0, len(col1)):
            worksheet.write(i + 1, j, data[j])
    # 6. 保存文件分两种格式
    workbook.save('test.xls')

运行结果：

在这里插入图片描述

三、实战操作

1. 提取单个PDF全部页数

测试代码：

import pdfplumberimport xlwtwith pdfplumber.open("1.pdf") as pdf:
    # 1. 把所有页的数据存在一个临时列表中
    item = []
    for page in pdf.pages:
        text = page.extract_table()
        for i in text:
            item.append(i)
    # 2. 创建Excel表对象
    workbook = xlwt.Workbook(encoding='utf8')
    # 3. 新建sheet表
    worksheet = workbook.add_sheet('Sheet1')
    # 4. 自定义列名
    col1 = item[0]
    # print(col1)# ['店铺名', '价格', '销量', '地址']
    # 5. 将列属性元组col写进sheet表单中第一行
    for i in range(0, len(col1)):
        worksheet.write(0, i, col1[i])
    # 6. 将数据写进sheet表单中
    for i in range(0, len(item[1:])):
        data = item[1:][i]
        for j in range(0, len(col1)):
            worksheet.write(i + 1, j, data[j])
    # 7. 保存文件分两种格式
    workbook.save('test.xls')

运行结果（上面得没截全）：

在这里插入图片描述

2. 批量提取多个PDF文件

在这里插入图片描述

测试代码：

import pdfplumber
import xlwt
import os

# 一、获取文件下所有pdf文件路径
file_dir = r'E:Python学习pdf文件'
file_list = []
for files in os.walk(file_dir):
    # print(files)
    # ('E:\Python学习\pdf文件', [],
    #  ['1.pdf', '1的副本.pdf', '1的副本10.pdf', '1的副本11.pdf', '1的副本2.pdf', '1的副本3.pdf', '1的副本4.pdf', '1的副本5.pdf', '1的副本6.pdf',
    #   '1的副本7.pdf', '1的副本8.pdf', '1的副本9.pdf'])
    for file in files[2]:
        # 以. 进行分割如果后缀为PDF或pdf就拼接地址存入file_list
        if file.split(".")[1] == 'pdf' or file.split(".")[1] == 'PDF':
            file_list.append(file_dir + '\' + file)

# 二、存入Excel
# 1. 把所有PDF文件的所有页的数据存在一个临时列表中
item = []
for file_path in file_list:
    with pdfplumber.open(file_path) as pdf:
        for page in pdf.pages:
            text = page.extract_table()
            for i in text:
                item.append(i)

# 2. 创建Excel表对象
workbook = xlwt.Workbook(encoding='utf8')
# 3. 新建sheet表
worksheet = workbook.add_sheet('Sheet1')
# 4. 自定义列名
col1 = item[0]
# print(col1)# ['店铺名', '价格', '销量', '地址']
# 5. 将列属性元组col写进sheet表单中第一行
for i in range(0, len(col1)):
    worksheet.write(0, i, col1[i])
# 6. 将数据写进sheet表单中
for i in range(0, len(item[1:])):
    data = item[1:][i]
    for j in range(0, len(col1)):
        worksheet.write(i + 1, j, data[j])
# 7. 保存文件分两种格式
workbook.save('test.xls')

运行结果（12个文件，一个文件50行总共600行）：

在这里插入图片描述

推荐学习：python视频教程

Python大文件怎么过滤特定行_正则匹配过滤并写入新文件

Python怎么读取内存文件_io.StringIO与BytesIO模拟文件

Python类型检查怎么做_Mypy静态类型分析器结合Type Hints提前发现参数类型传错问题

Python怎么计算均值方差_mean/var/std基本统计量计算

Python Flask如何连多个DB_SQLAlchemy多数据库动态绑定Binds特性解决读写分离问题

WPS零基础入门到精通全套教程！

全网最新最细最实用WPS零基础入门到精通全套教程！带你真正掌握WPS办公！内含Excel基础操作、函数设计、数据透视表等

下载

相关专题

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

135

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

226

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

502

2026.03.04