0

0

如何将PDF转换成TXT文件?PDF转TXT操作方法

P粉602998670

P粉602998670

发布时间:2026-01-10 10:43:30

|

830人浏览过

|

来源于php中文网

原创

pdf转txt有五种方法:一、adobe acrobat pro支持ocr和结构化导出;二、python脚本批量处理文字型pdf;三、在线ocr工具便捷但存隐私风险;四、windows powershell配合edge手动复制;五、linux用pdftotext命令行高效转换。

如何将pdf转换成txt文件?pdf转txt操作方法

如果您需要从PDF文档中提取纯文本内容,但发现直接复制粘贴存在格式错乱、乱码或无法选中文字等问题,则可能是由于PDF文件为扫描图像型或加密限制所致。以下是将PDF转换成TXT文件的多种操作方法:

一、使用Adobe Acrobat Pro进行导出

Adobe Acrobat Pro支持对可编辑和扫描型PDF执行OCR识别并导出为纯文本。该方法适用于Windows与macOS系统,能较好保留原始段落结构。

1、启动Adobe Acrobat Pro,点击“文件”→“打开”,选择目标PDF文件。

2、若PDF为扫描件,点击右侧“扫描和OCR”面板中的“识别文本”,选择语言后点击“识别文本”。

3、确认识别完成后,点击“文件”→“导出到”→“文本(.txt)”,指定保存路径并点击“保存”。

4、在弹出的导出选项窗口中,勾选“保留段落结构”,取消勾选“保留字体和样式”,以确保输出为标准TXT格式。

二、使用Python脚本批量转换(需安装pdfplumber和PyPDF2)

该方法适合处理大量PDF文件,且对文字型PDF兼容性高;不依赖图形界面,可在命令行环境运行。

1、在终端或命令提示符中执行:pip install pdfplumber 安装核心解析库。

2、新建一个名为pdf_to_txt.py的文件,写入以下代码:

import pdfplumber
def convert_pdf_to_txt(pdf_path, txt_path):
  with pdfplumber.open(pdf_path) as pdf:
    text = ""
    for page in pdf.pages:
      text += page.extract_text() or ""
  with open(txt_path, "w", encoding="utf-8") as f:
    f.write(text)

3、在同级目录下放入待转换的example.pdf,然后在终端中运行:python pdf_to_txt.py(需补充调用逻辑或使用命令行参数)。

4、生成的TXT文件将自动保存至相同目录,编码为UTF-8,可避免中文乱码问题。

三、使用在线OCR转换工具(如Smallpdf或iLovePDF)

适用于临时、小体积PDF(通常限制单文件≤100MB),无需安装软件,但需注意隐私风险——上传文件可能被服务器临时存储。

1、访问https://smallpdf.com/pdf-to-texthttps://www.ilovepdf.com/pdf_to_text 网站。

飞象老师
飞象老师

猿辅导推出的AI教学辅助工具

下载

2、点击“选择文件”按钮,上传目标PDF。若为扫描件,确保网站界面中已启用OCR选项(部分工具默认开启)。

3、等待进度条完成,页面显示“转换完成”后,点击“下载TXT”按钮。

4、下载后的文件名默认含时间戳,建议立即重命名为有意义的名称,并检查首段是否存在页眉页脚残留或分栏错位现象。

四、使用Windows PowerShell调用内置PDF引擎(仅限文字型PDF)

Windows 10/11内置的Microsoft Edge浏览器引擎可通过PowerShell调用,实现无第三方工具的轻量转换,但不支持扫描件或加密PDF。

1、右键点击PDF文件,选择“打开方式”→“Microsoft Edge”。确认内容可正常选中文字。

2、打开PowerShell,输入:Get-Content "C:\path\to\file.pdf" -Encoding Byte | Set-Content "C:\path\to\output.txt" -Encoding UTF8(此方式无效,需改用Edge自动化)。

3、实际有效方式:在PowerShell中执行:Start-Process "msedge.exe" --args "--headless --disable-gpu --dump-dom 'file:///C:/path/to/file.pdf'" | Out-File temp.html(需配合后续HTML转TXT脚本)。

4、更可靠做法是:在Edge中按Ctrl+A全选→Ctrl+C复制→新建记事本→Ctrl+V粘贴→另存为TXT,编码选择UTF-8

五、使用Linux命令行工具pdftotext(来自poppler-utils)

pdftotext是开源命令行工具,精度高、速度快,支持OCR需额外集成Tesseract,原生命令仅处理文字型PDF。

1、在Ubuntu/Debian系统中执行:sudo apt update && sudo apt install poppler-utils

2、确认PDF路径为/home/user/doc.pdf,执行命令:pdftotext -layout /home/user/doc.pdf /home/user/doc.txt

3、-layout参数用于保持原文本横向对齐关系,避免段落挤压;若需去除换行符合并为连续段落,改用-raw参数。

4、转换完成后,使用file -i /home/user/doc.txt验证输出文件编码是否为utf-8,非则用iconv转换:iconv -f gbk -t utf-8 doc.txt > doc_utf8.txt

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
edge是什么浏览器
edge是什么浏览器

Edge是一款由Microsoft开发的网页浏览器,是Windows 10操作系统中默认的浏览器,其目标是提供更快、更安全、更现代化的浏览器体验。本专题为大家提供edge浏览器相关的文章、下载、课程内容,供大家免费下载体验。

1691

2023.08.21

IE浏览器自动跳转EDGE如何恢复
IE浏览器自动跳转EDGE如何恢复

ie浏览器自动跳转edge的解决办法:1、更改默认浏览器设置;2、阻止edge浏览器的自动跳转;3、更改超链接的默认打开方式;4、禁用“快速网页查看器”;5、卸载edge浏览器;6、检查第三方插件或应用程序等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

395

2024.03.05

如何解决Edge打开但没有标题的问题
如何解决Edge打开但没有标题的问题

若 Microsoft Edge 浏览器打开后无标题(窗口空白或标题栏缺失),可尝试以下方法解决: 重启 Edge:关闭所有窗口,重新启动浏览器。 重置窗口布局:右击任务栏 Edge 图标 → 选择「最大化」或「还原」。 禁用扩展:进入 edge://extensions 临时关闭插件测试。 重置浏览器设置:前往 edge://settings/reset 恢复默认配置。 更新或重装 Edge:检查最新版本,或通过控制面板修复

1025

2025.04.24

pip安装使用方法
pip安装使用方法

安装步骤:1、确保Python已经正确安装在您的计算机上;2、下载“get-pip.py”脚本;3、按下Win + R键,然后输入cmd并按下Enter键来打开命令行窗口;4、在命令行窗口中,使用cd命令切换到“get-pip.py”所在的目录;5、执行安装命令;6、验证安装结果即可。大家可以访问本专题下的文章,了解pip安装使用方法的更多内容。

373

2023.10.09

更新pip版本
更新pip版本

更新pip版本方法有使用pip自身更新、使用操作系统自带的包管理工具、使用python包管理工具、手动安装最新版本。想了解更多相关的内容,请阅读专题下面的文章。

432

2024.12.20

pip设置清华源
pip设置清华源

设置方法:1、打开终端或命令提示符窗口;2、运行“touch ~/.pip/pip.conf”命令创建一个名为pip的配置文件;3、打开pip.conf文件,然后添加“[global];index-url = https://pypi.tuna.tsinghua.edu.cn/simple”内容,这将把pip的镜像源设置为清华大学的镜像源;4、保存并关闭文件即可。

793

2024.12.23

python升级pip
python升级pip

本专题整合了python升级pip相关教程,阅读下面的文章了解更多详细内容。

370

2025.07.23

DOM是什么意思
DOM是什么意思

dom的英文全称是documentobjectmodel,表示文件对象模型,是w3c组织推荐的处理可扩展置标语言的标准编程接口;dom是html文档的内存中对象表示,它提供了使用javascript与网页交互的方式。想了解更多的相关内容,可以阅读本专题下面的文章。

4178

2024.08.14

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

33

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 10.1万人学习

Git 教程
Git 教程

共21课时 | 4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号