0

0

Golang实战:简单的PDF文本提取工具_第三方PDF库集成

P粉602998670

P粉602998670

发布时间:2026-03-05 09:34:38

|

482人浏览过

|

来源于php中文网

原创

pdfcpu提取中文文本需配置fontmap.yml指定中文字体绝对路径,嵌入字体时无效;go调用需设conf.fontmapfile,返回文本页间以"\f"分隔;unidoc过重且有许可限制;加密pdf仅owner密码阻断提取。

golang实战:简单的pdf文本提取工具_第三方pdf库集成

pdfcpu 提取文本时中文乱码怎么办

默认不支持中文,因为 pdfcpu 内置字体映射没覆盖常见中文字体(如 Adobe-GB1、GBK),直接调用 pdfcpu extract text 会把中文转成空格或方块。

  • 必须显式指定字体映射配置文件:用 -f 参数传入自定义 fontmap.yml
  • fontmap.yml 至少要包含一条匹配规则,例如 Adobe-GB1: /System/Library/Fonts/PingFang.ttc(macOS)或 SimSun: C:\Windows\Fonts\simsun.ttc(Windows)
  • 路径必须是绝对路径,相对路径在 pdfcpu 中会被忽略
  • 如果 PDF 使用了嵌入字体(Embedded Font),fontmap.yml 无效,得先用 pdfcpu validate 检查是否含嵌入字体;有则需换库(如 unidoc)或预处理剥离字体

golang 调用 pdfcpu 提取文本的最小可行代码

别直接 exec.Command 包一层就完事——pdfcpu 的 Go API 是纯函数式设计,不暴露底层 reader,但支持从 io.Reader 加载 PDF,更可控也更省内存。

  • 导入 github.com/pdfcpu/pdfcpu/pkg/apigithub.com/pdfcpu/pdfcpu/pkg/pdfcpu
  • api.ExtractText,传入 *pdfcpu.Configuration(关键:设置 Conf.FontMapFile = "/path/to/fontmap.yml"
  • 输入必须是 bytes.Readeros.File,不能是网络流(http.Response.Body 需先 io.ReadAll
  • 返回的 string 是按页拼接的,每页之间用 "\f" 分隔,不是 "\n",注意切分逻辑
cfg := pdfcpu.NewDefaultConfiguration()
cfg.FontMapFile = "/etc/fontmap.yml"
text, err := api.ExtractText(bytes.NewReader(pdfData), nil, cfg)

为什么 github.com/unidoc/unipdf 不适合轻量 CLI 工具

unidoc 的 Go SDK 功能全,但对简单文本提取来说太重:许可证限制、编译慢、二进制体积大、运行时依赖多。

XYZ SCIENCE
XYZ SCIENCE

免费论文AIGC检测,一键改写降AI率

下载
  • 免费版只支持 200 页/天,超限后 pdf.Reader.Read 会静默返回空文本,无明确错误提示
  • 必须调用 license.SetLicenseKey,否则部分 PDF(尤其带加密或非标准结构)会 panic 报 "invalid object number"
  • 编译出的二进制含大量未使用的渲染/图像模块,Linux amd64 下轻松破 40MB,而 pdfcpu + fontmap 可控在 8MB 内
  • 它默认把换行符标准化为 "\n",看似友好,但实际会合并原文档中因排版产生的“假换行”,导致段落粘连

PDF 加密时 extract text 失败的快速判断和绕过

不是所有加密都阻止文本提取。pdfcpu 会区分 owner password 和 user password,只有 owner password 才真正限制内容操作。

立即学习go语言免费学习笔记(深入)”;

  • pdfcpu validate -v input.pdf 查看输出里是否有 Encrypted: truePermissions: ... text extraction denied
  • 如果只是 user password(打开密码),传入 -pw yourpass 即可继续提取,无需解密 PDF 文件本身
  • 如果 owner password 锁死了文本权限,且你没有密码,基本无解——Go 生态里没有开源库能绕过 AES-256 权限位
  • 别试 qpdf --decrypt 后再喂给 pdfcpu:qpdf 会重写对象流,某些 PDF 经此处理后反而触发 pdfcpu 的 strict mode 报错 "invalid xref"
pdfcpu 的 fontmap 机制看着麻烦,但它是目前 Go 生态里唯一能把中文字体映射、权限检查、内存控制三者稳住的方案。真要支持嵌入字体 PDF,就得接受加一层 OCR 的现实——那已经不是“文本提取”而是“文档理解”了。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
golang如何定义变量
golang如何定义变量

golang定义变量的方法:1、声明变量并赋予初始值“var age int =值”;2、声明变量但不赋初始值“var age int”;3、使用短变量声明“age :=值”等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

209

2024.02.23

golang有哪些数据转换方法
golang有哪些数据转换方法

golang数据转换方法:1、类型转换操作符;2、类型断言;3、字符串和数字之间的转换;4、JSON序列化和反序列化;5、使用标准库进行数据转换;6、使用第三方库进行数据转换;7、自定义数据转换函数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

244

2024.02.23

golang常用库有哪些
golang常用库有哪些

golang常用库有:1、标准库;2、字符串处理库;3、网络库;4、加密库;5、压缩库;6、xml和json解析库;7、日期和时间库;8、数据库操作库;9、文件操作库;10、图像处理库。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

354

2024.02.23

golang和python的区别是什么
golang和python的区别是什么

golang和python的区别是:1、golang是一种编译型语言,而python是一种解释型语言;2、golang天生支持并发编程,而python对并发与并行的支持相对较弱等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

214

2024.03.05

golang是免费的吗
golang是免费的吗

golang是免费的。golang是google开发的一种静态强类型、编译型、并发型,并具有垃圾回收功能的开源编程语言,采用bsd开源协议。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

407

2024.05.21

golang结构体相关大全
golang结构体相关大全

本专题整合了golang结构体相关大全,想了解更多内容,请阅读专题下面的文章。

429

2025.06.09

golang相关判断方法
golang相关判断方法

本专题整合了golang相关判断方法,想了解更详细的相关内容,请阅读下面的文章。

200

2025.06.10

golang数组使用方法
golang数组使用方法

本专题整合了golang数组用法,想了解更多的相关内容,请阅读专题下面的文章。

1314

2025.06.17

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

2

2026.03.05

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Go 教程
Go 教程

共32课时 | 5.9万人学习

Go语言实战之 GraphQL
Go语言实战之 GraphQL

共10课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号