0

0

如何正确提取PDF中的图像并修复旋转、倒置与色彩异常问题

聖光之護

聖光之護

发布时间:2026-01-15 09:09:29

|

144人浏览过

|

来源于php中文网

原创

如何正确提取PDF中的图像并修复旋转、倒置与色彩异常问题

使用pymupdf(fitz)提取pdf图像时,常因忽略pixmap坐标系差异、未处理alpha通道及颜色空间转换,导致图像倒置、镜像或色彩失真;本文提供完整解决方案,涵盖pixmap构建、垂直翻转、rgb校准与内存释放。

PDF中的图像数据并非以常规光栅图像形式直接存储,而是通过PDF内容流+资源字典+XObject引用组合描述,其坐标系原点位于左下角(与OpenCV/PIL的左上角原点相反),且原始Pixmap对象默认按PDF内部格式(如CMYK、索引色或带Alpha的灰度)编码。直接调用 document.extract_image() 返回的字节流可能已丢失方向元信息或经历隐式解码,造成视觉上的“倒置”和“颜色异常”——这正是您代码中图像上下颠倒、色彩偏黄/发灰的根本原因。

✅ 正确做法是:绕过 extract_image(),直接基于XRef构造 fitz.Pixmap 对象,再手动转换为NumPy数组并做坐标系对齐:

import fitz
import numpy as np
import cv2
import os

pdf_path = '/content/drive/MyDrive/Wettbewerb Aktuell/1803_AusgGesa-pages-2.pdf'
document = fitz.open(pdf_path)

start_page = 0
end_page = min(1, document.page_count - 1)
output_directory = '/content/drive/MyDrive/Wettbewerb Aktuell/images/'
os.makedirs(output_directory, exist_ok=True)

for page_number in range(start_page, end_page + 1):
    page_folder = os.path.join(output_directory, f"page_{page_number}/")
    os.makedirs(page_folder, exist_ok=True)

    page = document[page_number]
    images = page.get_images(full=True)

    for img_index, img in enumerate(images):
        xref = img[0]  # XRef of the image object

        try:
            # ✅ Step 1: Create Pixmap directly from XRef (preserves native orientation & color info)
            pix = fitz.Pixmap(document, xref)

            # ✅ Step 2: Handle color space — convert to RGB if needed (critical for CMYK/Gray+Alpha)
            if pix.n > 4:  # e.g., CMYK + Alpha → drop Alpha, convert to RGB
                pix = fitz.Pixmap(fitz.csRGB, pix)
            elif pix.n == 4:  # RGB + Alpha → remove alpha channel
                pix = fitz.Pixmap(fitz.csRGB, pix)
            elif pix.n == 1:  # Grayscale → expand to RGB
                pix = fitz.Pixmap(fitz.csRGB, pix)

            # ✅ Step 3: Convert to NumPy array (H×W×N), then FLIP VERTICALLY to match OpenCV/PIL origin
            img_np = np.frombuffer(pix.samples, dtype=np.uint8).reshape(pix.h, pix.w, pix.n)
            img_np_flipped = cv2.flip(img_np, 0)  # ← This fixes "upside-down"

            # ✅ Step 4: Convert BGR→RGB before saving (cv2.imwrite uses BGR by default)
            img_rgb = cv2.cvtColor(img_np_flipped, cv2.COLOR_BGR2RGB)

            # ✅ Step 5: Save with PIL or cv2 (PIL handles RGB natively)
            output_path = os.path.join(page_folder, f"image_{img_index}.png")
            Image.fromarray(img_rgb).save(output_path)
            print(f"✓ Saved: {output_path}")

        except Exception as e:
            print(f"⚠ Failed to process image {img_index} on page {page_number}: {e}")
        finally:
            if 'pix' in locals():
                pix = None  # ? Essential: release Pixmap memory explicitly

document.close()

? 关键要点说明

造好物
造好物

一站式AI造物设计平台

下载
  • Pixmap ≠ Raw Bytes:extract_image() 返回的是PDF解码后的JPEG/PNG字节流,可能已被压缩或重采样;而 fitz.Pixmap(document, xref) 直接从PDF对象重建像素缓冲区,保留原始分辨率与方向语义。
  • 垂直翻转不可省略:PDF的 (0,0) 在左下,Pixmap的 .samples 数组按PDF坐标顺序填充(即第0行=页面最底行),因此 cv2.flip(..., 0) 是校正显示方向的必要步骤。
  • 颜色空间必须显式归一化:PDF支持CMYK、DeviceN、Indexed等非RGB色彩模型;不转换会导致OpenCV误读通道(如将CMYK当BGR),引发严重色偏。pix = fitz.Pixmap(fitz.csRGB, pix) 强制转换为标准sRGB。
  • 及时释放Pixmap:pix = None 不仅是良好实践,更是避免内存泄漏(尤其处理大PDF或多页时)的强制要求。

? 额外建议

  • 若仍存在轻微色差,可尝试在保存前添加Gamma校正(img_rgb = np.clip(img_rgb ** 1.1 * 255, 0, 255).astype(np.uint8));
  • 对含透明背景的图像,如需白底导出,可在转换前用 pix = fitz.Pixmap(fitz.csRGB, pix, 255) 指定白色背景;
  • 避免混用 cv2.imwrite(BGR)与 PIL.Image.fromarray(RGB)——统一用PIL更安全,因其自动识别通道数。

遵循上述流程后,提取图像将与Adobe Illustrator手动导出效果完全一致:方向正确、色彩准确、无畸变。

相关专题

更多
Java 桌面应用开发(JavaFX 实战)
Java 桌面应用开发(JavaFX 实战)

本专题系统讲解 Java 在桌面应用开发领域的实战应用,重点围绕 JavaFX 框架,涵盖界面布局、控件使用、事件处理、FXML、样式美化(CSS)、多线程与UI响应优化,以及桌面应用的打包与发布。通过完整示例项目,帮助学习者掌握 使用 Java 构建现代化、跨平台桌面应用程序的核心能力。

37

2026.01.14

php与html混编教程大全
php与html混编教程大全

本专题整合了php和html混编相关教程,阅读专题下面的文章了解更多详细内容。

19

2026.01.13

PHP 高性能
PHP 高性能

本专题整合了PHP高性能相关教程大全,阅读专题下面的文章了解更多详细内容。

37

2026.01.13

MySQL数据库报错常见问题及解决方法大全
MySQL数据库报错常见问题及解决方法大全

本专题整合了MySQL数据库报错常见问题及解决方法,阅读专题下面的文章了解更多详细内容。

19

2026.01.13

PHP 文件上传
PHP 文件上传

本专题整合了PHP实现文件上传相关教程,阅读专题下面的文章了解更多详细内容。

16

2026.01.13

PHP缓存策略教程大全
PHP缓存策略教程大全

本专题整合了PHP缓存相关教程,阅读专题下面的文章了解更多详细内容。

6

2026.01.13

jQuery 正则表达式相关教程
jQuery 正则表达式相关教程

本专题整合了jQuery正则表达式相关教程大全,阅读专题下面的文章了解更多详细内容。

3

2026.01.13

交互式图表和动态图表教程汇总
交互式图表和动态图表教程汇总

本专题整合了交互式图表和动态图表的相关内容,阅读专题下面的文章了解更多详细内容。

45

2026.01.13

nginx配置文件详细教程
nginx配置文件详细教程

本专题整合了nginx配置文件相关教程详细汇总,阅读专题下面的文章了解更多详细内容。

9

2026.01.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.7万人学习

Rust 教程
Rust 教程

共28课时 | 4.4万人学习

Git 教程
Git 教程

共21课时 | 2.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号