文件更小，质量更高，大火的Stable Diffusion还能压缩图像？

王林

发布时间：2023-04-12 21:16:24

1088人浏览过

来源于51CTO.COM

转载

近来，Stable Diffusion 成为一个新兴的研究方向。一位名为 Matthias Bühlmann 的博主尝试实验探究这种模型的强大功能，结果发现 Stable Diffusion 是一个非常强大的有损图像压缩编解码器。他撰写了一篇博客描述了这个实验分析过程，以下是博客原文。

首先 Matthias Bühlmann 给出在高压缩因子条件下，Stable Diffusion 方法与 JPG、WebP 的压缩结果，所有结果都是 512x512 像素的分辨率：

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

旧金山风景图，从左至右：JPG (6.16kB), WebP (6.80kB), Stable Diffusion: (4.96kB)。

糖果店，从左至右：JPG (5.68kB), WebP (5.71kB), Stable Diffusion (4.98kB)。

动物照片，从左至右：JPG (5.66kB), WebP (6.74kB), Stable Diffusion (4.97kB)。

这些例子明显表明，与 JPG 和 WebP 相比，使用 Stable Diffusion 压缩图像可以在更小的文件大小下保留更出色的图像质量。

探究实验

Matthias Bühlmann 分析了一下其中的工作原理，Stable Diffusion 使用三个串联的训练好的人工神经网络：

变分自编码器（Variational Auto Encoder，VAE）
U-Net
文本编码器（Text Encoder）

VAE 将图像空间中的图像编码和解码为某种潜在的空间表征。源图像（512 x 512，3x8 或 4x8 bit）的潜在空间表征会分辨率更低（64 x 64）、精度更高（4x32 bit）。

VAE 在训练过程中自行学习，随着模型的逐步训练，不同版本模型的潜在空间表征看起来可能会有所不同，例如 Stable Diffusion v1.4 的潜在空间表征如下（重映射为 4-channel 彩色图像）：

当重新扩展和将潜在特征解释为颜色值（使用 alpha channel）时，图像的主要特征仍然可见，并且 VAE 还将更高分辨率的特征编码到像素值中。

例如，通过一次 VAE 编码 / 解码 roundtrip 得到如下结果：

值得注意的是，这种 roundtrip 不是无损的。例如，图中蓝色带子上白色的字在解码后可读性稍差了一些。Stable Diffusion v1.4 模型的 VAE 一般不太擅长表征小型文本和人脸。

我们知道，Stable Diffusion 的主要用途是根据文本描述生成图像，这就要求该模型要对图像的潜在空间表征进行操作。该模型使用经过训练的 U-Net 迭代地对潜在空间图像进行去噪，输出它在噪声中「看到」（预测）的内容，类似于我们有时把云看成某种形状或面孔。在迭代去噪步骤中，第三个 ML 模型（文本编码器）指导 U-Net 来尝试看到不同的信息。

Matthias Bühlmann 分析了 VAE 生成的潜在表征（latent representation）是如何进行有效压缩的。他发现对 VAE 中的潜在表征进行采样或对潜在表征应用已有的有损图像压缩方法，都会极大地降低重构图像的质量，而 VAE 解码过程似乎对潜在表征的质量鲁棒性较高。

Matthias Bühlmann 将潜在表征从浮点数量化为 8-bit 无符号整数，结果发现只有非常小的重构误差。如下图所示，左：32-bit 浮点潜在表征；中：ground truth；右：8-bit 整数潜在表征。

他还发现通过 palette 和抖动算法进一步量化，得到的结果会出乎意料的好。然而，当直接使用 VAE 解码时，palettized 表征会导致一些可见的伪影：

左：32-bit 潜在表征；中：8-bit 量化潜在表征；右：带有 Floyd-Steinberg 抖动的 palettized 8-bit 潜在表征

带有 Floyd-Steinberg 抖动的 palettized 表征引入了噪声，使解码结果失真。于是 Matthias Bühlmann 使用 U-Net 来去除抖动带来的噪声。经过 4 次迭代，重构结果在视觉上非常接近未量化的版本：

重构结果（左：带有 Floyd-Steinberg 抖动的 palettized 表征；中：经过四次迭代去噪；右：Ground Truth）。

Devin

世界上第一位AI软件工程师，可以独立完成各种开发任务。

下载

虽然结果非常好，但还是会引入一些伪影，例如上图中心形符号上的光泽阴影。

虽然从主观上看，Stable Diffusion 压缩图像的结果比 JPG 和 WebP 好很多，但从 PSNR、SSIM 等指标看，Stable Diffusion 并没有明显的优势。

如下图所示，虽然作为编解码器的 Stable Diffusion 在保留图像粒度方面比其他方法要好得多，但受压缩伪影的影响，图像中物体形状等特征可能会发生变化。

左：JPG 压缩；中：Ground Truth；右：Stable Diffusion 压缩。

值得注意的是，当前的 Stable Diffusion v1.4 模型在压缩过程中无法很好地保留字体很小的文本信息和人脸特征，但 Stable Diffusion v1.5 模型在人脸生成方面有所改进。

左：Ground Truth；中：经过 VAE roundtrip (32-bit 潜在特征) ；右：从 palettized 去噪 8-bit 潜在特征解码的结果。

博客发布后，Matthias Bühlmann 的实验分析引起了大家的讨论。

Matthias Bühlmann 自己认为 Stable Diffusion 的图像压缩效果比预期好，U-Net 似乎能够有效消除抖动引入的噪声。不过，Stable Diffusion 模型未来的版本可能不会再有这种图像压缩特性。

然而有网友质疑道：「VAE 本身就被用于图像压缩」，例如基于 Transformer 的图像压缩方法 TIC 就用到了 VAE 架构，所以 Matthias Bühlmann 的实验似乎是大材小用了。

对此，你有什么看法？

如何用AI将复杂的学术论文改写成通俗易懂的版本？

deepseek提示词怎么加 DeepSeek提示词导入与使用方法

如何用AI去除视频背景？绿幕抠图的替代方案

什么是RAG技术？让AI回答问题更精准的秘密

如何用AI进行舆情监控？品牌声誉管理工具

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：不要think step by step！谷歌最新自然语言推理算法LAMBADA：「反向链推理」才是答案下一篇：Gmail和Docs正在使用人工智能工具来帮助你撰写职位描述

作者最新文章

还在为Magento2慢吞吞的搜索发愁？AlgoliaSearch&Discovery助你打造闪电般的用户体验！

2025-09-16 10:34

如何解决电商库存管理混乱难题？Spryker/Stock模块助你轻松搞定！

2025-09-16 11:12

快速上手夸克浏览器AI搜索_夸克AI搜索保姆级图文教程

2025-10-14 20:48

夸克浏览器AI搜索无法使用_解决夸克AI搜索问题的有效方法

2025-10-15 14:04

夸克浏览器AI搜索设置教程_夸克AI搜索功能详细开启步骤

2025-10-18 13:32

夸克浏览器AI搜索结果不准_优化夸克AI搜索设置的技巧

2025-10-26 10:58

微信朋友圈定时发送神器微信自动发朋友圈软件推荐与使用

2026-01-04 12:22

抖音火山版免费下载电脑版抖音火山版电脑版免费下载入口

2026-01-04 14:33

必应搜索怎样结合演员名找其主演电视剧_必应搜索用演员搜剧技巧【精要】

2026-01-07 17:31

微信自动发朋友圈怎么设置微信朋友圈一键定时发送方法

2026-01-16 12:58

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总，涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

178

2026.01.28

包子漫画在线官方入口大全

本合集汇总了包子漫画2026最新官方在线观看入口，涵盖备用域名、正版无广告链接及多端适配地址，助你畅享12700+高清漫画资源。阅读专题下面的文章了解更多详细内容。

2026.01.28

ao3中文版官网地址大全

AO3最新中文版官网入口合集，汇总2026年主站及国内优化镜像链接，支持简体中文界面、无广告阅读与多设备同步。阅读专题下面的文章了解更多详细内容。

2026.01.28

php怎么写接口教程

本合集涵盖PHP接口开发基础、RESTful API设计、数据交互与安全处理等实用教程，助你快速掌握PHP接口编写技巧。阅读专题下面的文章了解更多详细内容。

2026.01.28

php中文乱码如何解决

本文整理了php中文乱码如何解决及解决方法,阅读节专题下面的文章了解更多详细内容。

2026.01.28

Java 消息队列与异步架构实战

本专题系统讲解 Java 在消息队列与异步系统架构中的核心应用，涵盖消息队列基本原理、Kafka 与 RabbitMQ 的使用场景对比、生产者与消费者模型、消息可靠性与顺序性保障、重复消费与幂等处理，以及在高并发系统中的异步解耦设计。通过实战案例，帮助学习者掌握使用 Java 构建高吞吐、高可靠异步消息系统的完整思路。

2026.01.28

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

2026.01.27