扩散模型背后数学太难了，啃不动？谷歌用统一视角讲明白了

王林

发布时间：2023-04-11 19:46:08

1472人浏览过

来源于51CTO.COM

转载

最近一段时间，AI 作画可谓是火的一塌糊涂。

在你惊叹 AI 绘画能力的同时，可能还不知道的是，扩散模型在其中起了大作用。就拿热门模型 OpenAI 的 DALL·E 2 来说，只需输入简单的文本（prompt），它就可以生成多张 1024*1024 的高清图像。

在 DALL·E 2 公布没多久，谷歌随后发布了 Imagen，这是一个文本到图像的 AI 模型，它能够通过给定的文本描述生成该场景下逼真的图像。

就在前几天，Stability.Ai 公开发布文本生成图像模型 Stable Diffusion 的最新版本，其生成的图像达到商用级别。

自 2020 年谷歌发布 DDPM 以来，扩散模型就逐渐成为生成领域的一个新热点。之后 OpenAI 推出 GLIDE、ADM-G 模型等，都让扩散模型火出圈。

很多研究者认为，基于扩散模型的文本图像生成模型不但参数量小，生成的图像质量却更高，大有要取代 GAN 的势头。

不过，扩散模型背后的数学公式让许多研究者望而却步，众多研究者认为，其比 VAE、GAN 要难理解得多。

近日，来自 Google Research 的研究者撰文《 Understanding Diffusion Models: A Unified Perspective 》，本文以极其详细的方式展示了扩散模型背后的数学原理，目的是让其他研究者可以跟随并了解扩散模型是什么以及它们是如何工作的。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址：https://arxiv.org/pdf/2208.11970.pdf至于这篇论文有多「数学」，论文作者是这样描述的：我们以及其令人痛苦的细节（excruciating detail）展示了这些模型背后的数学。

论文共分为 6 部分，主要包括生成模型；ELBO、VAE 和分级 VAE；变分扩散模型；基于分数的生成模型等。

以下摘取了论文部分内容进行介绍：

生成模型

给定分布中的观察样本 x，生成模型的目标是学习为其真实数据分布 p(x) 进行建模。模型学习完之后，我们就可以生成新的样本。此外，在某些形式下，我们也可以使用学习模型来进行评估观察或对数据进行采样。

当前研究文献中，有几个重要方向，本文只在高层次上简要介绍，主要包括：GAN，其对复杂分布的采样过程进行建模，该过程以对抗方式学习。生成模型，我们也可称之为「基于似然，likelihood-based」的方法，这类模型可以将高似然分配给观察到的数据样本，通常包括自回归、归一化流、VAE。基于能量的建模，在这种方法中，分布被学习为任意灵活的能量函数，然后被归一化。在基于分数的生成模型中，其没有学习对能量函数本身进行建模，而是将基于能量模型的分数学习为神经网络。

在这项研究中，本文探索和回顾了扩散模型，正如文中展示的那样，它们具有基于可能性和基于分数的解释。

变分扩散模型

以简单的方式来看，一个变分扩散模型（Variational Diffusion Model, VDM）可以被考虑作为具有三个主要限制（或假设）的马尔可夫分层变分自编码器（MHVAE），它们分别为：

潜在维度完全等同于数据维度；
每个时间步上潜在编码器的结构没有被学到，它被预定义为线性高斯模型。换言之，它是以之前时间步的输出为中心的高斯分布；
潜在编码器的高斯参数随时间变化，过程中最终时间步 T 的潜在分布标是准高斯分布。

变分扩散模型的视觉展示图

此外，研究者明确维护了来自标准马尔可夫分层变分自编码器的分层转换之间的马尔可夫属性。他们对以上三个主要假设的含义一一做了扩展。

从第一个假设开始，由于符号的滥用，现在可以将真实数据样本和潜在变量表示为 x_t，其中 t=0 表示真实样本数据，t ∈ [1, T] 表示相应的潜在变量，它的层级结构由 t 进行索引。VDM 后验与 MHVAE 后验相同，但现在可以重写为如下：

从第二个假设，已知的是编码器中每个潜在变量的分布都是以之前分层潜在变量为中心的高斯分布。与 MHVAE 不同的是，编码器在每个时间步上的结构没有被学到，它被固定为一个线性高斯模型，其中均值和标准差都可以预先设置为超参数或者作为参数学得。在数学上，编码器转换表示为如下：

对第三个假设，α_t 根据固定或可学得的 schedule 而随时间演化，使得最终潜在变量 p(x_T) 的分布为标准高斯分布。然后可以更新 MHVAE 的联合分布，将 VDM 的联合分布写为如下：

总的来说，这一系列假设描述了一个图像随时间演化的稳定噪声。研究者通过添加高斯噪声渐进地破坏图像，直到最终变得与高斯噪声完全相同。

靠岸学术

一款集翻译，阅读，文献管理于一体的英文文献阅读器

下载

与任何 HVAE 相似的是，VDM 可以通过最大化证据下界（Evidence Lower Bound, ELBO）来优化，可以推导如下：

ELBO 的解释过程如下图 4 所示：

三种等价的解释

正如之前证明的，一个变分扩散模型可以简单地通过学习神经网络来训练，以从任意噪声版本 x_t 及其时间索引 t 中预测原始自然图像 x_0。但是，x_0 有两个等价的参数化，使得可以对 VDM 展开两种进一步的解释。

首先可以利用重参数化技巧。在推导 q(x_t|x_0) 的形式时，文中公式 69 可以被重新排列为如下：

将其带入之前推导出的真实去噪转换均值 µ_q(x_t, x_0)，则可以重新推导如下：

因此可以将近似去噪转换均值 µ_θ(x_t, t) 设置为如下：

并且相应的优化问题变成如下：

为了推导出变分扩散模型的三种常见解释，需要求助于 Tweedie 公式，它指的是当给定样本时，指数族分布的真实均值可以通过样本的最大似然估计（也称为经验均值）加上一些涉及估计分数的校正项来估计。

从数学上讲，对于一个高斯变量 z ∼ N (z; µ_z, Σ_z)，Tweedie 公式表示如下：

基于分数的生成模型

研究者已经表明，变分扩散模型可以简单地通过优化一个神经网络 s_θ(x_t, t) 来学得，以预测一个得分函数∇ log p(x_t)。但是，推导中的得分项来自 Tweedie 公式的应用。这并不一定为解读得分函数究竟是什么或者它为什么值得建模提供好的直觉或洞见。

好在可以借助另一类生成模型，即基于分数的生成模型，来获得这种直觉。研究者的确证明了之前推导出的 VDM 公式具有等价的基于分数的生成建模公式，使得可以在这两种解释之间灵活切换。

为了理解为什么优化一个得分函数是有意义的，研究者重新审视了基于能量的模型。任意灵活的概率分布可以写成如下形式：

避免计算或建模归一化常数的一种方式是使用神经网络 s_θ(x) 来学习分布 p(x) 的得分函数∇ log p(x)。这是观察到了公式 152 两边可以进行对数求导：

它可以自由地表示为神经网络，不涉及任何归一化常数。通过利用真值得分函数最小化 Fisher 散度，可以优化得分函数。

直观地讲，得分函数在数据 x 所在的整个空间上定义了一个向量场，并指向模型，具体如下图 6 所示。

最终，研究者从训练目标和抽样过程两方面，建立了变分扩散模型和基于分数的生成模型之间的显式关联。

更多细节内容请参阅原论文。

aishort提示生成失败怎么办_aishort常见报错处理办法【解答】

WorkBuddy技能包运行失败怎么办_WorkBuddy技能执行错误解决办法

Perplexity如何使用Gemini模型_Perplexity多模型协作搜索教程【高级】

OpenClaw隐藏设置_OpenClaw隐藏配置详解【详解】

Perplexity自定义搜索范围_Perplexity Focus模式使用教程【核心】

谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁，使用起来得心应手。这里提供了谷歌浏览器纯净安装包，有需要的小伙伴快来保存下载体验吧！

下载

相关专题

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2917

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

177

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

530

2026.03.04

热门下载

网站特效

网站源码

网站素材

前端模板