Meta 版 Sora 无预警来袭！抛弃扩散模型，音视频生成 / 画面编辑全包，92 页论文无保留公开

聖光之護

发布时间：2024-10-06 20:45:02

1316人浏览过

来源于ZAKER

转载

刚刚，meta 抢在 openai 之前推出自己的 sora ——meta movie gen

Sora 有的它都有，可创建不同宽高比的高清长视频，支持 1080p、16 秒、每秒 16 帧。

Sora 没有的它还有，能生成配套的背景音乐和音效、根据文本指令编辑视频，以及根据用户上传的图像生成个性化视频。

Meta 表示，这是 " 迄今为止最先进的媒体基础模型（Media Foundation Models）"。

Meta 版 Sora 无预警来袭！抛弃扩散模型，音视频生成 / 画面编辑全包，92 页论文无保留公开

只需一句 " 把灯笼变成飞向空中的泡泡 "，就能替换视频中的物体，同时透明的泡泡正确反射了背景环境。

上传一张自己的照片，就能成为 AI 电影的主角。

生成的视频不再无声，也不只是能安一个背景音乐。

比如看这里！视频会配合滑板轮子转动和落地配上逼真音效。（注意打开声音）

有人表示，随着大量创作者学会使用 AI 视频编辑工具，很难想象几年后长视频和短视频会变成什么样。

Meta 版 Sora 无预警来袭！抛弃扩散模型，音视频生成 / 画面编辑全包，92 页论文无保留公开

这一次，与 Sora 只有演示和官网博客不同，Meta 在92 页的论文中把架构、训练细节都公开了。

Meta 版 Sora 无预警来袭！抛弃扩散模型，音视频生成 / 画面编辑全包，92 页论文无保留公开

不过模型本身还没开源，遭到抱抱脸工程师贴脸开大，直接在评论区扔下 Meta 的开源主页链接：

在这等着您嗷。

Meta 版 Sora 无预警来袭！抛弃扩散模型，音视频生成 / 画面编辑全包，92 页论文无保留公开

Meta 在论文中特别强调，数据规模、模型大小、训练算力的扩展对于训练大规模媒体生成模型至关重要。通过系统地提升这几个维度，才使得如此强大的媒体生成系统成为可能。

其中最另业界关注的一点是，这一次他们完全扔掉了扩散模型和扩散损失函数，使用 Transformer 做骨干网络，流匹配（Flow Matching）做训练目标。

用 Llama3 架构做视频模型

具体来说 Movie Gen 由视频生成和音频生成两个模型组成。

Movie Gen Video：30B 参数 Transformer 模型，可以从单个文本提示生成 16 秒、16 帧每秒的高清视频，相当于 73K 个视频 tokens。

对于精确视频编辑，它可以执行添加、删除或替换元素，或背景替换、样式更改等全局修改。

对于个性化视频，它在保持角色身份一致性和运动自然性方面取得 SOTA 性能。

Meta 版 Sora 无预警来袭！抛弃扩散模型，音视频生成 / 画面编辑全包，92 页论文无保留公开

Movie Gen Audio：13B 参数 Transformer 模型，可以接受视频输入以及可选的文本提示，生成与视频同步的高保真音频。

Meta 版 Sora 无预警来袭！抛弃扩散模型，音视频生成 / 画面编辑全包，92 页论文无保留公开

Movie Gen Video 通过预训练 - 微调范式完成，在骨干网络架构上，它沿用了 Transoformer，特别是 Llama3 的许多设计。

Meta 版 Sora 无预警来袭！抛弃扩散模型，音视频生成 / 画面编辑全包，92 页论文无保留公开

预训练阶段

在海量的视频 - 文本和图像 - 文本数据集上进行联合训练，学习对视觉世界的理解。这个阶段的训练数据规模达到了 O ( 100 ) M 视频和 O ( 1 ) B 图像，用以学习运动、场景、物理、几何、音频等概念。

微调阶段

研究人员精心挑选了一小部分高质量视频进行有监督微调，以进一步提升生成视频的运动流畅度和美学品质。

Meta 版 Sora 无预警来袭！抛弃扩散模型，音视频生成 / 画面编辑全包，92 页论文无保留公开

为了进一步提高效果，模型还引入了流匹配（Flow Matching）作为训练目标，这使得视频生成的效果在精度和细节表现上优于扩散模型。

扩散模型通过从数据分布逐渐加入噪声，然后在推理时通过逆过程去除噪声来生成样本，用大量的迭代步数逐步逼近目标分布。

流匹配则是通过直接学习样本从噪声向目标数据分布转化的速度，模型只需通过估计如何在每个时间步中演化样本，即可生成高质量的结果。

与扩散模型相比，流匹配方法训练更加高效，计算成本更低，并且生成的结果在时间维度上具有更好的连续性和一致性。

MusicAI

AI音乐生成工具

下载

Meta 版 Sora 无预警来袭！抛弃扩散模型，音视频生成 / 画面编辑全包，92 页论文无保留公开

在整体架构上，首先通过时空自编码器（Temporal AutoEncoder， TAE）将像素空间的 RGB 图像和视频压缩到一个时空潜空间，学习一种更加紧凑的表征。

接着，输入的文本提示被一系列预训练的文本编码器编码成向量表示，作为模型的条件信息。这里用到了多种互补的文本编码器，包括理解语义的编码器如 UL2、与视觉对齐的编码器如 Long-prompt MetaCLIP，以及理解视觉文本的字符级编码器如 ByT5。

最后，生成模型以 Flow Matching 的目标函数进行训练，从高斯分布采样的噪声向量作为输入，结合文本条件，生成一个输出潜码。这个潜码经过 TAE 解码，就得到最终的图像或视频输出。

Meta 版 Sora 无预警来袭！抛弃扩散模型，音视频生成 / 画面编辑全包，92 页论文无保留公开

此外 Movie Gen Video 在技术上还引入了多项创新：

为了让模型同时适配图像和视频，设计了一套因子化的可学习位置编码（factorized learnable positional embedding）机制。对高度、宽度、时间三个维度分别编码，再相加。这样即适配了不同宽高比，又能支持任意长度的视频。

针对推理效率问题，它采用了线性 - 二次时间步长调度（linear-quadratic t-schedule）策略。仅用 50 步就能逼近 1000 步采样的效果，大幅提升了推理速度。

Meta 版 Sora 无预警来袭！抛弃扩散模型，音视频生成 / 画面编辑全包，92 页论文无保留公开

为了进一步提高生成效率，Movie Gen Video 模型还采用了基于时间平铺（temporal tiling）的推理方法。应对生成高分辨率长视频时，直接对整个视频进行编码和解码可能会遇到的内存限制问题。

在时间平铺推理中，输入视频在时间维度上被分割成多个片段，每个片段独立进行编码和解码，然后在输出时将所有片段重新拼接在一起。这种方法不仅降低了对内存的需求，还提高了推理的效率。

此外，在解码阶段使用了重叠和混合的方式来消除片段边界处的伪影问题，即通过在片段之间引入重叠区域，并对重叠区域进行加权平均，确保生成的视频在时间维度上保持平滑和一致。

Meta 版 Sora 无预警来袭！抛弃扩散模型，音视频生成 / 画面编辑全包，92 页论文无保留公开

另外 Meta 还开源了多个基准测试数据集，包括 Movie Gen Video Bench、Movie Gen Edit Bench 和 Movie Gen Audio Bench，为后续研究者提供了权威的评测工具，有利于加速整个领域的进步。

这篇长达 92 页的论文还介绍了更多在架构、训练方法、数据管理、评估、并行训练和推理优化、以及音频模型的更多信息。

感兴趣的可到文末链接查看。

Meta 版 Sora 无预警来袭！抛弃扩散模型，音视频生成 / 画面编辑全包，92 页论文无保留公开

One More Thing

AI 视频生成这块，这两天热闹不断。

就在 Meta 发布 Movie Gen 之前不久，OpenAI Sora 主创之一Tim Brooks跳槽谷歌 DeepMind，继续视频生成和世界模拟器方面的工作。

Meta 版 Sora 无预警来袭！抛弃扩散模型，音视频生成 / 画面编辑全包，92 页论文无保留公开

这让很多人想到，就像当年谷歌迟迟不推出大模型应用，Transformer 8 个作者纷纷出走。

现在 OpenAI 迟迟发布不了 Sora，主要作者也跑了。

不过另外也有人认为，Tim Brooks 选择现在离开，或许说明他在 OpenAI 的主要工作完成了，也让人开始猜测：

Meta 的发布会迫使 OpenAI 放出 Sora 来回应吗？

（截至目前为止，Sora 的另一位主创 Bill Peebles 还未发声。）

Meta 版 Sora 无预警来袭！抛弃扩散模型，音视频生成 / 画面编辑全包，92 页论文无保留公开

现在 Meta 放出了带有视频编辑功能的模型，再加上 10 月 1 日 Pika 1.5 更新，主打给视频中物体加上融化、膨胀、挤压等物理特效。

不难看出，AI 视频生成下半场，要开始卷向 AI 视频编辑了。

Meta 版 Sora 无预警来袭！抛弃扩散模型，音视频生成 / 画面编辑全包，92 页论文无保留公开

论文地址：

https://ai.meta.com/static-resource/movie-gen-research-paper

参考链接：

[ 1 ] https://ai.meta.com/research/movie-gen/

[ 2 ] https://x.com/AIatMeta/status/1842188252541043075

OpenAI 连丢 4 位大将！Ilya 合作者 /o1 核心贡献者加入 Meta，苏黎世三人组回应跳槽：集体做出的选择

欧盟要求苹果开放 iOS 系统提升第三方设备兼容性

Meta 最新触觉机械手登 Science 子刊封面，操作未知物体精度最高提升 94%

Meta 版 Sora 无预警来袭！抛弃扩散模型，音视频生成 / 画面编辑全包，92 页论文无保留公开

大模型厂商密集发力，谷歌也开“卷”了：Gemini 聊天机器人换上新模型，还能一键核查输出内容

相关专题

resource是什么文件

Resource文件是一种特殊类型的文件，它通常用于存储应用程序或操作系统中的各种资源信息。它们在应用程序开发中起着关键作用，并在跨平台开发和国际化方面提供支持。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

177

2023.12.20

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2861

2024.08.16

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

164

2026.03.04

AI安装教程大全

2026最全AI工具安装教程专题：包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好，附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新，收藏这一篇就够了，让AI安装不再报错！

2026.03.04

Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践，系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例，帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

113

2026.03.03

C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开，深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例，帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

2026.03.03

Golang 测试体系与代码质量保障：工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

2026.02.28

热门下载

网站特效

网站源码

网站素材

前端模板