讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 AI 提示词

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

王林

发布时间：2024-02-19 09:27:07

|

833人浏览过

|

来源于51CTO.COM

转载

Sora一经面世，瞬间成为顶流，话题热度只增不减。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

强大的逼真视频生成能力，让许多人纷纷惊呼「现实不存在了」。

甚至，OpenAI技术报告中透露，Sora能够深刻地理解运动中的物理世界，堪称为真正的「世界模型」。

LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

而一直将「世界模型」作为研究重心的图灵巨头LeCun，也卷入了这场论战。

起因是，网友挖出前几天LeCun参加WGS峰会上发表的观点：「在AI视频方面，我们不知道该怎么做」。

他认为，仅凭文字提示生成逼真视频并不等同于模型理解物理世界。生成视频的方法与基于因果预测的世界模型截然不同。

LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

接下来，LeCun更详细地解释道：

虽然可以想象出的视频种类繁多，但视频生成系统只需创造出「一个」合理的样本就算成功。

而对于一个真实视频，其合理的后续发展路径就相对较少，生成这些可能性中的具代表性部分，尤其是在特定动作条件下，难度大得多。

此外，生成这些视频后续内容不仅成本高昂，实际上也毫无意义。

更理想的做法是生成那些后续内容的「抽象表示」，去除与我们可能采取的行动无关的场景细节。

这正是JEPA（联合嵌入预测架构）的核心思想，它并非生成式的，而是在表示空间中进行预测。

然后，他用自家的研究VICReg、I-JEPA、V-JEPA以及他人的工作证明：

与重建像素的生成型架构，如变分自编码器（Variational AE）、掩码自编码器（Masked AE）、去噪自编码器（Denoising AE）等相比，「联合嵌入架构」能够产生更优秀的视觉输入表达。

uBrand

uBrand

一站式AI品牌创建平台，在线品牌设计，AI品牌策划，智能品牌营销；uBrand帮助创业者轻松打造个性品牌！

下载

当使用学习到的表示作为下游任务中受监督头部的输入（无需对主干进行微调），联合嵌入架构在效果上超过了生成式架构。

也就是在Sora模型发布的当天，Meta重磅推出一个全新的无监督「视频预测模型」——V-JEPA。

自2022年LeCun首提JEPA之后，I-JEPA和V-JEPA分别基于图像、视频拥有强大的预测能力。

号称能够以「人类的理解方式」看世界，通过抽象性的高效预测，生成被遮挡的部分。

LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

论文地址：https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/

V-JEPA看到下面视频中的动作时，会说「将纸撕成两半」。

LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

再比如，翻看笔记本的视频被遮挡了一部分，V-JEPA便能够对笔记本上的内容做出不同的预测。

LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

值得一提的是，这是V-JEPA在观看200万个视频后，才获取的超能力。

实验结果表明，仅通过视频特征预测学习，就能够得到广泛适用于各类基于动作和外观判断的任务的「高效视觉表示」，而且不需要对模型参数进行任何调整。

基于V-JEPA训练的ViT-H/16，在Kinetics-400、SSv2、ImageNet1K 基准上分别取得了81.9%、72.2%和77.9%的高分。

LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

看完200万个视频后，V-JEPA理解世界了

人类对于周遭世界的认识，特别是在生命的早期，很大程度上是通过「观察」获得的。

就拿牛顿的「运动第三定律」来说，即便是婴儿，或者猫，在多次把东西从桌上推下并观察结果，也能自然而然地领悟到：凡是在高处的任何物体，终将掉落。

这种认识，并不需要经过长时间的指导，或阅读海量的书籍就能得出。

可以看出，你的内在世界模型——一种基于心智对世界的理解所建立的情景理解——能够预见这些结果，并且极其高效。

Yann LeCun表示，V-JEPA正是我们向着对世界有更深刻理解迈出的关键一步，目的是让机器能够更为广泛的推理和规划。

LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

2022年，他曾首次提出联合嵌入预测架构（JEPA）。

我们的目标是打造出能够像人类那样学习的先进机器智能（AMI），通过构建对周遭世界的内在模型来学习、适应和高效规划，以解决复杂的任务。

LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

V-JEPA：非生成式模型

与生成式AI模型Sora完全不同，V-JEPA是一种「非生成式模型」。

它通过预测视频中被隐藏或缺失部分，在一种抽象空间的表示来进行学习。

这与图像联合嵌入预测架构（I-JEPA）类似，后者通过比较图像的抽象表示进行学习，而不是直接比较「像素」。

不同于那些尝试重建每一个缺失像素的生成式方法，V-JEPA能够舍弃那些难以预测的信息，这种做法使得在训练和样本效率上实现了1.5-6倍的提升。

LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

V-JEPA采用了自监督的学习方式，完全依靠未标记的数据进行预训练。

仅在预训练之后，它便可以通过标记数据微调模型，以适应特定的任务。

因此，这种架构比以往的模型更为高效，无论是在需要的标记样本数量上，还是在对未标记数据的学习投入上。

在使用V-JEPA时，研究人员将视频的大部分内容遮挡，仅展示极小部分的「上下文」。

然后请求预测器补全所缺失的内容——不是通过具体的像素，而是以一种更为抽象的描述形式在这个表示空间中填充内容。

LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

V-JEPA通过预测学习潜空间中被隐藏的时空区域来训练视觉编码器

掩码方法

V-JEPA并不是为了理解特定类型的动作而设计的。

相反，它通过在各种视频上应用自监督学习，掌握了许多关于世界运作方式的知识。

Meta研究人员还精心设计了掩码（masking）策略：

如果不遮挡视频的大部分区域，而只是随机选取一些小片段，这会让学习任务变得过于简单，导致模型无法学习到关于世界的复杂信息。

同样，需要注意的是，大多数视频中，事物随着时间的推移而逐渐演变。

如果只在短时间内掩码视频的一小部分，让模型能看到前后发生的事，同样会降低学习难度，让模型难以学到有趣的内容。

因此，研究人员采取了同时在空间和时间上掩码视频部分区域的方法，迫使模型学习并理解场景。

高效预测，无需微调

在抽象的表示空间中进行预测非常关键，因为它让模型专注于视频内容的高层概念，而不必担心通常对完成任务无关紧要的细节。

毕竟，如果一段视频展示了一棵树，你可能不会关心每一片树叶的微小运动。

而真正让Meta研究人员兴奋的是，V-JEPA是首个在「冻结评估」上表现出色的视频模型。

冻结，是指在编码器和预测器上完成所有自监督预训练后，就不再对其进行修改。

当我们需要模型学习新技能时，只需在其上添加一个小型的、专门的层或网络，这种方式既高效又快速。

LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

以往的研究还需要进行全面的微调，即在预训练模型后，为了让模型在细粒度动作识别等任务上表现出色，需要微调模型的所有参数或权重。

直白讲，微调后的模型只能专注于某个任务，而无法适应其他任务。

如果想让模型学习不同的任务，就必须更换数据，并对整个模型进行专门化调整。

V-JEPA的研究表明，就可以一次性预训练模型，不依赖任何标记数据，然后将模型用于多个不同的任务，如动作分类、细粒度物体交互识别和活动定位，开辟了全新的可能。

LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

- 少样本冻结评估

研究人员将V-JEPA与其他视频处理模型进行了对比，特别关注在数据标注较少的情况下的表现。

它们选取了Kinetics-400和Something-Something-v2两个数据集，通过调整用于训练的标注样本比例（分别为5%，10%和50%），观察模型在处理视频时的效能。

为了确保结果的可靠性，在每种比例下进行了3次独立的测试，并计算出了平均值和标准偏差。

结果显示，V-JEPA在标注使用效率上优于其他模型，尤其是当每个类别可用的标注样本减少时，V-JEPA与其他模型之间的性能差距更加明显。

LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

未来研究新方向：视觉+音频同预测

虽然V-JEPA的「V」代表视频，但迄今为止，它主要集中于分析视频的「视觉元素」。

显然，Meta下一步是研究方向是，推出一种能同时处理视频中的「视觉和音频信息」的多模态方法。

作为一个验证概念的模型，V-JEPA在识别视频中细微的物体互动方面表现出色。

比如，能够区分出某人是在放下笔、拿起笔，还是假装放下笔但实际上没有放下。

不过，这种高级别的动作识别对于短视频片段（几秒到10秒钟）效果很好。

因此，下一步研究另一个重点是，如何让模型在更长的时间跨度上进行规划和预测。

「世界模型」又进一步

到目前为止，Meta研究人员使用V-JEPA主要关注于的是「感知」——通过分析视频流来理解周围世界的即时情况。

在这个联合嵌入预测架构中，预测器充当了一个初步的「物理世界模型」，能够概括性地告诉我们视频中正在发生的事情。

LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

Meta的下一步目标是展示，如何利用这种预测器或世界模型来进行规划和连续决策。

我们已经知道，JEPA模型可以通过观察视频来进行训练，就像婴儿观察世界一样，无需强有力的监督就能学习很多。

通过这种方式，仅用少量标注数据，模型就能快速学习新任务和识别不同的动作。

从长远来看，在未来应用中，V-JEPA强大情境理解力，对开发具身AI技术以及未来增强现实（AR）眼镜有着重大意义。

现在想想，如果苹果Vision Pro能够得到「世界模型」的加持，更加无敌了。

网友讨论

显然，LeCun对生成式AI并不看好。

LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

「听听一个一直在试图训练用于演示和规划的「世界模型」过来人的建议」。

LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

Perplexity AI的首席执行官表示：

Sora虽然令人惊叹，但还没有准备好对物理进行准确的建模。并且Sora的作者非常机智，在博客的技术报告部分提到了这一点，比如打碎的玻璃无法很好地建模。

很明显短期内，基于这样复杂的世界仿真的推理，是无法在家用机器人上立即运行的。

LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

事实上，许多人未能理解的一个非常重要的细微差别是：

在文本或视频中生成看似有趣的内容并不意味着（也不需要）它「理解」自己生成的内容。一个能够基于理解进行推理的智能体模型必须，绝对是在大模型或扩散模型之外。

LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

但也有网友表示，「这并不是人类学习的方式」。

「我们对以往经历的只记得一些独特的，丢掉了所有的细节。我们还可以随时随地为环境建模（创建表示法），因为我们感知到了它。智能最重要的部分是泛化」。

LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

还有人称，它仍然是插值潜在空间的嵌入，到目前为止你还不能以这种方式构建「世界模型」。

LeCun怒斥Sora不能理解物理世界！Meta首发AI视频「世界模型」V-JEPA

Sora，以及V-JEPA真的能够理解世界吗？你怎么看？

相关文章

GPT-4o和GPT-4有什么区别？免费用户如何体验新功能

Clawdbot与同类工具对比 Clawdbot核心优势在哪里

AI生成播客节目串词和互动话题

Clawdbot使用体验分享 Clawdbot真实反馈汇总

InvokeAI一键文生图自定义模型易吗_InvokeAI自定义模型法【指南】

相关标签:

ai 架构 for 抽象性 https ar

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：AI绘图模型训练到推理，一个网页就能搞定下一篇：让视觉语言模型搞空间推理，谷歌又整新活了

作者最新文章

还在为Magento2慢吞吞的搜索发愁？AlgoliaSearch&Discovery助你打造闪电般的用户体验！

2025-09-16 10:34

如何解决电商库存管理混乱难题？Spryker/Stock模块助你轻松搞定！

2025-09-16 11:12

快速上手夸克浏览器AI搜索_夸克AI搜索保姆级图文教程

2025-10-14 20:48

夸克浏览器AI搜索无法使用_解决夸克AI搜索问题的有效方法

2025-10-15 14:04

夸克浏览器AI搜索设置教程_夸克AI搜索功能详细开启步骤

2025-10-18 13:32

夸克浏览器AI搜索结果不准_优化夸克AI搜索设置的技巧

2025-10-26 10:58

微信朋友圈定时发送神器微信自动发朋友圈软件推荐与使用

2026-01-04 12:22

抖音火山版免费下载电脑版抖音火山版电脑版免费下载入口

2026-01-04 14:33

必应搜索怎样结合演员名找其主演电视剧_必应搜索用演员搜剧技巧【精要】

2026-01-07 17:31

微信自动发朋友圈怎么设置微信朋友圈一键定时发送方法

2026-01-16 12:58

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

更多

http与https有哪些区别

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2140

2024.08.16

2026赚钱平台入口大全

2026赚钱平台入口大全

2026年最新赚钱平台入口汇总，涵盖任务众包、内容创作、电商运营、技能变现等多类正规渠道，助你轻松开启副业增收之路。阅读专题下面的文章了解更多详细内容。

30

2026.01.31

高干文在线阅读网站大全

高干文在线阅读网站大全

汇集热门1v1高干文免费阅读资源，涵盖都市言情、京味大院、军旅高干等经典题材，情节紧凑、人物鲜明。阅读专题下面的文章了解更多详细内容。

7

2026.01.31

无需付费的漫画app大全

无需付费的漫画app大全

想找真正免费又无套路的漫画App？本合集精选多款永久免费、资源丰富、无广告干扰的优质漫画应用，涵盖国漫、日漫、韩漫及经典老番，满足各类阅读需求。阅读专题下面的文章了解更多详细内容。

21

2026.01.31

漫画免费在线观看地址大全

漫画免费在线观看地址大全

想找免费又资源丰富的漫画网站？本合集精选2025-2026年热门平台，涵盖国漫、日漫、韩漫等多类型作品，支持高清流畅阅读与离线缓存。阅读专题下面的文章了解更多详细内容。

2

2026.01.31

漫画防走失登陆入口大全

漫画防走失登陆入口大全

2026最新漫画防走失登录入口合集，汇总多个稳定可用网址，助你畅享高清无广告漫画阅读体验。阅读专题下面的文章了解更多详细内容。

8

2026.01.31

php多线程怎么实现

php多线程怎么实现

PHP本身不支持原生多线程，但可通过扩展如pthreads、Swoole或结合多进程、协程等方式实现并发处理。阅读专题下面的文章了解更多详细内容。

1

2026.01.31

php如何运行环境

php如何运行环境

本合集详细介绍PHP运行环境的搭建与配置方法，涵盖Windows、Linux及Mac系统下的安装步骤、常见问题及解决方案。阅读专题下面的文章了解更多详细内容。

0

2026.01.31

php环境变量如何设置

php环境变量如何设置

本合集详细讲解PHP环境变量的设置方法，涵盖Windows、Linux及常见服务器环境配置技巧，助你快速掌握环境变量的正确配置。阅读专题下面的文章了解更多详细内容。

0

2026.01.31

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

Django 教程

Django 教程

共28课时 | 3.7万人学习

Go 教程

Go 教程

共32课时 | 4.4万人学习

TypeScript 教程

TypeScript 教程

共19课时 | 2.6万人学习

最新文章

更多

豆包生图提示词怎么写提高出图质量的技巧

Qwen3-ASR— 阿里通义开源的系列语音识别模型

LingBot-World— 蚂蚁灵波科技开源的交互式世界模型

Project Genie— 谷歌推出的实验性AI世界模型原型

ChatGPT无法识别复杂的建筑设计草图_上传高对比度图片并要求其进行边缘特征提取

Clawdbot定时任务怎么开启自动化管理流程设置详细步骤

豆包提示词怎么写提示词表达技巧详解

豆包提示词指令怎么写提示词指令结构详解

DeepSeek API调用返回空值怎么办_核对API端点地址及模型名称参数是否拼写正确

如何用AI进行房地产虚拟看房(Virtual Staging)？

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部