0

0

硬刚 Sora 2,谷歌的 Veo 3.1 确实有小惊喜|AI 上新

霞舞

霞舞

发布时间:2025-10-24 09:51:00

|

653人浏览过

|

来源于ZAKER

转载

谷歌最新视频生成模型 veo 3.1 来了!今日上手可用。

北京时间 10 月 16 日,谷歌在 Gemini API 中发布了 Veo 3.1 和 Veo 3.1 Fast 付费预览版。模型一上线,就受到了行业的高度关注。毕竟,和前不久发布的 Sora 2 一样,这次 Veo 3.1 也新增了音频功能。

相较于上一代 Veo 3 来说,Veo 3.1 此次提升主要聚焦在三大方面:

第一,是 AI 生成视频从默片走向有声电影。 Veo 3.1 不但能够要求 AI 视频实现声音画面统一,还能够要求 AI 更好地理解画面内容,并给予合适的配乐。

第二,Veo 3.1 可以直接设定 AI 视频的开篇画面和结尾画面。如此一来,Veo 3.1 不但能够实现短视频和短视频之间的过渡自然,也能够进一步控制 AI 视频的首尾观感。甚至,Veo 3.1 可以实现每一个新的视频都是基于上一个视频的最后一个画面继续生成。在无限叠加的 Buff 下,谷歌用一种另类的方式实现了「AI 长视频」生成。

比如说,当你告诉 Veo 3.1,以下两张图片是 AI 视频的开篇画面和结尾画面:

 硬刚 Sora 2,谷歌的 Veo 3.1 确实有小惊喜|AI 上新

来源:谷歌官网

就会生成如下视频片段:

 硬刚 Sora 2,谷歌的 Veo 3.1 确实有小惊喜|AI 上新

来源:谷歌官网

第三,Veo 3.1 可以通过三张图打造一个人设。

当你给 Veo 3.1 三张图片,分别为一个女性头像、一个服装参考图以及一个场景设定时,根据提示词要求,Veo 3.1 可以直接通过三张画面设定 AI 人物形象,并且可以让该人物自然地说出目标台词。

 硬刚 Sora 2,谷歌的 Veo 3.1 确实有小惊喜|AI 上新

来源:谷歌官网

此次,Veo 3.1 主打进一步优化 AI 视频在视听观感上的体验。同时,谷歌也是在 AI 视频生成片段时间较短的前提下,寻找能够实现「AI 长视频叙事」的解法。

栏目作者召集

极客公园的新栏目「AI 上新」,将带大家体验最新的 AI 应用和硬件,让你成为 AI 时代「最靓的仔」!

现在,我们也向所有喜欢尝鲜和体验 AI 的同学发出召集,只要你发现并体验了新的 AI 应用或者功能,按照格式(参考案例:为什么谷歌搜不到「没有条纹的衬衫」|AI 上新)向栏目投稿,在极客公园公众号发布,不仅能获得相应稿费,且会为你「报销」AI 应用的订阅费用。

同时,优秀作者还有机会进入极客公园 AI 体验群,获得最新 AI 应用和工具的内测资格,参加极客公园专属相关 AI 活动,和 AI 应用创始人一对一沟通。

AGI 太久,只争朝夕,让一部分人先 AI 起来吧!投稿、进群请扫描下方二维码添加极客小助手微信

https://work.weixin.qq.com/u/vc864291bd406e1a72?v=4.1.38.191539&bb=106c620d89 ( 二维码自动识别 )

01

亲测 Veo 3.1 三大功能,

五个月谷歌往前走了「0.1 步」

目前,普通用户可在 Gemini 应用程序和 Flow 免费使用,不过使用机会有限。我们发现不少国内 AI 视频生成平台闪现秒跟。不到一天时间,Imagine.art、Fal-ai 以及 Lovart 均表示支持 Veo 3.1 模型调用。我们此次也在 Lovart 上对 Veo 3.1 进行了快速体验。

首先测试了 Veo 3.1 生成的 AI 视频是否能够在音画统一上达成一致。第一次,我们给到 Veo 3.1 的英文提示词是:「纽约街头正在下雨,突然一道闪电伴随雷声而来。」

大约一分钟后,我们获得如下视频画面:

可以看到基本上,闪电和雷声是在同一时间内出现,完成了声音画面的一致性。我们还可以更细致地发现每一辆车开过水坑时,声音会有一个从远到近,从大到小的变化程度。让我们意外的是,在 3 分钟左右的生成 AI 视频的倒计时中,Veo 3.1 整个视频的生成时间会在 1 分钟左右就完成,但生成的视频片段基本上都在 6 秒左右,与 Sora 2 可以生成 10-20 秒的时间相比,明显不占优势。

而且,我们还发现在整个画面,只有车、雨滴、和闪电是呈现动态效果,两旁的行人或者树木均是静止不动的,因此整个视频片段会出现一些违和感,让人能够一眼能看出是 AI 视频。

接下来,我们测试给 Veo 3.1 两张照片,并分别设定为第一张照片和最后一张照片后,看看 AI 视频的首尾稳定性如何。以及 Veo 3.1 能否能够通过拼接的方式,实现两段视频直接连接。

为了更好的生成效果,我们给到 Veo 3.1 的第一段提示词是:「一只顽皮的虎斑猫以流畅、连续的动作跃上办公桌。这个动作应展现从起跳到优雅落桌的完整跳跃弧线,以上两张图片分别为视频的首个画面和结束画面,确保运动过程流畅且符合物理规律。」

 硬刚 Sora 2,谷歌的 Veo 3.1 确实有小惊喜|AI 上新

在大约 1 分钟后,Veo 3.1 给出视频效果是:

在视频的前半部分,呈现基本上自然。但是在小猫咪跳到电脑后面的时候,似乎变了另一只小猫出来,整个视频突然添了几分「魔法感」。并且,在视频的最后几秒,似乎有个开灯设定,将画面调整更亮。

同时,我们给出 Veo 3.1 第二段英文提示词:「跳上办公桌的虎斑猫趴下睡着了。以上两张图片分别为视频的首个画面和结束画面,确保运动过程流畅且符合物理规律。」

 硬刚 Sora 2,谷歌的 Veo 3.1 确实有小惊喜|AI 上新

BlackBox AI
BlackBox AI

AI编程助手,智能对话问答助手

下载

在 2 分钟后,Veo 3.1 给出一段 6 秒的短视频:

可以看出,Veo 3.1 给出的 AI 生成视频还是比较真实的。如果将两个视频片段连接在一起,则呈现的效果为:

可以看出,当两个视频拼接到一起之后,除了此前提到的「魔法感」比较突兀外,视频与视频之间还是保持了连贯性,并且也实现了一定程度上的场景拓展。

最后,我们测试了如何使用 Veo 3.1,通过三张图设定一个人物主角形象。

我们给出一段英文指令,大意为:「一个中景镜头,画面中的女性角色来源于人物参考图,身穿服装参考图中的衣服。她正在场景参考图中的场景里漫步,带着好奇而愉悦的表情环顾四周。环境需与提供的场景图一致。整体风格应为电影质感,拥有自然的光线和轻柔的微风。同步生成环境音效,如树叶的沙沙声和远处的鸟鸣。」

 硬刚 Sora 2,谷歌的 Veo 3.1 确实有小惊喜|AI 上新

Veo 3.1 给出的视频效果为:

来源:极客公园

可惜的是,这一次我们发现 AI 视频中的人物明显建模感严重,服装和场景几乎都与此前给出的参考图片有明显差别,AI 感极重,该 AI 视频几乎是此次所有测试视频里面表现效果最差的。

整体看来,此次 Veo 3.1 在音画同步以及首尾画面稳定上均给出不错的 AI 效果。但在用图片设定人物形象,AI 人设方向并没有官网中介绍的效果好。

02

谷歌「暗踩」Sora2,

AI 大佬们跳出来反对

「胜,大获全胜。」谷歌试图在官网昭告天下这一点。据谷歌介绍,谷歌在文生视频的总体观感、视频对齐程度以及视觉质量等方面,完胜 Sora 2 Pro、海螺 2.0、Seedance 1.0 Pro 和 Renway Gen 3 等一众视频模型。

 硬刚 Sora 2,谷歌的 Veo 3.1 确实有小惊喜|AI 上新

官网还强调,在音画一致性方面,Veo 3 的「视频素材」功能在内部基准测试中,在「整体偏好」和「视觉质量」两项指标均名列前茅。

有意思的是,谷歌官网还悄悄地「暗踩」OpenAI 所发布的 Sora 2,解释在图像转视频测试中没有 Sora 2 Pro 的原因是因为 Sora 2 Pro 目前不支持人像生成。

 硬刚 Sora 2,谷歌的 Veo 3.1 确实有小惊喜|AI 上新

不过我们也发现在此次的对比中,谷歌似乎模糊 Veo 3.1 和 Veo 3 的模型边界,基于所有的图片显示中都是 Veo 3,而文字表达均为 Veo 3.1,因此暂时也很难确定此次评测的模型,究竟是刚刚发布的 Veo 3.1 还是 5 个月前的 Veo 3。

尽管谷歌自我感觉甚好,但在 AI 大佬们看来,Veo 3.1 的效果似乎略逊于 Sora 2。比如说,Otherside AI 的创始人 Matt Shumer 直接在推特上表示对 Veo 3.1 感到「有些失望」,他认为 Veo 3.1 效果明显逊于 Sora 2,价格却高出不少。毕竟,目前 Sora 2 可是免费使用。

3D 数字艺术家 Travis David 则提到 Veo 3.1 并没有突破 AI 视频生成的「8 秒」定律,且用户没有办法自己选择生成什么样的音频,让人大失所望。

还有不少网友提到期待「自动化分镜」功能迟迟没有上新,在自动化程度的进展也让人感到失望。

03

和 Sora 2 Pro 卷「性价比」?Veo 3.1 瞄准 AI 视频专业化

在谷歌介绍 Veo 3.1 模型博客的最后,提到了价格与 Veo 3 相同。乍一看,我还以为谷歌此次是一次「加量不加价」的升级,但仔细研究之后发现,Veo 3.1 模型可能仍是目前市场较为昂贵的视频生成模型,仅次于 Sora 2 Pro。

除了 Veo 3.1,谷歌还推出 Veo 3.1 Fast,能够更快的生成视频,价格也更低,不含音频的版本是每秒 $0.15,加上音频生成的版本则是每秒 $0.40 美元。

 硬刚 Sora 2,谷歌的 Veo 3.1 确实有小惊喜|AI 上新

而在价格表下,谷歌也为自己留出了一条后路,提到「在某些情况下,音频处理问题可能会导致视频无法生成。只有在成功生成视频后,系统才会向您收取费用。」这也能够说明一定程度上,该视频模型仍处于不稳定的状态中。

和前不久刚刚发布社交属性较强、更注重趣味感的 Sora 2 相比,Veo 3.1 明显定位在「专业化」上。因此,Veo 3.1 更强调视频的连贯性,音画的一致性以及人物的稳定性。

谷歌给出的应用场景案例也侧面印证了这一点。据介绍,GenAI 电影工作室 Promise Studios 已经开始其 MUSE 平台中使用 Veo 3.1 来增强生成 AI 视频故事性,整体生成视频要求尽可能达到导演希望的制作质量以及故事讲述感。AI 生成内容公司 Latitude 也正在其生成叙事引擎中测试 Veo 3.1,希望能够将用户创作的故事立即变为现实。

可以看到,Veo 3.1 正试图撬动专业影视制作领域,降低高质量视频创作的门槛和成本。这也意味着未来个人创作者或小团队,有机会通过叙事控制、定制化角色以及音画一致性,独立制作一系列风格统一的迷你短片或系列视频内容。

但从整体视频生成效果来看,五个月谷歌在 Veo 视频模型上往前仅走了「0.1 步」。

* 头图来源:谷歌官网

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

相关文章

谷歌浏览器
谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁,使用起来得心应手。这里提供了谷歌浏览器纯净安装包,有需要的小伙伴快来保存下载体验吧!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
promise的用法
promise的用法

“promise” 是一种用于处理异步操作的编程概念,它可以用来表示一个异步操作的最终结果。Promise 对象有三种状态:pending(进行中)、fulfilled(已成功)和 rejected(已失败)。Promise的用法主要包括构造函数、实例方法(then、catch、finally)和状态转换。

298

2023.10.12

html文本框类型介绍
html文本框类型介绍

html文本框类型有单行文本框、密码文本框、数字文本框、日期文本框、时间文本框、文件上传文本框、多行文本框等等。详细介绍:1、单行文本框是最常见的文本框类型,用于接受单行文本输入,用户可以在文本框中输入任意文本,例如用户名、密码、电子邮件地址等;2、密码文本框用于接受密码输入,用户在输入密码时,文本框中的内容会被隐藏,以保护用户的隐私;3、数字文本框等等。

396

2023.10.12

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1973

2024.08.16

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

28

2025.12.13

Golang gRPC 服务开发与Protobuf实战
Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践,涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC(Unary/Server/Client/Bidirectional)、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例,帮助学习者掌握 使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系,适用于微服务与内部系统通信场景。

8

2026.01.15

公务员递补名单公布时间 公务员递补要求
公务员递补名单公布时间 公务员递补要求

公务员递补名单公布时间不固定,通常在面试前,由招录单位(如国家知识产权局、海关等)发布,依据是原入围考生放弃资格,会按笔试成绩从高到低递补,递补考生需按公告要求限时确认并提交材料,及时参加面试/体检等后续环节。要求核心是按招录单位公告及时响应、提交材料(确认书、资格复审材料)并准时参加面试。

40

2026.01.15

公务员调剂条件 2026调剂公告时间
公务员调剂条件 2026调剂公告时间

(一)符合拟调剂职位所要求的资格条件。 (二)公共科目笔试成绩同时达到拟调剂职位和原报考职位的合格分数线,且考试类别相同。 拟调剂职位设置了专业科目笔试条件的,专业科目笔试成绩还须同时达到合格分数线,且考试类别相同。 (三)未进入原报考职位面试人员名单。

54

2026.01.15

国考成绩查询入口 国考分数公布时间2026
国考成绩查询入口 国考分数公布时间2026

笔试成绩查询入口已开通,考生可登录国家公务员局中央机关及其直属机构2026年度考试录用公务员专题网站http://bm.scs.gov.cn/pp/gkweb/core/web/ui/business/examResult/written_result.html,查询笔试成绩和合格分数线,点击“笔试成绩查询”按钮,凭借身份证及准考证进行查询。

11

2026.01.15

Java 桌面应用开发(JavaFX 实战)
Java 桌面应用开发(JavaFX 实战)

本专题系统讲解 Java 在桌面应用开发领域的实战应用,重点围绕 JavaFX 框架,涵盖界面布局、控件使用、事件处理、FXML、样式美化(CSS)、多线程与UI响应优化,以及桌面应用的打包与发布。通过完整示例项目,帮助学习者掌握 使用 Java 构建现代化、跨平台桌面应用程序的核心能力。

65

2026.01.14

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号