硬刚 Sora 2，谷歌的 Veo 3.1 确实有小惊喜｜AI 上新

霞舞

发布时间：2025-10-24 09:51:00

653人浏览过

来源于ZAKER

转载

谷歌最新视频生成模型 veo 3.1 来了！今日上手可用。

北京时间 10 月 16 日，谷歌在 Gemini API 中发布了 Veo 3.1 和 Veo 3.1 Fast 付费预览版。模型一上线，就受到了行业的高度关注。毕竟，和前不久发布的 Sora 2 一样，这次 Veo 3.1 也新增了音频功能。

相较于上一代 Veo 3 来说，Veo 3.1 此次提升主要聚焦在三大方面：

第一，是 AI 生成视频从默片走向有声电影。 Veo 3.1 不但能够要求 AI 视频实现声音画面统一，还能够要求 AI 更好地理解画面内容，并给予合适的配乐。

第二，Veo 3.1 可以直接设定 AI 视频的开篇画面和结尾画面。如此一来，Veo 3.1 不但能够实现短视频和短视频之间的过渡自然，也能够进一步控制 AI 视频的首尾观感。甚至，Veo 3.1 可以实现每一个新的视频都是基于上一个视频的最后一个画面继续生成。在无限叠加的 Buff 下，谷歌用一种另类的方式实现了「AI 长视频」生成。

比如说，当你告诉 Veo 3.1，以下两张图片是 AI 视频的开篇画面和结尾画面：

硬刚 Sora 2，谷歌的 Veo 3.1 确实有小惊喜｜AI 上新

来源：谷歌官网

就会生成如下视频片段：

硬刚 Sora 2，谷歌的 Veo 3.1 确实有小惊喜｜AI 上新

来源：谷歌官网

第三，Veo 3.1 可以通过三张图打造一个人设。

当你给 Veo 3.1 三张图片，分别为一个女性头像、一个服装参考图以及一个场景设定时，根据提示词要求，Veo 3.1 可以直接通过三张画面设定 AI 人物形象，并且可以让该人物自然地说出目标台词。

硬刚 Sora 2，谷歌的 Veo 3.1 确实有小惊喜｜AI 上新

来源：谷歌官网

此次，Veo 3.1 主打进一步优化 AI 视频在视听观感上的体验。同时，谷歌也是在 AI 视频生成片段时间较短的前提下，寻找能够实现「AI 长视频叙事」的解法。

栏目作者召集

极客公园的新栏目「AI 上新」，将带大家体验最新的 AI 应用和硬件，让你成为 AI 时代「最靓的仔」！

现在，我们也向所有喜欢尝鲜和体验 AI 的同学发出召集，只要你发现并体验了新的 AI 应用或者功能，按照格式（参考案例：为什么谷歌搜不到「没有条纹的衬衫」｜AI 上新）向栏目投稿，在极客公园公众号发布，不仅能获得相应稿费，且会为你「报销」AI 应用的订阅费用。

同时，优秀作者还有机会进入极客公园 AI 体验群，获得最新 AI 应用和工具的内测资格，参加极客公园专属相关 AI 活动，和 AI 应用创始人一对一沟通。

AGI 太久，只争朝夕，让一部分人先 AI 起来吧！投稿、进群请扫描下方二维码添加极客小助手微信

https://work.weixin.qq.com/u/vc864291bd406e1a72?v=4.1.38.191539&bb=106c620d89 ( 二维码自动识别 )

亲测 Veo 3.1 三大功能，

五个月谷歌往前走了「0.1 步」

目前，普通用户可在 Gemini 应用程序和 Flow 免费使用，不过使用机会有限。我们发现不少国内 AI 视频生成平台闪现秒跟。不到一天时间，Imagine.art、Fal-ai 以及 Lovart 均表示支持 Veo 3.1 模型调用。我们此次也在 Lovart 上对 Veo 3.1 进行了快速体验。

首先测试了 Veo 3.1 生成的 AI 视频是否能够在音画统一上达成一致。第一次，我们给到 Veo 3.1 的英文提示词是：「纽约街头正在下雨，突然一道闪电伴随雷声而来。」

大约一分钟后，我们获得如下视频画面：

可以看到基本上，闪电和雷声是在同一时间内出现，完成了声音画面的一致性。我们还可以更细致地发现每一辆车开过水坑时，声音会有一个从远到近，从大到小的变化程度。让我们意外的是，在 3 分钟左右的生成 AI 视频的倒计时中，Veo 3.1 整个视频的生成时间会在 1 分钟左右就完成，但生成的视频片段基本上都在 6 秒左右，与 Sora 2 可以生成 10-20 秒的时间相比，明显不占优势。

而且，我们还发现在整个画面，只有车、雨滴、和闪电是呈现动态效果，两旁的行人或者树木均是静止不动的，因此整个视频片段会出现一些违和感，让人能够一眼能看出是 AI 视频。

接下来，我们测试给 Veo 3.1 两张照片，并分别设定为第一张照片和最后一张照片后，看看 AI 视频的首尾稳定性如何。以及 Veo 3.1 能否能够通过拼接的方式，实现两段视频直接连接。

为了更好的生成效果，我们给到 Veo 3.1 的第一段提示词是：「一只顽皮的虎斑猫以流畅、连续的动作跃上办公桌。这个动作应展现从起跳到优雅落桌的完整跳跃弧线，以上两张图片分别为视频的首个画面和结束画面，确保运动过程流畅且符合物理规律。」

硬刚 Sora 2，谷歌的 Veo 3.1 确实有小惊喜｜AI 上新

在大约 1 分钟后，Veo 3.1 给出视频效果是：

在视频的前半部分，呈现基本上自然。但是在小猫咪跳到电脑后面的时候，似乎变了另一只小猫出来，整个视频突然添了几分「魔法感」。并且，在视频的最后几秒，似乎有个开灯设定，将画面调整更亮。

同时，我们给出 Veo 3.1 第二段英文提示词：「跳上办公桌的虎斑猫趴下睡着了。以上两张图片分别为视频的首个画面和结束画面，确保运动过程流畅且符合物理规律。」

硬刚 Sora 2，谷歌的 Veo 3.1 确实有小惊喜｜AI 上新

Dora

创建令人惊叹的3D动画网站，无需编写一行代码。

下载

在 2 分钟后，Veo 3.1 给出一段 6 秒的短视频：

可以看出，Veo 3.1 给出的 AI 生成视频还是比较真实的。如果将两个视频片段连接在一起，则呈现的效果为：

可以看出，当两个视频拼接到一起之后，除了此前提到的「魔法感」比较突兀外，视频与视频之间还是保持了连贯性，并且也实现了一定程度上的场景拓展。

最后，我们测试了如何使用 Veo 3.1，通过三张图设定一个人物主角形象。

我们给出一段英文指令，大意为：「一个中景镜头，画面中的女性角色来源于人物参考图，身穿服装参考图中的衣服。她正在场景参考图中的场景里漫步，带着好奇而愉悦的表情环顾四周。环境需与提供的场景图一致。整体风格应为电影质感，拥有自然的光线和轻柔的微风。同步生成环境音效，如树叶的沙沙声和远处的鸟鸣。」

硬刚 Sora 2，谷歌的 Veo 3.1 确实有小惊喜｜AI 上新

Veo 3.1 给出的视频效果为：

来源：极客公园

可惜的是，这一次我们发现 AI 视频中的人物明显建模感严重，服装和场景几乎都与此前给出的参考图片有明显差别，AI 感极重，该 AI 视频几乎是此次所有测试视频里面表现效果最差的。

整体看来，此次 Veo 3.1 在音画同步以及首尾画面稳定上均给出不错的 AI 效果。但在用图片设定人物形象，AI 人设方向并没有官网中介绍的效果好。

谷歌「暗踩」Sora2，

AI 大佬们跳出来反对

「胜，大获全胜。」谷歌试图在官网昭告天下这一点。据谷歌介绍，谷歌在文生视频的总体观感、视频对齐程度以及视觉质量等方面，完胜 Sora 2 Pro、海螺 2.0、Seedance 1.0 Pro 和 Renway Gen 3 等一众视频模型。

硬刚 Sora 2，谷歌的 Veo 3.1 确实有小惊喜｜AI 上新

官网还强调，在音画一致性方面，Veo 3 的「视频素材」功能在内部基准测试中，在「整体偏好」和「视觉质量」两项指标均名列前茅。

有意思的是，谷歌官网还悄悄地「暗踩」OpenAI 所发布的 Sora 2，解释在图像转视频测试中没有 Sora 2 Pro 的原因是因为 Sora 2 Pro 目前不支持人像生成。

硬刚 Sora 2，谷歌的 Veo 3.1 确实有小惊喜｜AI 上新

不过我们也发现在此次的对比中，谷歌似乎模糊 Veo 3.1 和 Veo 3 的模型边界，基于所有的图片显示中都是 Veo 3，而文字表达均为 Veo 3.1，因此暂时也很难确定此次评测的模型，究竟是刚刚发布的 Veo 3.1 还是 5 个月前的 Veo 3。

尽管谷歌自我感觉甚好，但在 AI 大佬们看来，Veo 3.1 的效果似乎略逊于 Sora 2。比如说，Otherside AI 的创始人 Matt Shumer 直接在推特上表示对 Veo 3.1 感到「有些失望」，他认为 Veo 3.1 效果明显逊于 Sora 2，价格却高出不少。毕竟，目前 Sora 2 可是免费使用。

3D 数字艺术家 Travis David 则提到 Veo 3.1 并没有突破 AI 视频生成的「8 秒」定律，且用户没有办法自己选择生成什么样的音频，让人大失所望。

还有不少网友提到期待「自动化分镜」功能迟迟没有上新，在自动化程度的进展也让人感到失望。

和 Sora 2 Pro 卷「性价比」？Veo 3.1 瞄准 AI 视频专业化

在谷歌介绍 Veo 3.1 模型博客的最后，提到了价格与 Veo 3 相同。乍一看，我还以为谷歌此次是一次「加量不加价」的升级，但仔细研究之后发现，Veo 3.1 模型可能仍是目前市场较为昂贵的视频生成模型，仅次于 Sora 2 Pro。

除了 Veo 3.1，谷歌还推出 Veo 3.1 Fast，能够更快的生成视频，价格也更低，不含音频的版本是每秒 $0.15，加上音频生成的版本则是每秒 $0.40 美元。

硬刚 Sora 2，谷歌的 Veo 3.1 确实有小惊喜｜AI 上新

而在价格表下，谷歌也为自己留出了一条后路，提到「在某些情况下，音频处理问题可能会导致视频无法生成。只有在成功生成视频后，系统才会向您收取费用。」这也能够说明一定程度上，该视频模型仍处于不稳定的状态中。

和前不久刚刚发布社交属性较强、更注重趣味感的 Sora 2 相比，Veo 3.1 明显定位在「专业化」上。因此，Veo 3.1 更强调视频的连贯性，音画的一致性以及人物的稳定性。

谷歌给出的应用场景案例也侧面印证了这一点。据介绍，GenAI 电影工作室 Promise Studios 已经开始其 MUSE 平台中使用 Veo 3.1 来增强生成 AI 视频故事性，整体生成视频要求尽可能达到导演希望的制作质量以及故事讲述感。AI 生成内容公司 Latitude 也正在其生成叙事引擎中测试 Veo 3.1，希望能够将用户创作的故事立即变为现实。

可以看到，Veo 3.1 正试图撬动专业影视制作领域，降低高质量视频创作的门槛和成本。这也意味着未来个人创作者或小团队，有机会通过叙事控制、定制化角色以及音画一致性，独立制作一系列风格统一的迷你短片或系列视频内容。

但从整体视频生成效果来看，五个月谷歌在 Veo 视频模型上往前仅走了「0.1 步」。

* 头图来源：谷歌官网

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

14 万 OpenClaw 涌进 AI 社交 APP，一夜成立数字宗教认命 43 位 AI 先知，提议不再用英语交流

马斯克真没吹牛！世界模型 Genie 3 一键打造 GTA6 不是梦

内存怎么突然涨价了 2026年内存条会暴涨吗

内存涨价是什么原因引起的内存涨价会持续多久

谷歌 Pixel 10 Pro 自研芯片 Tensor G5 细节：AI性能将迎来飞跃

谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁，使用起来得心应手。这里提供了谷歌浏览器纯净安装包，有需要的小伙伴快来保存下载体验吧！

下载

相关专题

promise的用法

“promise” 是一种用于处理异步操作的编程概念，它可以用来表示一个异步操作的最终结果。Promise 对象有三种状态：pending（进行中）、fulfilled（已成功）和 rejected（已失败）。Promise的用法主要包括构造函数、实例方法（then、catch、finally）和状态转换。

336

2023.10.12

html文本框类型介绍

html文本框类型有单行文本框、密码文本框、数字文本框、日期文本框、时间文本框、文件上传文本框、多行文本框等等。详细介绍：1、单行文本框是最常见的文本框类型，用于接受单行文本输入，用户可以在文本框中输入任意文本，例如用户名、密码、电子邮件地址等；2、密码文本框用于接受密码输入，用户在输入密码时，文本框中的内容会被隐藏，以保护用户的隐私；3、数字文本框等等。

427

2023.10.12

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2904

2024.08.16

PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境（CLI）下的开发与应用，内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理，以及与 Linux 定时任务（Cron）的结合使用。通过实战示例，帮助开发者掌握使用 PHP 构建自动化脚本、批处理工具与后台任务程序的能力。

2025.12.13

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

216

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

412

2026.03.04

热门下载

网站特效

网站源码

网站素材

前端模板