0

0

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

WBOY

WBOY

发布时间:2024-09-12 15:50:01

|

656人浏览过

|

来源于机器之心

转载

近期,来自字节跳动的视频生成模型 Loopy,一经发布就在 X 上引起了广泛的讨论。Loopy 可以仅仅通过一张图片和一段音频生成逼真的肖像视频,对声音中呼吸,叹气,挑眉等细节都能生成的非常自然,让网友直呼哈利波特的魔法也不过如此。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

音频驱动人像视频模型:字节loopy、cyberhost研究成果揭秘

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

Loopy 模型采用了 Diffusion 视频生成框架。输入一张图片和一段音频,就可以生成相应的视频。不但可以实现准确的音频和口型同步,还可以生成细微自然的表情动作,例如人物跟随情绪节奏做出抬眉、吸气、憋嘴停顿、叹气、肩膀运动等非语言类动作也能很好地被捕捉到;在唱歌时也能表现得活灵活现,驾驭不同风格。音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘                              柔和音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘                              高昂 音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘
                                  rap

更多丰富风格的展示,可移步项目主页:https://Loopyavatar.github.io/, https://arxiv.org/pdf/2409.02634

在不同的图片风格上,Loopy 也都表现得不错,像古风画像、粘土风格、油画风格、3D 素材以及侧脸的情况等等。
音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘
Loopy 技术方案

具体来说,Loopy 是如何仅需音频,就能实现这样生动的效果呢?

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

Loopy 框架中分别对外观信息(对应图中左上角)和音频信息(图中左下角)做了相应的方法设计,在外观上团队引入了 inter/intra- clip temporal layers 模块,通过 inter-clip temporal layer 来捕捉跨时间片段的时序信息,通过 intra-clip temporal layer 来捕捉单个片段内的时序信息,通过分而治之的方式更好建模人物的运动信息。

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

同时为了进一步的提升效果,团队设计了 Temporal Segment Module 使得 inter-clip temporal layer 可以捕捉长达 100 帧以上的时序信息,从而可以更好的基于数据学习长时运动信息依赖,抛弃了空间模版的限制,最终生成更好的人像运动。这就不难理解为什么 Loopy 可以仅仅依靠音频,不需要任何空间辅助信号就可以生成自然逼真的人像视频了。

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

Postme
Postme

Postme是一款强大的AI写作工具,可以帮助您快速生成高质量、原创的外贸营销文案,助您征服全球市场。

下载
除此以外,为了能够捕捉到细腻的表情变化,团队设计了一个名为 audio to latents(A2L)的模块,用来增强音频和头部运动之间的关联关系。这个 A2L 模块在训练过程中会随机选取音频、表情参数、运动参数中的一个,将其转化为 motion latents,作为 diffusion model 的运动控制信号。在测试的时候,只需要音频就能够得到 motion latents。通过这种方式,可以借助与肖像运动强相关的条件(表情参数、运动参数)来帮助较弱相关的条件(audio)生成更好的 motion latents,进而实现对细微生动的肖像运动及表情的生成。

Loopy 在不同场景下都和近期的方法做了数值对比,也体现了相当的优势:

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

CyberHost 半身人像版模型,手部动作也能驱动

除此以外,该团队近期还推出了一个名为 CyberHost 的半身人像版本。这款模型是首个采用端到端算法框架进行纯音频驱动的半身视频生成系统,将驱动范围从肖像扩大到了半身,不仅表情自然、口型准确,也能生成和音频同步的手部动作,这在该领域是一个重大突破。

手部动作生成一直是视频生成技术中的难题,鲜有模型能实现稳定的效果。特别是在纯音频驱动的场景下,由于缺乏骨架信息输入,保持手部动作的稳定性更具挑战。CyberHost 通过专门设计的 Codebook Attention 来强化对人脸和手部等关键区域的结构先验学习,在纯音频驱动下的手部生成质量甚至超越了许多基于视频驱动的方法。

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

Codebook Attention 引入了一系列可学习的时空联合隐变量参数,专注于在训练过程中学习数据集中局部区域的结构特征和运动模式。同时,该机制还提取了关键区域的外观特征,强化了局部 ID 的一致性。团队将这一机制应用于脸部和手部区域,并在 Denoising U-Net 的各个阶段进行插入,提升了对关键区域的建模能力。

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

此外,CyberHost 还设计了一系列基于人体结构先验的训练策略,旨在减少音频驱动下人体动作生成的不确定性。这些策略包括 Body Movement Map 和 Hand Clarity Score。Body Movement Map 可以用于限制视频生成中人体的运动范围。而 Hand Clarity Score 通过计算局部像素的 laplacian 算子来控制生成手部的清晰度,规避手部运动模糊带来的效果劣化。

更多细节见论文以及项目主页:
CyberHost: https://cyberhost.github.io/, https://arxiv.org/pdf/2409.01876

团队介绍

字节跳动智能创作数字人团队,智能创作是字节跳动 AI & 多媒体技术团队,覆盖了计算机视觉、音视频编辑、特效处理等技术领域,借助公司丰富的业务场景、基础设施资源和技术协作氛围,实现了前沿算法 - 工程系统 - 产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。其中数字人方向专注于建设行业领先的数字人生成和驱动技术,丰富智能创作内容生态。

目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。

相关文章

驱动精灵
驱动精灵

驱动精灵基于驱动之家十余年的专业数据积累,驱动支持度高,已经为数亿用户解决了各种电脑驱动问题、系统故障,是目前有效的驱动软件,有需要的小伙伴快来保存下载体验吧!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
golang map内存释放
golang map内存释放

本专题整合了golang map内存相关教程,阅读专题下面的文章了解更多相关内容。

75

2025.09.05

golang map相关教程
golang map相关教程

本专题整合了golang map相关教程,阅读专题下面的文章了解更多详细内容。

36

2025.11.16

golang map原理
golang map原理

本专题整合了golang map相关内容,阅读专题下面的文章了解更多详细内容。

60

2025.11.17

java判断map相关教程
java判断map相关教程

本专题整合了java判断map相关教程,阅读专题下面的文章了解更多详细内容。

40

2025.11.27

github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

225

2026.01.21

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

404

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2032

2024.08.16

c++空格相关教程合集
c++空格相关教程合集

本专题整合了c++空格相关教程,阅读专题下面的文章了解更多详细内容。

0

2026.01.23

yy漫画官方登录入口地址合集
yy漫画官方登录入口地址合集

本专题整合了yy漫画入口相关合集,阅读专题下面的文章了解更多详细内容。

0

2026.01.23

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号