0

0

动画制作效率提升80%!这个AI软件一键实现高精度视频动捕

WBOY

WBOY

发布时间:2023-04-11 21:04:11

|

2120人浏览过

|

来源于51CTO.COM

转载

AIGC 又出新魔法了!

不用动画师手 K、惯捕或光捕,只需提供一段视频,这个 AI 动捕软件就能自动输出动作。仅需短短几分钟,虚拟人的动画制作就搞定了。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

不仅是四肢大框架动作,连手部的细节都能精准捕捉。

除了单视角视频,还能支持多个视角的视频,相比其他只支持单目识别的动捕软件,该软件能提供更高的动捕质量。

图片

同时,该软件还支持对识别的人体关键点、平滑度、脚步细节等进行编辑修改。从普通玩家的兴趣体验,到硬核玩家的专业需求,它都可满足。

图片

这就是网易互娱 AI Lab 深根多年、结合专业美术反馈不断迭代优化、低调开发的 AIxPose 视频动捕软件。据悉,该软件已经处理了超过数十个小时的视频资源,并应用于游戏剧情动画、热门舞蹈动画等资源的制作流程。经实际项目验证,1 分钟的舞蹈动画,美术手工制作或需 20 多天,用 AIxPose 辅助制作仅需 3 天,整个流程缩短了 80% 以上。

近日,网易互娱 AI Lab 基于开发该软件的经验,并结合在动捕领域的相关研究工作进行了整理,其所撰写的论文《Learning Analytical Posterior Probability for Human Mesh Recovery》被计算机视觉顶会 CVPR 2023 接收。

图片

  • 主页地址:https://netease-gameai.github.io/ProPose/
  • 论文地址:https://netease-gameai.github.io/ProPose/static/assets/CVPR2023_ProPose.pdf

该论文创新性地提出了一种基于后验概率的视频动捕技术 ProPose,能够在单张图像、多传感器融合等不同设定下实现准确的三维人体姿态估计。技术精度比使用先验的基准概率方法高了 19%,且在公开数据集 3DPW、Human3.6M 和 AGORA 上均超越了过去的方法。此外,对于多传感器融合任务,该技术也能达到比基准模型更高的精度,且无需因为引入新传感器而修改神经网络的骨干部分。

技术背景

本研究的任务是从 RGB 图像中预测人体姿态和外形(human mesh recovery, hmr),现有的方法可以归纳为两类:直接法和间接法。直接法采用神经网络端到端地回归人体关节的旋转表示(如轴角、旋转矩阵、6D 向量等),而间接法先预测一些中间表示(如三维关键点、分割等),然后通过这些中间表示得到关节旋转。

然而,这两类方法都存在着一些问题。对于直接法而言,由于这类方法需要网络直接学习旋转这类抽象表示,与学习关键点、分割相比,学习旋转相对困难,因此网络输出的结果有时候很难和图像对齐,且无法完成一些大幅度的动作,如下图 (a) 第一行的右脚无法完全向后伸展。与之相比,间接法一般能产生更高的精度,但是这类方法的表现很大程度上依赖于中间表示的准确性,当中间表示由于噪声产生误差时,容易让最终的旋转出现相当明显的错误,如下图 (b) 第二行的左手所示。

图片

除了前述这些确定性的方法,还有一些方法通过学习某些概率分布来建模人体姿态的不确定性,从而将噪声纳入考虑,提高系统鲁棒性。目前主要的概率建模方式包括多元高斯分布、标准化流、神经网络隐式建模等,但是这些非 SO (3) 上的概率分布无法真实地反映关节旋转的不确定性。比如在不确定性较大时,高斯分布在 SO (3) 上的局部线性假设不成立。近期的一篇工作直接用网络学习了 matrix Fisher 分布的参数,虽然这是一种 SO (3) 上的分布,但该方法的学习方式和直接法类似,收敛表现无法和现有的间接法相比。

为了同时兼顾高准确性和鲁棒性,提升概率方法的性能,ProPose 推导了关节旋转的解析后验概率,不仅能够受益于不同观测变量带来的高精度,也能衡量不确定性,尽可能减弱噪声对算法的影响。如下图所示,对于输入的图片,ProPose 可以通过输出的概率分布一定程度上度量该关节旋转在各个方向的不确定性,如右手沿着手臂轴的旋转、左手臂上下摆动的朝向、左小腿远近的程度等。

技术实现

人体建模

本研究对人体姿态进行概率建模,目标是求关节旋转 R 在一些观测变量条件下(如骨骼朝向 d 等)的后验概率 p (R|d,⋯)。

具体而言,由于人体的关节旋转位于 SO (3) 上,而子关节相对于父关节的单位骨骼朝向位于 S^2 上,因此可基于这两种流形上的概率分布进行分析。

首先,SO (3) 上的 matrix Fisher 分布 MF (⋅) 可作为关节旋转 R 的先验分布,如下式所示,F∈R^(3×3) 是该分布的参数,c (F) 是一个归一化常量,tr 表示矩阵的迹。

图片

如下式所示,F 可以通过 SVD 分解直接求解均值 M 和一个表征分布聚集程度的聚集项 K。其中,Δ=diag (1,1,|UV|) 是一个对角正交矩阵,用于保证 M 的行列式为 1,从而能落在特殊正交群中。

图片

其次,考虑到骨骼的朝向能通过关节旋转计算得到,因此可将关节旋转 R 看作隐变量,骨骼朝向 d 作为观测变量,给定 R 的条件下,S^2 上的单位朝向 d 服从 von Mises-Fisher 分布:

图片

其中,κ∈R 和 d∈S^2 分别是该分布的聚集项和均值,l 是参考姿态下(如 T-pose)的单位骨骼朝向,理论上满足 Rl=d,即通过关节旋转将参考骨骼朝向转到当前骨骼朝向。

利用贝叶斯理论,给定先验分布 p (R) 和似然函数 p (d|R),可以计算以骨骼朝向为条件的关节旋转的后验概率 p (R|d) 的解析形式:

图片

AssemblyAI
AssemblyAI

转录和理解语音的AI模型

下载

由此可得到结论:后验概率 p (R|d) 同样服从 matrix Fisher 分布,且其参数从 F 更新为 F^'=F+κdl^T。

上述后验概率只考虑了人体骨骼朝向作为观测量,类似地,还可以推广到其它的方向观测量 d_i 或旋转观测量 D_j(可由别的传感器产生,如 IMUs 等),得到如下一般形式的解析后验概率:

图片

其中 κ_i 和 K_j 是聚集项。g (⋅) 是一个 IK 形式的映射,能够将方向观测量转换到旋转估计,可以采用最简单的形式如 g (d_i )=dl^T。Z_1 和 Z_3 分别表示方向观测量和旋转观测量的集合。

特性

该部分进一步阐述后验概率分布相较于先验概率分布有更高的聚集程度。

前述部分介绍了人体关节旋转后验概率的解析形式,该概率由一个新的参数 F' 表征。可以从另一个角度理解后验参数 F^',即 F^' 是与 F 相同的均值项 M 和一个新的聚集项 K^' 的乘积:

图片

其中 M^T dl^T=ll^T 是一个秩 1 实对称矩阵,而 K 也是一个实对称矩阵,即后验的聚集项 K' 同样是实对称矩阵。根据矩阵分析中关于实对称矩阵的交错定理,可以得到 K' 的特征值 λ_i' 和 K 的特征值 λ_i 具有如下不等式关系:

图片

考虑到聚集项的特征值等价于分布参数的奇异值,而分布参数的奇异值能反映该分布的置信度,因此可以得到结论,当似然项非零时,后验估计比先验估计更集中,可以快速收敛到似然函数偏好的那个 mode 上,从而能更容易地被学习。

除了先验概率方法,另一类主要的基准方法是利用逆运动学(IK)直接通过骨骼朝向计算旋转,下面这张图可以直观地展示后验概率方法和确定性 IK 方法之间的对比。

图片

上图以人体肘部关节为例。实的三维坐标轴表示真实值,透明三维坐标轴表示估计值。第一行表示确定性 IK 方法,这类方法背后的建模方式是一个表示骨骼朝向的向量,当骨骼朝向估计准确时,剩余的一个自由度(twist)便能缩小到一个圆上(图中球上的虚线圈);当骨骼朝向估计不准确时,则会使得所有可能的估计都与真实值偏离。第二行表示本研究的后验概率模型,由多个不同类型的模型融合而成,球面上的红色区域表示某个旋转的概率,即便骨骼朝向估计有误差,这种方式也有可能恢复到真实值,因为骨骼朝向的噪声能够被先验或其它观测量所尽可能缓解。

网络框架图和损失函数

基于前述理论和推导,可以直接构建出下图所示的框架图。利用多分支网络从单张图片中估计先验分布参数 F、三维关键点 J(从中计算出骨骼朝向 d)、外形参数 β。通过贝叶斯法则计算得到后验概率,最终可从后验分布中得到姿态估计,从而输出人体 mesh。

图片

损失函数的选择比较直接,为如下四个约束的加权和,其中 L_J 表示关键点约束,L_β 表示外形参数约束,L_θ 表示矩阵形式的姿态参数约束,L_s 表示对分布进行采样后的姿态约束。关于对分布的约束,这里并未直接采用 MAP 是考虑了归一化参数的数值稳定性问题。关于采样策略,类似之前的工作,将 matrix Fisher 分布转为等价的四元数形式的 Bingham 分布,然后通过拒绝采样得到,其中拒绝采样的建议分布采用 angular central Gaussian 分布。

图片

实验结果

实验部分,本研究在公开数据集 Human3.6M、3DPW、AGORA、TotalCapture 上和过去方法进行了定量对比。可以看到,本研究的方法超越了过去的一众方法。其中右下表中最后灰色的两行是同期工作,这里为了榜单完整性也列了出来。

图片

图片

下图展示了和现有 SOTA 方法 HybrIK、PARE、CLIFF 的定性对比,可以看到对一些遮挡的情况,ProPose 可以得到更好的效果。

图片

下表展示了一系列消融实验,主要展示 ProPose 的准确性和鲁棒性。基准方法包括不使用三维关键点、不使用先验、测试时不使用先验、骨干网络不同位置特征的选择等,下面左表充分验证了所提出的后验概率分布有着更高的精度。下面右表则展示了后验方法和确定性 IK 方法对噪声的鲁棒性比较,可以看到后验方法能够更大程度地抵御噪声的干扰。

图片

图片

除了上述 hmr 任务,本研究还在多传感器融合的任务上进行了评估,下面给出了一个单视角和 IMUs 融合的效果。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

49

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

89

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

276

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

59

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

99

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

230

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

619

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

173

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 1.0万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号