陪跑又快又稳，机器人跑步搭子来了

WBOY

发布时间：2024-02-16 18:50:21

1166人浏览过

来源于机器之心

转载

这个机器人名叫cassie，曾经创下百米跑世界纪录。最近，加州大学伯克利分校的研究者给它开发了一种新的深度强化学习算法，让它掌握了急转弯等技能，还能对抗各种干扰。

Cursor
一个新的IDE，使用AI来帮助您重构、理解、调试和编写代码。

下载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

^{【关注本站视频号，第一时间看到有趣的 AI 内容】}

关于双足机器人运动的研究已经进行了几十年，但仍然没有一个能够对各种运动技能进行稳健控制的通用框架。挑战来自于双足机器人欠驱动动态的复杂性以及与每种运动技能相关的不同规划。

研究者们希望解决的关键问题在于：如何为高维人体大小的双足机器人开发一种解决方案？如何控制多样化、敏捷和稳健的腿部运动技能，比如行走、跑步和跳跃？

最近的一项研究或许提供了不错的方案。

在这项工作中，来自伯克利等机构的研究者利用强化学习（RL）为现实世界中的高维非线性双足机器人创建控制器，以应对上述挑战。这些控制器可以利用机器人的本体感觉信息来适应随时间变化的不确定动态，同时能够适应新的环境和设置，利用双足机器人的敏捷性，在突发情况下表现出稳健的行为。此外，本文框架还提供了再现各种双足运动技能的通用配方。

论文标题：Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control
论文链接：https://arxiv.org/pdf/2401.16889.pdf

论文细节

对于控制器来说，扭矩控制人体大小的双足机器人的高维性和非线性乍似乎是障碍，然而这些特性的优势在于可以通过机器人的高维动力学实现复杂的敏捷操作。

这一控制器赋予机器人的技能如图 1 所示，包括稳健的站立、行走、奔跑和跳跃。这些技能还可用于执行各种不同的任务，包括以不同速度和高度行走、以不同速度和方向奔跑以及跳向各种目标，同时在实际部署过程中保持稳健性。为此，研究者利用无模型 RL 让机器人通过对系统全阶动态的试错来学习。除了真实世界的实验，还深入分析了使用 RL 进行腿部运动控制的好处，并详细研究了如何有效地构建学习过程以利用这些优势，如适应性和稳健性。

用于通用双足运动控制的 RL 系统如图 2 所示：

第四节首先介绍了在运动控制中利用机器人 I/O 历史记录的重要性，这一节从控制和 RL 两个角度展示了机器人的长期 I/O 历史可以在实时控制过程中实现系统识别和状态估计。

第五节介绍了研究的核心：一种利用双足机器人长期和短期 I/O 双历史记录的新型控制架构。具体来说，这种控制架构不仅能利用机器人的长期历史记录，还能利用机器人的短期历史记录。

控制框架如下图：

在这种双历史记录结构中，长期历史记录带来了适应性（在第八节中得到验证），短期历史记录则通过实现更好的实时控制对长期历史记录的利用进行了补充（在第七节中得到验证）。

第六节介绍了如何将由深度神经网络表示的控制策略通过无模型 RL 进行优化。鉴于研究者旨在开发一种能够利用高动态运动技能完成各种任务的控制器，因此这一节中的训练以多阶段模拟训练为特征。这种训练策略提供了一个结构化的课程，首先是单一任务训练，即机器人专注于一个固定的任务，然后是任务随机化，使机器人接受的训练任务多样化，最后是动态随机化，改变机器人的动态参数。

策略如下图所示：

这种训练策略能够提供一种多功能控制策略，可以执行多种任务，并实现机器人硬件的零样本迁移。此外，任务随机化还能通过在不同的学习任务中进行泛化来增强所产生策略的稳健性。

研究表明，这种稳健性可以使机器人对干扰做出顺从的行为，这与动态随机化带来的干扰是「正交」的。这一点将在第九节中得到验证。

利用这一框架，研究者获得了针对双足机器人 Cassie 的行走、跑步和跳跃技能的多功能策略。第十章评估了这些控制策略在现实世界中的有效性。

实验

研究者对机器人进行了广泛的实验，包括在现实世界中行走、跑步和跳跃等多项能力的测试。所用策略在经过模拟训练后都能够有效地控制现实世界中的机器人，而无需进一步调整。

行走实验

如图 14a 所示，行走策略展示了对机器人遵循不同指令的有效控制，在整个测试过程中，跟踪误差相当低（跟踪误差由 MAE 的值来评估）。

此外，机器人策略在较长时间内始终表现良好，即使在 325 天和 492 天后仍具有保持跟踪可变命令的能力，分别如图 14c 和图 14b 所示。尽管在此期间机器人的动力学发生了显著的累积变化，但图 14a 中的同一控制器继续有效地管理不同的行走任务，并且跟踪误差的退化最小。

如图 15 所示，该研究所用的策略显示出对机器人可靠的控制，使机器人能够准确地跟踪顺时针或逆时针的不同转弯命令。

快速行走实验。除了中等行走速度之外，实验还展示了所用策略控制机器人向前和向后执行快速行走动作的能力，如图 16 所示。机器人可以从静止状态过渡到快速实现向前行走速度，平均速度达到 1.14 m/s（跟踪指令中要求 1.4 m/s），机器人还能按照指令快速返回站立姿态，如图 16a 所示，数据记录在图 16c 中。

在不平坦的地形上（未经训练），机器人也可以在楼梯或下坡上有效地向后行走，如下图所示。

抗扰动。在脉冲扰动的情况下，比如研究者在机器人步行时从各个方向向机器人引入了短时间内的外部扰动。就像图 18a 中记录的那样，在原地行走时向机器人施加相当大的横向扰动力，横向速度峰值为 0.5 m/s。尽管有扰动，机器人仍能迅速从横向偏差中恢复过来。如图 18a 所示，机器人熟练地沿相反的横向方向移动，有效地补偿扰动并恢复其稳定的原地行走步态。

在持续扰动测试期间，人类对机器人底座施加扰动力量，并沿随机方向拖动机器人，同时命令机器人原地行走。如图 19a 所展示的，当机器人正常行走时，持续的横向拖力施加到 Cassie 的底座上。结果显示机器人在不失去平衡的情况下，通过遵循这些外力的方向来表现出对这些外力的顺应性。这也表明了本文提出的基于强化学习的策略在控制双足机器人以实现安全人机交互等潜在应用方面的优势。

跑步实验

当机器人使用双足跑步策略，在 2 分 34 秒内实现了 400 米冲刺，在 27.06 秒内实现了 100 米冲刺，跑步倾斜度高达 10° 等等。

400 米短跑：该研究首先评估了在标准室外跑道上完成 400 米短跑的一般跑步策略，如图 20 所示。在整个测试过程中，机器人被命令以 3.5 m/s 的速速同时响应由操作员发出的不同转弯命令。机器人能够从站立姿态平滑地过渡到跑步步态（图 20a 1）。机器人设法加速到平均估计运行速度 2.15 m/s，达到峰值估计速度 3.54 m/s，如图 20b 所示。该策略使机器人成功地在整个 400 米跑步过程中始终保持所需的速度，同时准确地遵守不同的转弯命令。

在所提出的跑步策略的控制下，Cassie 在 2 分 34 秒内成功完成了 400 米冲刺，随后能够过渡到站立姿态。

该研究进一步进行了急转弯测试，其中机器人被给予偏航命令的阶跃变化，从 0 度直接到 90 度，如图 21c 中记录的。机器人可以响应这样的步进命令，并在 2 秒 5 步内完成 90 度急转弯。

100 米短跑：如图 22 所示，通过部署所提出的跑步策略，机器人在大约 28 秒内完成了 100 米短跑，实现了 27.06 秒的最快跑步时间。

跳跃实验

通过实验证明，研究者发现很难训练机器人在跳跃到高架平台的同时同时转弯，但所提出的跳跃策略实现了机器人多种不同的双足跳跃，包括可以跳跃 1.4 米以及跳到 0.44 米高架平台上。

跳跃和转弯：如图 25a 所示，使用单次跳跃策略，机器人能够执行各种给定的目标跳跃，例如旋转 60° 时原地跳跃、向后跳跃到后面 0.3 米处着陆等。

跳跃到高架平台：如图 25b 所示，机器人能够精确跳跃到不同位置的目标上，例如前方 1 米或前方 1.4 米，它还能跳到不同高度的位置，包括跳到 0.44 米高的地方（考虑到机器人本身只有 1.1 米高）。

^{了解更多内容，请参考原论文。}

AI生成活动现场的即时新闻稿

贾跃亭：法拉第未来当前股价被严重低估目标价5美元

内存飙升成本暴涨汽车会涨价还是减配？

10家中国车企入围入围财富世界500强比亚迪进前百

关税压力下创纪录！韩国汽车年出口额达720亿美元

相关专题

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

500

2023.08.14

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2917

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

177

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

热门下载

网站特效

网站源码

网站素材

前端模板