0

0

智元发布 SOP:面向真实世界部署的在线后训练系统

花韻仙語

花韻仙語

发布时间:2026-01-06 18:43:02

|

515人浏览过

|

来源于php中文网

原创

智元具身智能研究中心正式发布 sop(scalable online post-training)——一套专为真实物理场景部署而设计的在线后训练系统。这也是全球范围内首次在现实世界中面向视觉-语言-动作模型(vla)的后训练,系统性整合在线学习机制、分布式计算架构与多任务通用能力,使机器人集群可在真实环境中自主持续进化,并实现个体经验在群体层面的高效共享与复用,真正将“规模优势”转化为“智能跃迁”。

据官方介绍,SOP 的核心使命,是推动机器人在开放物理世界中完成分布式、不间断的在线学习。研发团队彻底重构了传统 VLA 后训练范式,将其从“离线化、单机化、串行化”升级为“在线化、集群化、并行化”,构建起一个低时延、高响应的闭环学习通路:多机器人同步执行 → 云端实时联合更新 → 模型参数秒级回传

SOP 基于经典的 Actor–Learner 异步协同架构:

  • Actor(执行端)——并行采集真实经验
    多台搭载统一策略模型的机器人(Actors)在异构环境(如商超、家庭、工厂)中同步开展多样化任务,持续收集成功执行、失败尝试及人类干预等高质量交互数据。各节点采集的经验被统一汇聚至云端 Experience Buffer,形成动态增长的经验池。

  • Learner(学习端)——云端实时增量优化
    所有轨迹数据流式上传至云端 Learner,构建融合在线真实交互与离线专家示范的混合数据集。系统引入动态重采样机制,依据各任务当前性能反馈,自动调节在线数据与离线数据的采样权重,从而更精准地聚焦真实世界中的关键难点与长尾分布。

  • 毫秒级参数同步
    更新后的模型参数可在分钟级内完成全集群下发,确保所有机器人始终运行最新策略,既保障群体协同进化的一致性,又维持在线训练过程的鲁棒性与收敛稳定性。

SOP 是一个高度解耦、即插即用的通用框架,兼容任意主流后训练算法,赋能 VLA 模型从持续产生的在线数据中自主获益。项目团队以 HG-DAgger(人机协同模仿学习)与 RECAP(离线强化学习增强框架)为典型代表,将其无缝嵌入 SOP 架构,实现从单点优化到集群智能的范式升级。

核心突破

  • 广域状态空间覆盖
    多机器人地理分散、任务并发的协同探索模式,极大拓展了状态–动作空间的覆盖密度,有效规避单机在线学习易陷入局部、覆盖稀疏的固有缺陷。

  • 抑制策略分布漂移
    所有机器人始终基于低延迟同步的最新策略进行推理与交互,显著缓解因策略滞后引发的数据分布偏移问题,提升训练过程的稳定性与泛化一致性。

  • 兼顾特化性能与通用能力
    区别于传统单机在线训练易导致模型窄化为单一任务“专才”的倾向,SOP 通过空间维度的并行学习而非时间维度的顺序微调,在持续提升各项任务表现的同时,完整保留 VLA 模型的跨任务理解与泛化潜力,杜绝能力退化。

实验验证显示,在多种复杂现实场景下,集成 SOP 的后训练方案均取得突破性进展。相较于基线预训练模型,采用 SOP-HG-DAgger 的方案在商品密集、光照多变、遮挡频繁的商超环境中,综合任务性能提升达 33%。在高精度灵巧操作任务(如衣物折叠、纸盒装配)中,SOP 不仅显著提高任务成功率,更通过在线学习捕获大量异常恢复行为,大幅增强策略的实际吞吐效率。

具体而言,SOP-HG-DAgger 在衣物折叠任务中相较标准 HG-DAgger 实现吞吐量激增 114%;多任务通用能力全面提升至接近理想水平——各类任务成功率稳定超过 94%,其中纸盒装配任务成功率达 98%。

智元发布 SOP:面向真实世界部署的在线后训练系统

AskAI
AskAI

无代码AI模型构建器,可以快速微调GPT-3模型,创建聊天机器人

下载

在总训练时长严格限定为 3 小时的前提下,四机器人并行学习的最终任务成功率高达 92.5%,较单机方案高出 12 个百分点。多机协同采集有效打破了单设备环境偏差带来的过拟合风险。更重要的是,SOP 成功将硬件资源的线性扩展,转化为学习效率的非线性跃升:四机集群相较单机,达成同等目标性能所需的训练时间缩短至原来的 41.7%,即加速比达 2.4 倍。

智元发布 SOP:面向真实世界部署的在线后训练系统

研究还深入分析了 SOP 与预训练基础之间的耦合关系。团队将总计 160 小时的多任务预训练数据划分为三组(20h / 80h / 160h),分别初始化三类基座模型后接入 SOP 进行在线演进。结果表明:预训练规模直接决定了初始能力基线与后续 SOP 提升的潜力曲线。SOP 对所有起点模型均能提供稳定、可预期的性能增益,且最终上限与预训练质量呈正相关。

进一步对比 80 小时与 160 小时预训练组可见,在应对特定失败模式(如物体滑脱、姿态误判)时,在轨策略积累的真实经验展现出极强的边际增益。仅需 3 小时真实场景运行数据,SOP 即带来约 30% 的性能跃升;而额外增加 80 小时人工标注专家数据,仅贡献 4% 的提升。这清晰印证:当预训练进入收益递减区间后,SOP 可成为突破 VLA 当前性能天花板的关键路径。

智元发布 SOP:面向真实世界部署的在线后训练系统

源码地址:点击下载

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
什么是分布式
什么是分布式

分布式是一种计算和数据处理的方式,将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容,供大家免费下载体验。

404

2023.08.11

分布式和微服务的区别
分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容,供大家免费下载体验。

250

2023.10.07

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

489

2023.08.14

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

23

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

68

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

162

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

84

2026.03.04

Swift iOS架构设计与MVVM模式实战
Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践,系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例,帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

113

2026.03.03

C++高性能网络编程与Reactor模型实践
C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开,深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例,帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

29

2026.03.03

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号