UnifoLM-VLA-0— 宇树开源的通用机器人操作大模型

心靈之曲

发布时间：2026-01-31 13:35:25

759人浏览过

来源于php中文网

原创

UnifoLM-VLA-0 是什么

unifolm-vla-0 是由宇树科技推出的开源通用视觉-语言-动作（vla）大模型，其底层架构基于 qwen2.5-vl-7b，并在此基础上开展了深度持续预训练。该模型融合了2d/3d空间感知、运动轨迹预测等多维度监督信号，推动智能体从“视觉与语言理解”迈向“具身交互决策”的关键跃迁。仅依赖单一策略，即可稳定执行桌面整理、毛巾折叠、水果分拣等12种高难度人形机器人操作任务，在 libero 仿真评测基准中平均准确率高达 98.7%，充分验证其卓越的空间建模能力与跨任务泛化表现。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

UnifoLM-VLA-0— 宇树开源的通用机器人操作大模型

论论App

AI文献搜索、学术讨论平台，涵盖了各类学术期刊、学位、会议论文，助力科研。

下载

UnifoLM-VLA-0 的核心能力

端到端机器人控制：作为统一的视觉-语言-动作联合模型，UnifoLM-VLA-0 可直接接收自然语言指令，驱动人形机器人完成涵盖物品归整、毛巾叠放、水果筛选、工具收纳、台面清洁等在内的12类多阶段长程操作任务。
精细化空间认知：具备扎实的2D/3D空间解析能力，支持物体检测与像素级分割、三维包围框回归、空间方位推理（例如“右侧的剪刀”）、affordance识别（如最优抓取点定位）以及连续动作轨迹生成。
单模型多场景适配：无需为不同任务单独微调或部署专用模型，一套参数即可覆盖多样化物理环境与操作目标，显著提升部署效率与泛化鲁棒性。

UnifoLM-VLA-0 的技术实现机制

统一架构设计：以开源 Qwen2.5-VL-7B 视觉语言模型为基座，新增可学习的 Action Head 模块，构建真正端到端的 VLA 管道，实现从原始图像+文本输入到机器人关节控制指令的直通式映射。
多源协同预训练：在涵盖真实机器人操作与通用视觉语言任务的大规模混合数据集上开展持续预训练，整合2D目标检测与分割、任务层级分解、3D物体定位、空间关系建模、运动路径预测等多重监督目标，全面提升模型对物理世界的多模态表征能力。
动力学感知动作建模：引入动作块（Action Token）预测范式，并联合施加前向动力学（状态→动作）与逆向动力学（动作→状态变化）双重约束，使模型深入掌握机器人本体与物体之间的交互物理规律，支撑复杂长序列动作规划与实时决策。
语义-几何深度融合：通过细粒度对齐文本指令中的语义逻辑与图像/点云中的2D/3D空间结构，构建高保真的跨模态空间理解机制，有效满足操作类任务对精准指令解析与空间因果推理的严苛要求。