原力灵机研究团队正式发布了全新一代 vla(视觉-语言-动作)框架 —— geovla。该框架在充分继承当前视觉-语言模型(vlm)强大预训练表征能力的基础上,创新性地构建了双通路协同架构。
具体而言,GeoVLA 集成了专为三维空间建模设计的点云嵌入网络(PEN)与具备空间意识的动作决策模块(3DAE),从而赋予机器人真正意义上的三维几何理解与定位能力。该架构不仅在高保真仿真环境中刷新多项性能指标,更在真实物理场景下的多维度鲁棒性评估中展现出卓越稳定性。
GeoVLA 的核心思想在于任务职责的显式分离:由 VLM 专注完成语义识别与概念理解(即“识别对象是什么”),而点云处理分支则专注于空间结构解析与精确定位(即“判断目标在哪里”)。整个端到端系统由三大功能流紧密耦合构成——语义理解流、几何感知流与动作生成流,三者协同驱动,显著提升了任务执行的准确性与泛化性。

实验结果表明,GeoVLA 具备显著领先优势。在 LIBERO 标准测试集上,其任务完成率达 97.7%,大幅超越此前最优方法(SOTA)。同时,在 ManiSkill2 等更具挑战性的物理交互仿真平台中,GeoVLA 同样表现优异,尤其在涉及细粒度操作、非规则物体抓取及多视角动态观测等复杂子任务中,仍维持高水平成功率。
尤为值得关注的是,GeoVLA 在分布外(Out-of-Distribution, OOD)场景下的稳健表现,进一步验证了其面对环境不确定性、传感器噪声及未知物体形变等现实挑战时的强大适应力与泛化潜力。
源码地址:点击下载










