0

0

Thinker— 优必选开源的具身智能视觉语言模型

花韻仙語

花韻仙語

发布时间:2026-02-03 11:13:02

|

881人浏览过

|

来源于php中文网

原创

Thinker是什么

thinker是由优必选推出的开源具身智能视觉语言大模型,专为机器人实际应用场景深度优化。该模型参数量为40亿,在全球9项权威评测基准中全部登顶,位列第一。其核心能力覆盖任务规划、空间建模、时序推理与视觉精确定位,有效突破机器人“能理解却难精准执行”的技术瓶颈。模型依托20亿原始多模态数据,经系统化清洗与筛选,构建出1000万条高质量训练样本;并采用全自动标注体系,人工干预比例低于1%。目前已成功赋能walker s2人形机器人,在工业现场达成99.99%的稳定作业准确率,加速具身智能技术向规模化、实用化落地。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Thinker— 优必选开源的具身智能视觉语言模型

外贸多语言保健品化妆品独立站源码(内置ai智能翻译)2.0.7
外贸多语言保健品化妆品独立站源码(内置ai智能翻译)2.0.7

这款 AI 智能翻译外贸多语言保健品化妆品独立站源码是zancms专为外贸化妆品企业量身定制。它由 zancms 外贸独立站系统 基于化妆品出口企业的独特需求进行研发设计,对各类智能产品企业的出口业务拓展同样大有裨益。其具备显著的语言优势,采用英文界面呈现,且内置智能 AI 翻译功能,在获得商业授权后更可开启多语言模式,充分满足不同地区用户的语言需求,并且整个网站的架构与布局完全依照国外用户的阅读

下载

Thinker的主要功能

  • 任务规划:Thinker可解析复杂自然语言指令,并融合历史状态记忆,动态推演机器人未来行为轨迹,将宏观目标自动拆解为一系列逻辑连贯、可执行的子动作序列。
  • 空间理解:Thinker构建以自身为原点的三维空间坐标系,将摄像头视点设为参考中心,统一表征物体位置、朝向与相对关系,显著提升机器人对真实物理空间的感知精度。
  • 时间推理:Thinker能从视频流中提取关键帧语义与事件时序特征,将过往动作与当前指令进行因果关联分析,支撑具备上下文感知能力的实时决策。
  • 视觉定位:Thinker支持以边界框(Bounding Box)和亚像素级点坐标双重形式输出目标位置,为机械臂抓取、导航避障及人机交互提供高鲁棒性空间指引。

Thinker的技术原理

  • 数据构建:Thinker打造了端到端的数据蒸馏流水线。面对海量(20亿条)噪声高、模态错位的原始数据,首先通过领域定制规则完成初筛,再利用大模型进行多维质量打分(含语义一致性、空间合理性、时序完整性等),最终提炼出1000万高质量样本。标注环节采用“大模型预标+多模型交叉校验”机制,人工复核率压降至1%以内,标注成本下降99%,效率提升超百倍。
  • 模型架构设计:Thinker沿用成熟稳健的视觉语言融合架构,包含文本分词器、视觉编码器、跨模态对齐MLP层以及语言模型主干四大部分。该设计实现视觉信号、语言指令与时间维度的联合嵌入,保障模型在细节识别、意图理解与多模态协同推理上的综合表现。
  • 训练策略:Thinker采用两阶段渐进式训练范式。第一阶段在通用VLM数据集、空间关系专项数据集及大规模任务规划语料上联合微调,夯实基础感知与逻辑推理能力,并引入视频末帧作为辅助输入强化动态理解;第二阶段聚焦真实工业任务数据,开展监督微调,重点适配长序列依赖、多变物体排布及在线反馈修正机制,确保输出规划方案可直接驱动实体机器人稳定运行。
  • 关键创新:针对机器人视角易混淆、视频关键信息易丢失等行业难题,Thinker提出“关键帧+全视频”双路联合输入策略,在不增加模型复杂度前提下大幅提升时序建模能力;同时结合高价值数据筛选与任务驱动采样方法,仅用4B参数即达成超越10B级模型的综合性能。

Thinker的项目地址

Thinker的应用场景

  • 工业智能制造:Thinker驱动人形机器人在产线中完成箱体搬运、工件分类、精密装配等柔性作业,Walker S2已实测达成99.99%作业准确率,弥补传统刚性自动化设备在适应性与泛化性上的短板。
  • 仓储物流作业:Thinker助力机器人在高动态、SKU高频更迭的仓储环境中,完成多品类货物识别、实时路径重规划与毫米级抓取定位,满足现代物流对敏捷性与准确率的双重严苛要求。
  • 商用服务场景:Thinker赋能服务型机器人在商场、展馆、机场等开放场所,提供智能导览、语音讲解、情感化互动等自然人机对话体验,依托视觉语言联合理解能力提升服务沉浸感与响应准确性。
  • 复杂操作任务:Thinker使机器人具备执行长周期、多步骤、强空间约束类任务的能力,例如电力设备自主巡检、微型零部件精密装配、实验室多阶段实验流程自动化等。
  • 群体智能协作:Thinker作为认知中枢,深度集成于优必选群脑网络(Swarm Brain)与协作智能体Co-Agent框架中,支撑多机器人间的任务解耦、协同调度、知识共享与持续进化。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Java 设计模式与重构实践
Java 设计模式与重构实践

本专题专注讲解 Java 中常用的设计模式,包括单例模式、工厂模式、观察者模式、策略模式等,并结合代码重构实践,帮助学习者掌握 如何运用设计模式优化代码结构,提高代码的可读性、可维护性和扩展性。通过具体示例,展示设计模式如何解决实际开发中的复杂问题。

0

2026.02.03

C# 并发与异步编程
C# 并发与异步编程

本专题系统讲解 C# 异步编程与并发控制,重点介绍 async 和 await 关键字、Task 类、线程池管理、并发数据结构、死锁与线程安全问题。通过多个实战项目,帮助学习者掌握 如何在 C# 中编写高效的异步代码,提升应用的并发性能与响应速度。

0

2026.02.03

Python 强化学习与深度Q网络(DQN)
Python 强化学习与深度Q网络(DQN)

本专题深入讲解 Python 在强化学习(Reinforcement Learning)中的应用,重点介绍 深度Q网络(DQN) 及其实现方法,涵盖 Q-learning 算法、深度学习与神经网络的结合、环境模拟与奖励机制设计、探索与利用的平衡等。通过构建一个简单的游戏AI,帮助学习者掌握 如何使用 Python 训练智能体在动态环境中作出决策。

0

2026.02.03

python end=
python end=

本专题整合了python中end=的相关内容,阅读专题下面的文章了解更多详细内容。

0

2026.02.03

python运算符优先级
python运算符优先级

本专题整合了python运算符优先级排序、用法相关内容,阅读专题下面的文章了解更多详细内容。

0

2026.02.03

python print用法与作用
python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容,阅读专题下面的文章了解更多详细教程。

1

2026.02.03

python源码大全
python源码大全

本专题整合了python源码相关内容合集,阅读专题下面的文章了解更多详细内容。

1

2026.02.03

python 解包
python 解包

本专题整合了python解包的概念、操作方法等等内容,阅读专题下面的文章了解更多详细教程。

2

2026.02.03

Python 序列化
Python 序列化

本专题整合了python序列化、反序列化相关内容,阅读专题下面的文章了解更多详细内容。

12

2026.02.02

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 3.3万人学习

Git版本控制工具
Git版本控制工具

共8课时 | 1.5万人学习

Git中文开发手册
Git中文开发手册

共0课时 | 0人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号