Thinker— 优必选开源的具身智能视觉语言模型

花韻仙語

发布时间：2026-02-03 11:13:02

881人浏览过

来源于php中文网

原创

Thinker是什么

thinker是由优必选推出的开源具身智能视觉语言大模型，专为机器人实际应用场景深度优化。该模型参数量为40亿，在全球9项权威评测基准中全部登顶，位列第一。其核心能力覆盖任务规划、空间建模、时序推理与视觉精确定位，有效突破机器人“能理解却难精准执行”的技术瓶颈。模型依托20亿原始多模态数据，经系统化清洗与筛选，构建出1000万条高质量训练样本；并采用全自动标注体系，人工干预比例低于1%。目前已成功赋能walker s2人形机器人，在工业现场达成99.99%的稳定作业准确率，加速具身智能技术向规模化、实用化落地。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Thinker— 优必选开源的具身智能视觉语言模型

外贸多语言保健品化妆品独立站源码(内置ai智能翻译)2.0.7

这款 AI 智能翻译外贸多语言保健品化妆品独立站源码是zancms专为外贸化妆品企业量身定制。它由 zancms 外贸独立站系统基于化妆品出口企业的独特需求进行研发设计，对各类智能产品企业的出口业务拓展同样大有裨益。其具备显著的语言优势，采用英文界面呈现，且内置智能 AI 翻译功能，在获得商业授权后更可开启多语言模式，充分满足不同地区用户的语言需求，并且整个网站的架构与布局完全依照国外用户的阅读

下载

Thinker的主要功能

任务规划：Thinker可解析复杂自然语言指令，并融合历史状态记忆，动态推演机器人未来行为轨迹，将宏观目标自动拆解为一系列逻辑连贯、可执行的子动作序列。
空间理解：Thinker构建以自身为原点的三维空间坐标系，将摄像头视点设为参考中心，统一表征物体位置、朝向与相对关系，显著提升机器人对真实物理空间的感知精度。
时间推理：Thinker能从视频流中提取关键帧语义与事件时序特征，将过往动作与当前指令进行因果关联分析，支撑具备上下文感知能力的实时决策。
视觉定位：Thinker支持以边界框（Bounding Box）和亚像素级点坐标双重形式输出目标位置，为机械臂抓取、导航避障及人机交互提供高鲁棒性空间指引。

Thinker的技术原理

数据构建：Thinker打造了端到端的数据蒸馏流水线。面对海量（20亿条）噪声高、模态错位的原始数据，首先通过领域定制规则完成初筛，再利用大模型进行多维质量打分（含语义一致性、空间合理性、时序完整性等），最终提炼出1000万高质量样本。标注环节采用“大模型预标+多模型交叉校验”机制，人工复核率压降至1%以内，标注成本下降99%，效率提升超百倍。
模型架构设计：Thinker沿用成熟稳健的视觉语言融合架构，包含文本分词器、视觉编码器、跨模态对齐MLP层以及语言模型主干四大部分。该设计实现视觉信号、语言指令与时间维度的联合嵌入，保障模型在细节识别、意图理解与多模态协同推理上的综合表现。
训练策略：Thinker采用两阶段渐进式训练范式。第一阶段在通用VLM数据集、空间关系专项数据集及大规模任务规划语料上联合微调，夯实基础感知与逻辑推理能力，并引入视频末帧作为辅助输入强化动态理解；第二阶段聚焦真实工业任务数据，开展监督微调，重点适配长序列依赖、多变物体排布及在线反馈修正机制，确保输出规划方案可直接驱动实体机器人稳定运行。
关键创新：针对机器人视角易混淆、视频关键信息易丢失等行业难题，Thinker提出“关键帧+全视频”双路联合输入策略，在不增加模型复杂度前提下大幅提升时序建模能力；同时结合高价值数据筛选与任务驱动采样方法，仅用4B参数即达成超越10B级模型的综合性能。

Thinker的项目地址

GitHub仓库：https://www.php.cn/link/7c69e0a1a7ed715dbbd931c5a6eb251c
HuggingFace模型库：https://www.php.cn/link/faddccf025526f14b9443502d796a57c
arXiv技术论文：https://www.php.cn/link/c1f4743c95657f785f7874f4b39c979f

Thinker的应用场景

工业智能制造：Thinker驱动人形机器人在产线中完成箱体搬运、工件分类、精密装配等柔性作业，Walker S2已实测达成99.99%作业准确率，弥补传统刚性自动化设备在适应性与泛化性上的短板。
仓储物流作业：Thinker助力机器人在高动态、SKU高频更迭的仓储环境中，完成多品类货物识别、实时路径重规划与毫米级抓取定位，满足现代物流对敏捷性与准确率的双重严苛要求。
商用服务场景：Thinker赋能服务型机器人在商场、展馆、机场等开放场所，提供智能导览、语音讲解、情感化互动等自然人机对话体验，依托视觉语言联合理解能力提升服务沉浸感与响应准确性。
复杂操作任务：Thinker使机器人具备执行长周期、多步骤、强空间约束类任务的能力，例如电力设备自主巡检、微型零部件精密装配、实验室多阶段实验流程自动化等。
群体智能协作：Thinker作为认知中枢，深度集成于优必选群脑网络（Swarm Brain）与协作智能体Co-Agent框架中，支撑多机器人间的任务解耦、协同调度、知识共享与持续进化。