微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

最近更新

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 新闻 > IT新闻 > 正文

大模型 AI 扫地机器人 “翻车”：成功率仅 40%

花韻仙語

发布： 2025-11-03 16:39:01

原创

331人浏览过

ai 实验室 andon labs 最近开展了一项引人关注的研究，旨在测试配备顶尖大模型的扫地机器人在执行基础家庭任务时的实际表现。实验中，研究人员要求这些机器人完成一系列复杂指令，例如“将黄油递给人”，这一任务包含多个步骤：跨房间移动、识别物品包装、追踪并定位移动中的人员、完成物品交付，并最终返回充电座。

然而实验结果令人意外——这些搭载先进AI系统的机器人在任务完成上的成功率远逊于人类。数据显示，Gemini 2.5 Pro 的成功率为40%，Claude Opus 4.1 为37%，而 GPT-5 的表现最差，仅达到30%的成功率。这些数据凸显出，尽管当前的大模型在语言理解和文本生成方面表现出色，但在空间感知、环境交互以及长时间跨度的任务规划上仍存在显著短板。

大模型 AI 扫地机器人 “翻车”：成功率仅 40%

研究团队强调，问题不仅在于性能不足，更涉及潜在的安全风险。部分机器人在执行过程中被发现可能无意中扫描并上传敏感文件，或因无法准确识别楼梯等危险区域而导致跌落事故。此类行为暴露了将大型语言模型（LLM）集成到实体机器人系统中所面临的安全隐患与控制挑战。

魔搭MCP广场

魔搭MCP广场

聚合优质MCP资源，拓展模型智能边界

魔搭MCP广场

96

魔搭MCP广场

完整论文详见：https://www.php.cn/link/5e13d1e382d895a5a58b40173eb7abfd

以上就是大模型 AI 扫地机器人 “翻车”：成功率仅 40%的详细内容，更多请关注php中文网其它相关文章！

相关标签：

ai pdf gpt gpt-5 claude 大模型 gemini https gpt

大家都在看：

DAU 超 1100 万，Soul App 成为中国 AI 社交第一股模力方舟 Gitee AI，差点我就骂娘了！ Kagi 发布 Orion 浏览器 1.0 正式版：基于 WebKit 引擎、不集成 AI 功能社交平台 Soul App 向港交所递交上市申请，腾讯持股 49.9% 前英特尔执行长看Google自研晶片认竞争对所有人都是好事

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：OpenAgents 亮相 GOTC 2025，与千位同好共绘 AI 智能体开源新蓝图下一篇：用数据照亮成长之路：PandaCoder Git 统计工具窗口

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

使用 Flexbox 优化导航栏布局与间距

2025-11-28 12:35:46
高效利用JavaScript map 方法进行条件渲染：提取数组中指定索引的元素

2025-11-28 12:37:02
Django中利用AJAX实现点击链接动态加载页面内容

2025-11-28 12:41:02
Tkinter斐波那契回撤工具：实现流畅的拖动与缩放功能

2025-11-28 12:41:54
Flask视图函数返回204“无内容”状态码的优雅实践

2025-11-28 12:47:02
JavaScript动态加载内容后事件监听失效的解决方案

2025-11-28 12:49:03
动态导航与用户认证：基于PHP会话实现登录状态感知按钮

2025-11-28 12:54:08
PHP utf8_encode 字符编码陷阱与正确处理 Unicode 字符指南

2025-11-28 12:56:12
Pandas中如何将分组值设置为DataFrame索引并实现层级展示

2025-11-28 13:02:02
什么是Tensor (TNSR)币？TNSR运作方式、代币经济学及价格预测

2025-11-28 13:04:02

最新问题

谷歌在欧盟反垄断调查开始仅一周后撤回对微软的投诉 11月29日消息，据路透社昨日报道，谷歌已撤销其此前向欧盟提交的针对微软云服务商业行为的反垄断指控。此举发生在欧盟监管机构宣布对云计算行业启动调查仅仅一周之后，该调查将重点审视微软是否应被纳入更为严格的监管范畴。谷歌去年曾向欧盟委员会提出申诉，指责微软采用特定商业手段，限制客户迁移出其Azure云平台，从而扭曲市场竞争格局。市场数据显示，目前全球云服务市场中，亚马逊以30%的份额居首，微软占20%，谷歌则拥有13%的市场份额。谷歌云欧洲区政府事务与公共政策主管乔治亚・阿贝尔蒂诺（GiorgiaA

2025-11-29 18:31:26

236

微软提醒 IT 管理员：别再继续运行官方已停止支持的旧版.NET 11月29日消息，据外媒Neowin今日报道，微软正持续推进对Windows陈旧组件的淘汰工作。其中，WindowsInternetNameService（WINS）就是一个典型代表——这项早已被DNS取代的名称解析服务，将在WindowsServer2025中最后一次出现。近期，微软也向IT管理员发出提醒：应尽快停止在系统环境中继续使用已终止支持的.NET版本。官方指出，传统的.NETFramework曾是Windows系统内置的核心运行环境，但现代的.

2025-11-29 17:08:02

294

逍遥散人取消出席逆水寒赛事，官方将公布新嘉宾人选 11月28日消息，网易逆水寒官方今日宣布，【逍遥散人】因个人行程原因，将无法参与本次《逆水寒侠棋争霸赛・巅峰对决》。逆水寒官方发布该消息后，相关话题迅速冲上微博热搜第4位。此次棋类赛事规模空前，其自走棋模式借由比赛热度以意想不到的方式实现破圈，引发大量关注与热议。对于嘉宾的临时调整，大部分玩家对官方的应对措施表示理解与认可，认为这有助于维护赛事的整体质量。官方透露，后续将正式公布新的嘉宾名单。据逆水寒官方介绍，专为逆水侠棋玩家打造的全民赛事【侠棋争霸赛】已于11月10日正式启动。作为一项

2025-11-29 16:51:14

947

相同审查制度下国际最快水平：我国发明专利平均审查周期压减至 15 个月感谢网友Roronoa_、若怡的线索投递！11月29日消息，国家知识产权局昨天（28日）召开了新闻发布会，国家知识产权局新闻发言人、办公室主任衡付广介绍，我国持续推进知识产权全链条保护，发明专利平均审查周期已缩短至15个月，商标注册平均审查周期稳定在4个月，均处于相同审查制度下国际最快水平。此外，我国已布局建成129家国家级知识产权保护中心和快速维权中心，知识产权保护社会满意度从2020年的80.05分提升至2024年的82.36分。此前数据显示，2024年全年共

2025-11-29 16:51:02

878

重力感应 1 秒出餐，美团外卖出餐格启动试点 11月28日消息，美团外卖今日正式发布全新智能出餐解决方案——出餐格。以往常见的出餐方式主要依赖“屏幕手动点击出餐”或“使用出餐宝扫码出餐”。而此次推出的出餐格则引入了重力感应自动识别技术，实现无需操作的智能出餐，助力商家真正解放双手。该产品彻底摆脱传统人工点击或扫码上报的繁琐步骤，真正做到“放置餐品即完成出餐”，显著提升出餐效率。骑手到店后，只需查看设备上的显示屏所呈现的订单信息，便可迅速定位对应餐品，无需再翻找纸质小票，有效降低取错餐的风险。同时，系统会结合骑手的到店时间进行智能判断。一旦发

2025-11-29 16:46:17

642

我国首次：顺丰成功完成飞机运输三元锂电池，采用 AI 安全防护装备 11月28日消息，据顺丰集团透露，由顺丰携手重庆交通大学、中国民航科学技术研究院等机构联合主办的动力锂电池航空物流供应链研讨会暨国家重点研发计划“动力锂电池运输安全防护技术与装备”航空运输应用示范启动会，近日在湖北鄂州顺利举行。随着启动指令下达，一架装载新型安全防护设备的动力锂电池货运航班从鄂州花湖机场成功起飞，目的地为深圳宝安机场。顺丰集团表示，此次飞行实现了我国首次单包装多组三元动力锂电池的连续性、商业化航空运输突破，同时也是AI预警与主动防控技术在顺丰航空货运领域的首次实战应用，标志着我国

2025-11-29 15:36:07

365

全球首款：SK 海力士展示 12 层堆叠 HBM4 内存 11月28日消息，在美国圣路易斯举行的超级计算大会2025（SC25）上，SK海力士于2025年11月16日至21日集中亮相，全面展示了其面向人工智能（AI）与高性能计算（HPC）时代的一系列前沿存储解决方案。此次展会中，SK海力士聚焦HBM、DRAM和企业级固态硬盘（eSSD）三大核心产品线，并特别设置了针对AI与HPC应用场景的现场演示区域，直观呈现其技术优势。在展台中心位置，SK海力士重点推出了包括全球首款12层堆叠HBM4在内的最新高带宽内存产品。

2025-11-29 15:25:25

263

被国家邮政局约谈后，中通快递签署全网劳动规则协议 11月28日消息，据工人日报、劳动报综合报道，2025年中通快递集团（全网）劳动规则协商恳谈会于11月26日在位于上海的总部召开。来自安徽、浙江、江苏、河北、上海、四川、宁夏等7个省区的一线中通员工代表出席会议，围绕自身工作实际，就收入结算透明度、用工合规性、职业健康保护以及民主参与机制等议题与企业管理方展开面对面协商，并正式签署全网劳动规则协议。在协商过程中，薪酬体系及发放方式成为员工代表关注的核心问题。有快递员现场提出：“如何进一步优化收入保障机制，确保派费稳定且按时到账？”对此，

2025-11-29 15:17:26

786

安世中国：安世荷兰方面诸多不当行径，严重扰乱供应链稳定且破坏信任 11月28日讯，安世中国于晚间发布《关于当前供应链形势及相关诉求的郑重声明》，就NexperiaB.V.（简称“安世荷兰”）在其官网刊发所谓“致安世中国领导层的公开信”一事作出正式回应。安世中国指出，该公开信严重背离事实，蓄意误导公众，对行业生态造成不良影响，同时也暴露出安世荷兰部分管理层至今仍回避核心矛盾，一味推诿责任、转移视线。作为扎根中国半导体产业、长期致力于维护全球供应链安全与稳定的关键力量，安世中国现就当前局势及重大关切，发表如下声明：一、安世中国始终处于正常运营状态，不存在所谓“失联

2025-11-29 15:06:18

414

英伟达 CEO 黄仁勋谈罗唯仁事件：台积电不是只有一个人 11月28日消息，据台湾地区《经济日报》报道，英伟达CEO黄仁勋今日在受访时首度被问及台积电前资深副总罗唯仁相关事件。他低调回应称，自己“不清楚具体细节”，但随即话锋一转，公开力挺台积电，强调该公司并非依赖单一人物，而是建立在坚实的企业文化与庞大的技术体系之上。黄仁勋表示，对于罗唯仁一事，“我了解得不多”，但他明确指出：“台积电不是只有一个人（TSMCisnotjustoneperson）”。他解释，台积电的技术极为复杂，不仅涵盖芯片、晶体管与制程工艺，还包括运营管理、商业策略等多重层

2025-11-29 14:31:01

938

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部