在人工智慧(ai)领域,用于评估模型能力的基准测试(benchmarks)持续推陈出新,但眼下最引人瞩目的竞技舞台,竟是一款已发行近三十年的任天堂经典rpg——《宝可梦》(pokémon)。据《华尔街日报》披露,google、openai 与 anthropic 正全力投入这场别开生面的「ai 宝可梦大师」竞赛,借由该游戏高度动态的虚拟世界,检验模型在真实感任务中的逻辑推演、多目标权衡及长程规划等核心能力。

这场风潮起源于去年,由 Anthropic 应用 AI 负责人 David Hershey 主导的「Claude 玩宝可梦」Twitch 直播项目。Hershey 强调,《宝可梦》所呈现的开放性与系统深度,远超早期 AI 测试常采用的《乓》(Pong,一款二维电子乒乓球游戏)等简化环境。玩家需在训练现有队伍、搜寻稀有宝可梦、规划路线穿越城镇与洞窟、以及挑战道馆馆主之间反复权衡——这对 AI 的不确定性应对、资源分配与长期目标拆解能力,提出了远超单步决策的严苛要求。

如今,这项原本自发性的实验性测试,已跃升为科技巨头正式布局的技术验证场域。OpenAI 与 Google 的研究团队甚至会依据直播中模型的实际操作表现,针对性地调整推理路径与提示策略。公开资讯显示,GPT 系列与 Gemini 模型均已顺利通关《宝可梦 红/蓝》,并陆续推进至《黄版》《金/银》等后续作品;而 Anthropic 推出的最新模型 Claude 4.5,目前仍在关键道馆战与野外捕捉环节持续优化中。
延伸阅读:
手把也能量心跳?Anbernic内建心率计与2.5吋萤幕 玩游戏同步监测健康
10秒揪出办公室异常!恐怖游戏《P0: Byte-Sized Brilliance》挑战眼力极限
学界将此类高阶游戏代理任务,视为通向「通用人工智慧」(AGI)的关键试炼场——即具备类人水平的理解力、自主学习力、跨情境推理力与泛化执行能力的下一代AI系统。不同于标准问答式评测仅聚焦短程响应,完整驾驭《宝可梦》需达成数千回合连贯、自洽且具适应性的策略链。David Hershey 指出,从该过程中提取的「软体框架控制」(Harness)行为日志,正成为提升模型在现实复杂任务中计算效能与决策鲁棒性的重要数据来源。
相较过往以《踩地雷》等规则极简游戏为主的初级验证方式,在融合角色成长、属性克制、迷宫探索、剧情分支与随机事件的RPG环境中展现稳定策略输出能力,如今已成为判断AI是否真正迈向「拟人化战略思维」的核心标尺。











