对人胜率84%，DeepMind AI首次在西洋陆军棋中达到人类专家水平

PHPz

发布时间：2023-04-12 13:10:08

1493人浏览过

来源于51CTO.COM

转载

对人胜率84%，DeepMind AI首次在西洋陆军棋中达到人类专家水平

DeepMind在游戏AI领域又有了新成绩，这次是西洋陆军棋。

在AI游戏领域，人工智能的进展往往通过棋盘游戏进行展现。棋盘游戏可以度量和评估人类和机器如何在受控环境中发展和执行策略。数十年来，提前规划的能力一直是AI在国际象棋、跳棋、将棋和围棋等完美信息游戏以及扑克、苏格兰场等不完美信息游戏中取得成功的关键。

西洋陆军棋（Stratego）已经成为AI研究的下一批前沿领域之一。该游戏的阶段和机制的可视化图如下1a所示。该游戏面临以下两个挑战。

其一，Stratego 的博弈树具有 10535个可能状态，这要多于已经得到充分研究的不完美信息游戏无限制德州扑克（10164个可能状态）和围棋游戏（10360个可能状态）。

其二，在Stratego的给定环境中行动需要在游戏开始时为每个玩家推理超过1066个可能的部署，而扑克只有103对可能的牌。围棋和国际象棋等完美信息游戏没有私有部署阶段，因此避免了Stratego中这一挑战带来的复杂性。

目前，我们不可能使用基于模型的SOTA完美信息规划技术，也无法使用将游戏分解为独立情况的不完美信息搜索技术。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

由于这些原因，Stratego为研究大规模策略交互提供了一个挑战性基准。与大多数棋盘游戏相似，Stratego测试我们循序地做出相对较慢、深思熟虑和合乎逻辑决策的能力。又由于该游戏的结构非常复杂，AI研究社区几乎没能取得什么进展，人工智能体只能达到人类业余玩家的水平。因此，在从零开始且没有人类演示数据的情况下，开发智能体学习端到端策略以在Stratego的不完美信息下做出最佳决策，仍然是AI研究面临的重大挑战之一。

近日，在 DeepMind 的一篇最新论文中，研究者提出了 DeepNash，它是一种无需人类演示、以无模型（model-free）方式学习Stratego自我博弈的智能体。DeepNask击败了以往的SOTA AI智能体，并在该游戏最复杂的变体Stratego Classic中实现了专家级人类玩家的水平。

论文地址：https://arxiv.org/pdf/2206.15378.pdf。

DeepNash的核心是一种条理化、无模型的强化学习算法，研究者称为Regularized Nash Dynamics（R-NaD）。DeepNash将R-NaD与一个深度神经网络架构相结合，并收敛到纳什均衡，这意味着它学会了在激励竞争下比赛，并对试图利用它的竞争对手具有稳健性。

下图 1 b 为DeepNash方法的高级概览。研究者在Gravon游戏平台上将它的表现与各种SOTA Stratego机器人和人类玩家进行了系统比较。结果显示，DeepNash以超过 97% 的胜率击败了当前所有 SOTA机器人，并与人类玩家进行了激烈竞争，在2022年度和各个时期的排行榜上都位列前3名，胜率达到了84%。

研究者表示，在学习算法中不部署任何搜索方法的情况下，AI算法第一次能够在复杂棋盘游戏中达到人类专家水平，也是AI首次在Stratego游戏中实现人类专家水平。

方法概述

DeepNash 采用端到端的学习策略运行Stratego，并在游戏开始时将棋子战术性地放在棋盘上（见图 1a），在game-play阶段，研究者使用集成深度 RL 和博弈论方法。智能体旨在通过自我博弈来学习一个近似的纳什均衡。

该研究采用无需搜索的正交路径，并提出了一种新方法，将自我博弈中的无模型（model-free）强化学习与博弈论算法思想——正则化纳什动力学 (RNaD) 相结合。

无模型部分意味着该研究没有建立一个明确的对手模型来跟踪对手可能出现的状态，博弈论部分基于这样的思路，即在强化学习方法的基础上，他们引导智能体学习行为朝着纳什均衡的方向发展。这种组合方法的主要优点是不需要从公共状态中显式地模拟私有状态。另外一个复杂的挑战是，将这种无模型的强化学习方法与R-NaD相结合，使西洋陆军棋中的自我博弈与人类专家玩家相竞争，这是迄今为止尚未实现的。这种组合的DeepNash方法如上图1b所示。

Khroma

AI调色盘生成工具

下载

正则化纳什动力学算法

DeepNash 中使用的 R-NaD 学习算法是基于正则化思想以达到收敛的目的，R-NaD 依赖于三个关键步骤，如下图 2b所示：

DeepNash 由三个组件组成：(1) 核心训练组件 R-NaD；(2) 微调学习策略以减少模型采取极不可能动作的残差概率，以及 (3) 测试时进行后处理以过滤掉低概率动作并纠错。

DeepNash 的网络由以下组件构成：一个带有残差块和跳跃连接的 U-Net 主干，以及四个头。第一个 DeepNash 头将价值函数输出为标量，而其余三个头通过在部署和游戏期间输出其动作的概率分布来编码智能体策略。这个观测张量的结构如图3所示：

实验结果

DeepNash 还与几个现有的Stratego计算机程序进行了评估：Probe 在 Computer Stratego 世界锦标赛中，其中有三年夺冠（2007 年、2008 年、2010 年）；Master of the Flag在 2009 年赢得了该冠军；Demon of Ignorance 是 Stratego 的开源实现；Asmodeus、Celsius、Celsius1.1、PeternLewis 和 Vixen 是 2012 年在澳大利亚大学编程竞赛中提交的程序，此次比赛PeternLewis 获胜。

如表1所示，DeepNash在对抗所有这些智能体时赢得了绝大多数的游戏，尽管DeepNash没有接受过对抗训练，只是使用自我博弈。

下图 4a举例说明DeepNash中的一些经常重复的部署方式；图 4b 显示了 DeepNash（蓝方）在棋子中落后（输掉了 7 和 8）但在信息方面领先的情况，因为红方的对手有 10、9、8 和两个7。图 4c 中的第二个示例显示了 DeepNash 有机会用其 9 捕获对手的 6，但这一举措并未被考虑，可能是因为DeepNash认为保护 9 的身份被认为比物质收益更重要。

在下图5a中，研究者展示了积极的唬骗（positive bluffing），玩家假装棋子的价值高于实际价值。DeepNash用未知棋子Scout (2) 追逐对手的8，并假装它是10。对手认为这个棋子可能是10，将其引导至Spy旁边（可以捕获10）。但是，为了夺取这枚棋子，对手的Spy输给了DeepNash的Scout。

第二类唬骗为消极唬骗（negative bluffing），如下图5b所示。它与积极唬骗相反，玩家假装棋子的价值低于实际价值。

下图5c展示了一种更复杂的bluff，其中DeepNash将其未公开的Scout (2)接近对手的10，这可以被解释为Spy。这种策略实际上允许蓝方在几步之后用7捕获红方的5，因此获得material，阻止5捕获Scout (2)，并揭示它实际上并不是Spy。

人工智能怎么构建智能客服机器人_人工智能基于Rasa搭建对话系统

怎么用ai生成图片_ai人工智能生成图片的操作方法【详解】

人工智能如何评估模型准确率_人工智能计算PrecisionRecall指标教程

人工智能怎么加载预训练BERT_人工智能调用BERT做文本分类教程

人工智能怎么实现GAN图像生成_人工智能使用DCGAN生成新图片步骤

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

276

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

230

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

619

2026.03.04