Tic-Tac-Toe：井字游戏（井字棋）

P粉084495128

发布时间：2025-07-24 11:31:41

420人浏览过

来源于php中文网

原创

本文介绍了井字游戏变种方案，可通过设置xsize、ysize指定棋盘大小，winnum指定连珠数。用两个深度学习模型分别扮演玩家和电脑自动对弈，借qlearning记录每步，依胜负判定方案好坏。代码展示了模型训练等过程，包括迭代、下棋、胜负判定及模型更新等。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

tic-tac-toe：井字游戏（井字棋） - php中文网

Tic-Tac-Toe：井字游戏（井字棋）

是一种在3x3格子上进行的连珠游戏，和五子棋比较类似，由于棋盘一般不画边框，格线排成井字故得名。游戏需要的工具仅为纸和笔，然后由分别代表O和X的两个游戏者轮流在格子里留下标记（一般来说先手者为X）。由最先在任意一条直线上成功连接三个标记的一方获胜。

Tic-Tac-Toe：井字游戏（井字棋） - php中文网

方案介绍

该方案为井字游戏的变种，可以通过设置xsize、ysize来指定棋盘大小，通过设置winnum来指定连珠数，每局结束的判定在VictoryRule.py文件中写明，QLearning.py文件是Q表格，用于记录电脑和玩家的每一步。

ColorMagic

AI调色板生成工具

下载

方案设置了两个深度学习模型扮演玩家和电脑，双方自动下棋，根据最后获胜方来判别方案的好坏

代码实现

In [1]

import numpy as npimport paddlefrom Model import Modelfrom VictoryRule import Rulefrom QLearning import QLearningfrom visualdl import LogWriter
log_writer = LogWriter(logdir="./log")


Max_Epoch = 200           #最大迭代次数xsize = 3                 #多少行ysize = 3                 #多少列winnum = 3                #连珠数，多少个连珠则获胜learning_rate = 1e-3      #学习率decay_rate = 0.6          #每步衰减率player=1                  #玩家是数字，非0，非负computer=2                #电脑的数字，非0，非负remain = []               #地图中剩余可下棋子位置rule = Rule(xsize,ysize,winnum) #规则Qchart = QLearning(xsize * ysize,decay_rate)#Q表格player_model = Model(xsize * ysize,xsize * ysize)
player_model.train()
computer_model = Model(xsize * ysize,xsize * ysize)
computer_model.train()
player_optimizer = paddle.optimizer.SGD(parameters=player_model.parameters(),
                                  learning_rate=learning_rate)
computer_optimizer = paddle.optimizer.SGD(parameters=computer_model.parameters(),
                                  learning_rate=learning_rate)def restart():
    "重启环境"
    Qchart.clear()
    remain.clear()
    rule.map = np.zeros(xsize * ysize,dtype=int)    for i in range(xsize * ysize):
        remain.append(i)def modelupdate(player_loss,computer_loss):
    "模型更新"
    log_writer.add_scalar(tag="player/loss", step=epoch, value=player_loss.numpy())
    log_writer.add_scalar(tag="computer/loss", step=epoch, value=computer_loss.numpy())    # 梯度更新
    player_loss.backward()
    computer_loss.backward()
    player_optimizer.step()
    player_optimizer.clear_grad()
    computer_optimizer.step()
    computer_optimizer.clear_grad()
    paddle.save(player_model.state_dict(),'player_model')
    paddle.save(computer_model.state_dict(),'computer_model')    

for i in range(xsize * ysize):
    remain.append(i)for epoch in range(Max_Epoch):    while True:
        player_predict = player_model(paddle.to_tensor(rule.map, dtype='float32',stop_gradient=False))#玩家方预测
        for pred in np.argsort(-player_predict.numpy()):            if pred in remain:
                remain.remove(pred)                break
        rule.map[pred] = player
        Qchart.update(pred,'player')        print('player down at {}'.format(pred))
        overcode=rule.checkover(pred,player)        if overcode == player:            "获胜方为玩家"
            player_loss = paddle.nn.functional.mse_loss(player_predict, paddle.to_tensor(Qchart.playerstep, dtype='float32', stop_gradient=False))
            computer_loss = paddle.nn.functional.mse_loss(computer_predict, paddle.to_tensor(-1 * Qchart.computerstep, dtype='float32', stop_gradient=False))#损失计算中，失败方的label为每步的负数
            print("Player Victory!")            print(rule.map.reshape(xsize,ysize))            #print("epoch:{}\tplayer loss:{}\tcomputer loss:{}".format(epoch,player_loss.numpy()[0],computer_loss.numpy()[0]))
            modelupdate(player_loss,computer_loss)
            restart()            break
        elif overcode == 0:
            player_loss = paddle.nn.functional.mse_loss(player_predict, paddle.to_tensor(Qchart.playerstep, dtype='float32', stop_gradient=False))
            computer_loss = paddle.nn.functional.mse_loss(computer_predict, paddle.to_tensor(Qchart.computerstep, dtype='float32', stop_gradient=False))            print("Draw!")            print(rule.map.reshape(xsize,ysize))            #print("epoch:{}\tplayer loss:{}\tcomputer loss:{}".format(epoch,player_loss.numpy()[0],computer_loss.numpy()[0]))
            modelupdate(player_loss,computer_loss)
            restart()            break
        computer_predict = computer_model(paddle.to_tensor(rule.map, dtype='float32',stop_gradient=False))#电脑方预测
        for pred in np.argsort(-computer_predict.numpy()):            if pred in remain:
                remain.remove(pred)                break
        rule.map[pred] = computer
        Qchart.update(pred,'computer')        print('computer down at {}'.format(pred))
        overcode=rule.checkover(pred, computer)        if overcode == computer:
            player_loss = paddle.nn.functional.mse_loss(player_predict, paddle.to_tensor(-1 * Qchart.playerstep, dtype='float32', stop_gradient=False))
            computer_loss = paddle.nn.functional.mse_loss(computer_predict, paddle.to_tensor(Qchart.computerstep, dtype='float32', stop_gradient=False))            print("Computer Victory!")            print(rule.map.reshape(xsize,ysize))            #print("epoch:{}\tplayer loss:{}\tcomputer loss:{}".format(epoch,player_loss.numpy()[0],computer_loss.numpy()[0]))
            modelupdate(player_loss,computer_loss)
            restart()            break
        elif overcode == 0:
            player_loss = paddle.nn.functional.mse_loss(player_predict, paddle.to_tensor(Qchart.playerstep, dtype='float32', stop_gradient=False))
            computer_loss = paddle.nn.functional.mse_loss(computer_predict, paddle.to_tensor(Qchart.computerstep, dtype='float32', stop_gradient=False))            print("Draw!")            print(rule.map.reshape(xsize,ysize))            #print("epoch:{}\tplayer loss:{}\tcomputer loss:{}".format(epoch,player_loss.numpy()[0],computer_loss.numpy()[0]))
            modelupdate(player_loss,computer_loss)
            restart()            break

输出格式

player down at 7computer down at 3player down at 1computer down at 8player down at 6computer down at 2player down at 0computer down at 5Computer Victory!
[[1 1 2]
 [2 0 2]
 [1 1 2]]

workbuddy电脑版怎么安装_workbuddy桌面安装方法【方法】

QClaw能不能跨网段控制电脑_QClaw异地组网与远程访问方案【解答】

如何零基础学会用AI制作专属手机铃声利用Suno AI创作个性化旋律

QClaw怎么用微信远程控制电脑_QClaw远程操控设置与指令发送【方法】

OpenClaw小龙虾苹果电脑怎么卸载？OpenClaw卸载完整教程

在线游戏

海量精品小游戏合集，无需安装即点即玩，休闲益智、动作闯关应有尽有，秒开即玩，轻松解压，快乐停不下来

下载

相关专题

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

218

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

420

2026.03.04

AI安装教程大全

2026最全AI工具安装教程专题：包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好，附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新，收藏这一篇就够了，让AI安装不再报错！

168

2026.03.04

Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践，系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例，帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

222

2026.03.03

C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开，深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例，帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

2026.03.03

热门下载

网站特效

网站源码

网站素材

前端模板