不靠英伟达，中科院在国产 GPU 上跑通 76B 类脑大模型

星夢妙者

发布时间：2025-09-26 13:32:01

1036人浏览过

来源于php中文网

原创

过去几年，大模型几乎都依赖 transformer，它支撑了 gpt、claude、gemini 等一众前沿模型的进步，但也一直被诟病：一旦文本变长，计算量和内存消耗就会成倍膨胀，百万级 token 几乎不可承受。与此同时，大模型训练几乎完全依赖 nvidia 的 gpu 体系。从算力到软件栈，整个行业被牢牢绑定在 cuda 上，硬件自主化成了迟迟迈不过去的门槛。

正因为如此，业界一直在寻找“下一条路”。有人尝试混合架构，有人研究稀疏专家，也有人试水类脑计算。但这些探索往往停留在小规模实验，很少能真正跑到大模型层面。

直到最近，中科院团队抛出了一篇新论文，提出了一个全新系列的类脑大模型 SpikingBrain。他们通过引入 spiking 神经元、线性注意力和稀疏专家机制，不仅在超长文本处理上实现了百倍加速，还首次在国产 GPU 平台 MetaX 上稳定训练出 76B 规模的模型。

同时，SpikingBrain 的问世也证明了大模型并不是只能依赖 Transformer + NVIDIA 的组合，另一条通往未来的道路正在被打开。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

不靠英伟达，中科院在国产 GPU 上跑通 76B 类脑大模型

论文链接：https://www.arxiv.org/pdf/2509.05276

大模型的新答案

在实验中，研究团队在超长上下文任务上取得了突破性成果。以 SpikingBrain-7B 为例，当输入长度达到 400 万 token 时，其 Time-to-First-Token（首个 token 生成延迟）比传统 Transformer 快了 100 倍。换句话说，原本需要长时间等待的超长文本任务，如今几乎可以做到即时响应。

不靠英伟达，中科院在国产 GPU 上跑通 76B 类脑大模型

由于脉冲神经元只在必要时才会“放电”，模型在推理过程中保持了 69.15% 的稀疏激活率——也就是说，大多数神经元在大部分时间处于静默状态，不参与计算。相比始终全量激活的 lf，这种机制显著降低了算力消耗和能耗。

不靠英伟达，中科院在国产 GPU 上跑通 76B 类脑大模型

在训练规模上，研究团队共使用 1500 亿 token，先后训练了两个核心模型：SpikingBrain-7B 和 SpikingBrain-76B。尽管所用数据量远少于许多主流开源大模型，这两款模型在多项基准测试中的表现依然能够接近，甚至在部分任务上追平传统 Transformer。PHP中文网(公众号：PHP中文网)

不靠英伟达，中科院在国产 GPU 上跑通 76B 类脑大模型

更关键的是，这些训练完全在国产 MetaX C550 GPU 集群上完成。实验结果显示，7B 模型在该平台上达到了 23.4% 的 FLOPs 利用率，充分证明了它在非 NVIDIA 硬件环境下依旧能够保持稳定高效的运行。

不靠英伟达，中科院在国产 GPU 上跑通 76B 类脑大模型

从不可微到可扩展

为了实现这些结果，研究团队在模型结构、训练方法和系统工程三个层面都做了实验探索。

PPT.AI

AI PPT制作工具

下载

在架构实验中，团队对传统 Transformer 做了关键改造。首先，他们将全连接注意力替换为线性注意力和混合注意力，从根本上缓解了计算复杂度随序列长度平方级增长的瓶颈。

与此同时，他们引入了 spiking 神经元，让模型像大脑一样“按需放电”：只有在需要时才被激活，大多数时间保持静默。这种类脑机制带来了天然的稀疏性，大幅降低了无效计算，是 SpikingBrain 在能效上实现提升的关键所在。

不靠英伟达，中科院在国产 GPU 上跑通 76B 类脑大模型

而在系统实验中，最棘手的挑战来自硬件环境。团队没有沿用 NVIDIA 的成熟体系，而是选择在国产 MetaX GPU 集群上完成全部训练。

为了让大模型在这一平台稳定运行，他们对底层系统进行了大规模优化：重写关键算子库，改造分布式通信机制，并针对长时间训练中常见的内存溢出与死锁问题设计了专门的解决方案。

凭借这些工程改造，SpikingBrain 不仅在数百张 MetaX GPU 上成功完成了 7B 模型的稳定训练，还顺利扩展到 76B 参数规模，并在此基础上引入 MoE 稀疏专家机制，进一步提升了模型的性能与效率。

到了训练实验环节，为了让新架构真正跑通，团队设计了一个 conversion-based pipeline，把 Transformer 成熟的训练经验迁移到 SpikingBrain。配合事件触发的 spike 编码，模型中的脉冲神经元依然可以通过反向传播学习，避免了“不可微”带来的训练障碍。通过这种迁移式实验设计，他们在保证稳定性的同时，也逐步扩展了模型规模。

不靠英伟达，中科院在国产 GPU 上跑通 76B 类脑大模型

一条被点亮的新路线

总体来看，SpikingBrain 的价值不只是跑通了一个新模型，而是用系统性的尝试回应了当下大模型最核心的几个痛点。它在百万级 token 的长文本上实现了数量级的加速，说明类脑机制在大规模模型里并不是纸上谈兵，而是能带来真实收益的方向。PHP中文网

同时，它第一次在国产 GPU 上完成了 76B 规模训练，让人看到大模型不一定要绑死在 CUDA 上，硬件路线其实有多种可能。再加上稀疏激活机制显著降低了能耗，SpikingBrain 给“大模型能否可持续”这个老问题提供了一个新答案。

当然，SpikingBrain 暂时还不能取代 Transformer，它更像是给行业提供了一个全新的实验样本：证明大模型还有其他路径可走。至于它能否在更复杂任务、更大规模下保持稳定，以及类脑机制能否发展成成熟的工具链，还需要时间和进一步验证。”

但至少现在，我们已经看到，大模型的发展并不是只有一条路，新的路径正在一点点被点亮。

不靠英伟达，中科院在国产 GPU 上跑通 76B 类脑大模型

PHP自制SEO分析工具：打造专属网站优化利器

百度AI助手注册入口新用户免费账号申请入口

tofai官方网站入口 tofai免费版在线用

蚂蚁阿福官方登录平台_蚂蚁阿福网页版入口链接

百度AI对话助手入口智能聊天机器人入口

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

174

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

529

2026.03.04