DeepSeek GRPO或致模型崩溃，Qwen3新范式GSPO能否成新标准？

星夢妙者

发布时间：2025-09-19 14:14:01

393人浏览过

来源于php中文网

原创

大型语言模型的训练一般分为“预训练”和“后训练”两个阶段。“预训练”阶段，开发者借助大规模文本数据集对模型进行训练，使其学会预测句子中的下一个词；“后训练”阶段，则致力于让模型更好地理解和执行人类指令，此阶段似乎是强化学习的一种特殊形式。

用于大语言模型（LLMs）微调的强化学习（RL）算法正不断演进。起初，OpenAI开创了基于人类反馈的强化学习（RLHF）技术来改进ChatGPT。该技术让人类标注员对模型生成的多种响应打分，选出最优答案作为训练参考。不过，这一过程耗时、昂贵且依赖人力，通常需要一支专业的数据标注团队。

DeepSeek用RL技术自动化了这一环节，算法让模型在探索中通过获得“奖励信号”自主学习正确行为，降低了成本，提高了效率。OpenAI在ChatGPT训练中采用了近端策略优化（Proximal Policy Optimization, PPO），而DeepSeek团队提出了组相对策略优化（Group Relative Policy Optimization, GRPO）算法，这也是DeepSeek - R1中的核心技术。

GRPO的核心创新在于消除了对计算密集型价值模型的依赖。它采用群组生成和相对评估机制，对于给定输入提示，系统生成G个不同响应构成群组，奖励模型对群组内所有响应评分，再计算群组内分数的均值和标准差，为每个响应计算相对优势值。优于群组平均水平的响应获正向优势，反之获负向优势。这种设计降低了强化学习训练的内存占用和计算复杂度，让大规模模型训练更高效可行。

Qwen3首次亮相时，其旗舰模型性能就与DeepSeek - R1、o3 - mini、Gemini 2.5 Pro等顶级模型相当。Qwen3系列模型覆盖MoE模型和密集模型，还有众多细分版本，且仍在不断迭代更新，如Qwen3 - 235B - A22B - Instruct - 2507 - FP8在知识数学、编程、人类偏好对齐、Agent能力等测评中表现出色，超过了Kimi - K2、DeepSeek - V3等顶级开源模型以及Claude - Opus4 - Non - thinking等领先闭源模型。

最近，Qwen团队发布论文，揭示了Qwen3模型成功的核心技术细节——组序列策略优化（Group Sequence Policy Optimization, GSPO）算法。有分析指出，使用GRPO训练大语言模型存在严重稳定性问题，会导致模型崩溃。GRPO将重要性采样权重应用于每个token，而非整个生成序列。

在强化学习中，重要性采样用于校正行为策略与目标策略的差异，当两者不一致时，为已有数据样本赋予权重，使样本更能代表目标策略，提升训练稳定性和有效性。但GRPO在每个token生成步骤单独计算重要性权重，在训练目标中应用此类权重时，因每个token比值独立计算，会导致高方差累积，破坏梯度稳定性，引发模型崩溃。同时，这种做法会将高方差噪声引入训练梯度，在长序列上累积，存在“裁剪机制”时，不稳定性问题会加剧。

在专家混合模型（Mixture - of - Experts, MoE）中，GRPO的问题更严重，因为token级别的路由变化会加剧不稳定性，基于GRPO的训练流程通常需依赖“路由重放”等额外策略。Qwen团队通过实验验证了理论分析。在所有实验场景中，新提出的GSPO算法均比GRPO有更高的训练效率。

ModelGate

一站式AI模型管理与调用工具

下载

在CodeForces任务中，GRPO最终得分收敛于2000分以下，而GSPO随训练计算量增加持续提升成绩，展现出更强的“可扩展性”。那么，GSPO是如何解决这些问题的呢？GSPO将重要性采样从token级转移至序列级，其重要性比值基于整个序列的似然度计算。这种采样权重设计缓解了逐token方差的累积问题，提升了训练稳定性。

指数中的因子用于“长度归一化”，若不进行长度归一化，几个token的似然变化就可能导致序列级重要性比值剧烈波动，不同长度生成响应在目标函数中需不同裁剪范围，会增加训练不稳定性。针对专家混合模型（MoE）的专项实验凸显了GSPO的优势。

由于MoE模型具有稀疏激活特性，使用GRPO会加剧训练不稳定性。在使用GRPO训练48层的Qwen3 - 30B - A3B - Base模型时，每次强化学习梯度更新后，相同rollout样本新策略激活的专家约有10%与旧策略不同，这是低效的训练方式。而GSPO无需使用“路由重放”就能稳定收敛，消除了不必要的训练复杂性，保留了MoE架构的全部潜力。

总结来看，GSPO有诸多优势。

它将重要性采样从token级别提升到序列级别，并进行序列长度归一化处理；降低了方差，消除了对“路由技巧”等辅助策略的依赖。

业界普遍认为，在大语言模型后训练阶段引入强化学习对提升推理能力至关重要。大量实验结果证实，GRPO的“逐token重要性采样”方法存在不稳定性和低效性问题。因此，GSPO提出的“序列级重要性采样”很可能成为未来后训练强化学习的新标准。

DeepSeek服务器崩了怎么办_DeepSeek替代方案推荐【备选】

千问ai怎么识别手写字_通义千问OCR文字识别实测【好用】

Clawdbot 3 Sonnet API接入成本分析与性能评测

2026年最值得用的AI效率工具Top 10，千问豆包均上榜

Qwen3.5— 阿里通义千问开源的新一代原生多模态大模型

AI工具

AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型，支持联网搜索。

下载

相关专题

数据分析的方法

数据分析的方法有：对比分析法，分组分析法，预测分析法，漏斗分析法，AB测试分析法，象限分析法，公式拆解法，可行域分析法，二八分析法，假设性分析法。php中文网为大家带来了数据分析的相关知识、以及相关文章等内容。

504

2023.07.04

数据分析方法有哪几种

数据分析方法有：1、描述性统计分析；2、探索性数据分析；3、假设检验；4、回归分析；5、聚类分析。本专题为大家提供数据分析方法的相关的文章、下载、课程内容，供大家免费下载体验。

292

2023.08.07

网站建设功能有哪些

网站建设功能包括信息发布、内容管理、用户管理、搜索引擎优化、网站安全、数据分析、网站推广、响应式设计、社交媒体整合和电子商务等功能。这些功能可以帮助网站管理员创建一个具有吸引力、可用性和商业价值的网站，实现网站的目标。

759

2023.10.16

数据分析网站推荐

数据分析网站推荐：1、商业数据分析论坛；2、人大经济论坛-计量经济学与统计区；3、中国统计论坛；4、数据挖掘学习交流论坛；5、数据分析论坛；6、网站数据分析；7、数据分析；8、数据挖掘研究院；9、S-PLUS、R统计论坛。想了解更多数据分析的相关内容，可以阅读本专题下面的文章。

534

2024.03.13

Python 数据分析处理

本专题聚焦 Python 在数据分析领域的应用，系统讲解 Pandas、NumPy 的数据清洗、处理、分析与统计方法，并结合数据可视化、销售分析、科研数据处理等实战案例，帮助学员掌握使用 Python 高效进行数据分析与决策支持的核心技能。

2025.09.08

Python 数据分析与可视化

本专题聚焦 Python 在数据分析与可视化领域的核心应用，系统讲解数据清洗、数据统计、Pandas 数据操作、NumPy 数组处理、Matplotlib 与 Seaborn 可视化技巧等内容。通过实战案例（如销售数据分析、用户行为可视化、趋势图与热力图绘制），帮助学习者掌握从原始数据到可视化报告的完整分析能力。

2025.10.14

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

136

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板