Qwen GSPO:序列级强化学习稳定大规模语言模型训练

GSPO 引入序列级优化用于 RL 训练,稳定 MoE 模型并消除基础设施沉重的 Routing Replay 变通方案。

TheRouter Newsroom来源 Qwen
序列级强化学习优化曲线的抽象可视化,展示稳定的训练动态

运行自建强化学习人类反馈(RLHF)的 AI 工程团队面临一个根本的稳定性挑战:GRPO 等算法中的逐词优化目标引入方差,可能导致训练崩溃,尤其是对混合专家(MoE)模型而言。Qwen 最新引入的组序列策略优化(GSPO)通过将优化从词级转移到序列级来解决这个问题,实现了更稳定、更基础设施友好的大规模 RL 训练。

发生了什么

Qwen 研究人员发布了 GSPO(Group Sequence Policy Optimization),一种用于训练语言模型的新 RL 算法。与 GRPO 等逐词优化的先前方法不同,GSPO 基于完整序列似然定义重要性比率,并执行序列级裁剪、奖励和优化。

该算法消除了对 Routing Replay 的需求,这是 GRPO 在 MoE 模型上正确收敛所需的变通方案,由于专家激活波动性所致。Routing Replay 缓存旧策略中的激活专家并在优化过程中回放这些路由模式,增加了额外的内存和通信开销,限制了实际的 MoE 模型容量。

GSPO 已成功应用于最新 Qwen3 模型(Instruct、Coder、Thinking)的大规模 RL 训练,通过增加训练算力实现了持续的性能提升。

为什么对 AI 工程团队重要

对于构建和微调自己模型的团队,GSPO 代表了影响三个关键运营问题的基础设施级改进:

训练稳定性:GSPO 维持稳定的训练过程,解决了困扰 MoE 模型 RL 训练的稳定性挑战。这意味着团队可以扩展其 RLHF 工作,而不会遇到浪费计算和时间的模型崩溃。

基础设施开销:通过消除对 Routing Replay 的依赖,GSPO 无需缓存和回放路由模式。这降低了内存占用、通信成本以及为部署 RLHF 流水线的 MoE 模型带来的实现复杂性。

精度容差:GSPO 的序列级优化在根本比词级方法更能容忍精度差异。这提出了一个有趣的可能性:直接使用推理引擎返回的似然进行优化,而不是用训练引擎重新计算。对于训练-推理分离框架或部分回滚场景,这可以显著简化基础设施。

路由/运营商角度

虽然 TheRouter 本身不执行模型训练,但 GSPO 的影响会影响 AI 工程团队对提供商选择和基础设施规划的思考方式:

成本感知的训练决策:考虑自建 RLHF 的团队应该考虑序列级优化带来的基础设施节约。消除 Routing Replay 意味着更低的硬件要求和更有效地利用现有算力。在比较微调成本与购买更高端预训练模型时,这些基础设施节约可能会影响决策。

训练方法的提供商透明度:随着模型提供商越来越多地使用 RLHF 来改进推理和指令遵循能力,团队应该询问这些改进背后的训练稳定性和基础设施实践。基于 GSPO 的训练意味着更可靠、预测行为更稳定的微调,这对于需要一致输出模式的应用很重要。

MoE 架构可行性:GSPO 对 MoE RL 的稳定性消除了在生产 RLHF 中采用 MoE 架构的关键障碍。以前由于 RL 不稳定性而避免使用 MoE 的团队现在可以考虑将这些架构用于参数高效的微调需求。

TheRouter 用户应该关注什么

监控 GSPO 或类似序列级 RL 算法在主要模型提供商中的采用情况。广泛采用可能预示着具有稳定推理特性的更多微调模型,这会影响为特定用例选择微调变体时的路由决策。

如果您的团队评估自建 RLHF,将基于 GSPO 的实现与词级 RL 进行基准测试,以衡量稳定性收益和基础设施节约。RLHF 的决策框架现在应该包括序列级优化作为关键技术维度,以及算力预算和数据质量。

对于依赖微调模型的生产系统,评估使用序列级 RL 的提供商是否在训练运行间表现出更可预测的行为。微调结果的一致性可以简化模型资格流程并减少频繁重新验证的需求。

阅读 GSPO 技术论文以了解算法细节和与 GRPO 的比较基准。

客服支持