reinforcement-learningQwen GSPO:序列级强化学习稳定大规模语言模型训练GSPO 引入序列级优化用于 RL 训练,稳定 MoE 模型并消除基础设施沉重的 Routing Replay 变通方案。2026年5月19日·来源 Qwen