标签

带有标签 "moe" 的新闻

序列级强化学习优化曲线的抽象可视化，展示稳定的训练动态

reinforcement-learning

Qwen GSPO：序列级强化学习稳定大规模语言模型训练

GSPO 引入序列级优化用于 RL 训练，稳定 MoE 模型并消除基础设施沉重的 Routing Replay 变通方案。

2026年5月19日来源 Qwen