Qwen3.7-Max 正式发布:智能体基准领跑,路由团队的应对策略

阿里云 Qwen3.7-Max 在 Terminal Bench 2.0 上领跑公开榜单,GPQA Diamond 超过 Claude Opus 4.6,并在从未接触过的硬件上完成了长达 35 小时的自主任务。路由 Qwen 流量的工程团队需要关注哪些运营变化?

TheRouter Newsroom来源 阿里云
深色神经网络抽象可视化,数据流从中央处理核心向外辐射,象征自主 AI 智能体的持续运行

2026 年 5 月 20 日,阿里云在云峰会上正式发布 Qwen3.7-Max 和 Qwen3.7-Plus——距上一版 Qwen3.6 发布仅一个月。此前一天,预览版已悄然出现在 Arena AI 和 Qwen Chat 上,延续了团队先软发布、再官宣的惯常节奏。这次发布值得关注的,不只是 benchmark 数字,还有阿里云传递的产品定位信号:Qwen 正在向智能体时代的基础设施方向发力,而非单纯刷榜。

关键指标一览

与路由决策直接相关的数字:

  • GPQA Diamond:92.4——超过 Claude Opus 4.6(91.3)。这是一个衡量博士级推理准确性的基准,与代码 review、复杂 agentic 子任务密切相关。
  • Terminal Bench 2.0-Terminus:69.7——目前公开榜单最高分之一,超越 DeepSeek-v4-pro-Max 和 Claude Opus 4.6。该基准直接衡量长程编程 agent 能力:真实终端会话、文件操作、多步 debug。
  • HLE:41.4HMMT 2026 Feb:97.1——硬数学推理表现强劲。
  • SWE-Pro 和 SWE-Multilingual:两项均处于领先位置。SWE 系列基准衡量解决真实 GitHub issue 的能力——与 Cursor、Claude Code 和 OpenAI 兼容编程工作流最直接相关的指标。
  • Kernel Bench GPU:GPU 内核优化任务加速 1.98×。
  • Arena AI 盲测:在国产模型中超过 Kimi-K2.6、DeepSeek-v4-pro 和 GLM-5.1,排名第一。

本次发布最值得关注的演示是:Qwen3.7-Max 在从未接触过的硬件平台 T-Head ZW-M890 PPU 上,自主完成了长达 35 小时的连续任务。这不是玩具 demo——它代表了在非标准基础设施上运行编程 agent 时,真正需要的长程自适应能力。

对 AI 工程团队意味着什么

一个月一次的发布节奏,不只是营销决策,更是信号。 Qwen3.6 四月发布,Qwen3.7-Max 五月发布。对于围绕 Qwen 构建路由策略的团队,这个节奏意味着:模型锁版(version pinning)策略必须明确。如果你当前是按模型系列(qwen-plusqwen-max)发流量,而非指定具体版本,那么底层能力可能在你毫无察觉的情况下发生变化。如果产品对 SWE 或推理行为有一致性要求,应在路由配置中显式锁版。

智能体能力已成为核心差异化维度。 Terminal Bench 和 SWE 分数比传统 NLP 基准更具运营意义。正在使用 Cursor、Claude Code 或自定义 agent 流水线、并通过 OpenAI 兼容接口路由 Qwen 的团队,应评估 Qwen3.7-Max 是否改变了长程 agentic 任务的默认模型选择——69.7 与更低分数的 Terminal Bench 差距,会在多步任务中持续累积。

国产模型的更新速度是路由设计需要处理的问题。 Qwen、GLM、DeepSeek、Kimi 都在以月级甚至更短的周期发布重大模型更新。Arena AI 中 Qwen3.7-Max 的国产第一排名,是将中国供应商纳入主路径或 fallback 路径时的一个参考数据点——但竞争排序变化频繁,四月最优的静态路由配置到五月可能已不再最优。

路由与运营角度

按模型版本路由,而非仅按模型系列路由。 阿里云 DashScope OpenAI 兼容接口(dashscope-intl.aliyuncs.com/compatible-mode/v1)通常暴露 qwen-maxqwen-plusqwen-turbo 等名称。随着月度模型更新,qwen-max 背后的能力会在不改名的情况下发生变化。如果需要可复现的 agent 行为——尤其是 SWE 类任务——应在阿里云提供带版本号的 model ID 时显式路由到该 ID,或将每次月度发布当作供应商事件触发路由权重的重新评估。

长程 agent 任务的 fallback 链设计。 Terminal Bench 衡量的是 35+ 步的自主会话。如果路由策略在会话中途因超时或配额问题 fallback 到能力更弱的模型,该 fallback 模型的 agent 能力不足会导致级联失败——这是单轮任务不会出现的问题。建议将长程 agent 调用放在独立的路由路径上,并配置高质量 fallback(Qwen3.7-Max → Qwen3.7-Plus,而非 → 轻量模型);把激进的成本优化留给短任务。

SWE-Multilingual 作为多语言代码库的供应商选择信号。 如果代码库是多语言的(Python + Go + Rust,或中英混合文档),SWE-Multilingual 的表现就很重要。Qwen3.7-Max 在该基准上的领先位置,表明它在混合语言文件操作和跨语言重构上可能优于其他选项——在调整路由预算之前,值得用你自己的代码库跑一次基准验证。

国产供应商路由权重调整参考。 Arena AI 盲测将 Qwen3.7-Max 排在 Kimi-K2.6、DeepSeek-v4-pro 和 GLM-5.1 之前。对于已配置多国产模型路由的团队,这是调整基于质量的路由权重的一个数据参考——但自报告的 Arena 排名应在更改生产路由策略前,先在自己的任务分布上做一次验证。

建议关注与操作

  • 重新评估你的 Qwen 模型槽位:如果当前将 agentic 任务主要路由到 DeepSeek 或 GLM,Terminal Bench 和 SWE 分数值得在你的实际工作负载上对 Qwen3.7-Max 做一次对比评测。
  • 检查模型版本锁定状态:确认当前路由配置是否发送到带版本号的 Qwen model ID,还是浮动的 qwen-max 别名。如果是后者,请记录你的质量基准可能随未来阿里云更新而变化。
  • 显式测试长程 agent 任务:35 小时自主任务结果是一个能力声明——在将其用于生产 agentic 工作负载之前,用你自己的 agent 框架跑一次 20-50 步的基准测试。
  • 关注更新节奏:按当前发布速度,Qwen3.8 或同等版本大概率在 4-6 周内出现。如果现在正在构建路由策略,请将其设计成能够在无人工干预的情况下适应模型版本更新。
客服支持