Qwen3.7-Max 正式发布：智能体基准领跑，路由团队的应对策略

2026 年 5 月 20 日，阿里云在云峰会上正式发布 Qwen3.7-Max 和 Qwen3.7-Plus——距上一版 Qwen3.6 发布仅一个月。此前一天，预览版已悄然出现在 Arena AI 和 Qwen Chat 上，延续了团队先软发布、再官宣的惯常节奏。这次发布值得关注的，不只是 benchmark 数字，还有阿里云传递的产品定位信号：Qwen 正在向智能体时代的基础设施方向发力，而非单纯刷榜。

关键指标一览

与路由决策直接相关的数字：

GPQA Diamond：92.4——超过 Claude Opus 4.6（91.3）。这是一个衡量博士级推理准确性的基准，与代码 review、复杂 agentic 子任务密切相关。
Terminal Bench 2.0-Terminus：69.7——目前公开榜单最高分之一，超越 DeepSeek-v4-pro-Max 和 Claude Opus 4.6。该基准直接衡量长程编程 agent 能力：真实终端会话、文件操作、多步 debug。
HLE：41.4，HMMT 2026 Feb：97.1——硬数学推理表现强劲。
SWE-Pro 和 SWE-Multilingual：两项均处于领先位置。SWE 系列基准衡量解决真实 GitHub issue 的能力——与 Cursor、Claude Code 和 OpenAI 兼容编程工作流最直接相关的指标。
Kernel Bench GPU：GPU 内核优化任务加速 1.98×。
Arena AI 盲测：在国产模型中超过 Kimi-K2.6、DeepSeek-v4-pro 和 GLM-5.1，排名第一。

本次发布最值得关注的演示是：Qwen3.7-Max 在从未接触过的硬件平台 T-Head ZW-M890 PPU 上，自主完成了长达 35 小时的连续任务。这不是玩具 demo——它代表了在非标准基础设施上运行编程 agent 时，真正需要的长程自适应能力。

对 AI 工程团队意味着什么

一个月一次的发布节奏，不只是营销决策，更是信号。 Qwen3.6 四月发布，Qwen3.7-Max 五月发布。对于围绕 Qwen 构建路由策略的团队，这个节奏意味着：模型锁版（version pinning）策略必须明确。如果你当前是按模型系列（qwen-plus、qwen-max）发流量，而非指定具体版本，那么底层能力可能在你毫无察觉的情况下发生变化。如果产品对 SWE 或推理行为有一致性要求，应在路由配置中显式锁版。

智能体能力已成为核心差异化维度。 Terminal Bench 和 SWE 分数比传统 NLP 基准更具运营意义。正在使用 Cursor、Claude Code 或自定义 agent 流水线、并通过 OpenAI 兼容接口路由 Qwen 的团队，应评估 Qwen3.7-Max 是否改变了长程 agentic 任务的默认模型选择——69.7 与更低分数的 Terminal Bench 差距，会在多步任务中持续累积。

国产模型的更新速度是路由设计需要处理的问题。 Qwen、GLM、DeepSeek、Kimi 都在以月级甚至更短的周期发布重大模型更新。Arena AI 中 Qwen3.7-Max 的国产第一排名，是将中国供应商纳入主路径或 fallback 路径时的一个参考数据点——但竞争排序变化频繁，四月最优的静态路由配置到五月可能已不再最优。

路由与运营角度

按模型版本路由，而非仅按模型系列路由。 阿里云 DashScope OpenAI 兼容接口（dashscope-intl.aliyuncs.com/compatible-mode/v1）通常暴露 qwen-max、qwen-plus、qwen-turbo 等名称。随着月度模型更新，qwen-max 背后的能力会在不改名的情况下发生变化。如果需要可复现的 agent 行为——尤其是 SWE 类任务——应在阿里云提供带版本号的 model ID 时显式路由到该 ID，或将每次月度发布当作供应商事件触发路由权重的重新评估。

长程 agent 任务的 fallback 链设计。 Terminal Bench 衡量的是 35+ 步的自主会话。如果路由策略在会话中途因超时或配额问题 fallback 到能力更弱的模型，该 fallback 模型的 agent 能力不足会导致级联失败——这是单轮任务不会出现的问题。建议将长程 agent 调用放在独立的路由路径上，并配置高质量 fallback（Qwen3.7-Max → Qwen3.7-Plus，而非 → 轻量模型）；把激进的成本优化留给短任务。

SWE-Multilingual 作为多语言代码库的供应商选择信号。 如果代码库是多语言的（Python + Go + Rust，或中英混合文档），SWE-Multilingual 的表现就很重要。Qwen3.7-Max 在该基准上的领先位置，表明它在混合语言文件操作和跨语言重构上可能优于其他选项——在调整路由预算之前，值得用你自己的代码库跑一次基准验证。

国产供应商路由权重调整参考。 Arena AI 盲测将 Qwen3.7-Max 排在 Kimi-K2.6、DeepSeek-v4-pro 和 GLM-5.1 之前。对于已配置多国产模型路由的团队，这是调整基于质量的路由权重的一个数据参考——但自报告的 Arena 排名应在更改生产路由策略前，先在自己的任务分布上做一次验证。

建议关注与操作

重新评估你的 Qwen 模型槽位：如果当前将 agentic 任务主要路由到 DeepSeek 或 GLM，Terminal Bench 和 SWE 分数值得在你的实际工作负载上对 Qwen3.7-Max 做一次对比评测。
检查模型版本锁定状态：确认当前路由配置是否发送到带版本号的 Qwen model ID，还是浮动的 qwen-max 别名。如果是后者，请记录你的质量基准可能随未来阿里云更新而变化。
显式测试长程 agent 任务：35 小时自主任务结果是一个能力声明——在将其用于生产 agentic 工作负载之前，用你自己的 agent 框架跑一次 20-50 步的基准测试。
关注更新节奏：按当前发布速度，Qwen3.8 或同等版本大概率在 4-6 周内出现。如果现在正在构建路由策略，请将其设计成能够在无人工干预的情况下适应模型版本更新。

关键指标一览

对 AI 工程团队意味着什么

路由与运营角度

建议关注与操作

相关阅读

Qwen-MT Turbo：阿里云专用翻译 API 的 extra_body 路由参数陷阱

DeepSeek 正式支持 Anthropic API 格式：新双协议端点对路由层意味着什么

Kimi K2.6：Moonshot 最新开源模型刷新长程 Coding Agent 可靠性基准