Qwen3.7-Max 正式发布:智能体基准领跑,路由团队的应对策略
阿里云 Qwen3.7-Max 在 Terminal Bench 2.0 上领跑公开榜单,GPQA Diamond 超过 Claude Opus 4.6,并在从未接触过的硬件上完成了长达 35 小时的自主任务。路由 Qwen 流量的工程团队需要关注哪些运营变化?

2026 年 5 月 20 日,阿里云在云峰会上正式发布 Qwen3.7-Max 和 Qwen3.7-Plus——距上一版 Qwen3.6 发布仅一个月。此前一天,预览版已悄然出现在 Arena AI 和 Qwen Chat 上,延续了团队先软发布、再官宣的惯常节奏。这次发布值得关注的,不只是 benchmark 数字,还有阿里云传递的产品定位信号:Qwen 正在向智能体时代的基础设施方向发力,而非单纯刷榜。
关键指标一览
与路由决策直接相关的数字:
- GPQA Diamond:92.4——超过 Claude Opus 4.6(91.3)。这是一个衡量博士级推理准确性的基准,与代码 review、复杂 agentic 子任务密切相关。
- Terminal Bench 2.0-Terminus:69.7——目前公开榜单最高分之一,超越 DeepSeek-v4-pro-Max 和 Claude Opus 4.6。该基准直接衡量长程编程 agent 能力:真实终端会话、文件操作、多步 debug。
- HLE:41.4,HMMT 2026 Feb:97.1——硬数学推理表现强劲。
- SWE-Pro 和 SWE-Multilingual:两项均处于领先位置。SWE 系列基准衡量解决真实 GitHub issue 的能力——与 Cursor、Claude Code 和 OpenAI 兼容编程工作流最直接相关的指标。
- Kernel Bench GPU:GPU 内核优化任务加速 1.98×。
- Arena AI 盲测:在国产模型中超过 Kimi-K2.6、DeepSeek-v4-pro 和 GLM-5.1,排名第一。
本次发布最值得关注的演示是:Qwen3.7-Max 在从未接触过的硬件平台 T-Head ZW-M890 PPU 上,自主完成了长达 35 小时的连续任务。这不是玩具 demo——它代表了在非标准基础设施上运行编程 agent 时,真正需要的长程自适应能力。
对 AI 工程团队意味着什么
一个月一次的发布节奏,不只是营销决策,更是信号。 Qwen3.6 四月发布,Qwen3.7-Max 五月发布。对于围绕 Qwen 构建路由策略的团队,这个节奏意味着:模型锁版(version pinning)策略必须明确。如果你当前是按模型系列(qwen-plus、qwen-max)发流量,而非指定具体版本,那么底层能力可能在你毫无察觉的情况下发生变化。如果产品对 SWE 或推理行为有一致性要求,应在路由配置中显式锁版。
智能体能力已成为核心差异化维度。 Terminal Bench 和 SWE 分数比传统 NLP 基准更具运营意义。正在使用 Cursor、Claude Code 或自定义 agent 流水线、并通过 OpenAI 兼容接口路由 Qwen 的团队,应评估 Qwen3.7-Max 是否改变了长程 agentic 任务的默认模型选择——69.7 与更低分数的 Terminal Bench 差距,会在多步任务中持续累积。
国产模型的更新速度是路由设计需要处理的问题。 Qwen、GLM、DeepSeek、Kimi 都在以月级甚至更短的周期发布重大模型更新。Arena AI 中 Qwen3.7-Max 的国产第一排名,是将中国供应商纳入主路径或 fallback 路径时的一个参考数据点——但竞争排序变化频繁,四月最优的静态路由配置到五月可能已不再最优。
路由与运营角度
按模型版本路由,而非仅按模型系列路由。 阿里云 DashScope OpenAI 兼容接口(dashscope-intl.aliyuncs.com/compatible-mode/v1)通常暴露 qwen-max、qwen-plus、qwen-turbo 等名称。随着月度模型更新,qwen-max 背后的能力会在不改名的情况下发生变化。如果需要可复现的 agent 行为——尤其是 SWE 类任务——应在阿里云提供带版本号的 model ID 时显式路由到该 ID,或将每次月度发布当作供应商事件触发路由权重的重新评估。
长程 agent 任务的 fallback 链设计。 Terminal Bench 衡量的是 35+ 步的自主会话。如果路由策略在会话中途因超时或配额问题 fallback 到能力更弱的模型,该 fallback 模型的 agent 能力不足会导致级联失败——这是单轮任务不会出现的问题。建议将长程 agent 调用放在独立的路由路径上,并配置高质量 fallback(Qwen3.7-Max → Qwen3.7-Plus,而非 → 轻量模型);把激进的成本优化留给短任务。
SWE-Multilingual 作为多语言代码库的供应商选择信号。 如果代码库是多语言的(Python + Go + Rust,或中英混合文档),SWE-Multilingual 的表现就很重要。Qwen3.7-Max 在该基准上的领先位置,表明它在混合语言文件操作和跨语言重构上可能优于其他选项——在调整路由预算之前,值得用你自己的代码库跑一次基准验证。
国产供应商路由权重调整参考。 Arena AI 盲测将 Qwen3.7-Max 排在 Kimi-K2.6、DeepSeek-v4-pro 和 GLM-5.1 之前。对于已配置多国产模型路由的团队,这是调整基于质量的路由权重的一个数据参考——但自报告的 Arena 排名应在更改生产路由策略前,先在自己的任务分布上做一次验证。
建议关注与操作
- 重新评估你的 Qwen 模型槽位:如果当前将 agentic 任务主要路由到 DeepSeek 或 GLM,Terminal Bench 和 SWE 分数值得在你的实际工作负载上对 Qwen3.7-Max 做一次对比评测。
- 检查模型版本锁定状态:确认当前路由配置是否发送到带版本号的 Qwen model ID,还是浮动的
qwen-max别名。如果是后者,请记录你的质量基准可能随未来阿里云更新而变化。 - 显式测试长程 agent 任务:35 小时自主任务结果是一个能力声明——在将其用于生产 agentic 工作负载之前,用你自己的 agent 框架跑一次 20-50 步的基准测试。
- 关注更新节奏:按当前发布速度,Qwen3.8 或同等版本大概率在 4-6 周内出现。如果现在正在构建路由策略,请将其设计成能够在无人工干预的情况下适应模型版本更新。
相关阅读
最新 AI 新闻 →
Qwen-MT Turbo:阿里云专用翻译 API 的 extra_body 路由参数陷阱
阿里云 Qwen-MT turbo 通过 OpenAI 兼容接口提供,但翻译控制参数藏在 extra_body 中——这种模式会导致任何会剥离非标准字段的中间件悄然丢失关键配置。路由团队必须关注这个细节。

DeepSeek 正式支持 Anthropic API 格式:新双协议端点对路由层意味着什么
DeepSeek API 现已在 api.deepseek.com/anthropic 支持 Anthropic SDK 格式请求,Claude Code、Anthropic Python/TS SDK 及任何 Anthropic 原生客户端无需 OpenAI 转换层,即可直接将请求路由至 DeepSeek V4 模型。

Kimi K2.6:Moonshot 最新开源模型刷新长程 Coding Agent 可靠性基准
Moonshot AI 发布 Kimi K2.6,具备领先的长程代码执行能力、多模态输入(文本/图片/视频)、256K 上下文,以及完整的 OpenAI 兼容 API,直接影响工程团队的 coding agent 路由决策。