2026年AI成本上涨:为何标价已不足为凭
OpenAI、Anthropic 和 GitHub 在同一周调整定价机制。实际成本与标价差距最高达92%,取决于分词器行为和使用模式。路由架构已成为成本控制的必要条件。

标价已不再是可靠的人工智能支出指标。2026年5月第一周,三家供应商通过不同机制同时调整经济条款,在相同请求上造成高达92%的标价与实际计费差距。
对于依赖单一供应商定价页面的团队来说,这意味着预算预测可能在48小时内偏差一半以上。可预测、大宗商品式的AI推理定价时代已经结束。现在的定价行为更像是结构化金融产品,成本取决于分词器行为、使用模式、提示缓存和计费模型的实时交互。
2026年5月发生了什么变化
OpenAI 将 GPT-5.5 的费率翻倍(每百万输入令牌从$2.50涨至$5.00,输出从$15涨至$30)。Anthropic 发布 Opus 4.7 时保持价格不变,但更改了分词器,使相同文本产生32-45%的更多令牌。GitHub 宣布 Copilot 将在6月1日迁移到基于令牌的计费模式,代理使用的费用倍率增加高达260%。
机制不同,但结果相同:两天内标价波动50-90%。OpenRouter来自数千万次路由调用的数据证实,这些不是预测,而是来自生产流量的测量结果。
为什么分词器变化很重要
分词器将文本转换为令牌,最小的计费单位。不同分词器在相同文本上产生不同计数。当Anthropic推出Opus 4.7并加快计费速度时,官方费率表没有变化,但在2000令牌以上的提示上,实际成本上升了12-27%。
反向情况也会发生。Opus 4.7在短提示上产生62%更少的完成令牌,最终比前者便宜1.6%。单一模型根据提示长度不同,成本可变化30%。
提示缓存会调节这种效应。Anthropic对缓存令牌计费时提供90%折扣。在128,000令牌以上的提示上,缓存吸收了93%的分词器通胀——抵消了价格上涨。在中等提示(10,000-25,000令牌)上,吸收率降至9%,涨价几乎完全传递给客户。
相同工作负载的成本可能相差5-33%,取决于架构是否支持缓存。
GPT-5.5:明码标价,效率抵消
OpenAI的做法很明确:每令牌价格翻倍。出人意料的是,根据提示长度不同,实际成本仅增加49-92%。抵消来自效率提升:GPT-5.5在长提示上产生的完成令牌比前身少19-34%。
后果是:两家公司在相同月度用量下运行GPT-5.5,根据其提示长度分布,成本可能天差地别。
Copilot:结构性计费模式转变
GitHub Copilot在6月1日向基于令牌的计费迁移可能是最具破坏性的变化。Claude Opus 4.7的倍率从7.5倍跃升至27倍——增长260%。对于自动补全,这是不可见的。对于代理工作流(Chat、Agent会话、代码审查、多步骤任务),实际成本变成现在费用的3-4倍。
信号很明确:固定费率定价无法支撑代理需求。在代理工作流中使用Copilot的组织现在面临选择——吸收成本上涨、切换到带路由的直接API访问,或重新设计工作流以减少令牌消耗。
路由/运维角度
这不仅仅是一个定价故事。这是一个说明为什么路由架构不再可选的故事。
成本控制的四个杠杆是:
-
缓存感知的提示结构:设计具有稳定前缀(系统指令、RAG上下文)的提示,吸收分词器通胀。Anthropic的90%缓存折扣将45%的分词器增长转换为长提示上0-5%的实际成本影响。
-
模型路由:在应用和供应商之间维护路由层。拥有路由的团队在5月涨价发生的一周内,就在OpenAI、Anthropic和替代方案之间重新平衡了流量。没有路由的团队开启的变更请求需要数周时间。
-
提示长度纪律:2,000-10,000令牌范围是5月变化中最受惩罚的。压缩无关上下文,在缓存适用时拆分调用,移除死上下文。
-
完成控制:严格的输出schema、精确停止条件和简洁的任务设计,避免被动吸收供应商的冗长变化。
模型选择仅占成本方差的30-40%。控制模型的系统(即harness)占60-70%。
AI工程团队应该做什么
首先,停止将供应商的定价页面视为成本估算。可靠估算需要三个输入:标价、分词器行为和实际使用模式。
其次,测试替代方案。OpenRouter数据显示,在相同工作负载上,不同供应商之间存在显著成本差异。在承诺生产用量之前,构建一个测试harness,测量跨模型的令牌数量、延迟和质量。
第三,实施带fallback的路由。当某个供应商更改定价或分词器行为时,可以通过代码更改而非采购周期转移流量。这种隔离能力是路由系统超越简单成本节约的价值所在。
第四,审计提示缓存使用。如果你在支付可以缓存93%更便宜的令牌的全价,架构正在漏钱。
为什么TheRouter用户应该关注
TheRouter 提供的路由层帮助团队比直接切换供应商更快地响应定价变化。它不保证最低价格——当供应商在几天内更改条款时,没有路由能做到。它提供的是测量每个任务的实际成本、跨供应商比较并通过代码重定向流量的能力。
2026年5月的事件表明,多供应商路由现在是运营要求,而非成本优化项目。48小时内50-90%的波动无法通过季度预算周期管理。它需要运行时可观测性和在数小时内非数月内基于数据行动的能力。
相关阅读
最新 AI 新闻 →
DeepSeek 正式支持 Anthropic API 格式:新双协议端点对路由层意味着什么
DeepSeek API 现已在 api.deepseek.com/anthropic 支持 Anthropic SDK 格式请求,Claude Code、Anthropic Python/TS SDK 及任何 Anthropic 原生客户端无需 OpenAI 转换层,即可直接将请求路由至 DeepSeek V4 模型。

Anthropic 收购 Stainless:SDK 整合对多 Provider API 团队意味着什么
Anthropic 宣布收购生成其所有官方 SDK 和 MCP Server 工具链的公司 Stainless。对于构建多 provider AI 路由管道的工程团队来说,这一变化重塑了 SDK 依赖风险、MCP Server 治理格局,以及 Claude API 接口变更的迭代节奏。

Qwen-Image 上线 DashScope:新图像生成与编辑 API 对异步媒体路由的影响
阿里云在 DashScope 发布 Qwen-Image 和 Qwen-Image-Edit,模型 ID 为 qwen-image-2.0-pro。路由团队需关注其与 DALL-E 不同的异步任务模式和新的模型命名空间,标准 OpenAI 兼容代理可能无法正确处理。