2026年AI成本上涨：为何标价已不足为凭

标价已不再是可靠的人工智能支出指标。2026年5月第一周，三家供应商通过不同机制同时调整经济条款，在相同请求上造成高达92%的标价与实际计费差距。

对于依赖单一供应商定价页面的团队来说，这意味着预算预测可能在48小时内偏差一半以上。可预测、大宗商品式的AI推理定价时代已经结束。现在的定价行为更像是结构化金融产品，成本取决于分词器行为、使用模式、提示缓存和计费模型的实时交互。

2026年5月发生了什么变化

OpenAI 将 GPT-5.5 的费率翻倍（每百万输入令牌从$2.50涨至$5.00，输出从$15涨至$30）。Anthropic 发布 Opus 4.7 时保持价格不变，但更改了分词器，使相同文本产生32-45%的更多令牌。GitHub 宣布 Copilot 将在6月1日迁移到基于令牌的计费模式，代理使用的费用倍率增加高达260%。

机制不同，但结果相同：两天内标价波动50-90%。OpenRouter来自数千万次路由调用的数据证实，这些不是预测，而是来自生产流量的测量结果。

为什么分词器变化很重要

分词器将文本转换为令牌，最小的计费单位。不同分词器在相同文本上产生不同计数。当Anthropic推出Opus 4.7并加快计费速度时，官方费率表没有变化，但在2000令牌以上的提示上，实际成本上升了12-27%。

反向情况也会发生。Opus 4.7在短提示上产生62%更少的完成令牌，最终比前者便宜1.6%。单一模型根据提示长度不同，成本可变化30%。

提示缓存会调节这种效应。Anthropic对缓存令牌计费时提供90%折扣。在128,000令牌以上的提示上，缓存吸收了93%的分词器通胀——抵消了价格上涨。在中等提示（10,000-25,000令牌）上，吸收率降至9%，涨价几乎完全传递给客户。

相同工作负载的成本可能相差5-33%，取决于架构是否支持缓存。

GPT-5.5：明码标价，效率抵消

OpenAI的做法很明确：每令牌价格翻倍。出人意料的是，根据提示长度不同，实际成本仅增加49-92%。抵消来自效率提升：GPT-5.5在长提示上产生的完成令牌比前身少19-34%。

后果是：两家公司在相同月度用量下运行GPT-5.5，根据其提示长度分布，成本可能天差地别。

Copilot：结构性计费模式转变

GitHub Copilot在6月1日向基于令牌的计费迁移可能是最具破坏性的变化。Claude Opus 4.7的倍率从7.5倍跃升至27倍——增长260%。对于自动补全，这是不可见的。对于代理工作流（Chat、Agent会话、代码审查、多步骤任务），实际成本变成现在费用的3-4倍。

信号很明确：固定费率定价无法支撑代理需求。在代理工作流中使用Copilot的组织现在面临选择——吸收成本上涨、切换到带路由的直接API访问，或重新设计工作流以减少令牌消耗。

路由/运维角度

这不仅仅是一个定价故事。这是一个说明为什么路由架构不再可选的故事。

成本控制的四个杠杆是：

缓存感知的提示结构：设计具有稳定前缀（系统指令、RAG上下文）的提示，吸收分词器通胀。Anthropic的90%缓存折扣将45%的分词器增长转换为长提示上0-5%的实际成本影响。
模型路由：在应用和供应商之间维护路由层。拥有路由的团队在5月涨价发生的一周内，就在OpenAI、Anthropic和替代方案之间重新平衡了流量。没有路由的团队开启的变更请求需要数周时间。
提示长度纪律：2,000-10,000令牌范围是5月变化中最受惩罚的。压缩无关上下文，在缓存适用时拆分调用，移除死上下文。
完成控制：严格的输出schema、精确停止条件和简洁的任务设计，避免被动吸收供应商的冗长变化。

模型选择仅占成本方差的30-40%。控制模型的系统（即harness）占60-70%。

AI工程团队应该做什么

首先，停止将供应商的定价页面视为成本估算。可靠估算需要三个输入：标价、分词器行为和实际使用模式。

其次，测试替代方案。OpenRouter数据显示，在相同工作负载上，不同供应商之间存在显著成本差异。在承诺生产用量之前，构建一个测试harness，测量跨模型的令牌数量、延迟和质量。

第三，实施带fallback的路由。当某个供应商更改定价或分词器行为时，可以通过代码更改而非采购周期转移流量。这种隔离能力是路由系统超越简单成本节约的价值所在。

第四，审计提示缓存使用。如果你在支付可以缓存93%更便宜的令牌的全价，架构正在漏钱。

为什么TheRouter用户应该关注

TheRouter 提供的路由层帮助团队比直接切换供应商更快地响应定价变化。它不保证最低价格——当供应商在几天内更改条款时，没有路由能做到。它提供的是测量每个任务的实际成本、跨供应商比较并通过代码重定向流量的能力。

2026年5月的事件表明，多供应商路由现在是运营要求，而非成本优化项目。48小时内50-90%的波动无法通过季度预算周期管理。它需要运行时可观测性和在数小时内非数月内基于数据行动的能力。

2026年5月发生了什么变化

为什么分词器变化很重要

GPT-5.5：明码标价，效率抵消

Copilot：结构性计费模式转变

路由/运维角度

AI工程团队应该做什么

为什么TheRouter用户应该关注

相关阅读

DeepSeek 正式支持 Anthropic API 格式：新双协议端点对路由层意味着什么

Anthropic 收购 Stainless：SDK 整合对多 Provider API 团队意味着什么

Qwen-Image 上线 DashScope：新图像生成与编辑 API 对异步媒体路由的影响