Uber 4 个月烧光全年 AI 预算:5000 工程师人均月账单 $500-$2000,70% 提交代码 AI 生成
Fortune、Briefs、AI Magazine 等多家媒体 5 月 26-27 日同时披露:Uber 在 2026 年 4 月烧完了原定全年的 AI 工具预算,CTO 与 COO 在内部 all-hands 上公开复盘。这是企业 AI 工具规模化采购的第一个"全员账单失控"公开样本。

一、事件全貌:发生了什么
时间线:
- 2025-12:Uber 把 Claude Code 正式推给全公司 5000 名工程师
- 2026-02:月活工程师从 32% 跃升至 63%,使用率两个月翻倍
- 2026-03:84% 的工程师被分类为"agentic coding 用户"——即不再用作补全,而是把 Claude Code 当作可自主多步执行的代理
- 2026-04:原本要撑到 12 月的 2026 财年 AI 工具预算被全部花完
- 2026-05-26:COO Andrew Macdonald 在媒体采访中用了"head-exploding moment"形容这次预算事故,CTO Praveen Neppalli Naga 确认全年预算已无补充计划

二、为什么烧得这么快:三个被低估的成本机制
很多团队看到这个新闻第一反应是"Uber 不会算账"。事实更复杂——同样的机制正在每一家把 Claude Code 推到全员的公司里发生。
机制 1:座次许可式预算 vs token 计费的结构错配
传统企业软件按 seat 算钱:一个工程师一个 license,预算线性可预测。Claude Code 不是这个模式——它按 token 收费。一个工程师做一次函数末尾自动补全,消耗几乎可以忽略;同一个工程师把 Claude Code 当 agent 在 monorepo 里跑一下午"重构 API 层并补齐测试",单次会话能跑出几千美元。
5000 个工程师 × 不可预测的 agentic 行为 = 完全跳出年度预算节奏的现金流。这不是 Uber 算错账,是企业财务模型还没适配 token 计费。
机制 2:内部排行榜把 token 用量变成了 KPI
Uber 内部有一个按 AI 使用量排名团队的 leaderboard——意图是推广 AI 工具采纳率,结果工程师为了在榜上有名,主动堆 token 用量。这个现象在行业里被称为 tokenmaxxing,Meta 等公司也有类似的内部仪表盘。
排行榜把"用得多"等同于"用得好",但 token 数和实际产出之间没有线性关系。Macdonald 的原话是:“如果你没法把这个支出直接对应到给用户交付了多少功能,这笔交易就很难再合理化。”
机制 3:agentic 模式下的"次思考成本"
Claude Code 在 agentic 模式下会自己规划、自己分步、自己调工具。每一步都会消耗 thinking tokens——Opus 4.7 的 adaptive thinking 默认就是 effort: high,模型会在判断有必要时大量思考。一次工程师以为"就让它写个函数"的请求,可能在背后跑了 10 万 token 的推理与工具循环。
这部分成本对工程师本人完全不可见——他们看到的只是结果,看不到中间消耗。

三、行业涟漪:Uber 不是唯一一家
| 公司 | 动作 | 信号 |
|---|---|---|
| Microsoft | 5 月初被 The Verge 曝出取消大部分 Claude Code 直接许可,让工程师改用 GitHub Copilot CLI | 大厂开始把 Claude Code 视为不可控成本 |
| Uber | 4 个月烧光预算,公开承认 | 第一个公开样本 |
| Meta | 内部 token 用量仪表盘 | tokenmaxxing 文化已成型 |
第三方调研也指向同一趋势:2025 Mavvrik 调研 显示 85% 的企业 AI 成本超出预期 10% 以上,84% 的企业毛利率因此下降 6 个百分点以上。Gartner 预测 2026 年 AI agent 软件支出将达到约 2070 亿美元,比 2025 年的 864 亿翻 1.4 倍。
这意味着 Uber 的"head-exploding moment"将在 2026 年下半年大量复现,只是其他公司未必会公开。
四、对国内开发团队的启示:三个可落地的成本控制动作
国内团队规模不到 Uber 的 1/10,但相同的机制一样在发生:试用一段时间后突然有一周账单暴涨,事后追查是某个工程师把 Claude Code 拿去全仓库重构。下面三件事能立即做:
1. 用 Prompt Caching 把高频上下文成本拍平
对于 codebase 大、上下文长的场景,prompt caching 能把重复输入的成本降到原价的 10%。
import anthropic
client = anthropic.Anthropic(
api_key="sk-你的ClaudeAPI密钥",
base_url="https://gw.claudeapi.com"
)
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=2048,
system=[
{
"type": "text",
"text": "<把整个代码库的关键文件、约定、风格指南塞进来>",
"cache_control": {"type": "ephemeral"}
}
],
messages=[{"role": "user", "content": "为 utils/parser.py 加单元测试"}]
)
import anthropic
client = anthropic.Anthropic(
api_key="sk-你的ClaudeAPI密钥",
base_url="https://gw.claudeapi.com"
)
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=2048,
system=[
{
"type": "text",
"text": "<把整个代码库的关键文件、约定、风格指南塞进来>",
"cache_control": {"type": "ephemeral"}
}
],
messages=[{"role": "user", "content": "为 utils/parser.py 加单元测试"}]
)
第一次调用建缓存,之后 5 分钟窗口内的所有请求只按 10% 价格计算 cached 部分。对于一天内多次让 Claude 看同一份代码库的工作流,这一项能省下七成 token 费用。
2. 模型分层路由:不是所有任务都要 Opus 4.7
人均 $2000 的工程师,多半是把 Opus 4.7 当成默认模型在所有场景下用。但是:
| 任务类型 | 推荐模型 | 价格对比(输入/输出,¥/M token) |
|---|---|---|
| 复杂架构、长链路推理 | claude-opus-4-7 | ¥20 / ¥100 |
| 90% 日常编码、PR review | claude-sonnet-4-6 | ¥4 / ¥20(Opus 1/5 价) |
| 分类、抽取、简单补全 | claude-haiku-4-5-20251001 | ¥1 / ¥5(Opus 1/20 价) |
只要把"默认模型"从 Opus 改成 Sonnet,单纯这一个变更能把账单砍到 1/5。Opus 4.7 留给真正需要深度推理的任务。
3. 给团队设月度预算上限并可视化
claudeapi.com 控制台提供按 API Key 维度的用量、费用、调用次数明细,可以做到:
- 每个工程师一把独立 Key,单独看月度消耗
- 设置消费上限,触发后自动停用
- 导出账单数据做团队/项目维度的对比分析
Uber 烧光预算的关键问题不是"用得多",而是"用了才发现"。账单透明 + 上限可设,是把 token 计费拉回可预测节奏的最直接动作。

五、写在最后:tokenmaxxing 不是好事
Uber 这次复盘最值得 industry 注意的一句话,来自 COO Macdonald:
“如果你没法把这个支出直接对应到给用户交付了多少功能,这笔交易就很难再合理化。”
70% 的提交代码由 AI 生成,听起来是个漂亮的指标,但它和"产品提速"之间没有自动等号。token 数也不等于产出,排行榜更不是。用得对比用得多重要。
claudeapi.com 提供 Claude Opus 4.7、Sonnet 4.6、Haiku 4.5 全系模型的标准接口体验,兼容 Anthropic SDK 格式,账单清晰、用量透明、按 API Key 维度可追踪到工程师粒度,支持企业结算。如果你的团队也在评估"AI 工具采纳 vs 预算可控"这个平衡点,可以从控制台开始把每一笔 token 看清楚。
立即体验:claudeapi.com · 控制台:console.claudeapi.com



