Uber 4 个月烧光全年 AI 预算：5000 工程师人均月账单 $500-$2000，70% 提交代码 AI 生成

Fortune、Briefs、AI Magazine 等多家媒体 5 月 26-27 日同时披露：Uber 在 2026 年 4 月烧完了原定全年的 AI 工具预算，CTO 与 COO 在内部 all-hands 上公开复盘。这是企业 AI 工具规模化采购的第一个"全员账单失控"公开样本。

一、事件全貌：发生了什么

时间线：

2025-12：Uber 把 Claude Code 正式推给全公司 5000 名工程师
2026-02：月活工程师从 32% 跃升至 63%，使用率两个月翻倍
2026-03：84% 的工程师被分类为"agentic coding 用户"——即不再用作补全，而是把 Claude Code 当作可自主多步执行的代理
2026-04：原本要撑到 12 月的 2026 财年 AI 工具预算被全部花完
2026-05-26：COO Andrew Macdonald 在媒体采访中用了"head-exploding moment"形容这次预算事故，CTO Praveen Neppalli Naga 确认全年预算已无补充计划

二、为什么烧得这么快：三个被低估的成本机制

很多团队看到这个新闻第一反应是"Uber 不会算账"。事实更复杂——同样的机制正在每一家把 Claude Code 推到全员的公司里发生。

机制 1：座次许可式预算 vs token 计费的结构错配

传统企业软件按 seat 算钱：一个工程师一个 license，预算线性可预测。Claude Code 不是这个模式——它按 token 收费。一个工程师做一次函数末尾自动补全，消耗几乎可以忽略；同一个工程师把 Claude Code 当 agent 在 monorepo 里跑一下午"重构 API 层并补齐测试"，单次会话能跑出几千美元。

5000 个工程师 × 不可预测的 agentic 行为 = 完全跳出年度预算节奏的现金流。这不是 Uber 算错账，是企业财务模型还没适配 token 计费。

机制 2：内部排行榜把 token 用量变成了 KPI

Uber 内部有一个按 AI 使用量排名团队的 leaderboard——意图是推广 AI 工具采纳率，结果工程师为了在榜上有名，主动堆 token 用量。这个现象在行业里被称为 tokenmaxxing，Meta 等公司也有类似的内部仪表盘。

排行榜把"用得多"等同于"用得好"，但 token 数和实际产出之间没有线性关系。Macdonald 的原话是：“如果你没法把这个支出直接对应到给用户交付了多少功能，这笔交易就很难再合理化。”

机制 3：agentic 模式下的"次思考成本"

Claude Code 在 agentic 模式下会自己规划、自己分步、自己调工具。每一步都会消耗 thinking tokens——Opus 4.7 的 adaptive thinking 默认就是 effort: high，模型会在判断有必要时大量思考。一次工程师以为"就让它写个函数"的请求，可能在背后跑了 10 万 token 的推理与工具循环。

这部分成本对工程师本人完全不可见——他们看到的只是结果，看不到中间消耗。

三、行业涟漪：Uber 不是唯一一家

公司	动作	信号
Microsoft	5 月初被 The Verge 曝出取消大部分 Claude Code 直接许可，让工程师改用 GitHub Copilot CLI	大厂开始把 Claude Code 视为不可控成本
Uber	4 个月烧光预算，公开承认	第一个公开样本
Meta	内部 token 用量仪表盘	tokenmaxxing 文化已成型

第三方调研也指向同一趋势：2025 Mavvrik 调研显示 85% 的企业 AI 成本超出预期 10% 以上，84% 的企业毛利率因此下降 6 个百分点以上。Gartner 预测 2026 年 AI agent 软件支出将达到约 2070 亿美元，比 2025 年的 864 亿翻 1.4 倍。

这意味着 Uber 的"head-exploding moment"将在 2026 年下半年大量复现，只是其他公司未必会公开。

四、对国内开发团队的启示：三个可落地的成本控制动作

国内团队规模不到 Uber 的 1/10，但相同的机制一样在发生：试用一段时间后突然有一周账单暴涨，事后追查是某个工程师把 Claude Code 拿去全仓库重构。下面三件事能立即做：

1. 用 Prompt Caching 把高频上下文成本拍平

对于 codebase 大、上下文长的场景，prompt caching 能把重复输入的成本降到原价的 10%。

import anthropic

client = anthropic.Anthropic(
    api_key="sk-你的ClaudeAPI密钥",
    base_url="https://gw.claudeapi.com"
)

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=2048,
    system=[
        {
            "type": "text",
            "text": "<把整个代码库的关键文件、约定、风格指南塞进来>",
            "cache_control": {"type": "ephemeral"}
        }
    ],
    messages=[{"role": "user", "content": "为 utils/parser.py 加单元测试"}]
)

import anthropic

client = anthropic.Anthropic(
    api_key="sk-你的ClaudeAPI密钥",
    base_url="https://gw.claudeapi.com"
)

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=2048,
    system=[
        {
            "type": "text",
            "text": "<把整个代码库的关键文件、约定、风格指南塞进来>",
            "cache_control": {"type": "ephemeral"}
        }
    ],
    messages=[{"role": "user", "content": "为 utils/parser.py 加单元测试"}]
)

第一次调用建缓存，之后 5 分钟窗口内的所有请求只按 10% 价格计算 cached 部分。对于一天内多次让 Claude 看同一份代码库的工作流，这一项能省下七成 token 费用。

2. 模型分层路由：不是所有任务都要 Opus 4.7

人均 $2000 的工程师，多半是把 Opus 4.7 当成默认模型在所有场景下用。但是：

任务类型	推荐模型	价格对比（输入/输出，¥/M token）
复杂架构、长链路推理	claude-opus-4-7	¥20 / ¥100
90% 日常编码、PR review	claude-sonnet-4-6	¥4 / ¥20（Opus 1/5 价）
分类、抽取、简单补全	claude-haiku-4-5-20251001	¥1 / ¥5（Opus 1/20 价）

只要把"默认模型"从 Opus 改成 Sonnet，单纯这一个变更能把账单砍到 1/5。Opus 4.7 留给真正需要深度推理的任务。

3. 给团队设月度预算上限并可视化

claudeapi.com 控制台提供按 API Key 维度的用量、费用、调用次数明细，可以做到：

每个工程师一把独立 Key，单独看月度消耗
设置消费上限，触发后自动停用
导出账单数据做团队/项目维度的对比分析

Uber 烧光预算的关键问题不是"用得多"，而是"用了才发现"。账单透明 + 上限可设，是把 token 计费拉回可预测节奏的最直接动作。

五、写在最后：tokenmaxxing 不是好事

Uber 这次复盘最值得 industry 注意的一句话，来自 COO Macdonald：

“如果你没法把这个支出直接对应到给用户交付了多少功能，这笔交易就很难再合理化。”

70% 的提交代码由 AI 生成，听起来是个漂亮的指标，但它和"产品提速"之间没有自动等号。token 数也不等于产出，排行榜更不是。用得对比用得多重要。

claudeapi.com 提供 Claude Opus 4.7、Sonnet 4.6、Haiku 4.5 全系模型的标准接口体验，兼容 Anthropic SDK 格式，账单清晰、用量透明、按 API Key 维度可追踪到工程师粒度，支持企业结算。如果你的团队也在评估"AI 工具采纳 vs 预算可控"这个平衡点，可以从控制台开始把每一笔 token 看清楚。

立即体验：claudeapi.com · 控制台：console.claudeapi.com