AI 工具越来越便宜，为什么企业反而在踩刹车？

最近几个月，两条本应同向的曲线，开始背道而驰。

一条是厂商的定价曲线：token 单价一直在跌。DeepSeek V4 把推理成本压到一年前的 1/53，OpenAI 每发一个新模型、价格再降十几个点。满屏都是"AI 越来越便宜"。

另一条是企业的使用曲线：Uber CTO 三月在一档播客里说了一句让很多工程负责人后背发凉的话——“we had blown through our AI budget for 2026 and it was the middle of March”。AI 全年预算，三月中旬清零。

一件事越来越便宜，花钱的人反而在踩刹车——到底谁的账算错了？

先看几条新闻

不是 Uber 一家。过去一个月，信号出奇一致。

DoorDash 给每个工程师设月度 token 上限，超支要写理由，再提交下月改善计划。一家千人规模的美国养老金公司，Copilot token 用完后只能用免费低配模型——GPT-5 mini、GPT-4.1、Grok Code Fast 1。满血版成了限量版。

OpenCode 创始人 Dax Raad 最近的采访里说，过去一个月每一次企业级咨询——“every single inbound enterprise request”——都在问怎么降成本。多家有收入的创业公司开始让开发者买多个 Claude Code Max 或 Codex Max 订阅：一个 Max $200/月封顶，走 API 可能要烧 $2000。

这些不是孤立动作。AI 正在从"装上就随便用"切到"跑了多少要算账"。

four-types

对号入座一下你在哪一档：

刚开始用 AI 工具：还没账单焦虑，最多再撑一个季度
AI 用量正在爬坡：年底预算会肯定有人问"AI 那条线为什么涨这么快"
已经出现 token spike：你的 team lead 可能已经在研究模型路由了
已经在限速/降级模型：你们在管理这件事，而不是被它管理

一个 2015 年的剧本

这件事的骨架不新。

2015 年前后云计算走过一模一样的路。第一年，“开一台 instance 才几毛钱”——各团队随便开，没有配额、没有告警。年底财务把 AWS 账单拉出来，翻了五倍。

第二年，FinOps 这词出现了：成本归属、月度告警、异常 spike 复盘。第三年，cloud cost efficiency 写进了晋升答辩。

AI 现在刚走到第一年末。

智能模型路由本质上就是 FinOps 那套思路搬到 LLM 上：一个变量命名建议，GPT-5 mini 做到 95 分、Opus 到 98 分——那 3 分之差不值得价差 20 倍。跨文件架构重构、长上下文 RAG，才值得派满血版。这不是砍福利，是按任务复杂度匹配模型等级——跟十年前按 workload 匹配 EC2 instance type 同一套逻辑。

创业公司买多个 Max 订阅代替 API 也是这个逻辑：高频任务从按量计费切到固定月费，单次成本差一个数量级。

你的 AI 可能正在变慢

如果你用的是公司提供的 AI 工具，下面四条中两条，说明你们已经在限速路径上了：

Copilot 补全速度比两个月前慢了
Team lead 站会里开始问"这个能不能用便宜模型跑"
公司工程周会出现了"AI 使用效率"专题
GitHub Copilot 设置页多了"free tier models"选项

三条现在就可以做的事：

建自己的模型路由心智。写 prompt 调 terminal 命令，mini 模型够了。跨文件重构，再上满血版。现在开始记录"什么任务→什么模型→花多少 token"——以后你的绩效里要出现这组数字。
盯月度 token 消耗趋势。Anthropic Console、OpenAI Usage、GitHub Copilot 后台都有。大部分 spike 不是你在疯狂写代码，是 agent 在长上下文循环里反复读同一个文件。
开始记录模型效果差。同一段重构任务用 Opus 和 GPT-5 mini 分别跑一次，记下差异。不是让你做 benchmark——是以后别人问"为什么这段必须用满血版"时，你能甩出数字而不是"感觉它更好"。

踩刹车不是退步

这大概是最容易看反的地方。

没人给玩具设配额。只有真正在运转、在消耗、在影响财务报表的东西，才值得上监控、做路由、设月度上限。AI 限速的另一面恰恰是：它从实验品正式走进了基础设施的机房。

厂商在宣传"AI 越来越便宜"、企业在踩刹车——矛盾吗？便宜的是边际成本：单次调用从 $0.15 降到 $0.08。贵的是规模化总账单：1000 个工程师每人每天 200 次调用，单价砍半，总支出还是六位数。

Sam Altman 最近也公开承认 AI 预算对某些公司是重大问题。供给端 CEO 在认需求端的压力——这条信号的分量，比任何第三方调研都重。

三个月前写过一篇"token 自由"——个人用户从 Max 降回 Pro。现在企业端在做的事本质一样，只是规模大了两个量级，工具从"个人决定"变成"组织政策"。

Pragmatic Engineer 的 Gergely 写了一个判断：下一次绩效评审里，帮公司省了 token 费用的工程师，会像两年前帮公司省第三方服务费的工程师一样被表彰。 DoorDash 已经在做了。

以后你跟同事聊 AI 工具，话题多了一个维度。“它能不能做这个"是三年前的问题，现在是"做这个要花多少 token”。

AI 的账单正在变成工程师的第二份代码评审——第一份看代码写得怎么样，第二份看写这段代码花了多少智能。这道缝就是未来工程师分层的新轴线。