AI 工具越来越便宜,为什么企业反而在踩刹车?
最近几个月,两条本应同向的曲线,开始背道而驰。
一条是厂商的定价曲线:token 单价一直在跌。DeepSeek V4 把推理成本压到一年前的 1/53,OpenAI 每发一个新模型、价格再降十几个点。满屏都是"AI 越来越便宜"。
另一条是企业的使用曲线:Uber CTO 三月在一档播客里说了一句让很多工程负责人后背发凉的话——“we had blown through our AI budget for 2026 and it was the middle of March”。AI 全年预算,三月中旬清零。
一件事越来越便宜,花钱的人反而在踩刹车——到底谁的账算错了?
先看几条新闻
不是 Uber 一家。过去一个月,信号出奇一致。
DoorDash 给每个工程师设月度 token 上限,超支要写理由,再提交下月改善计划。一家千人规模的美国养老金公司,Copilot token 用完后只能用免费低配模型——GPT-5 mini、GPT-4.1、Grok Code Fast 1。满血版成了限量版。
OpenCode 创始人 Dax Raad 最近的采访里说,过去一个月每一次企业级咨询——“every single inbound enterprise request”——都在问怎么降成本。多家有收入的创业公司开始让开发者买多个 Claude Code Max 或 Codex Max 订阅:一个 Max $200/月封顶,走 API 可能要烧 $2000。
这些不是孤立动作。AI 正在从"装上就随便用"切到"跑了多少要算账"。

对号入座一下你在哪一档:
- 刚开始用 AI 工具:还没账单焦虑,最多再撑一个季度
- AI 用量正在爬坡:年底预算会肯定有人问"AI 那条线为什么涨这么快"
- 已经出现 token spike:你的 team lead 可能已经在研究模型路由了
- 已经在限速/降级模型:你们在管理这件事,而不是被它管理
一个 2015 年的剧本
这件事的骨架不新。
2015 年前后云计算走过一模一样的路。第一年,“开一台 instance 才几毛钱”——各团队随便开,没有配额、没有告警。年底财务把 AWS 账单拉出来,翻了五倍。
第二年,FinOps 这词出现了:成本归属、月度告警、异常 spike 复盘。第三年,cloud cost efficiency 写进了晋升答辩。
AI 现在刚走到第一年末。
智能模型路由本质上就是 FinOps 那套思路搬到 LLM 上:一个变量命名建议,GPT-5 mini 做到 95 分、Opus 到 98 分——那 3 分之差不值得价差 20 倍。跨文件架构重构、长上下文 RAG,才值得派满血版。这不是砍福利,是按任务复杂度匹配模型等级——跟十年前按 workload 匹配 EC2 instance type 同一套逻辑。
创业公司买多个 Max 订阅代替 API 也是这个逻辑:高频任务从按量计费切到固定月费,单次成本差一个数量级。
你的 AI 可能正在变慢
如果你用的是公司提供的 AI 工具,下面四条中两条,说明你们已经在限速路径上了:
- Copilot 补全速度比两个月前慢了
- Team lead 站会里开始问"这个能不能用便宜模型跑"
- 公司工程周会出现了"AI 使用效率"专题
- GitHub Copilot 设置页多了"free tier models"选项
三条现在就可以做的事:
-
建自己的模型路由心智。写 prompt 调 terminal 命令,mini 模型够了。跨文件重构,再上满血版。现在开始记录"什么任务→什么模型→花多少 token"——以后你的绩效里要出现这组数字。
-
盯月度 token 消耗趋势。Anthropic Console、OpenAI Usage、GitHub Copilot 后台都有。大部分 spike 不是你在疯狂写代码,是 agent 在长上下文循环里反复读同一个文件。
-
开始记录模型效果差。同一段重构任务用 Opus 和 GPT-5 mini 分别跑一次,记下差异。不是让你做 benchmark——是以后别人问"为什么这段必须用满血版"时,你能甩出数字而不是"感觉它更好"。
踩刹车不是退步
这大概是最容易看反的地方。
没人给玩具设配额。只有真正在运转、在消耗、在影响财务报表的东西,才值得上监控、做路由、设月度上限。AI 限速的另一面恰恰是:它从实验品正式走进了基础设施的机房。
厂商在宣传"AI 越来越便宜"、企业在踩刹车——矛盾吗?便宜的是边际成本:单次调用从 $0.15 降到 $0.08。贵的是规模化总账单:1000 个工程师每人每天 200 次调用,单价砍半,总支出还是六位数。
Sam Altman 最近也公开承认 AI 预算对某些公司是重大问题。供给端 CEO 在认需求端的压力——这条信号的分量,比任何第三方调研都重。
三个月前写过一篇"token 自由"——个人用户从 Max 降回 Pro。现在企业端在做的事本质一样,只是规模大了两个量级,工具从"个人决定"变成"组织政策"。
Pragmatic Engineer 的 Gergely 写了一个判断:下一次绩效评审里,帮公司省了 token 费用的工程师,会像两年前帮公司省第三方服务费的工程师一样被表彰。 DoorDash 已经在做了。
以后你跟同事聊 AI 工具,话题多了一个维度。“它能不能做这个"是三年前的问题,现在是"做这个要花多少 token”。
AI 的账单正在变成工程师的第二份代码评审——第一份看代码写得怎么样,第二份看写这段代码花了多少智能。这道缝就是未来工程师分层的新轴线。
