💡 一句话总结:企业开始给 AI 限额,不是因为 AI 失败,而是因为它太成功——这是 Jevons 悖论在算力上的重演。Token 越便宜,用得越凶,账单越高。理解这一点,才能在拐点上做对决策。
一、一个反直觉的头条
2026 年中,一组看似矛盾的新闻同时上了头条:一边是「大模型 token 价格两年降了上百倍」,另一边是「企业开始像配给稀缺品一样限制员工用 AI」——有报道称某些岗位的月度 AI 预算被压成固定额度,超额即停;财经媒体用「AI sticker shock(账单惊吓)」来形容企业的反应;甚至有评论直接抛出「AI 没有 ROI」的暴论。
把这些拼起来,一个问题浮出水面:单价跌了上百倍,账单怎么反而爆了?
答案不在「AI 是不是泡沫」这种口水仗里,而在推理经济学的三个结构性变化里。
二、Jevons 悖论:越便宜,越贵
19 世纪,经济学家杰文斯发现一件怪事:蒸汽机效率提升、烧同样的煤能做更多功之后,英国的煤炭总消耗不降反升。原因是效率提升让煤变得「更划算」,于是它被用到了更多以前用不起的场景,总需求的暴涨盖过了单位效率的提升。
Token 经济正在重演这一幕。当每百万 token 从几十美元跌到几美分,开发者的心态彻底变了:
- 以前舍不得做的整库分析,现在直接把几十万行代码塞进上下文;
- 以前只敢给核心功能上 AI,现在给每个用户、每个页面都配个助手;
- 以前批处理要精打细算,现在后台全量跑 AI 标注、AI 摘要。
单价的下降是线性的,用量的爆发是指数的。两条曲线一交叉,总账单就掉头向上。便宜本身,成了消耗的加速器。
三、推理占比从 40% 到 85%:成本重心的迁移
第二个变化更底层。2023 年,推理大约只占企业 AI 总算力支出的四成,训练才是大头。到 2026 年,这个比例倒过来了——推理占到约 85%。
这背后是 AI 从「训练阶段的实验室项目」变成「推理阶段的生产系统」。训练是一次性的资本开支,跑完就结束;推理是持续的运营开支,用一次花一次,且随业务规模线性甚至超线性增长。
这个迁移悄悄改写了竞争规则。当成本重心在训练时,比的是「谁能训出更强的模型」;当重心转向推理,比的变成「谁的单位推理成本更低」。推理引擎的吞吐、芯片的性价比、缓存命中率、模型蒸馏与量化——这些过去被当作「优化细节」的东西,现在直接决定一个 AI 产品的毛利率。
四、Agentic 放大器:单次任务的 token 通胀
第三个、也是最被低估的变化,是 agentic 工作流对 token 的放大。
一次普通问答可能就几千 token。但一个 agent 任务——让它改一个 bug、调研一个主题、跑一遍数据分析——是个循环:读文件、调工具、看结果、再决策、再行动。每一轮,都要把不断增长的上下文重新喂一遍模型。
于是 token 消耗不是加法,是带累积的乘法:
单次问答: ~5K tokens
一个 coding agent 任务:
10 轮循环 × (累积上下文 8K→80K) ≈ 数十万 ~ 上百万 tokens
→ 单次问答的几十到几百倍
Agent 越自主、跑得越久、上下文积得越多,放大倍数越夸张。当一个团队从「偶尔问问 AI」升级到「让 agent 后台常驻干活」,账单不是涨一截,是换一个数量级。这正是很多公司「上了 agent 才发现成本失控」的根因。
五、企业的反应:配给,以及为什么是配给
面对这三股力量,企业的第一反应是配给——给团队、给岗位设 AI 预算上限,超了就限速或停用。
配给看着粗暴,逻辑却很清楚:AI 的收益是弥散的(每个人快了一点,难以归到某条收入线),而成本是集中且可见的(一张实打实的发票)。当账单从试点期的零头涨成需要单独立项的大头,在回报算清楚之前,先把成本摁住,是 CFO 的理性选择。
所以「给 AI 限额」不是 AI 失败的信号,而是它从免费试用期进入要算账的成熟期的信号。真正的问题不是「要不要用 AI」,而是「每一块钱的 token 花得值不值」。
六、工程团队的应对:四条杠杆
抱怨账单没用,把单位价值做高才是出路。按性价比排序,四条杠杆:
- 模型分层路由:别拿旗舰模型干所有活。简单分类、抽取、改写走小模型或便宜模型,只有真正难的推理才上旗舰。一套靠谱的路由,常能砍掉一半以上成本。
- 激进缓存:把系统提示、文档、代码库这些不变的前缀用 prompt caching 缓存住,命中后这部分几乎免费。长上下文 + 高重复前缀的场景,缓存收益最大。
- 控制上下文增长:给 agent 的历史及时压缩、只留相关片段,别每轮都重喂全量。上下文是 token 账单的主要变量,管住它就管住了大头。
- 给 agent 上预算护栏:设 token 预算、步数上限、超时回滚。失控的 agent 循环是最隐蔽的烧钱方式,护栏不是限制能力,是防止账单意外。
七、趋势判断:推理效率即护城河
把这三个变化叠在一起,方向已经很清楚:推理效率正在成为 AI 产品的核心护城河。
模型能力会继续趋同——开源追闭源、各家拉不开代差。但在同样的能力下,谁的单位推理成本更低,谁就能在同样的价格里给用户更多、或在同样的体验下赚更多。这把竞争从「秀肌肉」拉回到「算毛利」,对工程团队反而是好消息:缓存、路由、量化、上下文管理这些扎实的工程功夫,第一次直接挂钩商业结果。
Token 越来越便宜是真的,账单越来越贵也是真的。这两件事不矛盾——它们是同一枚硬币的两面。看懂这枚硬币,才能在推理经济学的拐点上,把 AI 用成资产而不是负债。