Long-form

Token 越来越便宜,账单却越来越贵:AI 推理经济学的拐点

5 min read ·

💡 一句话总结:企业开始给 AI 限额,不是因为 AI 失败,而是因为它太成功——这是 Jevons 悖论在算力上的重演。Token 越便宜,用得越凶,账单越高。理解这一点,才能在拐点上做对决策。

一、一个反直觉的头条

2026 年中,一组看似矛盾的新闻同时上了头条:一边是「大模型 token 价格两年降了上百倍」,另一边是「企业开始像配给稀缺品一样限制员工用 AI」——有报道称某些岗位的月度 AI 预算被压成固定额度,超额即停;财经媒体用「AI sticker shock(账单惊吓)」来形容企业的反应;甚至有评论直接抛出「AI 没有 ROI」的暴论。

把这些拼起来,一个问题浮出水面:单价跌了上百倍,账单怎么反而爆了?

答案不在「AI 是不是泡沫」这种口水仗里,而在推理经济学的三个结构性变化里。

二、Jevons 悖论:越便宜,越贵

19 世纪,经济学家杰文斯发现一件怪事:蒸汽机效率提升、烧同样的煤能做更多功之后,英国的煤炭总消耗不降反升。原因是效率提升让煤变得「更划算」,于是它被用到了更多以前用不起的场景,总需求的暴涨盖过了单位效率的提升。

Token 经济正在重演这一幕。当每百万 token 从几十美元跌到几美分,开发者的心态彻底变了:

单价的下降是线性的,用量的爆发是指数的。两条曲线一交叉,总账单就掉头向上。便宜本身,成了消耗的加速器。

三、推理占比从 40% 到 85%:成本重心的迁移

第二个变化更底层。2023 年,推理大约只占企业 AI 总算力支出的四成,训练才是大头。到 2026 年,这个比例倒过来了——推理占到约 85%

这背后是 AI 从「训练阶段的实验室项目」变成「推理阶段的生产系统」。训练是一次性的资本开支,跑完就结束;推理是持续的运营开支,用一次花一次,且随业务规模线性甚至超线性增长

这个迁移悄悄改写了竞争规则。当成本重心在训练时,比的是「谁能训出更强的模型」;当重心转向推理,比的变成「谁的单位推理成本更低」。推理引擎的吞吐、芯片的性价比、缓存命中率、模型蒸馏与量化——这些过去被当作「优化细节」的东西,现在直接决定一个 AI 产品的毛利率。

四、Agentic 放大器:单次任务的 token 通胀

第三个、也是最被低估的变化,是 agentic 工作流对 token 的放大。

一次普通问答可能就几千 token。但一个 agent 任务——让它改一个 bug、调研一个主题、跑一遍数据分析——是个循环:读文件、调工具、看结果、再决策、再行动。每一轮,都要把不断增长的上下文重新喂一遍模型

于是 token 消耗不是加法,是带累积的乘法:

单次问答:        ~5K tokens
一个 coding agent 任务:
  10 轮循环 × (累积上下文 8K→80K) ≈ 数十万 ~ 上百万 tokens
  → 单次问答的几十到几百倍

Agent 越自主、跑得越久、上下文积得越多,放大倍数越夸张。当一个团队从「偶尔问问 AI」升级到「让 agent 后台常驻干活」,账单不是涨一截,是换一个数量级。这正是很多公司「上了 agent 才发现成本失控」的根因。

五、企业的反应:配给,以及为什么是配给

面对这三股力量,企业的第一反应是配给——给团队、给岗位设 AI 预算上限,超了就限速或停用。

配给看着粗暴,逻辑却很清楚:AI 的收益是弥散的(每个人快了一点,难以归到某条收入线),而成本是集中且可见的(一张实打实的发票)。当账单从试点期的零头涨成需要单独立项的大头,在回报算清楚之前,先把成本摁住,是 CFO 的理性选择。

所以「给 AI 限额」不是 AI 失败的信号,而是它从免费试用期进入要算账的成熟期的信号。真正的问题不是「要不要用 AI」,而是「每一块钱的 token 花得值不值」。

六、工程团队的应对:四条杠杆

抱怨账单没用,把单位价值做高才是出路。按性价比排序,四条杠杆:

  1. 模型分层路由:别拿旗舰模型干所有活。简单分类、抽取、改写走小模型或便宜模型,只有真正难的推理才上旗舰。一套靠谱的路由,常能砍掉一半以上成本。
  2. 激进缓存:把系统提示、文档、代码库这些不变的前缀用 prompt caching 缓存住,命中后这部分几乎免费。长上下文 + 高重复前缀的场景,缓存收益最大。
  3. 控制上下文增长:给 agent 的历史及时压缩、只留相关片段,别每轮都重喂全量。上下文是 token 账单的主要变量,管住它就管住了大头。
  4. 给 agent 上预算护栏:设 token 预算、步数上限、超时回滚。失控的 agent 循环是最隐蔽的烧钱方式,护栏不是限制能力,是防止账单意外。

七、趋势判断:推理效率即护城河

把这三个变化叠在一起,方向已经很清楚:推理效率正在成为 AI 产品的核心护城河。

模型能力会继续趋同——开源追闭源、各家拉不开代差。但在同样的能力下,谁的单位推理成本更低,谁就能在同样的价格里给用户更多、或在同样的体验下赚更多。这把竞争从「秀肌肉」拉回到「算毛利」,对工程团队反而是好消息:缓存、路由、量化、上下文管理这些扎实的工程功夫,第一次直接挂钩商业结果。

Token 越来越便宜是真的,账单越来越贵也是真的。这两件事不矛盾——它们是同一枚硬币的两面。看懂这枚硬币,才能在推理经济学的拐点上,把 AI 用成资产而不是负债。

Frequently asked questions

Token 单价都降了上百倍了,为什么公司的 AI 总账单反而涨了?
这是经典的 Jevons 悖论:当一种资源变得更便宜、更好用时,总消耗量的增长会超过单价的下降。Token 便宜了,于是大家开始把它用在以前舍不得用的地方——长上下文整库分析、agentic 多轮循环、给每个用户配 AI 助手、后台批量处理。用量的增长是指数级的,单价的下降是线性追不上的。结果就是单价跌、总量涨、账单创新高。历史上蒸汽机效率提升后煤炭消耗反而暴增,是同一个机制。
为什么 agentic 工作流会让成本失控?它和普通调用差在哪?
普通一问一答可能就几千 token。但一个 agentic 任务——比如让 Agent 改一个 bug——会循环很多轮:读文件、调工具、看结果、再决策、再行动,每一轮都把不断增长的上下文重新喂一遍模型。一个中等复杂度的 coding agent 任务消耗几十万甚至上百万 token 很常见,是单次问答的几十到几百倍。更要命的是上下文随轮数累积,token 消耗常常是超线性增长。Agent 越自主、跑得越久,账单放大得越狠。
企业给 AI 设使用上限,是不是说明 AI 投资回报不行?
更准确地说,是回报难以度量、而成本变得显眼了。AI 的收益往往分散在「每个人快了一点」上,难以记到某条收入线上;而账单是一张实打实的发票。当成本从「试点期的零头」涨到「需要单独立项的大头」,CFO 自然会要求可量化的回报,配给和限额就是在回报说不清前先把成本摁住的手段。这不等于 AI 没价值,而是它从「免费试用期」进入了「要算账」的成熟期。
作为工程团队,面对推理成本暴涨能做什么实际优化?
几条杠杆按性价比排序:一是模型分层路由,简单任务走小模型/便宜模型,只有难任务才上旗舰模型,这往往能砍掉一大半成本;二是激进利用缓存(prompt caching),把系统提示、文档、代码库等不变前缀缓存住,命中后这部分近乎免费;三是控制 agent 的上下文增长,及时压缩历史、只保留相关片段,别让每轮都把全量历史重喂;四是给 agent 设 token 预算和步数上限,防止失控循环烧钱。
推理在总算力中占比从 40% 升到 85%,这对行业意味着什么?
意味着 AI 的成本重心已经从「训练一次性投入」彻底转向「推理持续支出」。训练是资本开支,跑完就完了;推理是运营开支,用得越多花得越多,且随业务规模线性甚至超线性增长。这把竞争焦点从「谁能训出更强的模型」部分转移到「谁的单位推理成本更低」——推理引擎效率、芯片性价比、缓存命中率、模型蒸馏与量化,这些以前的「优化细节」现在直接决定毛利率。推理效率正在成为新的护城河。
// next.txt ›

Some outbound links in this post are affiliate links — see disclosure.