Long-form

Token 越来越便宜，账单却越来越贵：AI 推理经济学的拐点

5 min read · Jun 4, 2026

💡 一句话总结：企业开始给 AI 限额，不是因为 AI 失败，而是因为它太成功——这是 Jevons 悖论在算力上的重演。Token 越便宜，用得越凶，账单越高。理解这一点，才能在拐点上做对决策。

一、一个反直觉的头条

2026 年中，一组看似矛盾的新闻同时上了头条：一边是「大模型 token 价格两年降了上百倍」，另一边是「企业开始像配给稀缺品一样限制员工用 AI」——有报道称某些岗位的月度 AI 预算被压成固定额度，超额即停；财经媒体用「AI sticker shock（账单惊吓）」来形容企业的反应；甚至有评论直接抛出「AI 没有 ROI」的暴论。

把这些拼起来，一个问题浮出水面：单价跌了上百倍，账单怎么反而爆了？

答案不在「AI 是不是泡沫」这种口水仗里，而在推理经济学的三个结构性变化里。

二、Jevons 悖论：越便宜，越贵

19 世纪，经济学家杰文斯发现一件怪事：蒸汽机效率提升、烧同样的煤能做更多功之后，英国的煤炭总消耗不降反升。原因是效率提升让煤变得「更划算」，于是它被用到了更多以前用不起的场景，总需求的暴涨盖过了单位效率的提升。

Token 经济正在重演这一幕。当每百万 token 从几十美元跌到几美分，开发者的心态彻底变了：

以前舍不得做的整库分析，现在直接把几十万行代码塞进上下文；
以前只敢给核心功能上 AI，现在给每个用户、每个页面都配个助手；
以前批处理要精打细算，现在后台全量跑 AI 标注、AI 摘要。

单价的下降是线性的，用量的爆发是指数的。两条曲线一交叉，总账单就掉头向上。便宜本身，成了消耗的加速器。

三、推理占比从 40% 到 85%：成本重心的迁移

第二个变化更底层。2023 年，推理大约只占企业 AI 总算力支出的四成，训练才是大头。到 2026 年，这个比例倒过来了——推理占到约 85%。

这背后是 AI 从「训练阶段的实验室项目」变成「推理阶段的生产系统」。训练是一次性的资本开支，跑完就结束；推理是持续的运营开支，用一次花一次，且随业务规模线性甚至超线性增长。

这个迁移悄悄改写了竞争规则。当成本重心在训练时，比的是「谁能训出更强的模型」；当重心转向推理，比的变成「谁的单位推理成本更低」。推理引擎的吞吐、芯片的性价比、缓存命中率、模型蒸馏与量化——这些过去被当作「优化细节」的东西，现在直接决定一个 AI 产品的毛利率。

四、Agentic 放大器：单次任务的 token 通胀

第三个、也是最被低估的变化，是 agentic 工作流对 token 的放大。

一次普通问答可能就几千 token。但一个 agent 任务——让它改一个 bug、调研一个主题、跑一遍数据分析——是个循环：读文件、调工具、看结果、再决策、再行动。每一轮，都要把不断增长的上下文重新喂一遍模型。

于是 token 消耗不是加法，是带累积的乘法：

单次问答:        ~5K tokens
一个 coding agent 任务:
  10 轮循环 × (累积上下文 8K→80K) ≈ 数十万 ~ 上百万 tokens
  → 单次问答的几十到几百倍

Agent 越自主、跑得越久、上下文积得越多，放大倍数越夸张。当一个团队从「偶尔问问 AI」升级到「让 agent 后台常驻干活」，账单不是涨一截，是换一个数量级。这正是很多公司「上了 agent 才发现成本失控」的根因。

五、企业的反应：配给,以及为什么是配给

面对这三股力量，企业的第一反应是配给——给团队、给岗位设 AI 预算上限，超了就限速或停用。

配给看着粗暴，逻辑却很清楚：AI 的收益是弥散的（每个人快了一点，难以归到某条收入线），而成本是集中且可见的（一张实打实的发票）。当账单从试点期的零头涨成需要单独立项的大头，在回报算清楚之前，先把成本摁住，是 CFO 的理性选择。

所以「给 AI 限额」不是 AI 失败的信号，而是它从免费试用期进入要算账的成熟期的信号。真正的问题不是「要不要用 AI」，而是「每一块钱的 token 花得值不值」。

六、工程团队的应对：四条杠杆

抱怨账单没用，把单位价值做高才是出路。按性价比排序，四条杠杆：

模型分层路由：别拿旗舰模型干所有活。简单分类、抽取、改写走小模型或便宜模型，只有真正难的推理才上旗舰。一套靠谱的路由，常能砍掉一半以上成本。
激进缓存：把系统提示、文档、代码库这些不变的前缀用 prompt caching 缓存住，命中后这部分几乎免费。长上下文 + 高重复前缀的场景，缓存收益最大。
控制上下文增长：给 agent 的历史及时压缩、只留相关片段，别每轮都重喂全量。上下文是 token 账单的主要变量，管住它就管住了大头。
给 agent 上预算护栏：设 token 预算、步数上限、超时回滚。失控的 agent 循环是最隐蔽的烧钱方式，护栏不是限制能力，是防止账单意外。

七、趋势判断：推理效率即护城河

把这三个变化叠在一起，方向已经很清楚：推理效率正在成为 AI 产品的核心护城河。

模型能力会继续趋同——开源追闭源、各家拉不开代差。但在同样的能力下，谁的单位推理成本更低，谁就能在同样的价格里给用户更多、或在同样的体验下赚更多。这把竞争从「秀肌肉」拉回到「算毛利」，对工程团队反而是好消息：缓存、路由、量化、上下文管理这些扎实的工程功夫，第一次直接挂钩商业结果。

Token 越来越便宜是真的，账单越来越贵也是真的。这两件事不矛盾——它们是同一枚硬币的两面。看懂这枚硬币，才能在推理经济学的拐点上，把 AI 用成资产而不是负债。

Frequently asked questions

Token 单价都降了上百倍了，为什么公司的 AI 总账单反而涨了？: 这是经典的 Jevons 悖论：当一种资源变得更便宜、更好用时，总消耗量的增长会超过单价的下降。Token 便宜了，于是大家开始把它用在以前舍不得用的地方——长上下文整库分析、agentic 多轮循环、给每个用户配 AI 助手、后台批量处理。用量的增长是指数级的，单价的下降是线性追不上的。结果就是单价跌、总量涨、账单创新高。历史上蒸汽机效率提升后煤炭消耗反而暴增，是同一个机制。
为什么 agentic 工作流会让成本失控？它和普通调用差在哪？: 普通一问一答可能就几千 token。但一个 agentic 任务——比如让 Agent 改一个 bug——会循环很多轮：读文件、调工具、看结果、再决策、再行动，每一轮都把不断增长的上下文重新喂一遍模型。一个中等复杂度的 coding agent 任务消耗几十万甚至上百万 token 很常见，是单次问答的几十到几百倍。更要命的是上下文随轮数累积，token 消耗常常是超线性增长。Agent 越自主、跑得越久，账单放大得越狠。
企业给 AI 设使用上限，是不是说明 AI 投资回报不行？: 更准确地说，是回报难以度量、而成本变得显眼了。AI 的收益往往分散在「每个人快了一点」上，难以记到某条收入线上；而账单是一张实打实的发票。当成本从「试点期的零头」涨到「需要单独立项的大头」，CFO 自然会要求可量化的回报，配给和限额就是在回报说不清前先把成本摁住的手段。这不等于 AI 没价值，而是它从「免费试用期」进入了「要算账」的成熟期。
作为工程团队，面对推理成本暴涨能做什么实际优化？: 几条杠杆按性价比排序：一是模型分层路由，简单任务走小模型/便宜模型，只有难任务才上旗舰模型，这往往能砍掉一大半成本；二是激进利用缓存（prompt caching），把系统提示、文档、代码库等不变前缀缓存住，命中后这部分近乎免费；三是控制 agent 的上下文增长，及时压缩历史、只保留相关片段，别让每轮都把全量历史重喂；四是给 agent 设 token 预算和步数上限，防止失控循环烧钱。
推理在总算力中占比从 40% 升到 85%，这对行业意味着什么？: 意味着 AI 的成本重心已经从「训练一次性投入」彻底转向「推理持续支出」。训练是资本开支，跑完就完了；推理是运营开支，用得越多花得越多，且随业务规模线性甚至超线性增长。这把竞争焦点从「谁能训出更强的模型」部分转移到「谁的单位推理成本更低」——推理引擎效率、芯片性价比、缓存命中率、模型蒸馏与量化，这些以前的「优化细节」现在直接决定毛利率。推理效率正在成为新的护城河。

// next.txt ›

One signal per week. No AI filler.

🛠️ Work With Me

AI engineering, hands-on

Architecture review, RAG audit, build sprints.

Reach senior AI engineers

Newsletter slots, sponsored deep-dives.

Some outbound links in this post are affiliate links — see disclosure.