Paper

论文速读：RL 推理为什么扩不动——熵崩溃机制与 Clip-Cov/KL-Cov

5 min read · Jun 5, 2026

💡 一句话总结：用 RL 训推理模型，性能提前触顶往往不是数据或算力不够，而是策略熵早早塌缩、探索被烧光。这篇论文把熵崩溃精确归因到「协方差」，并用 Clip-Cov、KL-Cov 只给少数高协方差 token 踩刹车，就把探索续上了。

一、RLVR 的隐形天花板

可验证奖励的强化学习（RLVR）是这一轮推理模型的主力训练范式：给模型一道有标准答案的题，对了给奖励、错了不给，让它在 RL 里自己摸索出更好的推理链。它确实有效，但从业者反复撞到同一堵墙——性能扩着扩着就饱和了，再加步数、加算力也拱不动。

这篇来自 PRIME-RL 团队的论文（arXiv 2505.22617，《The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models》）把矛头指向一个常被当成「副产物」的指标：策略熵。

二、现象：熵在早期就烧光了

策略熵衡量模型输出分布的不确定性。熵高，模型愿意在多个候选之间探索；熵低，它高度确定、几乎只走一条路。

论文观察到一个跨大量 RL 运行都成立的现象：在没有任何熵干预时，策略熵在训练早期就急剧下降并稳定在很低的水平。 模型迅速变得过度自信，探索空间被烧光。

更关键的是，他们发现熵和下游性能之间存在一种可预测的此消彼长：随着熵被消耗、性能提升逐渐放缓并趋于饱和；当熵逼近 0，性能也基本触顶。换句话说，熵就是 RLVR 的「燃料」，烧完了，scaling 也就停了。 这把一个模糊的「训练后期收益递减」变成了一个可观测、可预警的量。

三、机制：熵的变化由协方差驱动

论文最硬核的贡献是从理论上回答了「熵为什么会单调下降」。结论是：策略熵的变化，由动作概率与其 logit 更新量之间的协方差决定，而这个协方差与策略梯度中的优势相关。

直觉上可以这样理解（用 Cov 表示这个协方差项）：

当一个动作既已是高概率、又拿到高优势时，梯度更新会进一步抬高它的概率，分布变得更尖锐——熵下降。
当一个罕见动作拿到高优势时，更新会把概率往它身上分一些，分布被摊开——熵上升。

论文进一步发现：训练过程中，这个 Cov 项大部分时间为正，于是综合效果就是熵单调往下掉。他们还做了实证核对——Cov 项的逐步数值与实际观测到的熵变几乎完全吻合，从经验上坐实了这个理论。

这一步很重要：它把「熵崩溃」从一个模糊的现象，定位成了一个有明确数学来源的问题。来源清楚了，干预就能精准。

四、药方：只给高协方差 token 踩刹车

既然熵崩溃来自少数高协方差 token 把分布推得过尖，那解法就不该是「全局更随机」，而该是「精准刹车」。论文给出两个轻量策略：

Clip-Cov（裁剪协方差）：识别出协方差异常高的那部分 token，限制它们参与更新的步长。相当于不让这些最容易压熵的 token 把概率分布推得太尖，从源头上缓住熵的下滑。
KL-Cov（KL 惩罚协方差）：对高协方差 token 施加 KL 惩罚，约束它们偏离参考分布的幅度，达到类似效果。

两者的共同点是：只动那一小撮真正在吃熵的 token，其余照常优化目标。 实验显示，它们都能帮策略逃出熵崩溃、维持更长时间的探索，并在下游推理任务上取得更好的表现——且模型越大，收益往往越明显，因为大模型的 RL scaling 更受熵天花板掣肘。

五、和传统熵正则的区别

有人会问：这不就是熵正则（entropy bonus）的变体吗？

不是。传统熵正则无差别地给所有 token 的熵加奖励，鼓励整体更随机。它很钝：系数调大，模型乱探索、训练发散；调小，又压不住崩溃。超参极难平衡，这也是为什么很多团队干脆不用它。

这篇论文的进步在于先搞清了「为什么会崩」——少数高协方差 token——再据此对症下药。Clip-Cov/KL-Cov 是局部、精准的干预，副作用比全局熵正则小得多。这是「机制理解」带来的工程红利：不再靠玄学调系数，而是定位到病灶再处理。

六、工程含义

对在训练推理模型的团队，这篇论文有几条可直接落地的启示：

把策略熵当一等监控指标。熵曲线提前塌缩，往往预示性能即将饱和——它是比 loss 更早的预警信号。
别迷信「堆步数硬扩」。熵烧光后，再多步只是在已知路径上打转，RL 的提升空间已经被关上。
优先试精准干预而非全局熵正则。Clip-Cov/KL-Cov 只针对高协方差 token，更可控、副作用更小。
复现成本不高。论文与 verl 等框架已有参考实现，可在 Qwen 等开源模型上直接验证。

七、小结

RLVR 扩不动，很多时候不是数据或算力的问题，而是策略熵早早塌缩、探索被烧光。这篇论文的价值，是把这个长期被当成「副产物」的现象，拆成了一个有明确协方差来源、可观测、可干预的机制问题。Clip-Cov 和 KL-Cov 证明了：只要看懂熵为什么崩，给少数 token 精准踩一脚刹车，就能把探索续上、把天花板抬高。理解机制，永远比盲目调参走得更远。

Frequently asked questions

策略熵崩溃到底是什么，为什么是个问题？: 策略熵衡量模型输出分布的不确定性，熵高意味着它愿意在多个候选 token 之间探索，熵低意味着它高度确定、几乎只走一条路。RLVR 训练里反复观察到：策略熵在早期就急剧下降并趋于很低，模型迅速变得过度自信，探索空间被烧光。问题在于，强化学习的提升本质上依赖探索——找到比当前策略更好的轨迹。熵一旦塌缩，模型就只在已知的少数路径上打转，性能提前触顶，再加算力也扩不动。它是 RLVR scaling 的一道隐形天花板。
论文说熵的变化由「协方差」驱动，这是什么意思？: 论文从理论上推出：策略熵的变化，由动作概率和对应 logit 更新量之间的协方差决定，而这个协方差又与策略梯度里的优势（advantage）相关。直觉是：当一个动作既已经是高概率、又拿到高优势时，更新会进一步抬高它的概率，分布更尖锐、熵下降；反过来，当一个罕见动作拿到高优势时，更新会把概率分散出去，熵上升。论文发现训练中这个协方差项大部分时间为正，于是熵就单调往下掉。他们还验证了协方差项的数值与实际熵变几乎逐步吻合，支撑了这个理论结论。
Clip-Cov 和 KL-Cov 这两个药方分别怎么做？: 两者都只针对「高协方差」的少数 token 下手，而不动整体目标。Clip-Cov 是裁剪：识别出协方差异常高的 token，限制它们参与更新的步长，相当于不让这些最容易压低熵的 token 把分布推得太尖。KL-Cov 是惩罚：对高协方差 token 施加 KL 惩罚项，约束它们偏离参考分布的幅度。两者目标一致——给最容易吃掉熵的那部分 token 踩刹车，从而把整体策略熵稳住，让探索得以延续。它们都很轻量，不需要改奖励或大改算法框架。
这和直接加个熵正则项（entropy bonus）有什么区别？: 传统熵正则是「无差别」地给所有 token 的熵加奖励，鼓励整体更随机。问题是它很钝：调大了模型乱探索、训练不稳，调小了又压不住崩溃，超参极难平衡。这篇论文的洞察是熵崩溃有明确的局部来源——少数高协方差 token，于是 Clip-Cov/KL-Cov 做的是「精准打击」：只给这些真正在压熵的 token 踩刹车，其余照常优化。这比全局熵正则更可控，也更少副作用，本质上是把『为什么会崩』搞清楚后对症下药，而非笼统地往回拽。
这对训练推理模型的团队有什么实际指导？: 第一，把策略熵当成核心监控指标，而不是训练完才看的副产物——熵曲线提前塌缩往往预示性能即将饱和。第二，别只靠堆算力和步数硬扩 RLVR，熵一旦烧光，再多步也只是原地打转。第三，与其反复调全局熵正则的系数，不如试 Clip-Cov/KL-Cov 这类针对高协方差 token 的精准干预，副作用更小。第四，论文与 verl 等框架已有参考实现，可在 Qwen 等开源模型上直接复现验证，落地成本不高。

// next.txt ›

One signal per week. No AI filler.

🛠️ Work With Me

AI engineering, hands-on

Architecture review, RAG audit, build sprints.

Reach senior AI engineers

Newsletter slots, sponsored deep-dives.

Some outbound links in this post are affiliate links — see disclosure.