Paper

论文速读:RL 推理为什么扩不动——熵崩溃机制与 Clip-Cov/KL-Cov

5 min read ·

💡 一句话总结:用 RL 训推理模型,性能提前触顶往往不是数据或算力不够,而是策略熵早早塌缩、探索被烧光。这篇论文把熵崩溃精确归因到「协方差」,并用 Clip-Cov、KL-Cov 只给少数高协方差 token 踩刹车,就把探索续上了。

一、RLVR 的隐形天花板

可验证奖励的强化学习(RLVR)是这一轮推理模型的主力训练范式:给模型一道有标准答案的题,对了给奖励、错了不给,让它在 RL 里自己摸索出更好的推理链。它确实有效,但从业者反复撞到同一堵墙——性能扩着扩着就饱和了,再加步数、加算力也拱不动。

这篇来自 PRIME-RL 团队的论文(arXiv 2505.22617,《The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models》)把矛头指向一个常被当成「副产物」的指标:策略熵

二、现象:熵在早期就烧光了

策略熵衡量模型输出分布的不确定性。熵高,模型愿意在多个候选之间探索;熵低,它高度确定、几乎只走一条路。

论文观察到一个跨大量 RL 运行都成立的现象:在没有任何熵干预时,策略熵在训练早期就急剧下降并稳定在很低的水平。 模型迅速变得过度自信,探索空间被烧光。

更关键的是,他们发现熵和下游性能之间存在一种可预测的此消彼长:随着熵被消耗、性能提升逐渐放缓并趋于饱和;当熵逼近 0,性能也基本触顶。换句话说,熵就是 RLVR 的「燃料」,烧完了,scaling 也就停了。 这把一个模糊的「训练后期收益递减」变成了一个可观测、可预警的量。

三、机制:熵的变化由协方差驱动

论文最硬核的贡献是从理论上回答了「熵为什么会单调下降」。结论是:策略熵的变化,由动作概率与其 logit 更新量之间的协方差决定,而这个协方差与策略梯度中的优势相关。

直觉上可以这样理解(用 Cov 表示这个协方差项):

论文进一步发现:训练过程中,这个 Cov大部分时间为正,于是综合效果就是熵单调往下掉。他们还做了实证核对——Cov 项的逐步数值与实际观测到的熵变几乎完全吻合,从经验上坐实了这个理论。

这一步很重要:它把「熵崩溃」从一个模糊的现象,定位成了一个有明确数学来源的问题。来源清楚了,干预就能精准。

四、药方:只给高协方差 token 踩刹车

既然熵崩溃来自少数高协方差 token 把分布推得过尖,那解法就不该是「全局更随机」,而该是「精准刹车」。论文给出两个轻量策略:

两者的共同点是:只动那一小撮真正在吃熵的 token,其余照常优化目标。 实验显示,它们都能帮策略逃出熵崩溃、维持更长时间的探索,并在下游推理任务上取得更好的表现——且模型越大,收益往往越明显,因为大模型的 RL scaling 更受熵天花板掣肘。

五、和传统熵正则的区别

有人会问:这不就是熵正则(entropy bonus)的变体吗?

不是。传统熵正则无差别地给所有 token 的熵加奖励,鼓励整体更随机。它很钝:系数调大,模型乱探索、训练发散;调小,又压不住崩溃。超参极难平衡,这也是为什么很多团队干脆不用它。

这篇论文的进步在于先搞清了「为什么会崩」——少数高协方差 token——再据此对症下药。Clip-Cov/KL-Cov 是局部、精准的干预,副作用比全局熵正则小得多。这是「机制理解」带来的工程红利:不再靠玄学调系数,而是定位到病灶再处理。

六、工程含义

对在训练推理模型的团队,这篇论文有几条可直接落地的启示:

  1. 把策略熵当一等监控指标。熵曲线提前塌缩,往往预示性能即将饱和——它是比 loss 更早的预警信号。
  2. 别迷信「堆步数硬扩」。熵烧光后,再多步只是在已知路径上打转,RL 的提升空间已经被关上。
  3. 优先试精准干预而非全局熵正则。Clip-Cov/KL-Cov 只针对高协方差 token,更可控、副作用更小。
  4. 复现成本不高。论文与 verl 等框架已有参考实现,可在 Qwen 等开源模型上直接验证。

七、小结

RLVR 扩不动,很多时候不是数据或算力的问题,而是策略熵早早塌缩、探索被烧光。这篇论文的价值,是把这个长期被当成「副产物」的现象,拆成了一个有明确协方差来源、可观测、可干预的机制问题。Clip-Cov 和 KL-Cov 证明了:只要看懂熵为什么崩,给少数 token 精准踩一脚刹车,就能把探索续上、把天花板抬高。理解机制,永远比盲目调参走得更远。

Frequently asked questions

策略熵崩溃到底是什么,为什么是个问题?
策略熵衡量模型输出分布的不确定性,熵高意味着它愿意在多个候选 token 之间探索,熵低意味着它高度确定、几乎只走一条路。RLVR 训练里反复观察到:策略熵在早期就急剧下降并趋于很低,模型迅速变得过度自信,探索空间被烧光。问题在于,强化学习的提升本质上依赖探索——找到比当前策略更好的轨迹。熵一旦塌缩,模型就只在已知的少数路径上打转,性能提前触顶,再加算力也扩不动。它是 RLVR scaling 的一道隐形天花板。
论文说熵的变化由「协方差」驱动,这是什么意思?
论文从理论上推出:策略熵的变化,由动作概率和对应 logit 更新量之间的协方差决定,而这个协方差又与策略梯度里的优势(advantage)相关。直觉是:当一个动作既已经是高概率、又拿到高优势时,更新会进一步抬高它的概率,分布更尖锐、熵下降;反过来,当一个罕见动作拿到高优势时,更新会把概率分散出去,熵上升。论文发现训练中这个协方差项大部分时间为正,于是熵就单调往下掉。他们还验证了协方差项的数值与实际熵变几乎逐步吻合,支撑了这个理论结论。
Clip-Cov 和 KL-Cov 这两个药方分别怎么做?
两者都只针对「高协方差」的少数 token 下手,而不动整体目标。Clip-Cov 是裁剪:识别出协方差异常高的 token,限制它们参与更新的步长,相当于不让这些最容易压低熵的 token 把分布推得太尖。KL-Cov 是惩罚:对高协方差 token 施加 KL 惩罚项,约束它们偏离参考分布的幅度。两者目标一致——给最容易吃掉熵的那部分 token 踩刹车,从而把整体策略熵稳住,让探索得以延续。它们都很轻量,不需要改奖励或大改算法框架。
这和直接加个熵正则项(entropy bonus)有什么区别?
传统熵正则是「无差别」地给所有 token 的熵加奖励,鼓励整体更随机。问题是它很钝:调大了模型乱探索、训练不稳,调小了又压不住崩溃,超参极难平衡。这篇论文的洞察是熵崩溃有明确的局部来源——少数高协方差 token,于是 Clip-Cov/KL-Cov 做的是「精准打击」:只给这些真正在压熵的 token 踩刹车,其余照常优化。这比全局熵正则更可控,也更少副作用,本质上是把『为什么会崩』搞清楚后对症下药,而非笼统地往回拽。
这对训练推理模型的团队有什么实际指导?
第一,把策略熵当成核心监控指标,而不是训练完才看的副产物——熵曲线提前塌缩往往预示性能即将饱和。第二,别只靠堆算力和步数硬扩 RLVR,熵一旦烧光,再多步也只是原地打转。第三,与其反复调全局熵正则的系数,不如试 Clip-Cov/KL-Cov 这类针对高协方差 token 的精准干预,副作用更小。第四,论文与 verl 等框架已有参考实现,可在 Qwen 等开源模型上直接复现验证,落地成本不高。
// next.txt ›

Some outbound links in this post are affiliate links — see disclosure.