💡 一句话总结:用 RL 训推理模型,性能提前触顶往往不是数据或算力不够,而是策略熵早早塌缩、探索被烧光。这篇论文把熵崩溃精确归因到「协方差」,并用 Clip-Cov、KL-Cov 只给少数高协方差 token 踩刹车,就把探索续上了。
一、RLVR 的隐形天花板
可验证奖励的强化学习(RLVR)是这一轮推理模型的主力训练范式:给模型一道有标准答案的题,对了给奖励、错了不给,让它在 RL 里自己摸索出更好的推理链。它确实有效,但从业者反复撞到同一堵墙——性能扩着扩着就饱和了,再加步数、加算力也拱不动。
这篇来自 PRIME-RL 团队的论文(arXiv 2505.22617,《The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models》)把矛头指向一个常被当成「副产物」的指标:策略熵。
二、现象:熵在早期就烧光了
策略熵衡量模型输出分布的不确定性。熵高,模型愿意在多个候选之间探索;熵低,它高度确定、几乎只走一条路。
论文观察到一个跨大量 RL 运行都成立的现象:在没有任何熵干预时,策略熵在训练早期就急剧下降并稳定在很低的水平。 模型迅速变得过度自信,探索空间被烧光。
更关键的是,他们发现熵和下游性能之间存在一种可预测的此消彼长:随着熵被消耗、性能提升逐渐放缓并趋于饱和;当熵逼近 0,性能也基本触顶。换句话说,熵就是 RLVR 的「燃料」,烧完了,scaling 也就停了。 这把一个模糊的「训练后期收益递减」变成了一个可观测、可预警的量。
三、机制:熵的变化由协方差驱动
论文最硬核的贡献是从理论上回答了「熵为什么会单调下降」。结论是:策略熵的变化,由动作概率与其 logit 更新量之间的协方差决定,而这个协方差与策略梯度中的优势相关。
直觉上可以这样理解(用 Cov 表示这个协方差项):
- 当一个动作既已是高概率、又拿到高优势时,梯度更新会进一步抬高它的概率,分布变得更尖锐——熵下降。
- 当一个罕见动作拿到高优势时,更新会把概率往它身上分一些,分布被摊开——熵上升。
论文进一步发现:训练过程中,这个 Cov 项大部分时间为正,于是综合效果就是熵单调往下掉。他们还做了实证核对——Cov 项的逐步数值与实际观测到的熵变几乎完全吻合,从经验上坐实了这个理论。
这一步很重要:它把「熵崩溃」从一个模糊的现象,定位成了一个有明确数学来源的问题。来源清楚了,干预就能精准。
四、药方:只给高协方差 token 踩刹车
既然熵崩溃来自少数高协方差 token 把分布推得过尖,那解法就不该是「全局更随机」,而该是「精准刹车」。论文给出两个轻量策略:
- Clip-Cov(裁剪协方差):识别出协方差异常高的那部分 token,限制它们参与更新的步长。相当于不让这些最容易压熵的 token 把概率分布推得太尖,从源头上缓住熵的下滑。
- KL-Cov(KL 惩罚协方差):对高协方差 token 施加 KL 惩罚,约束它们偏离参考分布的幅度,达到类似效果。
两者的共同点是:只动那一小撮真正在吃熵的 token,其余照常优化目标。 实验显示,它们都能帮策略逃出熵崩溃、维持更长时间的探索,并在下游推理任务上取得更好的表现——且模型越大,收益往往越明显,因为大模型的 RL scaling 更受熵天花板掣肘。
五、和传统熵正则的区别
有人会问:这不就是熵正则(entropy bonus)的变体吗?
不是。传统熵正则无差别地给所有 token 的熵加奖励,鼓励整体更随机。它很钝:系数调大,模型乱探索、训练发散;调小,又压不住崩溃。超参极难平衡,这也是为什么很多团队干脆不用它。
这篇论文的进步在于先搞清了「为什么会崩」——少数高协方差 token——再据此对症下药。Clip-Cov/KL-Cov 是局部、精准的干预,副作用比全局熵正则小得多。这是「机制理解」带来的工程红利:不再靠玄学调系数,而是定位到病灶再处理。
六、工程含义
对在训练推理模型的团队,这篇论文有几条可直接落地的启示:
- 把策略熵当一等监控指标。熵曲线提前塌缩,往往预示性能即将饱和——它是比 loss 更早的预警信号。
- 别迷信「堆步数硬扩」。熵烧光后,再多步只是在已知路径上打转,RL 的提升空间已经被关上。
- 优先试精准干预而非全局熵正则。Clip-Cov/KL-Cov 只针对高协方差 token,更可控、副作用更小。
- 复现成本不高。论文与 verl 等框架已有参考实现,可在 Qwen 等开源模型上直接验证。
七、小结
RLVR 扩不动,很多时候不是数据或算力的问题,而是策略熵早早塌缩、探索被烧光。这篇论文的价值,是把这个长期被当成「副产物」的现象,拆成了一个有明确协方差来源、可观测、可干预的机制问题。Clip-Cov 和 KL-Cov 证明了:只要看懂熵为什么崩,给少数 token 精准踩一脚刹车,就能把探索续上、把天花板抬高。理解机制,永远比盲目调参走得更远。