💡 一句话总结:BASIS 通过 batch 内跨 prompt 信息共享,让单样本 RL 的价值估计精度超过 8 样本 GRPO,把 RLVR 训练的采样开销降低 8 倍且几乎不损失推理性能。
论文基本信息
- 标题:BASIS: Batchwise Advantage Estimation from Single-Rollout Information Sharing
- arXiv:2605.27293,2026 年 5 月 26 日提交
- 作者:Shijin Gong, Erhan Xu, Kai Ye 等
- 关键词:单样本强化学习、批次信息共享、优势估计、价值函数、RLVR
核心问题:计算效率和样本效率的两难
用可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)提升 LLM 的推理能力,已经成为后训练阶段的标准做法。从 DeepSeek-R1 到 Qwen3,几乎所有前沿推理模型都在 SFT 之后加了一轮 RL 训练。
但 RLVR 训练有一个绕不开的核心矛盾:计算效率 vs 样本效率。
多样本方法:估计准但计算贵
GRPO(Group Relative Policy Optimization)是当前最主流的 RLVR 算法之一。它的做法是对每个 prompt 采样多条推理轨迹(通常 8 条甚至更多),然后用组内均值作为基线来估计每条轨迹的优势函数(advantage)。
优势函数的估计精度至关重要——它决定了策略梯度的信噪比。GRPO 的组内均值基线是一个合理的估计器:当采样数量 G 足够大时,组内均值趋近于真实的价值函数。但这个「足够大」带来了巨大的计算成本。
假设一个 batch 有 64 个 prompt,每个 prompt 采 8 条轨迹,总共需要做 512 次前向推理。其中 7/8 的推理仅仅是为了给那 1/8 提供更准的基线估计——这是极大的资源浪费。对于 GPU 受限的团队,这意味着要么减少 batch size,要么减少采样数,两者都会伤害训练效果。
单样本方法:计算快但估计粗
REINFORCE++ 等方法走了另一个极端:每个 prompt 只采一条轨迹。采样成本降到了最低,但优势估计的精度也降到了最低——只有一个样本,根本无法通过组内对比来估计价值函数。
REINFORCE++ 的常见做法是用全局 running mean 作为基线:维护一个指数移动平均的全局奖励均值,用每条轨迹的奖励减去这个均值作为优势估计。这个估计极其粗糙——不同 prompt 的难度差异巨大,用同一个全局均值做基线,简单题的正确答案会被低估,困难题的错误答案会被高估。
矛盾的本质
把这个矛盾总结成一句话:多采几条看得更清楚,但多采几条也多花几倍钱。
GRPO 和 REINFORCE++ 分别站在这条 trade-off 曲线的两端。GRPO 用 8 倍的计算换精度,REINFORCE++ 用精度换速度。所有之前的工作——DAPO、Dr.GRPO、RLOO 等——都是在这条曲线上选不同的点,没有人试图改变曲线本身。
BASIS 的目标是:改变曲线。
BASIS 方法:跨 prompt 信息共享
BASIS 的核心洞察非常简洁:一个 batch 里有 64 个 prompt,每个 prompt 采了一条轨迹,虽然单独看每个 prompt 只有一个样本,但 batch 整体上有 64 个样本。这些样本之间的信息是可以共享的。
为什么信息可以共享
考虑一个直觉性的例子。假设 batch 里有两个数学题:
- Prompt A:一道简单的线性方程,模型采到了正确答案,奖励 = 1
- Prompt B:一道困难的微积分题,模型采到了错误答案,奖励 = 0
如果只看各自的奖励,我们只知道 A 做对了、B 做错了。但如果我们知道这个 batch 里 80% 的 prompt 都拿到了奖励 1(说明模型整体水平不低),那么:
- Prompt A 的奖励 1 就不那么令人惊讶——大家都做对了,这条轨迹的「优势」(advantage)应该接近零
- Prompt B 的奖励 0 也就更有信息量——大多数题都做对了但这道没做对,说明它确实难,这条轨迹的「劣势」(disadvantage)应该较大
这就是信息共享的直觉:每个 prompt 的价值函数估计,可以借助 batch 内其他 prompt 的奖励分布来改进。
价值函数估计的具体机制
BASIS 构建了一个基于 batch 统计量的价值函数估计器。与 REINFORCE++ 只用一个全局标量均值不同,BASIS 利用了更丰富的 batch 结构信息。
核心思路可以用伪代码概括:
def basis_advantage(batch_rewards, batch_features):
"""
batch_rewards: shape [B], 每个 prompt 一条轨迹的奖励
batch_features: shape [B, d], 每条轨迹的特征向量
"""
# 1. 用 batch 内所有样本拟合一个价值函数估计器
# 而不是简单地取均值
value_estimator = fit_batch_value_function(
features=batch_features,
rewards=batch_rewards
)
# 2. 用估计器预测每个 prompt 的价值基线
baselines = value_estimator.predict(batch_features)
# 3. 优势 = 奖励 - 基线
advantages = batch_rewards - baselines
return advantages
关键在于 fit_batch_value_function 这一步。BASIS 不是简单地算一个标量均值,而是利用 batch 内所有 prompt 的轨迹特征和奖励,拟合一个参数化的价值函数。这个函数能够根据每个 prompt 的特征(比如 prompt 长度、题目类型、中间步骤特征等)给出个性化的基线估计,而不是对所有 prompt 用同一个数字。
💡 类比理解:REINFORCE++ 的全局均值基线就像给全班同学的考试成绩都减去班级平均分——学霸和学渣用同一个基线。GRPO 的组内均值就像同一道题做多次取平均——准确但费时。BASIS 的做法像是看了全班所有同学的所有科目成绩,建立一个模型来预测每个同学在每道题上的「预期得分」——既个性化又利用了全局信息。
为什么不需要 Critic 网络
读到这里可能有人会问:「这不就是在训练一个价值网络(critic)吗?」
关键区别在于:BASIS 的价值估计器不是一个需要梯度更新的神经网络,而是一个在每个 batch 上即时拟合的统计模型。它不需要反向传播,不占用额外显存,不引入训练不稳定性。每个 batch 到来时,用当前 batch 的数据拟合一次,用完即弃。
这让 BASIS 保持了 critic-free 方法的所有工程优势——单一模型、简单训练循环、稳定收敛——同时获得了接近 critic 方法的价值估计精度。
核心实验结果
价值函数估计精度
论文最有说服力的实验是直接比较不同方法的价值函数估计 MSE(均方误差)。真实价值函数通过大量采样(每个 prompt 128 条轨迹)的经验均值来近似。
| 方法 | 估计方式 | 相对 MSE |
|---|---|---|
| REINFORCE++ | 全局 running mean | 基线(1.00) |
| GRPO(G=4) | 4 样本组内均值 | 0.58 |
| GRPO(G=8) | 8 样本组内均值 | 0.42 |
| BASIS(G=1) | 单样本 + batch 信息共享 | 0.31 |
几个关键发现:
- 单样本 BASIS 的估计误差比 8 样本 GRPO 还低——这是论文最核心的结果。用 1/8 的采样量拿到了更好的估计精度,直接打破了「多采才能准」的固有认知
- 相对 REINFORCE++ 降低 69%——这意味着策略梯度的信噪比提高了 3 倍以上
- MSE 的降低不是来自更多的采样,而是来自更聪明的信息利用
训练效率对比
在相同的训练 token 预算下,各方法的最终推理性能对比:
- BASIS(单样本) vs GRPO(8 样本):性能接近(差距在 1% 以内),但 BASIS 的壁钟时间(wall-clock time)减少了约 6-7 倍
- BASIS vs REINFORCE++:相同的单样本计算开销,BASIS 的最终性能显著优于 REINFORCE++,差距在 3-5% 之间
- BASIS vs DAPO、Dr.GRPO:这些改进型 GRPO 变体仍然需要多样本采样,BASIS 在效率-性能曲线上占据更优位置
训练稳定性
论文还展示了训练曲线的对比。REINFORCE++ 的训练曲线波动剧烈,因为每步的梯度估计噪声很大;GRPO 的曲线平滑但进度慢(每步计算量大);BASIS 的曲线兼具了两者的优点——步进速度快(单样本),曲线波动小(估计精度高)。
跨任务泛化
论文在数学推理(GSM8K、MATH)、代码生成和逻辑推理等多个任务上验证了 BASIS 的效果。一个值得注意的趋势是:任务越难,BASIS 的优势越明显。
这很好理解:简单任务的大多数轨迹奖励都接近 1,价值函数估计的难度低,不同方法的差距不大。难任务的奖励分布更复杂、方差更大,精确的价值估计更重要,BASIS 的 batch 信息共享机制就更能体现价值。
与已有方法的系统对比
GRPO:同族但不同策略
GRPO 和 BASIS 都是 critic-free 方法,都用采样奖励直接估计优势函数。区别在于估计策略:
- GRPO:在同一个 prompt 内纵向比较——同一道题的多条轨迹互相比较
- BASIS:在 batch 内横向比较——不同 prompt 的轨迹之间共享信息
GRPO 的纵向比较更「纯粹」——同一道题的不同轨迹直接可比。但代价是每道题都要采多条。BASIS 的横向比较引入了跨题目的噪声,但通过统计方法控制了这个噪声,最终在更低的计算成本下达到了更高的估计精度。
REINFORCE++:同是单样本,但估计精度天差地别
REINFORCE++ 和 BASIS 都是单样本方法,计算成本几乎相同。但 REINFORCE++ 的全局 running mean 基线过于粗糙——它假设所有 prompt 的期望奖励相同,这显然是错的。
BASIS 用 batch 信息共享构建的个性化基线,本质上是在承认并利用「不同 prompt 难度不同」这一事实。这就是 69% MSE 降低的来源。
DAPO 和 Dr.GRPO:改良而非革新
DAPO(Dynamic Advantage Policy Optimization)和 Dr.GRPO 是对 GRPO 的改进变体,通过更好的 advantage normalization、clip 策略或采样策略来提升效果。但它们没有从根本上解决多样本开销问题——仍然需要每个 prompt 采多条轨迹。
BASIS 和这些方法不在同一个维度上竞争:DAPO/Dr.GRPO 优化的是「多样本怎么用得更好」,BASIS 解决的是「能不能只用一个样本」。两者甚至可以结合——先用 BASIS 做单样本估计,再把 DAPO 的 normalization 技巧应用于 BASIS 的优势估计值。
工程实践意义
1. GPU 受限团队的 RLVR 方案
这是 BASIS 最直接的工程价值。假设你有一个 8xA100 集群,想对 7B 模型做 RLVR 训练:
- GRPO(G=8):每个 prompt 采 8 条轨迹,batch size = 64 → 需要做 512 次推理,一个 batch 可能需要 10+ 分钟
- BASIS(G=1):每个 prompt 采 1 条轨迹,同样 batch size = 64 → 只需 64 次推理,一个 batch 约 1-2 分钟
训练时间从一周缩短到一两天,而最终推理性能几乎无损。对大多数学术实验室和中小团队来说,这可能是决定「能不能做 RLVR」的关键因素。
2. 与现有框架的集成
BASIS 的实现不需要魔改训练框架的核心逻辑。在 OpenRLHF 或 veRL 中,核心改动集中在 advantage 计算模块:
# 原来的 GRPO advantage 计算
def grpo_advantage(group_rewards):
"""group_rewards: shape [B, G]"""
baseline = group_rewards.mean(dim=1, keepdim=True)
advantages = group_rewards - baseline
return advantages
# BASIS advantage 计算
def basis_advantage(single_rewards, batch_features):
"""
single_rewards: shape [B], 每个 prompt 一条轨迹
batch_features: shape [B, d]
"""
# 用 batch 信息拟合价值估计器
value_baseline = batch_value_estimator(
batch_features, single_rewards
)
advantages = single_rewards - value_baseline
return advantages
采样循环从 for g in range(G) 变成不需要循环,advantage 计算从组内均值变成 batch 信息共享估计器。其余的策略梯度计算、PPO clip、KL 约束等完全不变。
3. 适用场景判断
BASIS 最适合的场景:
- 可验证奖励:数学推理(有标准答案)、代码生成(有测试用例)、逻辑推理(有正确性校验)。这些任务的奖励信号是精确的二值或离散值
- prompt 多样性高:batch 内的 prompt 涵盖不同难度和类型,信息共享的增益最大
- GPU 预算有限:这是 BASIS 相对 GRPO 的核心优势场景
不太适合的场景:
- 开放域生成(如创意写作):奖励信号本身就是模糊的,价值函数估计的精度提升意义有限
- batch size 极小(如 <8):batch 内样本太少,信息共享的统计效力不足
- 对训练速度不敏感:如果你有足够的 GPU 集群,GRPO 的多样本采样不是瓶颈,BASIS 的优势不明显
4. 与 DMPO 的互补关系
有趣的是,BASIS 和前两天速读的 DMPO 解决的是 RLVR 训练中不同维度的问题:
- DMPO:解决模式崩塌——模型只学会一种推理路径的问题(KL 方向选择)
- BASIS:解决计算效率——多样本采样过于昂贵的问题(价值估计策略)
两者在技术上是正交的,理论上可以结合使用:用 BASIS 的信息共享做优势估计(解决效率问题),用 DMPO 的前向 KL 做策略更新(解决多样性问题)。这个结合是否有效值得后续工作探索。
局限与开放问题
-
batch 信息共享的理论保证:论文主要通过实验验证了 BASIS 的有效性,但跨 prompt 信息共享的理论基础还不够充分。在什么条件下信息共享一定能改善估计精度?prompt 分布的什么特性会影响共享效果?这些理论问题值得更深入的分析
-
特征选择:BASIS 需要从轨迹中提取特征来拟合价值估计器,特征的选择和质量直接影响估计精度。论文使用了哪些特征、不同特征的贡献有多大,值得更细致的消融分析
-
大规模模型验证:论文的实验规模集中在 7B-14B 级别的模型。在 70B+ 模型上,batch size 通常更小(显存限制),信息共享的统计效力是否足够?采样效率的提升是否能弥补可能的估计精度下降?
-
与 online RL 的交互:BASIS 的 batch 信息共享假设 batch 内的样本来自同一个策略版本。在 online RL 场景下,如果 batch 内混合了不同策略版本的样本(如异步训练),信息共享的有效性可能受影响
-
动态调整机制:训练初期模型能力弱、奖励信号高方差,batch 信息共享的增益可能最大;训练后期模型趋于收敛、奖励分布变窄,简单的均值基线可能就够用了。一个自适应的策略——训练初期用 BASIS、后期回退到更简单的估计器——可能效果更好
总结
BASIS 这篇论文的核心贡献是提出了一个简洁而有效的洞察:同一个 batch 里不同 prompt 的信息是可以共享的。这个洞察让单样本 RL 方法获得了超越多样本方法的价值估计精度,打破了计算效率和样本效率之间看似不可调和的矛盾。
最让人印象深刻的数字是:单样本 BASIS 的估计 MSE 比 8 样本 GRPO 还低。这不是靠堆计算量实现的改进,而是靠「更聪明地利用已有信息」实现的飞跃。
对于 RLVR 从业者的实用建议很明确:如果你正在用 GRPO 训练推理模型但被采样成本困扰,BASIS 值得尝试。实现改动集中在 advantage 计算模块,不需要重构训练框架,预期可以将训练时间缩短 6-8 倍,而性能损失控制在 1% 以内。
这篇论文和 DMPO 一起,构成了 2026 年 5 月 RLVR 领域的两个重要改进方向——一个解决效率,一个解决多样性——为推理模型训练的工程实践提供了更多选择。
Sources: