Paper

SU-01 论文速读:30B-A3B 模型如何用简单食谱拿下奥数金牌

9 min read ·

💡 一句话总结:SU-01 用「简单食谱 + 测试时扩展」证明了在 verifiable 任务上,30B 专科模型可以超过万亿参数通才——参数效率比模型规模更重要。

论文一句话定位

Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling 来自上海 AI 实验室、复旦大学、上海交通大学联合团队,发表于 arXiv 2026 年 5 月。

研究问题:能否用简单统一的食谱,把通用推理模型转化为奥赛级解题器? 已有方案:复杂的工具调用(DeepSeek-Prover、AlphaGeometry)、多 agent 协作(IMO-Prover) 本文贡献:仅靠后训练和推理扩展,无外部工具,达到金牌水平

模型规模:30B 总参,3B 激活(MoE 架构),简称 30B-A3B。命名来源于 Shanghai University One(致敬 OpenAI o1,但完全开源)。

背景:奥数 AI 三派论战

LLM 攻克数学奥赛是 2024-2026 的热门赛道,目前有三个流派:

流派 A:工具增强派 代表:DeepSeek-Prover、AlphaGeometry。让 LLM 调用 Lean、Coq 等形式化证明工具,把自然语言推理转化为机器可验证的证明。优点是答案严谨,缺点是工程复杂、对非形式题(几何、组合)效果差。

流派 B:多 Agent 协作派 代表:IMO-Prover、Math-Coder。多个 agent 分工——出题、解题、验证、改进。优点是模拟人类解题流程,缺点是 token 消耗巨大、协调复杂。

流派 C:纯后训练派 代表:OpenAI o1/o3/GPT-5、Claude Opus 4.7。靠 RLHF + Chain-of-Thought + 推理扩展。优点是简洁通用,缺点是需要超大模型规模。

SU-01 走的是流派 C,但用 30B 小模型证明了参数规模不是关键——关键是后训练食谱。

核心方法:三步食谱

SU-01 的方法可以浓缩成三步:

Step 1: Reverse-Perplexity Curriculum SFT
        → 灌入证明结构 + 自检行为

Step 2: Two-Stage RL
        → Stage 2a: Proof Search RL
        → Stage 2b: Self-Check RL

Step 3: Test-Time Scaling
        → Best-of-N + Self-Consistency

每一步都不新颖,但组合起来形成了一个完整的食谱。下面详细拆解。

Step 1:Reverse-Perplexity 课程 SFT

SFT 阶段的数据是 80 万条数学竞赛题,包含官方题目(IMO、USAMO、CMO 等)和模型合成题(用 GPT-4o 改编)。

传统做法是按难度从易到难训练。SU-01 反其道而行:

# 伪代码:Reverse-Perplexity 采样
def reverse_perplexity_sample(model, dataset, batch_size):
    # 计算每个样本在当前模型下的 perplexity
    ppls = [compute_ppl(model, x) for x in dataset]
    
    # 按 PPL 降序加权采样(高 PPL = 高优先级)
    weights = softmax(ppls, temperature=0.5)
    indices = np.random.choice(len(dataset), batch_size, p=weights)
    
    return [dataset[i] for i in indices]

为什么 reverse-perplexity 比传统课程更好?论文给了一个清晰的解释:

模型对低 PPL 题目(已经会的)训练梯度很小,对高 PPL 题目(最惊讶的)梯度很大。先训练高 PPL 题相当于「先抓住学习信号最强的样本」,类似主动学习。

实测对比(IMO 验证集上的 pass@1):

课程策略收敛步数最终 pass@1
Random Shuffle50K12.3%
Easy-to-Hard35K14.1%
Reverse-Perplexity22K18.5%

收敛快 2.3 倍,最终性能高 6 个百分点。

Step 2a:Proof Search RL

SFT 之后的模型已经能生成像样的证明,但准确率仍然只有 18.5%。RL 阶段解决「生成有效证明」的问题。

Reward 设计

算法:GRPO(Group Relative Policy Optimization,来自 DeepSeek 团队的算法)

# 伪代码:GRPO 训练循环
for batch in dataloader:
    # 对每道题采样 G=16 个不同解答
    responses = [model.generate(batch.prompt) for _ in range(16)]
    
    # 计算每个解答的 reward
    rewards = [compute_reward(r, batch.answer) for r in responses]
    
    # 组内归一化(关键)
    advantages = (rewards - rewards.mean()) / rewards.std()
    
    # 用 advantage 加权做策略梯度
    loss = -policy_log_prob(responses) * advantages
    loss.backward()
    optimizer.step()

GRPO 相比 PPO 不需要 value network,节省一半算力。这对 RL 训练奥数模型至关重要——奥数 RL 的 episode 长度极长(一个证明 10000+ token),传统 PPO 几乎不可行。

实测 Proof Search RL 30K 步后,pass@1 从 18.5% 提升到 32%。

Step 2b:Self-Check RL

Proof Search RL 解决了「生成」问题,但模型仍然会犯隐蔽错误(比如代数变形错一个符号)。Self-Check RL 训练模型「识别自己的错误」。

关键 trick:构造「错误证明 + 自检批注」对,让模型学会指出错误。

Input: 
  Problem: <题目>
  Proof: <某个有错的证明>
  Task: Identify any errors in the proof above. If correct, output "VALID".

Reward: 
  - 正确识别错误位置:+1.0
  - 把正确证明判错(false positive):-0.5
  - 把错误证明判对(false negative):-1.0

数据构造方式是从 Proof Search RL 阶段的失败案例中采样,每条记录都标注了错误位置。50K 条这样的数据训练 10K 步,让模型 self-check 准确率达到 89%。

完成 Self-Check RL 后,pass@1 从 32% 提升到 41%。

Step 3:测试时扩展

到这里 SU-01 在 IMO 上 pass@1 是 41%,离金牌(约 70%)还有距离。最后一步是测试时扩展。

做法:对每道题生成 N=64 个不同的解题路径,然后用模型自己做 self-judge 选出最优。

def best_of_n_with_self_judge(model, problem, n=64):
    # 1. 生成 N 个独立解答
    candidates = [model.solve(problem, temperature=0.7) for _ in range(n)]
    
    # 2. 用 Self-Check 模式判定每个候选
    judgments = [model.self_check(problem, c) for c in candidates]
    
    # 3. 过滤掉 self-judge 认为有错的
    valid = [c for c, j in zip(candidates, judgments) if j.is_valid]
    
    # 4. 在剩下的里面 majority vote
    return majority_vote([c.final_answer for c in valid])

测试时扩展的 scaling 曲线(IMO 2025 验证):

NPass@N
141%
455%
864%
1670%
3275%
6480%

N=16 已经达到金牌门槛(IMO 金牌约 70% 正确率,对应 28+/42 分)。N=64 进一步推高到 80%。

实验结果

SU-01 在四个权威奥赛基准上做了完整评测。

IMO 2025(数学)

模型总分 / 42等级
人类金牌门槛28
GPT-531
Claude Opus 4.733
Gemini 3 Pro29
SU-01 (N=64)35
SU-01 (N=16)30
SU-01 (N=1)18

SU-01 在 N=64 时拿到 35 分,超过所有公开 LLM。30B 模型超过万亿参数模型,主要靠测试时扩展。

USAMO 2026(美国数学奥赛)

模型总分 / 42等级
GPT-524
Claude Opus 4.727
SU-01 (N=64)30

IPhO 2025(国际物理奥赛)

模型实验理论总分
人类金牌门槛18/3025/4043
GPT-5192241 (银)
SU-01 (N=32)222749 (金)

USACO 2026(编程竞赛)

模型BronzeSilverGoldPlatinum
GPT-5
Claude Opus 4.7
SU-01

SU-01 是首个达到 USACO 白金组(最高级)水平的开源 30B 模型。

算力成本拆解

阶段算力时长成本估算
预训练(继承自 InternLM3)已有-$0
SFT(80 万样本)128 H1003 天$14k
Proof Search RL256 H1007 天$66k
Self-Check RL128 H1004 天$19k
总训练成本--~$100k

10 万美元在大模型训练里属于「白菜价」。对比 GPT-5 训练成本(估计 1-3 亿美元),SU-01 是 1000-3000 倍 cost efficiency。

测试时成本(每道题):

NToken 用量API 成本
112k$0.04
16192k$0.6
64768k$2.4

跑一道 IMO 题花 2.4 美元,比请奥数家教便宜。

与同类工作对比

把 SU-01 放到 2024-2026 的奥数 AI 发展线上:

模型时间参数方法核心IMO 等级
AlphaGeometry2024.01-神经引导 + Lean几何金牌
GPT-420241.7T通用 + CoT铜(不稳定)
OpenAI o12024.09未公开隐式 CoT
DeepSeek-Prover-V1.52024.107BLean + RL金牌(仅几何)
OpenAI o32024.12未公开强化 CoT + RL
AlphaProof2025.07-RL + AlphaZero金(Lean 加持)
GPT-52026.01未公开多模态 + Agent
Claude Opus 4.72026.04未公开extended thinking
SU-012026.0530B简单食谱 + 推理扩展金(开源)

SU-01 是首个开源 + 30B 规模 + 金牌水平的三位一体奥数模型。这意味着学术机构可以本地复现和改进。

工程启示

SU-01 论文对 LLM 工程师的启示比纯学术价值更大。三个核心 takeaway:

启示 1:参数规模不是关键,专科训练才是

如果你的应用领域是「窄而深 + 有自动验证」(编程、数学、形式逻辑),用 SU-01 食谱训练一个 7B-30B 专科模型,可能比调用 GPT-5 API 更便宜+更快+更准。

启示 2:测试时扩展是「免费」的性能提升

模型训练好后,测试时多花 16-64 倍算力可以获得 30-50% 的性能提升。对于「答错代价大」的场景(医疗诊断、法律文书审查),这种交换非常划算。

启示 3:Reverse-perplexity 课程值得在所有 SFT 任务上试

传统 SFT 都是 random shuffle 或者按难度递增,reverse-perplexity 是免费午餐:实现 30 行代码,收敛快 2 倍,性能高 3-6 个百分点。

⚠️ 警告:reverse-perplexity 需要模型自身能计算 PPL,对外部 API 模型(GPT、Claude)不可用。仅适用于开源模型微调。

不足与开放问题

1. 验证奖励的依赖性 SU-01 食谱依赖「答案对错可自动判定」。开放式任务(写文章、做产品设计、医疗诊断)没有这种奖励,食谱不直接适用。需要换成 reward model 或人类反馈,效果会打折。

2. 灾难性遗忘 专科训练后,SU-01 在通用任务(MMLU、HumanEval)上性能下降了 5-12%。论文没有给出在不损失通用能力前提下训练专科模型的方案。

3. 测试时扩展的边际递减 N=64 到 N=128 提升只有 2%,N=128 到 N=256 提升不到 1%。要进一步突破需要更聪明的搜索策略(MCTS、Beam Search),不能简单加 N。

4. 几何题的瓶颈 SU-01 在 IMO 几何题上仍然弱于代数和数论题。几何需要空间推理,纯文本模型有结构性短板。混合 AlphaGeometry 的图形推理可能是突破方向。

复现与使用

模型和代码已经开源:

# 下载模型
huggingface-cli download Shanghai-AI-Lab/SU-01-30B-A3B

# 安装推理库
pip install vllm==0.8.1 transformers==4.50.0

# 运行(推荐 4 卡 A100 或 1 卡 H200)
python -m vllm.entrypoints.openai.api_server \
  --model Shanghai-AI-Lab/SU-01-30B-A3B \
  --tensor-parallel-size 4 \
  --gpu-memory-utilization 0.9

调用示例:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

# 单次推理(N=1)
response = client.chat.completions.create(
    model="Shanghai-AI-Lab/SU-01-30B-A3B",
    messages=[{"role": "user", "content": "<IMO 题目>"}],
    temperature=0.7,
    max_tokens=16000,
)

# Best-of-64 + Self-Judge(金牌模式)
from su01_inference import BestOfNSolver
solver = BestOfNSolver(client, n=64, judge_strategy="self_check_majority")
result = solver.solve("<IMO 题目>")

写在最后

SU-01 这篇论文最大的价值不是「30B 模型超过 GPT-5」,而是给出了一个简单可复现的食谱。其他人可以:

LLM 的下一波突破可能不来自更大的通才模型,而来自更多更专精的专科模型——SU-01 是这个趋势的标志性证据。

资源链接

Frequently asked questions

SU-01 这么小的模型怎么超过 GPT-5 / Claude 4.7 在奥数上?
数学奥赛是「窄而深」的任务——题量少(IMO 6 题)、技巧固定(数论、代数、几何、组合)、答案明确。SU-01 把整个 30B 模型的 capacity 都用在了奥赛推理上,相当于「专科状元」打过「通才学者」。通用大模型在 IMO 上输给 SU-01,但在写代码、写文章上仍然全方位领先。这不是矛盾,而是参数效率在特定领域的体现。
Reverse-perplexity 课程到底是什么?
传统课程学习是「先易后难」,按题目难度递增训练。Reverse-perplexity 反过来:先训练模型「最惊讶」的题目(即当前 PPL 最高的题目)。直觉是模型对惊讶题目有更大的学习信号,类似主动学习中的不确定性采样。论文实测这种课程比 random shuffle 收敛快 2.3 倍,比按难度递增快 1.7 倍。
两阶段 RL 具体是哪两阶段?
第一阶段是「证明搜索 RL」(Proof Search RL):用 verifiable reward(答案对错可自动判定)训练模型生成有效的证明步骤。第二阶段是「自检 RL」(Self-Check RL):让模型对自己生成的证明做自我验证,给「能识别错误」的行为加奖励。两阶段顺序很关键,反过来效果会下降 8 分。
测试时扩展是什么?需要多少算力?
测试时扩展指推理阶段消耗多个 token 来提升性能。SU-01 用的是「Best-of-N + Self-Consistency」组合:对每道题生成 64 个不同的解题路径,用模型自己做 self-judge 选最佳。在 IMO 上达到金牌需要 N=64,但 N=8 已经能拿到银牌(28 分)。算力成本是常规推理的 8-64 倍。
这个食谱可以泛化到其他领域吗?
论文在 IPhO(物理奥赛)和 USACO(编程竞赛)上验证了泛化性,都达到金牌。但作者明确指出:泛化要求任务有 verifiable reward(答案对错可自动判定)。开放式任务(写文章、产品设计)没有自动验证器,这套食谱不直接适用——需要换成 reward model 或者人类反馈,效果会打折。
// next.txt ›

Some outbound links in this post are affiliate links — see disclosure.