Paper

论文速读：MALT——让三个 LLM 像团队一样被「联合训练」去推理

5 min read · Jun 5, 2026

💡 一句话总结：多智能体不该只是推理时拿提示词拼起来的小聪明。MALT 把生成者、检验者、精炼者三个角色的协作直接「训练」进模型——用轨迹扩展造数据、用信用分配回传功劳，让 LLM 真正学会像团队一样分工推理，在 MATH 等基准上稳拿提升。

一、单模型单链推理的天花板

LLM 默认的推理方式，是一条链走到底：给一道题，生成一串思维链，吐出答案。问题是，这条路一旦走偏，模型很难自己跳出来——它没有内建的「换条路试试」或「回头检查一遍」的机制，自我纠错能力有限。

人类团队解决难题不是这样的：有人先出方案，有人专门挑错，再有人根据意见改。有人写、有人审、有人改——分工与互相制衡，让最终结果更可靠。

这正是 MALT（Multi-Agent LLM Training，arXiv 2412.01928，已被 ICML 接收）想把它搬进模型的东西。但它的关键不在「让几个模型协作」——那不新鲜——而在把协作直接训练进模型参数里。

二、不是提示词拼装，是联合训练

这是理解 MALT 的第一个要点。市面上绝大多数多智能体是推理阶段的编排：拿现成模型，用提示词串成生成、批判、精炼的流水线，模型权重一点没动。它像临时把几个人拉到一起开会——能用，但配合是临场发挥的。

MALT 走的是后训练（post-training）路线：把这套协作关系训练进模型，让每个 agent 真正「学会」自己的角色。这相当于不是临时拼团队，而是花时间培养一支配合默契的专业队伍。训练进去的协作，比提示词临时拼起来的更稳定、更能泛化——这是它和普通多智能体编排的本质分野。

三、三角色：生成、检验、精炼

MALT 是一个序列协作流水线，由三个异构的专门化 LLM 组成：

生成者（generator）：产出初始解答，给第一版推理链。
检验者（verifier）：批判这版解答，检查哪里有问题、是否可靠——内置的审稿人。
精炼者（refinement）：根据检验者的反馈改进，产出更好的最终答案。

关键在「专门化」：每个模型被训练得擅长自己那一环，而不是一个模型既当运动员又当裁判。这种分工既模仿了真实团队的协作，也契合 LLM 在生产里最常见的「初稿—反馈—精修」流程。

四、怎么训：轨迹扩展 + 信用分配

没有人工标注、也不靠更强的教师模型蒸馏，MALT 靠两件事自己学会分工：

1. 轨迹扩展（trajectory expansion）造数据。 同一道题，让协作流水线跑出大量走向各异的推理轨迹——自然地包含成功的和失败的。这批多样化的合成数据，是后续训练的原料。

2. 基于价值的信用分配（credit assignment）。 难点在于：一条轨迹最终对或错，功劳/责任该怎么分到三个 agent 的中间步骤上？MALT 用基于价值的方法，借助蒙特卡洛估计来近似每一步的价值，把「最终结果」这个稀疏信号回传、分摊到各 agent 的具体动作上，让每个模型知道自己哪一步帮了忙、哪一步拖了后腿。

整个过程是 off-policy 的：每个 agent 既从正确轨迹学、也从错误轨迹学，不依赖人来标注，也不需要教师模型。这让方法的扩展性更好——数据是自己生成的，信号是自己回传的。

五、结果：在推理基准上稳拿提升

论文在三个推理基准上，对比同一基线模型：

MATH：相对提升 15.66%。
GSM8K、CSQA：分别有 7%~9% 量级的相对提升。

注意这是相对提升（相对基线自身的百分比改善），而非绝对分数差。意义在于：不更换更大的底座，仅靠把协作训练进模型，就能在数学和常识推理上稳定拿到正收益。 这证明「联合训练的多智能体」是一条独立于「把单模型做大」之外的提升路径——当你不想/不能换更大模型时，它给了另一个方向。

六、代价与适用场景

把账算清楚：MALT 不是免费午餐。

维护成本：你要养三个专门化模型，而非一个。
训练复杂度：要搭轨迹扩展和信用分配的管线，比微调单模型复杂。
推理开销：多模型串行，延迟和成本都更高。

所以它本质上是为「协作质量」付费。适合的场景是：已经在用多智能体编排、想把临时拼装的协作沉淀成稳定内生能力的团队；任务集中在数学、代码、需要自检自纠的推理上；且单模型单链推理已经顶到天花板、任务价值足以覆盖这份投入。如果你的任务一条链就能解得很好，那 MALT 的复杂度并不划算。

七、小结

MALT 的洞察很干净：多智能体的价值，不该只停留在推理时用提示词拼装，更该被训练进模型本身。 它用生成、检验、精炼三个专门化角色，配合轨迹扩展造数据、信用分配回传信号，在不更换底座的前提下，把推理基准稳稳推高一截。它让「协作」从一个临场技巧，变成了可以沉淀、可以泛化的模型能力。代价是更重的训练与推理流程——但当单链推理走到尽头，培养一支训练有素的团队，确实比让一个人硬扛更靠谱。

Frequently asked questions

MALT 和我平时用的「多智能体提示词编排」有什么本质区别？: 区别在于「训练」还是「不训练」。常见的多智能体编排是推理阶段的技巧：你拿现成模型，用提示词把它们串成生成、批判、精炼的流水线，模型本身的权重一点没变。MALT 不一样，它是一种后训练（post-training）策略——把这套协作关系直接训练进三个模型的参数里，让每个 agent 真正「学会」自己的角色。换句话说，前者是用提示词临时拼装一个团队，后者是花时间培养出一支配合默契的专业团队。训练进去的协作，比临时拼起来的更稳定、更能泛化。
三个角色（生成者、检验者、精炼者）各自负责什么？: 这是一个序列协作的流水线。生成者（generator）负责产出初始解答，给出第一版推理链。检验者（verifier）负责批判，检查这版解答哪里有问题、是否可靠，相当于内置的审稿人。精炼者（refinement）负责根据检验者的反馈改进，产出更好的最终答案。三者是异构的专门化 LLM——各自被训练得擅长自己那一环，而不是一个模型既当运动员又当裁判。这种分工模仿了真实团队里「有人写、有人审、有人改」的协作方式，也契合 LLM 在生产中常见的「初稿—反馈—精修」流程。
没有人工标注和教师模型，MALT 靠什么学会分工？: 靠轨迹扩展造数据 + 信用分配回传信号。它先用「轨迹扩展」生成大量多样的推理路径——同一道题让协作流水线跑出许多条不同走向的轨迹，自然包含成功的和失败的。然后用基于价值的信用分配（借助蒙特卡洛估计来近似各步的价值），把「这条轨迹最终对没对」这个结果，分摊回每个 agent 的中间步骤上，让它们知道自己哪一步帮了忙、哪一步拖了后腿。整个过程是 off-policy 的，每个 agent 都能从正确和错误的轨迹里学习，不需要人来标注，也不需要更强的教师模型来蒸馏。
MALT 的效果到底有多大？: 论文在三个推理基准上对比了同一基线模型：MATH 上取得 15.66% 的相对提升，GSM8K 和 CSQA 上也分别有 7%~9% 量级的相对提升。需要注意这是「相对提升」，即相对基线自身的百分比改善，而非绝对分数差。意义在于：仅仅通过把协作训练进模型、而不更换更大的底座，就能在数学和常识推理上稳定拿到正收益，说明「联合训练的多智能体」确实是一条独立于「把单模型做大」之外的提升路径。当然，提升幅度依赖任务和基线，复杂程度更高的任务上空间通常更大。
这条路线适合什么团队，又有什么代价？: 适合那些已经在用多智能体编排、想把临时拼装的协作沉淀成稳定能力的团队，尤其是数学、代码、需要自检自纠的推理场景。它的价值是把『生成—检验—精炼』变成模型的内生能力，泛化性和稳定性优于纯提示词。代价也现实：你要维护三个专门化模型而非一个，训练流程更复杂，需要搭轨迹扩展和信用分配的管线，推理时也是多模型串行、延迟和成本更高。所以它更像是给「协作质量」付费——当单模型单链推理顶到天花板、且任务值得这份投入时才划算。

// next.txt ›

One signal per week. No AI filler.

🛠️ Work With Me

AI engineering, hands-on

Architecture review, RAG audit, build sprints.

Reach senior AI engineers

Newsletter slots, sponsored deep-dives.

Some outbound links in this post are affiliate links — see disclosure.