Paper

论文速读:MALT——让三个 LLM 像团队一样被「联合训练」去推理

5 min read ·

💡 一句话总结:多智能体不该只是推理时拿提示词拼起来的小聪明。MALT 把生成者、检验者、精炼者三个角色的协作直接「训练」进模型——用轨迹扩展造数据、用信用分配回传功劳,让 LLM 真正学会像团队一样分工推理,在 MATH 等基准上稳拿提升。

一、单模型单链推理的天花板

LLM 默认的推理方式,是一条链走到底:给一道题,生成一串思维链,吐出答案。问题是,这条路一旦走偏,模型很难自己跳出来——它没有内建的「换条路试试」或「回头检查一遍」的机制,自我纠错能力有限。

人类团队解决难题不是这样的:有人先出方案,有人专门挑错,再有人根据意见改。有人写、有人审、有人改——分工与互相制衡,让最终结果更可靠。

这正是 MALT(Multi-Agent LLM Training,arXiv 2412.01928,已被 ICML 接收)想把它搬进模型的东西。但它的关键不在「让几个模型协作」——那不新鲜——而在把协作直接训练进模型参数里

二、不是提示词拼装,是联合训练

这是理解 MALT 的第一个要点。市面上绝大多数多智能体是推理阶段的编排:拿现成模型,用提示词串成生成、批判、精炼的流水线,模型权重一点没动。它像临时把几个人拉到一起开会——能用,但配合是临场发挥的。

MALT 走的是后训练(post-training)路线:把这套协作关系训练进模型,让每个 agent 真正「学会」自己的角色。这相当于不是临时拼团队,而是花时间培养一支配合默契的专业队伍。训练进去的协作,比提示词临时拼起来的更稳定、更能泛化——这是它和普通多智能体编排的本质分野。

三、三角色:生成、检验、精炼

MALT 是一个序列协作流水线,由三个异构的专门化 LLM 组成:

关键在「专门化」:每个模型被训练得擅长自己那一环,而不是一个模型既当运动员又当裁判。这种分工既模仿了真实团队的协作,也契合 LLM 在生产里最常见的「初稿—反馈—精修」流程。

四、怎么训:轨迹扩展 + 信用分配

没有人工标注、也不靠更强的教师模型蒸馏,MALT 靠两件事自己学会分工:

1. 轨迹扩展(trajectory expansion)造数据。 同一道题,让协作流水线跑出大量走向各异的推理轨迹——自然地包含成功的和失败的。这批多样化的合成数据,是后续训练的原料。

2. 基于价值的信用分配(credit assignment)。 难点在于:一条轨迹最终对或错,功劳/责任该怎么分到三个 agent 的中间步骤上?MALT 用基于价值的方法,借助蒙特卡洛估计来近似每一步的价值,把「最终结果」这个稀疏信号回传、分摊到各 agent 的具体动作上,让每个模型知道自己哪一步帮了忙、哪一步拖了后腿。

整个过程是 off-policy 的:每个 agent 既从正确轨迹学、也从错误轨迹学,不依赖人来标注,也不需要教师模型。这让方法的扩展性更好——数据是自己生成的,信号是自己回传的。

五、结果:在推理基准上稳拿提升

论文在三个推理基准上,对比同一基线模型:

注意这是相对提升(相对基线自身的百分比改善),而非绝对分数差。意义在于:不更换更大的底座,仅靠把协作训练进模型,就能在数学和常识推理上稳定拿到正收益。 这证明「联合训练的多智能体」是一条独立于「把单模型做大」之外的提升路径——当你不想/不能换更大模型时,它给了另一个方向。

六、代价与适用场景

把账算清楚:MALT 不是免费午餐。

所以它本质上是为「协作质量」付费。适合的场景是:已经在用多智能体编排、想把临时拼装的协作沉淀成稳定内生能力的团队;任务集中在数学、代码、需要自检自纠的推理上;且单模型单链推理已经顶到天花板、任务价值足以覆盖这份投入。如果你的任务一条链就能解得很好,那 MALT 的复杂度并不划算。

七、小结

MALT 的洞察很干净:多智能体的价值,不该只停留在推理时用提示词拼装,更该被训练进模型本身。 它用生成、检验、精炼三个专门化角色,配合轨迹扩展造数据、信用分配回传信号,在不更换底座的前提下,把推理基准稳稳推高一截。它让「协作」从一个临场技巧,变成了可以沉淀、可以泛化的模型能力。代价是更重的训练与推理流程——但当单链推理走到尽头,培养一支训练有素的团队,确实比让一个人硬扛更靠谱。

Frequently asked questions

MALT 和我平时用的「多智能体提示词编排」有什么本质区别?
区别在于「训练」还是「不训练」。常见的多智能体编排是推理阶段的技巧:你拿现成模型,用提示词把它们串成生成、批判、精炼的流水线,模型本身的权重一点没变。MALT 不一样,它是一种后训练(post-training)策略——把这套协作关系直接训练进三个模型的参数里,让每个 agent 真正「学会」自己的角色。换句话说,前者是用提示词临时拼装一个团队,后者是花时间培养出一支配合默契的专业团队。训练进去的协作,比临时拼起来的更稳定、更能泛化。
三个角色(生成者、检验者、精炼者)各自负责什么?
这是一个序列协作的流水线。生成者(generator)负责产出初始解答,给出第一版推理链。检验者(verifier)负责批判,检查这版解答哪里有问题、是否可靠,相当于内置的审稿人。精炼者(refinement)负责根据检验者的反馈改进,产出更好的最终答案。三者是异构的专门化 LLM——各自被训练得擅长自己那一环,而不是一个模型既当运动员又当裁判。这种分工模仿了真实团队里「有人写、有人审、有人改」的协作方式,也契合 LLM 在生产中常见的「初稿—反馈—精修」流程。
没有人工标注和教师模型,MALT 靠什么学会分工?
靠轨迹扩展造数据 + 信用分配回传信号。它先用「轨迹扩展」生成大量多样的推理路径——同一道题让协作流水线跑出许多条不同走向的轨迹,自然包含成功的和失败的。然后用基于价值的信用分配(借助蒙特卡洛估计来近似各步的价值),把「这条轨迹最终对没对」这个结果,分摊回每个 agent 的中间步骤上,让它们知道自己哪一步帮了忙、哪一步拖了后腿。整个过程是 off-policy 的,每个 agent 都能从正确和错误的轨迹里学习,不需要人来标注,也不需要更强的教师模型来蒸馏。
MALT 的效果到底有多大?
论文在三个推理基准上对比了同一基线模型:MATH 上取得 15.66% 的相对提升,GSM8K 和 CSQA 上也分别有 7%~9% 量级的相对提升。需要注意这是「相对提升」,即相对基线自身的百分比改善,而非绝对分数差。意义在于:仅仅通过把协作训练进模型、而不更换更大的底座,就能在数学和常识推理上稳定拿到正收益,说明「联合训练的多智能体」确实是一条独立于「把单模型做大」之外的提升路径。当然,提升幅度依赖任务和基线,复杂程度更高的任务上空间通常更大。
这条路线适合什么团队,又有什么代价?
适合那些已经在用多智能体编排、想把临时拼装的协作沉淀成稳定能力的团队,尤其是数学、代码、需要自检自纠的推理场景。它的价值是把『生成—检验—精炼』变成模型的内生能力,泛化性和稳定性优于纯提示词。代价也现实:你要维护三个专门化模型而非一个,训练流程更复杂,需要搭轨迹扩展和信用分配的管线,推理时也是多模型串行、延迟和成本更高。所以它更像是给「协作质量」付费——当单模型单链推理顶到天花板、且任务值得这份投入时才划算。
// next.txt ›

Some outbound links in this post are affiliate links — see disclosure.