💡 一句话总结:多智能体不该只是推理时拿提示词拼起来的小聪明。MALT 把生成者、检验者、精炼者三个角色的协作直接「训练」进模型——用轨迹扩展造数据、用信用分配回传功劳,让 LLM 真正学会像团队一样分工推理,在 MATH 等基准上稳拿提升。
一、单模型单链推理的天花板
LLM 默认的推理方式,是一条链走到底:给一道题,生成一串思维链,吐出答案。问题是,这条路一旦走偏,模型很难自己跳出来——它没有内建的「换条路试试」或「回头检查一遍」的机制,自我纠错能力有限。
人类团队解决难题不是这样的:有人先出方案,有人专门挑错,再有人根据意见改。有人写、有人审、有人改——分工与互相制衡,让最终结果更可靠。
这正是 MALT(Multi-Agent LLM Training,arXiv 2412.01928,已被 ICML 接收)想把它搬进模型的东西。但它的关键不在「让几个模型协作」——那不新鲜——而在把协作直接训练进模型参数里。
二、不是提示词拼装,是联合训练
这是理解 MALT 的第一个要点。市面上绝大多数多智能体是推理阶段的编排:拿现成模型,用提示词串成生成、批判、精炼的流水线,模型权重一点没动。它像临时把几个人拉到一起开会——能用,但配合是临场发挥的。
MALT 走的是后训练(post-training)路线:把这套协作关系训练进模型,让每个 agent 真正「学会」自己的角色。这相当于不是临时拼团队,而是花时间培养一支配合默契的专业队伍。训练进去的协作,比提示词临时拼起来的更稳定、更能泛化——这是它和普通多智能体编排的本质分野。
三、三角色:生成、检验、精炼
MALT 是一个序列协作流水线,由三个异构的专门化 LLM 组成:
- 生成者(generator):产出初始解答,给第一版推理链。
- 检验者(verifier):批判这版解答,检查哪里有问题、是否可靠——内置的审稿人。
- 精炼者(refinement):根据检验者的反馈改进,产出更好的最终答案。
关键在「专门化」:每个模型被训练得擅长自己那一环,而不是一个模型既当运动员又当裁判。这种分工既模仿了真实团队的协作,也契合 LLM 在生产里最常见的「初稿—反馈—精修」流程。
四、怎么训:轨迹扩展 + 信用分配
没有人工标注、也不靠更强的教师模型蒸馏,MALT 靠两件事自己学会分工:
1. 轨迹扩展(trajectory expansion)造数据。 同一道题,让协作流水线跑出大量走向各异的推理轨迹——自然地包含成功的和失败的。这批多样化的合成数据,是后续训练的原料。
2. 基于价值的信用分配(credit assignment)。 难点在于:一条轨迹最终对或错,功劳/责任该怎么分到三个 agent 的中间步骤上?MALT 用基于价值的方法,借助蒙特卡洛估计来近似每一步的价值,把「最终结果」这个稀疏信号回传、分摊到各 agent 的具体动作上,让每个模型知道自己哪一步帮了忙、哪一步拖了后腿。
整个过程是 off-policy 的:每个 agent 既从正确轨迹学、也从错误轨迹学,不依赖人来标注,也不需要教师模型。这让方法的扩展性更好——数据是自己生成的,信号是自己回传的。
五、结果:在推理基准上稳拿提升
论文在三个推理基准上,对比同一基线模型:
- MATH:相对提升 15.66%。
- GSM8K、CSQA:分别有 7%~9% 量级的相对提升。
注意这是相对提升(相对基线自身的百分比改善),而非绝对分数差。意义在于:不更换更大的底座,仅靠把协作训练进模型,就能在数学和常识推理上稳定拿到正收益。 这证明「联合训练的多智能体」是一条独立于「把单模型做大」之外的提升路径——当你不想/不能换更大模型时,它给了另一个方向。
六、代价与适用场景
把账算清楚:MALT 不是免费午餐。
- 维护成本:你要养三个专门化模型,而非一个。
- 训练复杂度:要搭轨迹扩展和信用分配的管线,比微调单模型复杂。
- 推理开销:多模型串行,延迟和成本都更高。
所以它本质上是为「协作质量」付费。适合的场景是:已经在用多智能体编排、想把临时拼装的协作沉淀成稳定内生能力的团队;任务集中在数学、代码、需要自检自纠的推理上;且单模型单链推理已经顶到天花板、任务价值足以覆盖这份投入。如果你的任务一条链就能解得很好,那 MALT 的复杂度并不划算。
七、小结
MALT 的洞察很干净:多智能体的价值,不该只停留在推理时用提示词拼装,更该被训练进模型本身。 它用生成、检验、精炼三个专门化角色,配合轨迹扩展造数据、信用分配回传信号,在不更换底座的前提下,把推理基准稳稳推高一截。它让「协作」从一个临场技巧,变成了可以沉淀、可以泛化的模型能力。代价是更重的训练与推理流程——但当单链推理走到尽头,培养一支训练有素的团队,确实比让一个人硬扛更靠谱。