Paper

论文速读:SIRI 让 Agent 把技能「内化」进权重,而非外挂检索

5 min read ·

💡 一句话总结:SIRI 不再把 Agent 技能当成外挂的检索库,而是用「发现—验证—内化」三阶段,把技能通过强化学习训进策略权重。推理时零检索、零额外上下文,却在 ALFWorld 和 WebShop 上稳稳超过 prompt、RL、记忆增强三类基线。

一、Agent 技能的两难

「让 Agent 学会复用技能」是过去一年长程 Agent 研究的主线之一。直觉很朴素:一个 Agent 在反复试错中会摸索出一些有效的子策略——比如「找东西前先打开所有抽屉」「下单前先比价」——把这些技能存下来复用,应该比每次从零摸索更高效。

但主流的技能方法都隐含成本,可以归成两类:

换句话说,技能要么在训练时麻烦,要么在推理时昂贵。SIRI(Self-Internalizing Reinforcement learning with Intrinsic skills,arXiv 2606.02355,厦门大学 + 美团 + 澳门理工)问的是一个更根本的问题:技能一定要「外挂」吗?能不能让它成为策略的本能?

二、核心思想:把技能训进权重

SIRI 的答案是「内化」(internalize)。它不把技能存成外部文本供推理时检索,而是通过强化学习,把技能蕴含的行为模式直接训进策略权重

这带来一个干净的推理时形态:模型上线后不挂任何技能库、不做任何检索,上下文里没有额外的技能文本,技能已经成为它的默认行为。延迟、上下文长度、部署复杂度全部回落到一个普通策略的水平,但行为质量带着技能的红利。

代价当然也有:技能固化在权重里,更新要靠再训练,不像外部库那样即插即换。这是一个明确的工程取舍——用「可热插拔」换「零推理开销」。对任务分布稳定、追求低延迟的场景,这笔交易很划算。

三、三阶段:发现、验证、内化

SIRI 把这件事拆成三个阶段,循环推进。

第一阶段——自我技能挖掘(discover)。 让当前策略跑普通的 plain rollout(不带任何技能提示),从自己成功的轨迹里总结出紧凑、可复用的技能。关键词是「自己」:技能来自策略自身的成功经验,天然贴合它当前的能力边界,不存在外部强模型那种「教的我学不会」的分布失配。

第二阶段——配对验证(validate)。 挖出来的技能不一定都有用,甚至可能有害。SIRI 用一个干净的对照实验来筛:对同一批任务,跑「带技能」(skill-augmented)和「不带技能」(skill-free)两组配对 rollout,直接比较二者的表现。只有真正提升成功率的技能才被保留,无效或拖后腿的被丢弃。这一步是整个框架可靠性的关键——它把「技能有没有用」变成一个可度量、可证伪的问题。

第三阶段——内化(internalize)。 把验证过的有效技能,通过强化学习训进策略权重。内化之后,模型下次面对类似情境,不需要任何提示就能用上这些技能。然后回到第一阶段,用更强的策略再挖新技能——三阶段形成一个螺旋上升的闭环,技能越攒越精。

整个流程不需要外部技能生成器,也不需要推理时的技能 bank,所有环节都在策略自身的 rollout 里闭合。

四、实验:在强基线上继续往上顶

SIRI 在 ALFWorld(具身家务任务)和 WebShop(网购操作任务)两个长程 Agent 基准上,基于 Qwen2.5-7B-Instruct 验证,以 GiGPO 作为强化学习基线:

怎么读这两个数?ALFWorld 上 0.908 已经很高、逼近天花板,从 0.908 到 0.930 相当于把剩余错误砍掉约四分之一——高位区间每个点都很难拿。WebShop 是奖励更稀疏、链路更长的任务,8.5 个百分点的绝对提升相当扎实。

更重要的是对比维度:论文报告 SIRI 全面超过 prompt-based(提示注入技能)、RL-based(纯强化学习)、memory-augmented(记忆/检索增强)三类基线。也就是说,它不是靠堆推理时的外部信息取胜,恰恰相反——它在砍掉推理时外部依赖的同时,把成绩顶了上去。

五、工程意义与边界

SIRI 给「Agent 该怎么积累技能」这个问题提供了一个清醒的视角:检索不是唯一答案,内化是另一条被低估的路

它的适用场景很明确——任务分布相对稳定、对推理时延迟和上下文开销敏感的长程 Agent,比如固定环境里的具身任务、特定网站上的 Web Agent。在这些场景里,「技能热插拔」的灵活性用不太上,而「零推理开销」的收益实打实。

边界也同样清晰。第一,技能固化在权重里,环境或任务一变就要重训才能更新,不如外部技能库灵活。第二,整个框架的起点是「策略自己能跑出成功轨迹」——冷启动能力太弱的模型挖不出有效技能,闭环转不起来。第三,配对验证虽然干净,但要额外消耗 rollout 预算,训练成本不是零。

把 SIRI 放进更大的图景:它和检索式技能库不是替代关系,而是光谱的两端。稳定、高频、对延迟敏感的技能值得内化进权重;长尾、易变、需要随时更新的知识更适合留在外部检索。真正成熟的 Agent 系统,大概率是两者的组合——而 SIRI 把「内化」这一端的工程路径走通了。

💡 延伸思考:SIRI 的「配对 rollout 验证」其实是一个可以单独拿出来用的好工具——任何时候你想知道「给模型加的某段提示/技能到底有没有用」,跑一组带与不带的配对对照,比拍脑袋判断可靠得多。这是论文里最容易被低估、却最能直接复用的一招。

Frequently asked questions

SIRI 说的「内化技能」和检索式技能库到底差在哪?
差在技能存在哪里、推理时要不要额外读取。检索式方法(如技能库、记忆库)把技能存成外部文本,每次推理都要检索若干条拼进上下文,这会拉长 prompt、增加延迟,还可能检索到不相关的技能干扰决策。SIRI 把技能「内化」——通过强化学习把技能蕴含的行为模式直接训进策略权重,推理时不挂任何外部库、不做检索,技能已经成为模型的本能。代价是这些技能固化在权重里,更新要靠再训练,不像外部库那样即插即换。
三阶段具体是哪三阶段?
发现、验证、内化。第一阶段自我技能挖掘:让当前策略跑普通(plain)rollout,从自己成功的轨迹里总结出紧凑可复用的技能。第二阶段验证:对同一批任务跑「带技能」和「不带技能」两组配对 rollout,比较二者表现,筛掉无效或有害的技能,只留真正提升成功率的。第三阶段内化:把验证过的有效技能,通过强化学习训进策略权重,让模型下次不靠提示也能用上。三阶段循环推进,技能越攒越精。
为什么强调「自己」挖掘技能,不用更强的模型来生成?
用外部强模型生成技能有两个问题:一是工程复杂度和成本,要额外维护一个生成器;二是分布失配,强模型总结的技能未必契合当前策略的能力和行为习惯,硬塞进来可能水土不服。SIRI 让策略从自己的成功轨迹里提炼技能,技能天然贴合自身能力边界,验证阶段又用自己的配对 rollout 检验,形成一个自洽的闭环。这也让方法不依赖任何更强的外部模型,可复现性更好。
0.908 提到 0.930 这点提升算大吗?
要看基线和任务。GiGPO 本身已是很强的 Agent RL 基线,ALFWorld 上 0.908 已经接近天花板,再往上每一个点都很难——从 0.908 到 0.930 是把剩余错误砍掉约四分之一。WebShop 上从 0.728 到 0.813 提升更明显,这是个长程、多步、奖励稀疏的购物任务,8.5 个百分点的绝对提升相当可观。更关键的是 SIRI 在拿到这些提升的同时,推理时不增加任何检索开销,这才是它的价值所在。
SIRI 适合什么场景,又有什么局限?
适合那些任务分布相对稳定、追求推理时低延迟和低上下文开销的长程 Agent 场景,比如固定环境里的具身任务、Web 操作 Agent。它的局限也来自「内化」这一选择:技能固化在权重里,环境或任务变了要重新训练才能更新技能,不像外部技能库可以热插拔;此外它依赖策略自身能跑出足够多成功轨迹来挖掘技能,冷启动能力很弱的模型可能挖不出有效技能。内化和检索是互补的两条路,不是谁取代谁。
// next.txt ›

Some outbound links in this post are affiliate links — see disclosure.