Paper

论文速读：SIRI 让 Agent 把技能「内化」进权重，而非外挂检索

5 min read · Jun 6, 2026

💡 一句话总结：SIRI 不再把 Agent 技能当成外挂的检索库，而是用「发现—验证—内化」三阶段，把技能通过强化学习训进策略权重。推理时零检索、零额外上下文，却在 ALFWorld 和 WebShop 上稳稳超过 prompt、RL、记忆增强三类基线。

一、Agent 技能的两难

「让 Agent 学会复用技能」是过去一年长程 Agent 研究的主线之一。直觉很朴素：一个 Agent 在反复试错中会摸索出一些有效的子策略——比如「找东西前先打开所有抽屉」「下单前先比价」——把这些技能存下来复用，应该比每次从零摸索更高效。

但主流的技能方法都隐含成本，可以归成两类：

训练时依赖外部技能生成器：用一个更强的模型，或一套专门的流程，来生成、总结技能。这增加了工程复杂度，还引入了分布失配——外部生成的技能未必契合当前策略的能力。
推理时持续检索技能库：把技能存成外部文本，每次决策都检索若干条拼进上下文。这会拉长 prompt、增加延迟，检索不准还会引入噪声干扰决策。

换句话说，技能要么在训练时麻烦，要么在推理时昂贵。SIRI（Self-Internalizing Reinforcement learning with Intrinsic skills，arXiv 2606.02355，厦门大学 + 美团 + 澳门理工）问的是一个更根本的问题：技能一定要「外挂」吗？能不能让它成为策略的本能？

二、核心思想：把技能训进权重

SIRI 的答案是「内化」（internalize）。它不把技能存成外部文本供推理时检索，而是通过强化学习，把技能蕴含的行为模式直接训进策略权重。

这带来一个干净的推理时形态：模型上线后不挂任何技能库、不做任何检索，上下文里没有额外的技能文本，技能已经成为它的默认行为。延迟、上下文长度、部署复杂度全部回落到一个普通策略的水平，但行为质量带着技能的红利。

代价当然也有：技能固化在权重里，更新要靠再训练，不像外部库那样即插即换。这是一个明确的工程取舍——用「可热插拔」换「零推理开销」。对任务分布稳定、追求低延迟的场景，这笔交易很划算。

三、三阶段：发现、验证、内化

SIRI 把这件事拆成三个阶段，循环推进。

第一阶段——自我技能挖掘（discover）。 让当前策略跑普通的 plain rollout（不带任何技能提示），从自己成功的轨迹里总结出紧凑、可复用的技能。关键词是「自己」：技能来自策略自身的成功经验，天然贴合它当前的能力边界，不存在外部强模型那种「教的我学不会」的分布失配。

第二阶段——配对验证（validate）。 挖出来的技能不一定都有用，甚至可能有害。SIRI 用一个干净的对照实验来筛：对同一批任务，跑「带技能」（skill-augmented）和「不带技能」（skill-free）两组配对 rollout，直接比较二者的表现。只有真正提升成功率的技能才被保留，无效或拖后腿的被丢弃。这一步是整个框架可靠性的关键——它把「技能有没有用」变成一个可度量、可证伪的问题。

第三阶段——内化（internalize）。 把验证过的有效技能，通过强化学习训进策略权重。内化之后，模型下次面对类似情境，不需要任何提示就能用上这些技能。然后回到第一阶段，用更强的策略再挖新技能——三阶段形成一个螺旋上升的闭环，技能越攒越精。

整个流程不需要外部技能生成器，也不需要推理时的技能 bank，所有环节都在策略自身的 rollout 里闭合。

四、实验：在强基线上继续往上顶

SIRI 在 ALFWorld（具身家务任务）和 WebShop（网购操作任务）两个长程 Agent 基准上，基于 Qwen2.5-7B-Instruct 验证，以 GiGPO 作为强化学习基线：

ALFWorld：GiGPO 0.908 → SIRI 0.930
WebShop：GiGPO 0.728 → SIRI 0.813

怎么读这两个数？ALFWorld 上 0.908 已经很高、逼近天花板，从 0.908 到 0.930 相当于把剩余错误砍掉约四分之一——高位区间每个点都很难拿。WebShop 是奖励更稀疏、链路更长的任务，8.5 个百分点的绝对提升相当扎实。

更重要的是对比维度：论文报告 SIRI 全面超过 prompt-based（提示注入技能）、RL-based（纯强化学习）、memory-augmented（记忆/检索增强）三类基线。也就是说，它不是靠堆推理时的外部信息取胜，恰恰相反——它在砍掉推理时外部依赖的同时，把成绩顶了上去。

五、工程意义与边界

SIRI 给「Agent 该怎么积累技能」这个问题提供了一个清醒的视角：检索不是唯一答案，内化是另一条被低估的路。

它的适用场景很明确——任务分布相对稳定、对推理时延迟和上下文开销敏感的长程 Agent，比如固定环境里的具身任务、特定网站上的 Web Agent。在这些场景里，「技能热插拔」的灵活性用不太上，而「零推理开销」的收益实打实。

边界也同样清晰。第一，技能固化在权重里，环境或任务一变就要重训才能更新，不如外部技能库灵活。第二，整个框架的起点是「策略自己能跑出成功轨迹」——冷启动能力太弱的模型挖不出有效技能，闭环转不起来。第三，配对验证虽然干净，但要额外消耗 rollout 预算，训练成本不是零。

把 SIRI 放进更大的图景：它和检索式技能库不是替代关系，而是光谱的两端。稳定、高频、对延迟敏感的技能值得内化进权重；长尾、易变、需要随时更新的知识更适合留在外部检索。真正成熟的 Agent 系统，大概率是两者的组合——而 SIRI 把「内化」这一端的工程路径走通了。

💡 延伸思考：SIRI 的「配对 rollout 验证」其实是一个可以单独拿出来用的好工具——任何时候你想知道「给模型加的某段提示/技能到底有没有用」，跑一组带与不带的配对对照，比拍脑袋判断可靠得多。这是论文里最容易被低估、却最能直接复用的一招。

Frequently asked questions

SIRI 说的「内化技能」和检索式技能库到底差在哪？: 差在技能存在哪里、推理时要不要额外读取。检索式方法（如技能库、记忆库）把技能存成外部文本，每次推理都要检索若干条拼进上下文，这会拉长 prompt、增加延迟，还可能检索到不相关的技能干扰决策。SIRI 把技能「内化」——通过强化学习把技能蕴含的行为模式直接训进策略权重，推理时不挂任何外部库、不做检索，技能已经成为模型的本能。代价是这些技能固化在权重里，更新要靠再训练，不像外部库那样即插即换。
三阶段具体是哪三阶段？: 发现、验证、内化。第一阶段自我技能挖掘：让当前策略跑普通（plain）rollout，从自己成功的轨迹里总结出紧凑可复用的技能。第二阶段验证：对同一批任务跑「带技能」和「不带技能」两组配对 rollout，比较二者表现，筛掉无效或有害的技能，只留真正提升成功率的。第三阶段内化：把验证过的有效技能，通过强化学习训进策略权重，让模型下次不靠提示也能用上。三阶段循环推进，技能越攒越精。
为什么强调「自己」挖掘技能，不用更强的模型来生成？: 用外部强模型生成技能有两个问题：一是工程复杂度和成本，要额外维护一个生成器；二是分布失配，强模型总结的技能未必契合当前策略的能力和行为习惯，硬塞进来可能水土不服。SIRI 让策略从自己的成功轨迹里提炼技能，技能天然贴合自身能力边界，验证阶段又用自己的配对 rollout 检验，形成一个自洽的闭环。这也让方法不依赖任何更强的外部模型，可复现性更好。
0.908 提到 0.930 这点提升算大吗？: 要看基线和任务。GiGPO 本身已是很强的 Agent RL 基线，ALFWorld 上 0.908 已经接近天花板，再往上每一个点都很难——从 0.908 到 0.930 是把剩余错误砍掉约四分之一。WebShop 上从 0.728 到 0.813 提升更明显，这是个长程、多步、奖励稀疏的购物任务，8.5 个百分点的绝对提升相当可观。更关键的是 SIRI 在拿到这些提升的同时，推理时不增加任何检索开销，这才是它的价值所在。
SIRI 适合什么场景，又有什么局限？: 适合那些任务分布相对稳定、追求推理时低延迟和低上下文开销的长程 Agent 场景，比如固定环境里的具身任务、Web 操作 Agent。它的局限也来自「内化」这一选择：技能固化在权重里，环境或任务变了要重新训练才能更新技能，不像外部技能库可以热插拔；此外它依赖策略自身能跑出足够多成功轨迹来挖掘技能，冷启动能力很弱的模型可能挖不出有效技能。内化和检索是互补的两条路，不是谁取代谁。

// next.txt ›

One signal per week. No AI filler.

🛠️ Work With Me

AI engineering, hands-on

Architecture review, RAG audit, build sprints.

Reach senior AI engineers

Newsletter slots, sponsored deep-dives.

Some outbound links in this post are affiliate links — see disclosure.