💡 一句话总结:当 agent 要连续跑几百步,第一代「向量语义检索」式记忆就会暴露根本缺陷——打碎决策轨迹、混入错误痕迹。2026 年 6 月一批 arXiv 论文给出了同一个答案:记忆不该是「检索相似的过去」,而该是「管理结构化的执行状态」。本文串起 RAMPART、MAGE、DeltaMem 拆解这场范式转移。
一、问题:当 agent 要跑几百步,上下文就崩了
短任务的 agent 不太需要操心记忆——几轮对话、几次工具调用,把历史拼进上下文就行。但 2026 年 agent 的主战场已经转向长程任务:自动修一个跨十几个文件的 bug、跑一个要几十步的数据分析、在一个环境里持续探索几百个动作。
任务一长,记忆问题就从「锦上添花」变成「生死攸关」。我们在之前关于 context rot 的讨论里讲过,上下文堆太长本身就会让模型注意力涣散。但长程 agent 的麻烦比单纯的「上下文太长」更深一层——它的记忆是有结构的,而第一代记忆方案恰恰把结构搞丢了。
二、第一代记忆的三个病
第一代 agent 记忆方案,本质是把 RAG 那套搬过来:把过去的对话、轨迹、经验向量化存进库,需要时按语义相似度检索召回。这在知识问答里很好用,但放到长程 agent 上,有三个结构性的病。
病一:决策轨迹被打碎。 Agent 的记忆是一连串有因果依赖的步骤——先做了 A 才能做 B,B 的结果又决定了 C。语义检索按「内容像不像」召回,会把这条有先后依赖的链打散成孤立片段,丢掉「谁导致了谁」的因果结构。Agent 拿到一堆碎片,却拼不回完整的来龙去脉。
病二:错误痕迹混进正确记忆。 Agent 探索时必然会走弯路、试错。语义检索不分对错,会把失败的尝试和成功的经验一起召回。结果 agent 在错误的基础上继续推理,一个早期的错误会沿着长任务级联放大。
病三:上下文无限膨胀。 不加结构地累积记忆,要么靠长度粗暴截断(丢掉可能重要的早期信息),要么任由上下文涨到触发 context rot。两条路都通向质量下降。
2026 年 6 月,arXiv 上一批论文不约而同地开始攻这三个病。有意思的是,它们给出的答案高度一致。
三、范式转移:记忆是「执行状态」,不是「相似的过去」
这场转移最锋利的表述,来自 MAGE(Memory as Execution State Management,arXiv 2606.06090)。它的标题本身就是宣言:把记忆当成执行状态管理,而不是内容检索。
MAGE 的核心是用分层状态树替代平面的语义检索。Agent 的当前状态,由从根节点到当前节点的那条活跃路径表示,路径上融合了子目标总结、近期轨迹和先前分支的提示。它通过四个耦合的操作维护这棵树:
- Grow:记录新的轨迹,让树生长;
- Compress:子目标完成后,把这一段压缩成总结,控制上下文膨胀;
- Maintain:验证已有总结是否仍然有效;
- Revise:失败时回退到目标边界,在新分支上恢复执行。
这套设计直接对症前面三个病:树结构保住了决策的因果依赖(治病一);Revise 让失败的分支被干净隔离、可回退,而不是混进当前推理(治病二);Compress 把完成的子目标压成总结,让上下文可控增长(治病三)。
效果也很实在:相比基于内容相关性检索的 RAG 式记忆,MAGE 的成功率提升 7.8 到 20.4 个百分点,同时 token 消耗降低 55.1%——既更准又更省,因为它不再把无关的、错误的历史塞进上下文。
四、把上下文当成可编程的运行时:RAMPART
如果说 MAGE 重新定义了「记忆是什么」,那 RAMPART(Registry-based Agentic Memory,arXiv 2606.04628) 重新定义了「上下文怎么组装」。
RAMPART 的洞察是:上下文里内容放在什么位置,对任务成功率影响巨大。它做了个很扎实的实验——当任务相关的关键块跟随注册表顺序排在第七块的位置时,性能出现「悬崖式」下跌;而把它优先推送到第十二块附近,成功率显著回升。更关键的是,这个「内容启动效应」在四个不同模型上出现在相同的绝对位置,说明这是个普遍规律,不是某个模型的怪癖。
既然位置这么重要,RAMPART 干脆把上下文组装变成一次可编程的「编译」:
- 内容存在一个结构化注册表里,是命名可寻址的块;
- 每次构造上下文,按显式声明的排序、包含、驱逐策略,把块「编译」成最终上下文,零 prompt 代价;
- 提供五个组合原语在编译前作用于块:
promote(提升优先级)、gate(门控)、write(写入)、evict(驱逐)、rollback(回滚); - 用 provenance(来源)标签和不可驱逐的所有权标志,实现块级的权限控制。
这种「编译时」思路带来了构造性保证——这是策略式规则给不了的。比如「模式驱逐」能做到某类内容 0% 被调用,而靠「优先放最近的」这类启发式规则永远给不出这种绝对保证。实测上,门控机制减少了 67.8% 的 prompt 成本,同时恢复了 83% 的「提升条件」成功率。
RAMPART 还有个外溢的好处:在多 agent 协作里,共享一个注册表能把 agent 间的通信成本降到方法调用级别(接近零),而不是反复把上下文序列化来回传。
五、让经验增量生长:DeltaMem
MAGE 和 RAMPART 管的是「单次长任务内」的状态,DeltaMem(arXiv 2606.03083) 则管「跨任务的经验积累」——agent 怎么把一次次任务里学到的东西攒下来、且不会越攒越乱。
DeltaMem 的核心概念是 残差经验(residual experience):新学到的经验,往往只是已有知识的一个增量变体,而不是全新的东西。所以与其把每条经验都当独立单元存(导致大量冗余和检索冲突),不如把它们组织成「基础 + 增量」的结构。
具体用双层残差树:
- 目标条件树(goal-conditioned tree):存可复用的任务技能;
- 场景层树(scene-level tree):存环境知识。
每棵树的根节点存泛化的基础经验,下面的「delta 节点」存后续的变体。检索时用失败惩罚的相似度扫描找到最匹配的节点,再沿「根到节点」的链路重构出完整经验。最妙的是它的自主巩固机制:把高频访问的路径蒸馏成新的根节点,让整棵树自动「从通用启发式组织到专门变体」。
这正好治了第一代记忆「越攒越乱、冗余冲突」的病——经验不再是一堆扁平的孤立条目,而是一棵会自我组织、从一般到特殊层层生长的树。
六、共同的底层信号:从「塞文本」到「上下文工程」
把这三篇放在一起看,一个清晰的共同信号浮现出来:
Agent 的记忆和上下文,正在从「无结构地塞文本」,进化成「有结构、可编程、可预测地工程化管理」。
- MAGE 说:记忆要有执行状态的结构(状态树);
- RAMPART 说:上下文组装要可编程、可保证(编译时注册表);
- DeltaMem 说:经验积累要增量化、自组织(残差树)。
它们都在拒绝同一个东西——把记忆当成一袋可以随便检索的文本。它们都在拥抱同一个东西——把记忆当成一个有结构、有生命周期、需要被精心管理的系统状态。这就是「上下文工程」(context engineering)正在取代「prompt 工程」成为 agent 工程主战场的具体体现。同期还有像 TokenMizer(图结构会话记忆)这样的工作从图的角度切入,方向虽异,内核一致:结构,而非堆叠。
七、对工程的启示
即便这些论文还多是研究原型,它们的思想今天就能指导你的 agent 设计:
- 别一股脑塞历史,按子目标做结构化的压缩和总结,让上下文随进展可控增长(学 MAGE 的 Compress)。
- 把失败和成功显式分开,检索时隔离错误痕迹,别让 agent 在错误基础上继续推理(学 MAGE 的 Revise)。
- 给记忆块加来源标签和优先级,让「保留什么、驱逐什么」有依据,而不是按长度粗暴截断(学 RAMPART 的 provenance + 门控)。
- 经验积累要去重,把新经验当成已有知识的增量而非独立条目,避免记忆库越长越乱(学 DeltaMem 的残差思路)。
结语
第一代 agent 记忆把 RAG 那套直接搬了过来,在短任务里够用,但长程 agent 把它的结构性缺陷暴露无遗。2026 年 6 月这批论文的价值,不在于某个具体的数据点,而在于它们共同确认了一个方向:记忆是要被工程化管理的执行状态,不是被随意检索的一袋文本。
谁能在几百步的长任务里保持状态连贯、错误可隔离、上下文可控,谁的 agent 才真正可靠。未来的 agent 框架会把结构化的记忆管理从边角功能提升为一等公民——这场范式转移,才刚刚开始。