💡 一句话总结:MemORAI 是把 LLM 长期记忆从『一堆向量』升级到『可追溯 + 查询自适应的知识图谱』的关键工程。在 LOCOMO 多跳场景下,F1 提升 3-4 倍。
论文基本信息
- 标题:MemORAI: Memory Organization and Retrieval via Adaptive Graph Intelligence for LLM Conversational Agents
- arXiv:2605.01386,2026 年 5 月 2 日提交
- 作者:Hung Pham Van 等 7 位,来自 Hanoi University of Science and Technology / VNU UET / Monash University
- 关键词:长期记忆、图谱记忆、对话 agent、PageRank、benchmark SOTA
问题背景:长期记忆为什么仍然是开放问题
LLM 的 context window 在 2026 年已经卷到 1M-10M 级别,看似不再需要外部记忆。但实际生产中三个原因让长期记忆仍然是关键工程问题:
- 成本:1M context 推理一次的 token 费用是 10K context 的 100 倍,长期对话每次都喂完整历史不可持续
- 延迟:1M context 首 token 延迟 5-10 秒,对话场景体验崩盘
- 遗忘性:context window 再大也是『单次 prompt』范畴,跨 session 的事实仍需外部存储
所以 ChatGPT / Claude / Gemini 都在自家产品里加了 memory 模块。学术界的代表作是 Mem0(2025)。Mem0 给出『把对话切段 → 向量化 → 检索』的基础架构,但有三个明显问题:
- 检索只看语义相似度,没有结构化关系,多跳查询表现差
- 没有溯源信息,无法回答『这件事你是什么时候告诉我的』
- 检索权重对所有 query 一视同仁,不能自适应
MemORAI 就是针对这三点开刀。
核心贡献 1:选择性记忆过滤
不是所有对话内容都值得记忆。MemORAI 引入一个 Memory Gate:
- 用一个轻量 LLM(论文用 gpt-oss-20B)判断每段 utterance 是否包含『用户相关 fact』
- 标准包括:个人事实(年龄、职业)、偏好(喜欢什么)、承诺(约定的事情)
- 通过的 utterance 进入下一步图谱构建,未通过的直接丢弃
同时做『双层压缩』:
- 句级:保留关键 fact 的原文
- 段级:生成段的语义摘要,作为上下文 fallback
这层过滤让最终图谱密度更高,检索质量更高。
核心贡献 2:溯源增强多关系图谱
把过滤后的 fact 组织成异构图,三类节点:
- 实体节点 entity:用户提到的对象(人、地点、概念)
- 轮次节点 turn:每一轮对话本身作为一个节点
- 片段节点 snippet:相关段落的原始文本
三类边:
- 实体-关系-实体:传统三元组(A 喜欢 B、A 在 C 工作)
- 实体-轮次:标记某 fact 在哪一轮被提到(这就是 provenance)
- 轮次-片段:每一轮关联的对话原文
这套设计的关键是 provenance 在 turn-level,每条 fact 都能追溯到具体哪一次对话被提及。后续 agent 回答『你上次说的那个会议在哪天』之类的时序问题时,溯源是必须的。
核心贡献 3:Dynamic Weighted PageRank
最技术含量的一部分。把 PageRank 的边权改成『查询自适应』:
边权重定义
对于每个 query q,三类边的权重:
w(u→v) = {
sim(q, e.desc), if 边类型是 entity-turn
sim(q, r.desc), if 边类型是 entity-relation
(1/|τ|)·Σ sim(q, e.desc), if 边类型是 turn-snippet
}
sim 是 query 跟描述的 cosine similarity,τ 是该轮所含实体集合。
迭代公式
PR_{t+1}(v) = (1-d)·seed(v) + d·S(v)
S(v) = Σ_{u→v} [w(u→v) / Σ w(u→*)] · PR_t(u)
d 是 damping factor(一般 0.85),seed(v) 是种子节点(多 faceted retrieval 找出来的 top-k 起点)。
直白说:跟 query 越相关的边,传播的 PageRank 质量越多;不相关的节点拿不到质量,自然不被检索。
跟传统 PageRank 的差距
传统 PageRank 一次计算,所有 query 共享一套 rank。MemORAI 是每个 query 跑一次 PageRank。这增加了计算成本(论文报告每次 query 需要 5-50ms 额外开销,看图谱大小),但精度提升明显。
实验结果:LOCOMO 多跳 + 时序 SOTA
论文在 LOCOMO 和 LongMemEval 两个基准上测试。关键数据来自 LOCOMO-10:
| 指标 | Baseline | Mem0 | Mem0g | MemORAI |
|---|---|---|---|---|
| Turn-level Recall@10 | 51.77% | 56.4% | 60.2% | 64.68% |
| GPT-4o-as-judge Score | 45.62% | 51.3% | 55.7% | 60.22% |
| F1 Score | 16.66 | 28.5 | 41.2 | 56.71 |
F1 从 16.66 跨到 56.71 的提升非常大,但 baseline 本身在 LOCOMO-10 这种『超长对话 + 多跳 + 时序』硬骨头上几乎全军覆没(10% 召回率都难)。所以提升幅度有夸张成分,但相对 Mem0 / Mem0g 的 15-20 pp 提升是真实的。
按问题类型拆解:
- 单跳问题(『我最喜欢什么口味的咖啡』):65% → 81%,相对提升小
- 多跳问题(『我们上次见面那家咖啡店的对面是什么餐厅』):20% → 55%+,相对提升 3 倍
- 时序问题(『去年这个时候我提到的项目进展』):12% → 48%,相对提升 4 倍
多跳 + 时序的大幅提升说明图谱 + 溯源 + 自适应检索这套组合在硬问题上确实带来质变。
工程化部署考量
MemORAI 在工程上有几个考虑点:
组件依赖
需要三层栈:
- LLM:做 Memory Gate 判断 + 生成 entity/relation 描述(论文用 gpt-oss-20B)
- 向量库:做 multi-faceted retrieval(论文用 Contriever embedding)
- 图数据库:存异构图(Neo4j / NebulaGraph / KuzuDB)
计算成本估算
每次 query 的成本:
- LLM gate:~50ms(小模型推理)
- Multi-faceted retrieval:~10ms(向量检索)
- Dynamic Weighted PageRank:5-50ms(看图谱规模)
- 总计:100-200ms
对实时对话场景可接受,但相比 Mem0 的纯向量检索(~20ms)贵 5-10 倍。
图谱大小膨胀
每轮对话平均产生 2-5 个 fact node + 1 个 turn node。100K 轮对话 ≈ 500K 节点,1-2M 边。Neo4j / KuzuDB 这种 native 图库可以扛,但需要定期 prune 长期不被访问的节点。
跟其他记忆方案的横向对比
5 月份附近记忆方向的几篇代表作:
| 方案 | 核心思路 | 优势 | 劣势 |
|---|---|---|---|
| Mem0 (2504.19413) | 切段 + 向量检索 | 简单、快 | 多跳差 |
| Mem0g (2504.19413) | + entity 三元组图 | 多跳 OK | 没溯源 |
| MemRouter (2605.00356) | 记忆作为 embedding routing | 模型亲和好 | 解释性差 |
| MemORAI (2605.01386) | 三件套全栈 | 多跳 + 时序 SOTA | 工程复杂 |
| Memoria (2512.12686) | 个性化框架(更早) | 多端协同 | 评测体系不完整 |
选型建议:
- 简单对话(10 轮以下):Mem0 足够,便宜快
- 复杂对话 + 多跳:MemORAI 值得部署
- 跨设备同步 + 个性化:Memoria 更合适
论文不足
诚实点评,MemORAI 也有几个待解:
- 没开源代码:截至 5 月底 GitHub 仍未公开,复现困难
- 基准数据少:只测了 LOCOMO 和 LongMemEval,缺更多多样化测试
- Memory Gate 阈值未公开:什么样的 fact 算用户相关?这个分类器的 false negative rate 没披露
- 图谱长期维护机制缺失:3 年对话产生的图谱怎么 prune / 归档没讲
总结
MemORAI 把 LLM 长期记忆推到了『图谱 + 溯源 + 自适应检索』这一层。三个核心创新(选择性过滤、provenance 增强图、Dynamic Weighted PageRank)单独看都不新,但组合到一起在 LOCOMO 多跳 + 时序场景下做出了 3-4 倍的精度提升。
2026 年下半年值得期待的几个方向:
- 代码开源 + 社区集成:LangGraph / Mem0 / LlamaIndex 是否会吸纳类似机制
- RL 维护图谱:让 agent 学会自动决定『什么该忘』
- 图谱压缩 + 隐私敏感:长对话的图谱合规化处理
如果你在做长期对话 agent,强烈建议把 MemORAI 的三件套作为下一代记忆系统的设计参考。
Sources: