信念记忆:部分可观测性下的智能体记忆
摘要
本文介绍了 BeliefMem,一种专为大语言模型(LLM)智能体设计的新型记忆范式。该范式通过存储带有概率的多个候选结论来处理部分可观测性问题,并减少自我强化错误。在 LoCoMo 和 ALFWorld 基准测试中的实证评估显示,该方法优于确定性基线模型。
查看缓存全文
缓存时间: 2026/05/08 08:28
# 部分可观察性下的智能体记忆
来源:https://arxiv.org/html/2605.05583
廖俊锋1,王启舟2,朱佳宁3,杜波4,闫锐4,陈秀英1
1MBZUAI 2RIKEN AIP 3UT Austin 4武汉大学
###### 摘要
在长上下文中运行的 LLM 智能体依赖外部记忆来随时间积累知识。然而,现有方法通常将每次观察存储为单一的确定性结论(例如,从暂时性错误中推断出“API X 失败”),尽管此类观察本质上是部分的且可能具有歧义性。通过坚持单一结论并丢弃不确定性,这些方法引入了**自我强化错误(self-reinforcing error)**:智能体基于存储的结论采取行动,不再重新审视其他可能性,并随着时间的推移强化了该结论。为了解决这一问题,我们提出了 **BeliefMem**,它将记忆范式从为每次观察确定单一结论转变为保留带有概率的多个候选结论。具体而言,BeliefMem 将候选结论作为独立的记忆条目存储,每个条目都携带一个概率,随着新观察的到来,通过 Noisy-OR 规则更新该概率。在检索时,所有候选结论连同其概率一起浮现,使智能体能够看到替代方案。由于记忆中的每个结论都保留了其概率,BeliefMem 保留了确定性范式所丢弃的不确定性,使智能体能够基于证据充分的知识高置信度地行动,同时保留在新证据到来时更新其置信度的能力。在 LoCoMo 和 ALFWorld 基准上的实证评估表明,即使数据有限,BeliefMem 也能实现最佳平均性能,显著优于著名的基线模型。更广泛地说,这种概率性记忆产生了显著收益,并为部分可观察环境中的智能体记忆探索了新方向。
## 1 引言
在长周期、多会话任务中部署的**大型语言模型(LLM)**智能体越来越依赖持久化的外部记忆来跨交互积累知识(Huet al., 2025b (https://arxiv.org/html/2605.05583#bib.bib13); Du, 2026 (https://arxiv.org/html/2605.05583#bib.bib14))。**事实记忆**方法将关于用户和环境的观察存储为结构化条目,从自然语言记忆流(Parket al., 2023 (https://arxiv.org/html/2605.05583#bib.bib2))到基于向量的提取事实(Chhikaraet al., 2025 (https://arxiv.org/html/2605.05583#bib.bib12))。虽然这些方法记录了所观察到的内容,但**自我改进记忆**方法则从过去的经验中提炼出可操作的教训,从自然语言反思(Shinnet al., 2023 (https://arxiv.org/html/2605.05583#bib.bib1); Zhaoet al., 2024 (https://arxiv.org/html/2605.05583#bib.bib10))到可复用的技能库(Zhanget al., 2026a (https://arxiv.org/html/2605.05583#bib.bib19))。尽管存在这种多样性,但这些方法共享一个共同范式:每个记忆条目都存储为从观察中推断出的单一确定性结论,且对其执行的每个操作都会产生非黑即白的结果。
这种确定性范式导致错误随时间持续存在。考虑一个观察到 API X 重复超时的智能体(图1 (https://arxiv.org/html/2605.05583#S1.F1)):由于每个记忆条目仅包含单一的分类结论,智能体存储了“API X 失败”,而瞬态故障的可能性(例如,暂时的速率限制)被永久丢弃。自我改进方法通过提炼“避免 API X”等经验放大了这个问题,甚至更新条目的方法也无法逃脱,因为纠正为“API X 正常运行”仅仅是用另一个确定性结论替换前一个,而下一个瞬态错误又会将其翻回原状。此外,当此类有缺陷的结论与用户指令(例如,“使用 API X 以...”)冲突时,智能体难以可靠地采取行动(Huet al., 2025a (https://arxiv.org/html/2605.05583#bib.bib37))。我们将此问题称为**自我强化错误**:智能体基于存储的结论行动,生成进一步证实这些结论的观察(Shaoet al., 2025 (https://arxiv.org/html/2605.05583#bib.bib20); Lamet al., 2026 (https://arxiv.org/html/2605.05583#bib.bib21))。
从根本上说,这些智能体在**部分可观察马尔可夫决策过程(POMDP)**中运行:它们无法直接访问世界的真实状态,仅接收部分且有噪声的观察,如用户消息和工具输出(Kaelblinget al., 1998 (https://arxiv.org/html/2605.05583#bib.bib15))。例如,API X 是永久宕机还是暂时受到速率限制,这是一个必须从观察中推断的隐藏状态。然而,现有的确定性记忆方法将每次观察等同于地面真实值(ground truth),使得替代假设未得到代表,并允许自我强化错误跨会话持续存在(图1 (https://arxiv.org/html/2605.05583#S1.F1))。
> **图1说明**:确定性记忆与 BeliefMem 在 API 超时示例中的对比。在 API X 重复超时后,确定性范式存储“API X 失败”并在后续会话中避免使用它,从而强化错误。相比之下,BeliefMem 保留带有概率的多个假设(例如,故障与速率限制),重试 API,并根据新证据更新信念,从而实现随时间的纠正。
为了弥合这一差距,我们提出了 **BeliefMem**,它将记忆范式从根本上从存储确定性结论转变为维护环境层面的属性级信念表示。具体而言,BeliefMem 为每段存储的知识维护活动的候选结论,为每个结论分配一个概率,随着新观察的到来,通过 Noisy-OR 证据合并进行更新。在检索时,每个潜在状态的候选结论连同其概率一起浮现,使竞争假设对智能体可见,而不是将其简化为单一确定性结论。这种信念感知记忆存储与概率感知检索的组合直接根除自我强化错误:确定性范式在存储阶段丢弃的替代结论现在得以保留并对智能体开放。例如,在图1 (https://arxiv.org/html/2605.05583#S1.F1) 中,API X 的重复超时使候选结论与永久故障保持活力。因此,智能体可以在未来重新审视先前不利的行动,并且每次新观察都会逐步完善每个结论的概率分配,加强证据充分的结论,并削弱证据薄弱的结论。
为了评估 BeliefMem,我们在 LoCoMo(Maharanaet al., 2024 (https://arxiv.org/html/2605.05583#bib.bib7))和 ALFWorld(Shridharet al., 2020 (https://arxiv.org/html/2605.05583#bib.bib30))基准上进行了实验,涵盖从长期对话到具身智能体交互的场景。实证评估显示,我们的方法在这两个基准上均实现了最佳平均性能,优于现有的记忆方法,即使记忆语料库规模有限。此外,消融研究和对抗实验证实了 BeliefMem 在保留不确定性和完善记忆方面的有效性。更广泛地说,这些结果表明,用概率性信念表示替换确定性记忆条目带来了令人鼓舞的收益,为部分可观察环境中的智能体记忆范式探索了新方向。
## 2 相关工作
### 2.1 事实记忆与基于 RL 的记忆
事实记忆和基于 RL 的记忆方法遵循确定性范式,将每次观察的候选结论缩减为单一的分类结论并丢弃其他选项。在这一共同范式下,早期事实记忆方法主要在如何组织和访问存储条目方面存在差异。Generative Agents(Parket al., 2023 (https://arxiv.org/html/2605.05583#bib.bib2))维护自然语言记忆流并使用各种信号检索记忆,而 MemGPT(Packeret al., 2023 (https://arxiv.org/html/2605.05583#bib.bib4))通过虚拟上下文管理跨上下文、召回和存储管理记忆。后续工作进一步改进了提取、组织和检索,而未改变底层表示:Mem0(Chhikaraet al., 2025 (https://arxiv.org/html/2605.05583#bib.bib12))动态提取和整合显著事实以进行基于向量的检索,A-MEM(Xuet al., 2025 (https://arxiv.org/html/2605.05583#bib.bib16))将记忆组织为带有索引和链接的结构化笔记。其他工作丰富了存储结构本身,MemoryBank(Zhonget al., 2024 (https://arxiv.org/html/2605.05583#bib.bib6))使用遗忘曲线更新检索强度,Zep(Rasmussenet al., 2025 (https://arxiv.org/html/2605.05583#bib.bib22))在时序知识图中保留不断演变的信息,MemOS(Liet al., 2025 (https://arxiv.org/html/2605.05583#bib.bib23))在单一系统内统一异构记忆块。与此同时,基于 RL 的记忆方法用可学习策略替换这种手工制作的记忆管理,以添加/更新/删除条目,包括 Memory-R1(Yanet al., 2025 (https://arxiv.org/html/2605.05583#bib.bib11))、MEM1(Zhouet al., 2025 (https://arxiv.org/html/2605.05583#bib.bib24))、Agentic Memory(Yuet al., 2026 (https://arxiv.org/html/2605.05583#bib.bib5))和 MemRL(Zhanget al., 2026b (https://arxiv.org/html/2605.05583#bib.bib18))。在这些研究中,主要差异在于存储管理和检索策略,而非记忆表示,其中每个记忆条目通常仍仅记录一个从嘈杂和模糊观察中推断出的分类结论。
### 2.2 自我改进记忆
除了记录事实观察外,自我改进记忆方法存储从过去经验中提炼出的可操作教训,以指导智能体的后续行动。有几项研究将原始经验总结为口头教训,例如 Generative Agents(Parket al., 2023 (https://arxiv.org/html/2605.05583#bib.bib2))将交互历史总结为反思性记忆,Reflexion(Shinnet al., 2023 (https://arxiv.org/html/2605.05583#bib.bib1))从失败经验中生成自我纠正指南,ExpeL(Zhaoet al., 2024 (https://arxiv.org/html/2605.05583#bib.bib10))将轨迹中的重复模式聚合为可复用的见解。除了口头教训外,并行工作还在不断增长的技能库中记录可行行动。Voyager(Wanget al., 2023 (https://arxiv.org/html/2605.05583#bib.bib3))随着智能体探索新环境通过自动课程扩展库,MemSkill(Zhanget al., 2026a (https://arxiv.org/html/2605.05583#bib.bib19))构建了一组技能,以在相关问题之间转移可复用的知识。尽管从事实观察转变为提炼经验,但这些方法保留了相同的确定性范式,将每个教训存储为单一分类条目,而忽略了观察中的不确定性。
### 2.3 部分可观察性下的信念状态
在标准 POMDP 中,部分可观察性下的不确定性由信念状态表示,即条件于观察历史的隐藏状态上的概率分布(Kaelblinget al., 1998 (https://arxiv.org/html/2605.05583#bib.bib15))。最近的工作将 LLM 智能体视为在部分可观察性下运行,并使用基于信念的表示进行动作选择和协调(Lidayanet al., 2025 (https://arxiv.org/html/2605.05583#bib.bib25); Jianget al., 2026 (https://arxiv.org/html/2605.05583#bib.bib26); Wanget al., 2025 (https://arxiv.org/html/2605.05583#bib.bib17))。此外,Belief Engine(Yanget al., (https://arxiv.org/html/2605.05583#bib.bib27))在特定的多智能体辩论设置中外部化和更新信念,实证研究表明,智能体的信念与环境真实状态之间的不匹配可能导致不可靠的意见和行动(Genget al., 2025 (https://arxiv.org/html/2605.05583#bib.bib29))。然而,现有的记忆系统仍然忽略了这种部分可观察性的关键含义,即智能体的观察仅提供关于隐藏状态(例如,用户偏好)的部分证据,而不是直接访问真实状态。因此,记忆被表示为从嘈杂观察中推断出的确定性结论,将其不确定性坍缩为单一地面真实值。这促使我们采用一种保留此类不确定性而非将每个记忆条目存储为地面真实值的记忆表示。
## 3 方法论
### 3.1 问题表述
**POMDP(部分可观察马尔可夫决策过程)设置**
我们考虑智能体与部分可观察环境的交互。在决策时刻 $t$,智能体可访问观察 $o_t \in \mathcal{O}$ 并选择动作 $a_t \in \mathcal{A}$。令 $s_t \in \mathcal{S}$ 表示时刻 $t$ 的潜在环境状态,环境根据 $s_{t+1} \sim T(\cdot \mid s_t, a_t)$ 进行转换(Kaelblinget al., 1998 (https://arxiv.org/html/2605.05583#bib.bib15))。贝叶斯最优动作选择依赖于信念状态,即由交互历史引起的潜在状态上的后验分布。定义 $\eta_t := (o_{1:t}, a_{1:t-1})$,我们写为:
$$ b_t(s) := \Pr(s_t = s \mid \eta_t), \quad b_t \in \Delta(\mathcal{S}), \quad a_t \sim \pi(\cdot \mid b_t) \quad (1) $$
因此,$b_t$ 是用于动作选择的动作-观察历史的充分统计量。
**作为信念近似的外部记忆**
现有记忆方法可被视为通过外部记忆模块 $M_t$ 近似 $b_t$,该模块将过去交互中与任务相关的信息压缩为可检索结构。在时刻 $t$,智能体使用当前观察 $o_t$ 查询 $M_t$ 以获得记忆上下文:
$$ z_t = \mathrm{Read}(M_t, o_t) \quad (2) $$
并基于观察和检索到的上下文选择动作:$a_t \sim \pi(\cdot \mid o_t, z_t)$。执行 $a_t$ 并观察 $o_{t+1}$ 后,记忆更新为:
$$ M_{t+1} = \mathrm{Update}(M_t, o_t, o_{t+1}) \quad (3) $$
其中 $\mathrm{Update}$ 涵盖记忆写入和管理操作(Xuet al., 2025 (https://arxiv.org/html/2605.05583#bib.bib16); Yanet al., 2025 (https://arxiv.org/html/2605.05583#bib.bib11))。这样,$M_t$ 充当信念状态的可处理近似值,支持未来决策而无需维护无法访问的完整后验。
### 3.2 动机
**确定性瓶颈**
然而,在实践中,许多现有记忆方法存储与任务相关的潜在属性的点估计,即从观察中推断出的每个属性的确定性结论,从而丢弃了在完整信念表示 $b_t(s)$ 中会保留的不确定性。令 $c$ 表示潜在状态的任务相关属性(例如,用户偏好、工具状态或对象位置关系),并令 $\mathcal{H}(c) = \{h_1^{(c)}, ..., h_{M_c}^{(c)}\}$ 表示代表 $c$ 可能结论的互斥且共同穷尽的假设集合。可靠的记忆应为每个 $c$ 维护局部后验:
$$ b_t^{(c)}(h) := \Pr(s_t \in h \mid o_{1:t}, a_{1:t-1}) = \sum_{s \in h} b_t(s), \quad h \in \mathcal{H}(c) $$相似文章
SuperLocalMemory V3.3: 活体大脑——面向零LLM智能体记忆系统的生物启发式遗忘、认知量化与多通道检索
SuperLocalMemory V3.3 引入了一种面向AI智能体的统一记忆与学习系统,具备生物启发式遗忘、多通道检索和P2P网状协调。该系统在LoCoMo基准测试上达到74.8%的成绩,并具有三流学习、生命周期管理和符合欧盟AI法案的特点。
HeLa-Mem:面向LLM智能体的赫布学习与联想记忆
# HeLa-Mem: Hebbian Learning and Associative Memory for LLM Agents 来源:[https://arxiv.org/html/2604.16839](https://arxiv.org/html/2604.16839) Jinchang Zhu1,∗,a, Jindong Li1,∗, Cheng Zhang2,∗, Jiahong Liu3, Menglin Yang1,†,b 1香港科技大学(广州) 2吉林大学 3香港中文大学 [email protected] [email protected] ∗同等贡献 †通讯作者 ###### 摘要 长...
Cognis:面向对话式 AI 智能体的上下文感知记忆系统
Lyzr Cognis 推出统一开源记忆系统,融合 BM25 与 Matryoshka 向量搜索并支持版本感知写入,在 LoCoMo 与 LongMemEval 基准上实现 SOTA。
MemReranker:面向智能体记忆检索的推理感知重排序
MemReranker 是一个针对智能体记忆检索设计的推理感知重排序模型家族(0.6B/4B),通过结合 LLM 知识蒸馏技术解决语义相似性匹配的局限性,从而提升模型的时间与因果推理能力。
从回想到遗忘:为个性化智能体评估长期记忆
研究者推出 Memora 基准,衡量大模型在持续数周至数月的对话中保留、更新与遗忘用户长期记忆的能力,发现模型常复用已失效记忆。