DMF:一种用于对话式AI代理的确定性记忆框架

arXiv cs.AI 论文

摘要

介绍DMF,一种用于对话式AI代理的确定性记忆框架,它用经典NLP和数学评分取代了基于LLM的压缩,实现了与Mem0相当的准确度,同时内存准备使用零token,总体token使用量减少高达242倍。

arXiv:2606.03463v1 公告类型:新 摘要:对话式AI代理需要既具有可扩展性又能在长交互时间线上保持语义连贯的记忆系统。现有方法主要依赖于基于大语言模型(LLM)的写入时摘要,这引入了非确定性、不断上升的token成本以及剪枝决策的不透明性。我们提出了确定性记忆框架(DMF),这是一种CPU优先的方法,用完全确定性的流水线替代生成式记忆压缩,该流水线基于经典NLP分析、向量几何和数学评分。DMF为每次对话交互分配一个生存分数$\Omega$,该分数由确定性内容信号、对话线索和结构化来源通过逻辑投影组合计算得出。一个交互计数衰减律,记作$\Omega_{\mathrm{eff}}(\Delta n)$,用于控制相关性如何随着新轮次的到来而演变,其中$\Delta n$是较新交互的数量而非实际时间,从而保持完全确定性。我们展示了DMF的数学公式、其结构化召回流水线、剪枝决策过程以及评估协议。实验在基于LoCoMo和LongMemEval数据集构建的专用基准上进行。我们将DMF与Mem0(一种流行的AI代理记忆层)进行比较。DMF实现了相当的准确度,同时准备记忆上下文使用零token,整个对话过程中的token使用量减少5倍到242倍。这些结果表明,可以从记忆管理循环中消除LLM调用,将token成本降低到接近零,并为对话式AI代理实现确定性记忆系统。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:43

# DMF:面向对话式AI智能体的确定性记忆框架
来源:https://arxiv.org/html/2606.03463

Matteo Stabile 罗马第三大学,意大利 [email protected]  
Enrico Zimuel 罗马第三大学,意大利 [email protected]  

###### 摘要

对话式AI智能体需要既具备可扩展性、又能在长交互范围内保持语义一致性的记忆系统。现有方法主要依赖基于大语言模型(LLM)的写入时摘要,这带来了非确定性、令牌成本不断攀升以及剪枝决策不透明等问题。我们提出**确定性记忆框架(DMF)**,一种CPU优先的方法,它用完全基于经典NLP分析、向量几何和数学评分的确定性流水线取代了生成式记忆压缩。DMF为每次对话交互分配一个*生存分数* Ω,该分数由确定性内容信号、对话线索和结构化溯源,通过逻辑投影计算得出。一种*交互计数衰减律*(记为 Ω_eff(Δn))控制着随新轮次到来相关性如何演变,其中 Δn 是较新交互的数量而非墙钟时间,从而保持完全确定性。我们介绍了DMF的数学公式、结构化召回流水线、剪枝决策流程和评估协议。实验在基于LoCoMo和LongMemEval数据集构建的专用基准上进行。我们将DMF与Mem0(一种面向AI智能体的流行记忆层)进行比较。DMF在准备记忆上下文时使用零令牌,在整个对话中使用的令牌数量减少了5倍到242倍,同时达到了相当的准确性。这些结果表明,可以从记忆管理循环中消除LLM调用,将令牌成本降低到近乎为零,并为对话式AI智能体实现确定性记忆系统。

## 1 引言

作为对话式智能体部署的大语言模型(LLM)受限于固定大小的上下文窗口。随着对话增长,较早的轮次必须被截断、摘要或选择性保留。主流方法是**生成式压缩**:LLM定期将近期历史重写为更短的摘要,以替换上下文中的原始轮次。虽然这种方法在实践中有效,但它存在若干科学和工程上的缺陷。

##### 非确定性。对同一LLM、相同历史进行两次调用可能产生不同的摘要,导致记忆状态不可复现,系统难以调试或审计。
##### 令牌成本。每次摘要调用消耗与历史长度成比例的输入令牌,并产生重新进入上下文的输出令牌。在长时程部署中,此成本可能远超智能体任务本身的成本。
##### 语义漂移。摘要一旦写入,其含义在写入时刻就被固定。如果NLP模型或对话上下文发生变化,摘要仍锚定在过时的解释上。
##### 不透明性。无法检查特定事实为何被保留或丢弃,因为决策隐藏于神经生成步骤内部。

这些局限性促使我们探索一种根本不同的方法:用确定性的、数学定义的流水线取代基于LLM的记忆管理。DMF(确定性记忆框架)正是我们应对这一挑战的方案。DMF是一个CPU优先的框架,它在记忆管理循环中不调用任何LLM来管理对话记忆。该系统使用经典NLP工具(spaCy [bib.bibx4] 用于形态句法分析,VADER [bib.bibx5] 用于情感分析)从每次交互中提取数值内容信号和结构化对话线索,计算标量生存分数 Ω,应用由分数本身调制的指数衰减,并基于 Ω_eff 上的确定性规则做出剪枝决策。被驱逐的条目作为规范原始记录归档,并可附带源链接的确定性卡片投影;检索在查询时执行,因此召回语义随当前确定性流水线而演变。

DMF的主要贡献如下:
1. **交互计数衰减**。我们论证对于对话记忆,相关的时间轴是较新交互的数量 Δn,而非墙钟时间。这一选择使得记忆状态成为消息序列的确定性函数。
2. **分数依赖的惯性**。有效衰减率由原始生存分数调制,因此语义丰富的条目比边缘条目更能抵抗衰减。
3. **召回时NLP**。长期记忆将原始文本记录作为权威来源保存;辅助卡片保持为链接回这些记录的确定性投影。语义解释、过滤和证据组装在查询时执行,将存储稳定性与模型演变解耦。
4. **记忆循环中零LLM调用**。评分、剪枝、归档、检索、重排序和证据组装均为确定性操作,无需生成模型调用。

本文其余部分组织如下:第2节综述相关工作,第3节描述系统架构,第4节介绍NLP特征提取流水线,第5节推导生存分数,第6节阐述时间衰减模型,第7节详述剪枝机制,第8节讨论社交底线启发式,第9节描述包括LTM归档和召回在内的完整记忆生命周期,第10节涵盖实现细节,第11节呈现基准测试结果,第12节和第13节给出结论和未来工作。

## 2 相关工作

### 2.1 基于LLM的记忆压缩

MemGPT [bib.bibx6] 引入了LLM上下文管理与操作系统内存层次结构之间的类比,通过函数调用在主流上下文和外部存储之间移动信息。记忆转换由LLM本身管理,它读取并写入结构化的记忆存储。DMF有根本不同:记忆转换由确定性评分函数控制,而非LLM生成的指令。

Mem0 [bib.bibx3] 提出了一种生产级记忆层,其中LLM从对话中提取结构化事实,并将其作为语义记忆存储,同时进行冲突解决。在LoCoMo基准 [bib.bibx1] 上的Mem0评估表明,针对性语义存储在准确性和令牌效率上均优于全上下文RAG。DMF共享令牌效率的目标,但在记忆管理期间完全避免LLM调用,用确定性信号分析取代事实提取。

A-MEM [bib.bibx7] 构建了一个基于Zettelkasten的记忆系统,在记忆笔记之间建立链接,由LLM分配元数据并建立条目间的互联。ReadAgent [bib.bibx8] 通过LLM调用将对话压缩为简短摘要,并用于检索。MemoryBank [bib.bibx9] 将情景记忆与受艾宾浩斯遗忘曲线 [bib.bibx10] 启发的记忆更新机制相结合。DMF直接借鉴了指数遗忘模型,但通过确定性方式而非神经更新来实现。

### 2.2 检索增强生成

检索增强生成(RAG)[bib.bibx11] 利用从外部语料库检索到的文档来增强LLM响应。应用于对话记忆时,RAG存储原始对话轮次并在查询时检索最相似的轮次 [bib.bibx12]。DMF通过结构化召回流水线扩展了这种方法:在上下文渲染之前,依次执行查询理解、基于原始记录和卡片的候选通道、确定性可回答性重排序、主题感知抑制以及基于来源的证据组装。

### 2.3 长时程对话基准

LoCoMo数据集提供多会话对话数据,包含旨在评估长期记忆召回的结构化问题类型。LangMem [bib.bibx13] 和类似框架在LangChain [bib.bibx14] 之上提供灵活的记忆API,但依赖LLM调用进行记忆蒸馏。我们的基准套件(第11节)遵循LoCoMo的结构设计原则,同时专门针对DMF的确定性属性:噪声下的信号保持、偏好更新传播以及修正链传播。

### 2.4 认知记忆模型

艾宾浩斯遗忘曲线 [bib.bibx10] 将人类记忆保持表征为时间上的指数衰减:R(t)=e^{-t/S},其中 S 是记忆痕迹的**稳定性**。间隔效应和ACT-R认知架构 [bib.bibx15] 通过基于激活的检索阈值扩展了这一模型。DMF将这些思想转化为离散的、交互计数域:衰减在 Δn(较新轮次数量)上呈指数形式,而稳定性类比即为生存分数 Ω 本身,它通过惯性项调制有效衰减率。

## 3 系统架构

DMF由八个功能层组成:
1. **分析流水线**。InteractionPipeline协调NLP引擎、嵌入引擎和交互矩阵。它产生数值内容信号 (ID, |S|, E, D) 以及下游记忆组件使用的规范嵌入。
2. **对话信号层**。语言特定的信号适配器提取确定性的语用线索:偏好、约束、修正、当前状态和过去状态标记、替换模式、类似查询的轮次、类似确认的轮次以及窄主题身份/值对。
3. **评分引擎**。ScoringEngine根据内容信号、操作性对话信号和结构化溯源计算静态生存分数 Ω。
4. **时间记忆**。活动记忆管理器存储MemoryEntry对象,应用交互计数衰减,解析活动可见性,执行令牌预算剪枝,运行周期性清理,并协调归档。
5. **LTM后端**。长期记忆在向量后端中存储规范原始记录。基于向量的存储额外提供对原始记录的语义搜索,并在启用时支持对辅助卡片投影的搜索。
6. **卡片投影层**。被驱逐的条目可投影为确定性MemoryCard对象,表示保守的主-谓-宾事实、偏好、约束、关系、事件或当前状态断言。卡片是检索辅助工具,不替代原始记录。
7. **结构化检索栈**。查询理解、多通道候选生成、硬过滤、可回答性感知重排序和证据组装将记忆基底转换为最终的RetrievedEvidence。
8. **记忆外观**。公共API暴露retrieve()用于结构化证据,render_context()用于生成准备提示的上下文渲染。

核心设计不变式是**源-规范记忆**:权威归档对象始终是原始交互记录。结构化卡片是对这一基底的确定性辅助投影;它们通过符号和语义通道改进检索,但每张卡片仍链接回其源记录,并在提示渲染前扩展回原始支持轮次。这保持了归档与解释之间的分离:稳定的源文本可恢复,而派生语义可由当前确定性流水线重新计算或修订。

图1展示了DMF运行时流水线。每轮处理(左侧)产生生存分数并更新活动记忆。查询时检索(右侧)从原始记录、可见活动记忆和可选的结构化卡片投影构建确定性证据集。

参见标题
**图1:DMF运行时流水线。**

## 4 NLP特征提取

对于每个交互文本 t,NLP引擎提取三个标量内容信号和一个结构化的对话信号包络,无需LLM参与。标量信号驱动生存分数的内容分量;结构化包络被评分、剪枝、卡片投影和检索所使用。

### 4.1 信息密度

信息密度 ID ∈ [0,1] 衡量语义负载标记与总标记的比值。如果一个标记的词性标签属于集合 P = {NOUN, VERB, ADJ, PROPN},则认为它是语义标记:

ID(t) = |{ w ∈ t : pos(w) ∈ P }| / |t|   (1)

其中 |t| 表示总标记数。纯粹应酬性轮次(如“OK”、“多谢!”)由于感叹词(INTJ)被排除,ID ≈ 0;技术性或指令性轮次的 ID 接近 1。

### 4.2 情感幅度

情感幅度 |S| ∈ [0,1] 是VADER复合得分的绝对值 [bib.bibx5]:

|S|(t) = |VADER_compound(t)|   (2)

使用绝对值是因为强烈正面和强烈负面的交互都携带与记忆保留相关的情感显著性。选择VADER是因为其基于规则、确定性的特性:相同文本始终产生相同得分。

### 4.3 命名实体计数

命名实体计数 E ≥ 0 是使用spaCy标准NER模型(类别:PERSON, ORG, GPE, LOC, PRODUCT, EVENT 及相关类型)在 t 中识别的命名实体数量:

E(t) = |{ e ∈ NER(t) }|   (3)

命名实体充当事实锚点;具有许多实体的轮次更可能引入应在记忆中存活的可验证事实。

### 4.4 实体归一化

由于实体计数是无界的,而信息密度和情感幅度已有界限,我们应用带有上限 E_cap 的饱和归一化:

E_norm(t) = min(E(t), E_cap) / E_cap   (4)

默认 E_cap = 5 反映了实证观察:大多数对话轮次包含至多三到四个实体,因此在五处饱和几乎涵盖了所有高实体轮次,不会扭曲尺度。

### 4.5 对话与语用信号

除了标量内容信号外,DMF还提取一组确定性的对话信号:
G(t) = {constraint, preference, current_state, past_state, correction, replacement, query_like, ack_like}.

相似文章

DimMem:面向高效长期智能体记忆的维度结构化

arXiv cs.CL

DimMem 提出了一种用于 LLM 智能体的维度记忆框架,将记忆表示为具有显式字段的原子化、类型化单元,在 LoCoMo-10 和 LongMemEval-S 上实现了最先进的准确率,同时将 token 成本降低了 24%。

δ-mem:大型语言模型的高效在线记忆机制

Hugging Face Daily Papers

本文介绍了 δ-mem,这是一种轻量级的记忆机制,通过为冻结的注意力骨干网络增加一个紧凑的关联记忆状态来增强大型语言模型。实验表明,该机制在计算开销极小的情况下,在记忆密集型基准测试中实现了性能提升。