LANTERN:分层归档与时序情景检索网络,用于长上下文LLM对话
摘要
LANTERN 引入了一个轻量级记忆层,能够在对话压缩后归档对话轮次并检索相关细节,恢复了78.3%丢失的事实,且无需任何LLM调用,性能优于基于MemGPT的方法。
arXiv:2606.05182v1 公告类型:新
摘要:大语言模型在将对话历史压缩以适配有限上下文窗口时,会丢弃关键细节。我们提出 LANTERN(分层归档与时序情景检索网络),这是一个轻量级记忆层,能够主动归档每一个对话轮次,并在压缩后通过混合检索恢复相关细节——无需任何LLM调用,每轮次延迟增加不到25毫秒。在94个真实多轮对话(1894个地面实况事实,人类验证kappa=0.81)上,LANTERN-Rerank恢复了78.3%因压缩而丢失的可验证事实,显著优于对MemGPT的LLM驱动提取和多查询搜索管道的忠实重实现(72.4%;Wilcoxon p<0.0001,95% CI [+3.1, +8.6] 个百分点,d=0.43),且推理成本极低。即使没有重排序器,基础LANTERN在零次LLM调用下也能达到或超过这一LLM驱动的基线(p=0.005)。当四个生产级LLM使用LANTERN恢复的上下文回答事实性问题时,平均准确率提升了8.4个百分点(每个模型单独Wilcoxon p<0.05),表明恢复的上下文在不同模型架构上均有用。我们发布了完整的评估框架——包括配对显著性检验、失败分析、事实类型分层和压缩鲁棒性分析——以支持可重复性和未来工作。
查看缓存全文
缓存时间: 2026/06/05 08:05
# 用于长上下文LLM对话的分层存档与时间情景检索网络
###### 摘要
大型语言模型在将对话历史压缩以适配有限上下文窗口时,会丢弃关键细节。我们提出 Lantern(分层存档与时间情景检索网络),一种轻量级记忆层,它能主动存档每一轮对话,并在压缩后通过混合检索恢复相关细节——无需任何LLM调用,每轮额外延迟小于25毫秒。¹ 在94个真实多轮对话(1,894个人工验证的事实,人类一致性κ=0.81)上,Lantern-Rerank恢复了78.3%因压缩而丢失的可验证事实,显著优于对MemGPT基于LLM的提取和多查询搜索管道的忠实复现(72.4%;Wilcoxon检验 p<0.0001,95%置信区间 [+3.1, +8.6] 个百分点,d=0.43),且推理成本极低。即使没有重排序器,基础版Lantern在无需任何LLM调用的情况下也达到或超过了该基于LLM的基线(p=0.005)。当四个生产级LLM使用Lantern恢复的上下文回答事实性问题时,准确率平均提升8.4个百分点(每个模型单独的Wilcoxon检验 p<0.05),表明恢复的上下文在不同模型架构中均有用。我们发布了完整的评估框架——包括配对显著性检验、失败分析、事实类型分层和压缩鲁棒性分析——以支持可重复性和未来工作。
## 1 引言
现代大型语言模型(LLM)在有限的上下文窗口内运行。当多轮对话超出此容量时,系统会采用*压缩*:对较早的消息进行摘要或截断,为新内容腾出空间。虽然压缩保持了对话的流畅性,但它会破坏具体细节——端口号变成了“配置了数据库”,错误代码变成了“修复了一个bug”,架构决策变成了“讨论了设计”。
我们将这种信息丢失形式化为*上下文悬崖*。设 C_t 表示第 t 轮时的上下文,F(C_t) 表示可检索的事实集合。在压缩轮次 t* 时:
C_{t*+1} = summarize(C_1, ..., C_{t*-k}) ⊕ C_{t*-k+1} ⊕ ... ⊕ C_{t*} (1)
其中 ⊕ 表示上下文拼接。上下文悬崖定义为 ΔF = F(C_{t*}) \ F(C_{t*+1})。在我们的实验中,|ΔF| / |F(C_{t*})| > 0.5:单次压缩事件后,超过一半的特定事实丢失。最近的实证工作证实,生产级LLM的最大有效上下文窗口(MECW)可能远小于宣传的窗口,准确性在标称限制之前就已显著下降 Paulsen (2025)。
图1 (https://arxiv.org/html/2606.05182#S1.F1) 展示了编码会话中上下文悬崖的具体示例。
**压缩前**
第1轮(用户)
在 config/db.yaml 中将数据库端口设置为 5433
第1轮(助手)
完成。更新了 config/db.yaml,端口设为 5433。
第3轮(用户)
用户存储使用 PostgreSQL 而非 MongoDB
第3轮(助手)
好的选择。正在设置 PostgreSQL 驱动...
第15轮(用户)
在 src/auth.ts 中创建认证中间件...
... 再25轮 ...
**压缩后**
LLM摘要:
“讨论了数据库设置,做出了架构决策,创建了认证中间件...”
✗ 端口 5433 ——丢失
✗ PostgreSQL 决策 ——丢失
✗ 文件路径 src/auth.ts ——丢失
✗ 工具调用和文件引用 ——丢失
最近的38-40轮(保留)
只有最后几条消息存活。
**Lantern 恢复**
✓ 数据库端口 = 5433 || config/db.yaml
✓ 选择 PostgreSQL 而非 MongoDB
✓ 认证中间件 || src/auth.ts
✓ 工具调用:write_file, run_cmd
压缩 混合检索
图1:上下文悬崖的实践。左:一个编码对话,包含具体的、可恢复的事实(高亮)。右上:压缩后,较早的轮次被模糊的摘要替换——具体事实被破坏。右下:Lantern通过混合检索从其存档存储中恢复丢失的细节。
这个问题影响每一次扩展的LLM交互。编码助手会丢失配置值和架构决策。支持代理会忘记会话早期提到的客户细节。研究助手会丢失早期分析中的引用和数值结果。
现有方法分别解决了部分问题,但各自存在不足。滑动窗口仅保留最近的上下文。RAG系统 Lewis et al. (2020) 从静态文档中检索,而非实时对话历史。摘要化本质上会丢失具体性。MemGPT Packer et al. (2023) 引入了显式的内存分页,但依赖LLM本身来决定存档什么,引入了延迟和成本。
我们提出 Lantern,一种压缩感知的内存系统,它将主动的提取式存档与通过倒数排名融合 (Reciprocal Rank Fusion) 的混合检索相结合 Cormack et al. (2009),形成一个在存档和基础恢复过程中无需任何LLM调用的管道。关键洞察是,基于LLM的事实提取——对话记忆系统中的主导范式——并非必要:一个精心设计的提取式存档管道,融合多个检索信号,可以在成本低数个数量级的情况下匹配或超越基于LLM的方法。附录D (https://arxiv.org/html/2606.05182#A4) 评估了一个用于多会话管理的可选置信度衰减机制。
我们的贡献如下:(1) 我们证明 Lantern-Rerank 恢复了 78.3% 因压缩而丢失的事实,显著优于 MemGPT-Faithful (72.4%; p<0.0001, d=0.43, 95% CI [+3.1, +8.6] 个百分点)。即使没有重排序器,基础版 Lantern (76.3%) 也优于这个基于LLM的基线 (p=0.005),且无需任何LLM调用——从而确立了无提取存档与混合检索是LLM驱动记忆的一种高成本效益替代方案。(2) 我们表明,恢复的上下文广泛有用:四个生产级LLM在使用Lantern恢复的上下文回答问题时,平均准确率提升8.4个百分点(每个模型单独的 p<0.05),并且我们描述了基础检索(质量评分4.42/5)与重排序(4.11/5)之间的覆盖-连贯性权衡。(3) 我们发布了一个严格的评估框架——包含 94 个真实对话中的 1,894 个人工验证事实——包括失败分析、事实类型分层、配对统计检验和压缩鲁棒性分析,为未来压缩感知记忆研究建立了一个基准。
## 2 相关工作
#### 上下文窗口扩展。
RoPE Su et al. (2021)、ALiBi Press et al. (2022) 和 Longformer Beltagy et al. (2020) 等架构支持更长的序列,但并未解决超出窗口时的信息丢失问题。Liu et al. (2024) 表明LLM在长上下文中未能充分利用中间位置的信息。环注意力 (Ring Attention) Liu et al. (2023) 是一种分布式注意力算法,它将序列分区到多个设备上,从系统层面实现接近无限的序列长度;然而,它并未解决早期轮次被稀释时发生的*语义*丢失。无限注意力 (Infini-attention) Munkhdalai et al. (2024) 将压缩记忆直接集成到注意力机制中,但需要模型重新训练,限制了其在API提供的LLM上的适用性。流式LLM (StreamingLLM) Xiao et al. (2024b) 维护注意力汇点以实现稳定的流式推理,而 SnapKV Li et al. (2024) 压缩键值缓存;两者都旨在提高效率而非信息保存。InfLLM Xiao et al. (2024a) 通过高效上下文记忆提供免训练上下文外推。这些发现共同表明,应用层记忆作为架构扩展的实用且互补的替代方案。
#### 检索增强生成。
RAG Lewis et al. (2020) 和 RETRO Borgeaud et al. (2022) 通过文档检索增强LLM。这些系统专为静态知识库设计,无法处理实时对话的时间演化特性。HippoRAG Gutiérrez et al. (2024) 借鉴神经生物学原理为LLM实现长期记忆,但目标是知识图谱构建而非对话事实恢复。
#### 记忆增强代理。
MemGPT Packer et al. (2023) 为LLM代理引入了操作系统风格的内存分页,将存档决策委托给LLM。Park et al. (2023) 为生成式代理实现了基于反射的记忆。Zhang et al. (2024) 调查了LLM代理中的记忆机制,指出了在上下文持久性系统评估方面的空白。Wang et al. (2024) 和 Modarressi et al. (2024) 探索了模型级别的读写记忆。Larimar Das et al. (2024) 通过外部记忆模块为LLM引入了情景记忆控制。CoALA框架 Sumers et al. (2024) 提出了具有结构化记忆组件的语言代理认知架构。
#### 对话记忆基准。
LongMemEval Wu et al. (2024) 对跨会话的长期交互式记忆进行基准测试。LoCoMo Maharana et al. (2024) 提供了一个用于评估长对话记忆的数据集。Lantern的评估框架通过专门关注压缩事件后的*会话内*事实恢复来补充这些工作。
Lantern 在三个维度上与先前工作不同。与截断和滑动窗口不同,它在*压缩之前*存档上下文。与标准RAG不同,它索引的是实时对话轮次而非静态文档。与 MemGPT Packer et al. (2023) 不同(后者将存档决策委托给LLM,带来延迟和成本),Lantern的存档和基础检索无需任何LLM调用;LLM仅在可选的重排序步骤和压缩本身被调用。
## 3 方法
Lantern作为应用程序和LLM之间的中间件运行。它观察每一轮对话,维护一个持久的SQLite存储,并在压缩事件后注入恢复的上下文。系统有两个核心阶段——*存档*和*恢复*——以及一个用于多会话管理的可选*强化*阶段(图2 (https://arxiv.org/html/2606.05182#S3.F2))。
➊ 存档每一轮 · 零LLM调用
记忆存储 SQLite · WAL · FTS5
➋ 在压缩事件上恢复
➌ 强化 自我优化循环
对话轮次 LLM运行时
分块轮次 用户 · 助手 · 工具调用
摘要 提取式 · ≤1200字符
标签与分类 情景 / 语义 / 程序
嵌入 MiniLM-L6-v2 · 384维
SQLite WAL模式 FTS5索引 去重哈希 c0=0.5 σ0=0.5
写入
语义 余弦
全文 FTS5 关键词
Jaccard 重要性 R⋅F⋅D⋅c⋅σ
RRF融合 ∑ 1/(60+rank)
MMR多样性 λ=0.7
预算打包 B=6k字符
压缩 抽取 注入上下文
提升 c+0.15 衰减 c-0.02 修剪 c<0.15
恢复ID 更新 c, σ
图2:Lantern系统架构。存档(蓝色):每一轮被分块、摘要、标记和嵌入——零LLM调用。记忆存储(青色):带FTS5索引、去重和每个条目置信度c及EMA成功率σ的WAL模式SQLite。恢复(橙色):压缩时,四个并行检索信号通过倒数排名融合合并,通过MMR(λ=0.7)多样化,并打包到6000字符预算内。强化(绿色):检索到的条目被提升,未检索的衰减,过时的条目被修剪——形成一个自我优化循环。
### 3.1 主动存档
在每一轮,Lantern执行五个操作,无需LLM调用:
#### 1. 分块。
用户和助手消息被分组为轮次对,同时包含工具调用元数据和文件路径。
#### 2. 提取式摘要。
摘要被确定性生成:每条消息最多500字符,加上工具和文件引用,截断至1200字符。
#### 3. 嵌入。
使用句子转换器 (all-MiniLM-L6-v2, 384维) 对摘要进行编码 Reimers and Gurevych (2019)。
#### 4. 标签和类型提取。
通过模式匹配提取标签(例如文件路径、错误代码、函数名)。每轮对话被分类为记忆类型(情景、语义或程序),以支持下游过滤。
#### 5. 存储。
条目写入SQLite(WAL模式,FTS5全文索引),附带元数据:置信度分数(初始化为0.5)、访问次数、时间戳、标签和记忆类型。
每轮存档成本:零LLM API调用,<25毫秒延迟,约2KB存储。(压缩本身由宿主LLM运行时执行,不属于Lantern的存档管道。)
### 3.2 混合检索与恢复
当检测到压缩时,Lantern在字符预算B内恢复上下文。检索结合四个通过倒数排名融合(RRF)融合的排序列表 Cormack et al. (2009):
#### 语义相似性。
查询嵌入与存储条目嵌入之间的余弦相似性。
#### 全文搜索。
SQLite FTS5对条目摘要和内容的排序。
#### 关键词重叠。
查询词与条目查找提示(标签、文件路径、工具名称)之间的Jaccard相似性重叠。
#### 重要性评分。
每个条目按以下方式评分:
I(e) = R(e) · F(e) · D(e) · c_e · σ_e (2)
其中 R(e) = exp(-0.693 · Δt / T_{1/2}) 是新近度(半衰期 T_{1/2}=7 天),F(e) = log2(a_e+1)+1 是频率,D(e) 是丰富度(工具调用和文件引用的奖励),c_e 是置信度,σ_e 是EMA成功率。
四个排序列表使用 RRF 常数 k=60 进行融合:
RRF(e) = Σ_{L∈L} 1 / (k + rank_L(e)) (3)
在将条目打包到预算之前,对融合排序应用最大边际相关性(MMR)Carbonell and Goldstein (1998) 以促进多样性。
#### 可选重排序相似文章
LANTERN:一种结合大语言模型增强、基于经验门控推理网络的神经符号迁移方法
本文介绍了 LANTERN,这是一个用于强化学习中多源神经符号迁移的框架,它利用大语言模型生成任务自动机,并结合自适应门控机制来提高样本效率。
RecMem:基于重复的记忆整合方法,用于高效且有效的长期运行LLM智能体
RecMem是一种基于重复的记忆整合方法,适用于长期运行的LLM智能体,通过仅在语义相似的交互重复出现时调用LLM,可减少高达87%的令牌消耗,同时提高准确性。
Mem0:利用可扩展的长期记忆构建生产就绪的 AI 智能体
Mem0 引入了一种基于图表示的可扩展内存中心架构,旨在提升大语言模型(LLM)在长期对话中的连贯性,在显著降低延迟和 Token 成本的同时,性能优于现有的记忆系统。
PersonaVLM:长期个性化多模态大语言模型
PersonaVLM 提出了一种个性化多模态大语言模型框架,通过记忆保留、多轮推理和响应对齐实现长期用户适应,在新推出的 Persona-MME 基准测试中比 GPT-4o 高出 5.2%。
SimpleMem: 面向大语言模型智能体的高效终身记忆
介绍SimpleMem,一种面向LLM智能体的高效记忆框架,利用语义无损压缩提升准确率并降低token消耗,F1分数提升26.4%,推理时token使用量减少高达30倍。