G-Long: 图增强内存管理用于高效长期对话代理

arXiv cs.CL 论文

摘要

G-Long 提出了一种用于长期对话代理的图增强内存管理框架,利用微调的小型语言模型进行结构化三元组提取和关联检索,在响应生成和内存检索方面取得了最先进的性能,同时降低了计算开销。

arXiv:2606.13115v1 公告类型: 新 摘要:尽管大型语言模型(LLMs)推动了开放域对话系统的发展,但由于长上下文推理的固有限制以及处理大量原始文本的低效性,保持长期一致性仍然是一个挑战。现有方法通常依赖于非结构化内存存储(容易导致信息丢失)或计算成本高且延迟大的大型语言模型。为了解决这些限制,我们提出了 G-Long,一种图增强框架,利用微调的小型语言模型(sLM)进行结构化三元组提取和关联检索,显著降低了运营成本。此外,我们引入了新颖的注意力感知重要性评分机制,利用 T5 摘要器的内在交叉注意力信号来识别重要记忆。在多个基准上的广泛实验表明,G-Long 在响应生成和内存检索方面均达到了最先进的性能,在 MSC 上的响应质量提升高达 9.8%,在 LME 上的检索召回率提升高达 40.8%,同时显著降低了计算开销。
查看原文
查看缓存全文

缓存时间: 2026/06/12 08:51

# G-Long:面向高效长期对话智能体的图增强记忆管理

来源:https://arxiv.org/html/2606.13115

Minjun Choi Yoonjin Jang Sangwon Youn Youngjoong Ko  
成均馆大学,韩国水原  
\{alswns078, yoonjinjang98, mikeyoun2000\}@gmail.com, [email protected]

###### 摘要

尽管大型语言模型(LLM)推动了开放域对话系统的发展,但由于长上下文推理的固有限制以及处理大量原始文本的低效性,保持长期一致性仍然是一个挑战。现有方法通常依赖非结构化记忆存储(易导致信息丢失)或计算成本高昂、延迟高的LLM。为应对这些局限,我们提出 G-Long,一种图增强框架,利用经过微调的小型语言模型(sLM)进行结构化三元组提取和关联检索,显著降低运行成本。此外,我们引入了新颖的注意力感知重要性评分机制,利用 T5 摘要器内在的交叉注意力信号来识别显著记忆。在多个基准上的广泛实验表明,G-Long 在响应生成和记忆检索方面均达到了最先进的性能,在 MSC 上响应质量提升高达 9.8%,在 LME 上检索召回率提升 40.8%,同时大幅降低了计算开销。¹¹¹ 代码可在 https://anonymous.4open.science/r/G-Long-8E5E/ 获取

G-Long:面向高效长期对话智能体的图增强记忆管理

Minjun Choi Yoonjin Jang Sangwon Youn Youngjoong Ko††感谢通讯作者。  
成均馆大学,韩国水原  
\{alswns078, yoonjinjang98, mikeyoun2000\}@gmail.com, [email protected]

请参考图注

图1:长期记忆范式的比较。现有依赖重型LLM的非结构化文本记忆库(左)。提出的基于本地sLM的结构化图记忆库 G-Long(右)。

## 1 引言

大型语言模型(LLM)的最新进展彻底改变了开放域对话系统,使智能体能够生成流畅且上下文感知的响应。然而,与用户建立长期关系需要长期记忆来保持人物一致性并回忆跨扩展会话的过往事件(Xu 等,2022a,b;Ong 等,2025)。缺乏这种能力,智能体就无法维持上下文连续性,从而将会话视为孤立的交互,导致用户体验脱节且缺乏个性。为了实现长期对话中的高质量生成,记忆系统必须同时克服检索精度和计算效率方面的挑战。如图1(左)所示,现有框架通常利用大规模LLM进行记忆管理,通过段落摘要维护非结构化记忆库(Tan 等,2025;Zhong 等,2024;Lu 等,2023;Chen 等,2025)。这些传统框架固有地存在以下局限性。首先,基于文本的摘要容易随时间丢失关键细节。当复杂的长期对话被压缩成普通段落时,实体之间的有意义关系变得模糊。例如,“深海捕鱼”这样的特定上下文会被泛化为“\[捕鱼\]”之类的抽象术语,导致标准稠密检索方法难以跨过往会话追踪确切事实,从而损害响应生成。其次,将非结构化的冗长段落摘要直接输入大型LLM进行记忆操作会导致大量的token消耗和计算开销,使系统效率极低。为克服这些局限,我们主张将非结构化文本存储转向基于图的记忆库,如图1(右)所示。通过将实体及其关系显式建模为具有精确重要性分数的离散三元组(例如,将(文章,主题,深海捕鱼)排序为0.98),基于图的范式缓解了检索歧义性,并以紧凑表示存储丰富上下文。此外,与冗长文本段落相比,这种结构紧凑性使得框架能够向LLM注入高度浓缩且相关的上下文,从而减少提示token开销和推理成本。因此,我们提出 G-Long,一种资源高效、图增强的框架,用于可扩展且精确的长期对话记忆管理。在 MSC、CC、LoCoMo 和 LME 基准上的广泛评估表明,G-Long 实现了最先进的性能,这得益于三个关键贡献。

- • 首先,一种人物驱动的图结构建立了细粒度、基于三元组的记忆库,针对长期对话进行了优化。通过捕获与对话人物一致的核心关系模式(例如,通过 PersonaExt),G-Long 解决了对话噪音和段落模糊的关键问题,在 MSC 数据集上实现了 9.8% 的响应质量提升(BLEU-2)。
- • 其次,关联检索机制与注意力感知重要性评分模块相结合,最大化检索精度。G-Long 通过结构化子图扩展导航拓扑连接,同时基于注意力驱动的重要性信号过滤检索到的三元组。这种方法弥合了表面相似性与多跳推理之间的差距,在 LME 基准上实现了 40.8% 的检索性能提升(Recall@3)。
- • 最后,资源高效的框架设计最小化了整体运营成本。通过将记忆构建卸载到经过微调的小型语言模型(sLM),并向LLM提供紧凑的图三元组而非冗长段落,G-Long 消除了高昂的LLM-API依赖。这使得记忆维护成本降低了 4.9 倍,token消耗减少了 63.0%,同时不牺牲生成质量。

请参考图注

图2:G-Long 框架概览。

## 2 相关工作

##### 长期对话系统

为了评估长期对话一致性,研究人员投入了大量精力构建高质量基准。代表性数据集包括用于开放域对话的 MSC(Xu 等,2022a)和 CC(Jang 等,2023)。此外,还引入了 LongMemEval(Wu 等,2025a)和 LoCoMo(Maharana 等,2024)来严格评估特定的记忆保持能力,而 CareCall(Bae 等,2022a)则将范围扩展至医疗领域。虽然处理长期对话最直观的方法是直接拼接整个对话历史,但这会带来高昂的计算成本,并因“中间迷失”现象(Liu 等,2023a)而降低性能。早期研究(Xu 等,2022a;Bae 等,2022b)依赖简单的摘要来压缩上下文,这常常为了简洁而牺牲细节。为了解决这个问题,最近的方法转向了结构化外部记忆系统,利用细粒度抽象实现精确保留(Zhang 等,2023a;Ong 等,2025)。例如,MemoryBank(Zhong 等,2024)模仿人类遗忘机制,高效保存显著信息。为了增强检索精度,FraCom(Ke 等,2025)和 RMM(Tan 等,2025)侧重于通过将历史分解为命题级别单元或语义主题来进行细粒度重构。此外,LD-Agent(Li 等,2025)通过将记忆分离为独立的事件和人物模块来应对长期交互的复杂性,从而分别跟踪叙事轨迹和用户特征。尽管取得了这些进展,但对LLM进行记忆管理的严重依赖限制了可扩展性,而非结构化表示则阻碍了精确检索和信息丰富的响应生成。

##### 面向长期对话智能体的记忆管理

一系列并行工作研究了结构化记忆表示,将对话转换为离散语义单元。最常见的基元是(主语,关系,宾语)三元组(Trisedya 等,2019)。Vossen 等(2024)和 Li 等(2024)提取开放域关系来丰富对话理解,而 Wu 等(2020)和 GenRe(Wang 等,2022)则针对属性级三元组来构建动态用户画像。PAED(Zhu 等,2023)引入了一种对比学习模型用于广义零样本人物属性提取,而 Papaluca 等(2023)和 Deng 等(2024)表明LLM可以在零样本设置下从文本构建知识图谱。这些方法确立了三元组作为对话记忆的可行基元,但它们依赖重型LLM进行提取,并将所得三元组视为静态的,缺乏评估其对检索相对重要性的机制。一旦获得了这样的结构化单元,下一步就是将它们组织成图。该方向的近期工作——包括 GraphRAG(Edge 等,2025)、HippoRAG(Gutiérrez 等,2024)和 LinearRAG(Zhuang 等,2025)——侧重于在静态文档语料库中综合全局见解或导航复杂关系。He 等(2024);Mavromatis 和 Karypis(2025);Hu 等(2025)这种静态假设与长期对话存在两个结构性不匹配:(i)命名实体识别在通常包含代词和省略的对话语句中不可靠,(ii)反映不断演变的人物需要在每次会话后重建图。除了基于图的组织,其他外部记忆架构如 LongMem(Wang 等,2023)利用专门的键值侧网络;但此类设计与我们在冻结黑盒API上的即插即用设计不兼容。更接近我们设置的是,最近的工作已开始将基于图的记忆改编到对话领域本身。FraCom(Ke 等,2025)在命题级别操作,而 SGMem(Wu 等,2025b)则在话轮级、回合级和会话级块上构建句子级图,同时将检索到的原始对话与LLM生成的摘要、事实和见解相结合。然而,两者都仍继承了它们旨在解决的局限性:命题级分解经常产生信息量不足的共指片段(例如,“它”、“他”),稀释了检索空间,而 SGMem 最强的变体重新引入了本应消除的LLM-API依赖。

## 3 方法论

### 3.1 框架概览

图2展示了我们提出的框架 G-Long 的整体架构。为了处理对话的长期记忆,我们采用基于图的方法进行长期记忆库管理。所提出的框架由四个组件组成:(1)高效记忆构建,(2)基于图的记忆库,(3)关联记忆检索,以及(4)响应生成。我们将在以下小节中详细描述每个组件。

### 3.2 高效记忆构建

为了将非结构化对话转换为结构化图表示,我们利用三元组提取模块(从对话中的每个语句提取三元组)和注意力感知重要性评分模块(为每个提取的三元组分配重要性分数)。

##### 三元组提取模块

在此模块中,我们采用经过微调的sLM将原始语句解析为结构化的(主语,关系,宾语)三元组事实。为此,sLM在对话-三元组数据集(例如,PersonaExt(Zhu 等,2023))上进行指令微调。这一训练过程使模型能够有效提取符合模式的三元组,并生成一组一致的关系。训练超参数和数据预处理细节见附录B。

##### 注意力感知重要性评分模块

为了量化三元组显著性而不产生外部LLM成本,我们利用在 SAMSum(Raffel 等,2023;Gliwa 等,2019)上微调的 T5 摘要器的交叉注意力图。具体来说,我们将所有提取的三元组连接成单个输入序列 X = [x₁, ..., xᵢ, ..., xₙ] 以生成摘要序列 Y = [y₁, ..., yⱼ, ..., yₘ],其中 xᵢ 和 yⱼ 构成单个 token。我们首先对最后一个解码器层所有 H 个头的交叉注意力权重 Aᵢ,ⱼ 进行平均:

Aᵢ,ⱼ = (1/H) ∑_{h=1}^H Attn_h(xᵢ, yⱼ).    (1)

然后,通过聚合 M 个摘要 token 的权重以及三元组的 token 跨度,计算三元组 tₖ 的原始显著性分数 S(tₖ):

S(tₖ) = ∑_{xᵢ ∈ Tokens(tₖ)} ∑_{j=1}^M Aᵢ,ⱼ.    (2)

最后,我们将这些分数按会话最大值归一化,得到相对权重 wₖ ∈ (0, 1],该权重分配给图边(第3.3节)用于重排序(第3.4节):

wₖ = S(tₖ) / max_{k'} S(t_{k'}).    (3)

### 3.3 基于图的记忆库

为了有效存储和关联提取的知识,我们构建了基于图的记忆库,正式表示为 G = (V, E)。与简单的键值存储不同,我们的架构采用双存储策略,结合了实体节点的稠密向量索引和属性丰富的边存储。

##### 实体节点的稠密向量索引

节点集 V 包含对话中识别出的唯一实体,由主语和宾语组成。

相似文章

长期历史感知的医疗对话合成与评估

arXiv cs.CL

本文介绍了一种利用大语言模型(LLMs)合成长期医疗对话数据集的框架,并创建了 MediLongChat,包含三个基准任务,用于评估医疗智能体的记忆与推理能力。实验表明,即使是最先进的 LLMs 也难以完成这些任务。