MemSlides: 一种分层记忆驱动的智能体框架，用于个性化幻灯片生成与多轮局部修订

arXiv cs.CL 2026/06/17 04:00 论文

摘要

本文介绍了MemSlides，一种用于个性化幻灯片生成的分层记忆框架，它将长期用户档案、会话约束的工作记忆以及局部编辑的工具记忆分离开来，从而在不完全重新生成的情况下实现多轮修订。

arXiv:2606.17162v1 Announce Type: new 摘要: 个性化演示文稿生成不仅需要基于当前提示或模板进行条件生成：智能体必须在不同任务间保持稳定的用户偏好，在多轮修订中保留新引入的偏好和约束，并可靠地执行局部编辑。我们提出MemSlides，一种用于个性化演示智能体的分层记忆框架，它将长期记忆与工作记忆分离，并进一步将长期记忆划分为用户档案记忆和工具记忆。用户档案记忆存储用于第0轮个性化定制的意图条件化档案，工作记忆在修订轮次间携带活跃偏好和会话约束，工具记忆存储可复用的执行经验以实现可靠的局部化编辑。MemSlides将这种记忆设计与有范围的幻灯片局部修订相结合，使目标更新作用于最小受影响区域，而非反复重新生成整个演示文稿。在受控实验中，用户档案记忆在多人设、多意图档案库上提升了角色一致性判断；工具记忆注入在诊断性配对设置中改善了闭环修改行为；定性案例展示了工作记忆传递偏好的能力。综合来看，这些结果表明，在演示文稿创作中实现有效个性化依赖于将持久用户档案、会话级工作记忆以及可复用的执行经验在生成和局部修订过程中分离处理。

查看原文

查看缓存全文

缓存时间: 2026/06/17 05:38

# MemSlides：一种层次化记忆驱动的智能体框架，用于支持多轮局部修改的个性化幻灯片生成
来源：https://arxiv.org/html/2606.17162
叶金  
北京邮电大学  
13681596382@bupt\.edu\.cn  
& 徐阳阳  
清华大学  
yangyangxu@mail\.tsinghua\.edu\.cn  
朱军  
清华大学  
dcszj@tsinghua\.edu\.cn  
& 杨一波  
上海交通大学  
yibo\.yang93@gmail\.com  

###### 摘要

个性化演示生成不仅仅是基于当前提示或模板的条件生成：智能体必须跨任务保留稳定的用户偏好，在多轮修改过程中保留新引入的偏好和约束，并可靠地执行局部编辑。我们提出 MemSlides，一种用于个性化演示智能体的层次化记忆框架，它将长期记忆与工作记忆分离，并将长期记忆进一步划分为用户画像记忆和工具记忆。用户画像记忆存储按意图划分的用户画像，用于第0轮个性化；工作记忆在修改轮次间携带当前活跃偏好和会话约束；工具记忆存储可复用的执行经验，以支持可靠的局部编辑。MemSlides 将此记忆设计与有范围的幻灯片局部修改相结合，使针对性更新作用于最小受影响区域，而非重复重新生成整个演示文稿。在受控实验中，用户画像记忆在多角色、多意图画像库上提升了个性对齐判断；工具记忆注入在诊断性配对设置中改善了闭环修改行为；定性案例展示了工作记忆传递偏好的能力。综合来看，这些结果表明，在演示文稿创作中实现有效个性化，取决于分离持久的用户画像、会话级工作记忆以及可复用的执行经验，并将它们应用于生成和局部修改。

## 1 引言

自动演示生成旨在将用户请求转化为结构化的幻灯片组，并受到越来越多的关注，因为幻灯片使用广泛，而创建高质量的演示文稿仍十分耗时且认知要求高[40 (https://arxiv.org/html/2606.17162#bib.bib40),25 (https://arxiv.org/html/2606.17162#bib.bib25),26 (https://arxiv.org/html/2606.17162#bib.bib26),55 (https://arxiv.org/html/2606.17162#bib.bib55)]。最近的智能体系统通过多模态或基于工具的工作流进一步推进了这项任务，能够生成完整的演示文稿[6 (https://arxiv.org/html/2606.17162#bib.bib6),58 (https://arxiv.org/html/2606.17162#bib.bib58),51 (https://arxiv.org/html/2606.17162#bib.bib51),49 (https://arxiv.org/html/2606.17162#bib.bib49),21 (https://arxiv.org/html/2606.17162#bib.bib21),59 (https://arxiv.org/html/2606.17162#bib.bib59),30 (https://arxiv.org/html/2606.17162#bib.bib30)]。尽管这些系统现在能够生成完整且视觉上精致的演示文稿，但它们仍然缺乏持久的个性化能力，而这对于生成即用型幻灯片组至关重要，因为用户在领域、目的、风格和演示习惯上各不相同。例如，用户在为不同目的创建幻灯片时（如学术报告与商务演示），可能偏好不同的布局、模板和风格。一个有效的个性化幻灯片生成框架应该构建并维护用户画像，以捕捉用户在组织、样式化和修改演示文稿方面跨不同意图的长期偏好，而非要求用户在每次交互中重复指定其偏好。

先前的工作已逐步扩展了演示生成系统的能力[40 (https://arxiv.org/html/2606.17162#bib.bib40),26 (https://arxiv.org/html/2606.17162#bib.bib26),2 (https://arxiv.org/html/2606.17162#bib.bib2),25 (https://arxiv.org/html/2606.17162#bib.bib25),6 (https://arxiv.org/html/2606.17162#bib.bib6),51 (https://arxiv.org/html/2606.17162#bib.bib51),49 (https://arxiv.org/html/2606.17162#bib.bib49),21 (https://arxiv.org/html/2606.17162#bib.bib21),30 (https://arxiv.org/html/2606.17162#bib.bib30)]。PPTAgent 通过将生成与面向演示的评估相结合，超越了文本到幻灯片[58 (https://arxiv.org/html/2606.17162#bib.bib58)]；DeepPresenter 引入了基于环境的反思，用于智能体演示生成[59 (https://arxiv.org/html/2606.17162#bib.bib59)]。这些系统改进了通用生成和智能体优化，但并未显式建模用户特定的个性化。SlideTailor 通过将科学幻灯片生成与参考幻灯片和任务时模板条件相结合来处理个性化[55 (https://arxiv.org/html/2606.17162#bib.bib55)]，但其个性化仍然局限于提供的示例或模板条件，而非累积的用户画像。这些观察因此揭示了一个核心缺口：幻灯片生成智能体仍然缺乏一个面向用户的多轮对话过程，该过程能够将修改请求转化为可复用的偏好记忆，并在后续轮次中保留局部修改约束。

参见图例
图 1：MemSlides 概述。该框架包含长期记忆和工作记忆。长期记忆存储用户画像记忆和工具记忆，用于持久的个性化和可复用的执行经验；工作记忆携带当前会话状态，用于个性化生成和局部修改。在第 t 轮，s_t 是当前会话状态，f_t 是用户反馈，s_{t+1} 是经过 *Modify Exec*（记忆引导的修改执行器）更新后的状态。

这个缺口有两个根源。首先，演示文稿创作中的个性化往往通过修改来体现，而非在生成前完全指定，然而现有的幻灯片生成智能体处理编辑时仍通过重新上下文化或重新生成演示文稿的大部分内容。因此，小修改必须与幻灯片状态和反馈历史竞争有限的上下文，使得多轮局部修改变得脆弱。其次，当前系统主要改进演示智能体的工作流、工具和评估器，但仍将个性化视为提示的隐式副产品，而非由记忆设计直接提供的服务。类似于智能体记忆工作的精神[61 (https://arxiv.org/html/2606.17162#bib.bib61),31 (https://arxiv.org/html/2606.17162#bib.bib31),47 (https://arxiv.org/html/2606.17162#bib.bib47)]，幻灯片生成的个性化可以通过将记忆作为显式框架而非无差别的对话缓冲区来大幅增强。

为了解决这些问题，本文提出 MemSlides，引入有范围的幻灯片局部性作为其多轮幻灯片编辑的修改策略。MemSlides 不针对每次反馈轮次重读或重写整个演示文稿，而是将请求投射到最小受影响的幻灯片区域，并在有边界的修复表面上操作。它只读取该局部表面的结构化快照，包括其局部布局结构、可用选择器和暴露的样式规则，并仅回写针对显式选择器或这些样式规则的补丁。这样一来，读写操作都固有地保持局部性，减少了上下文压力和意外漂移，同时在轮次间保留已对齐的内容。基于此修改策略，MemSlides 进一步与用于个性化演示生成的层次化记忆框架集成。该框架包含两个层级：长期记忆和工作记忆。工作记忆维护当前会话状态和跨修改轮次的临时反馈，使得后续局部编辑能够保留来自同一演示文稿的活跃临时记忆。长期记忆在任务间持久存在，并进一步划分为用户画像记忆和工具记忆。用户画像记忆是用户特定且意图感知的：对于每个用户和每个意图，偏好按主题、内容、视觉、布局、模板和通用等多个维度组织，并在每个任务开始时路由到工作记忆。工具记忆捕捉可复用的执行经验，用于后续编辑。这种层次化记忆框架使得能够根据持久的用户偏好和当前会话的活跃意图来生成和修改演示文稿。MemSlides 的概述如图 1 (https://arxiv.org/html/2606.17162#S1.F1) 所示。

在实验中，我们从幻灯片质量、指令满意度和偏好对齐等多个维度评估 MemSlides。我们开发了 *人物对齐判断* 作为评估个性化对齐的指标。定性比较进一步说明了 MemSlides 在对齐用户偏好方面的有效性。我们的贡献有三方面：
- • 我们提出 MemSlides，一种支持多轮局部修改的个性化演示智能体。通过维护会话状态并应用针对性的幻灯片级更新而非重复的完整演示文稿重新生成，MemSlides 提供了从修改反馈中学习用户偏好所需的交互基础。
- • 我们进一步为 MemSlides 开发了一个层次化记忆框架，包括长期记忆和工作记忆。长期记忆包含用户画像记忆和工具记忆，使得稳定的用户偏好和可复用的执行经验能够在任务间持久存在，而工作记忆追踪会话特定的约束。
- • 我们构建了一个多角色、多意图的用户画像库，用于个性化演示生成评估。实验表明，用户画像记忆改善了第 0 轮的人物对齐，工具记忆在诊断性配对比较中增强了局部修改的可靠性，工作记忆支持会话级的偏好传递。

## 2 相关工作

##### 幻灯片生成。  
演示生成从文档压缩和结构化摘要发展到基于 LLM 的系统，这些系统强调受众适应、可编辑性、任务时偏好推断和视觉优化 [40 (https://arxiv.org/html/2606.17162#bib.bib40),26 (https://arxiv.org/html/2606.17162#bib.bib26),58 (https://arxiv.org/html/2606.17162#bib.bib58),55 (https://arxiv.org/html/2606.17162#bib.bib55),59 (https://arxiv.org/html/2606.17162#bib.bib59)]。演示文稿创作也借鉴了可控布局和设计生成，包括类代码的布局表示、上下文内布局提示、分层或基于扩散的布局建模以及视觉偏好建模 [41 (https://arxiv.org/html/2606.17162#bib.bib41),22 (https://arxiv.org/html/2606.17162#bib.bib22),9 (https://arxiv.org/html/2606.17162#bib.bib9),56 (https://arxiv.org/html/2606.17162#bib.bib56),34 (https://arxiv.org/html/2606.17162#bib.bib34)]。这些工作提高了幻灯片质量、可编辑性、任务级可控性和视觉构成。我们的重点与它们互补：探讨用户特定的偏好和执行记忆应如何在幻灯片生成和修改会话中持久存在，而非仅作为当前任务的输入提供。

##### 记忆与工具使用智能体。  
检索增强和外部记忆语言模型表明，存储的上下文可以支持生成 [16 (https://arxiv.org/html/2606.17162#bib.bib16),7 (https://arxiv.org/html/2606.17162#bib.bib7),14 (https://arxiv.org/html/2606.17162#bib.bib14),3 (https://arxiv.org/html/2606.17162#bib.bib3),10 (https://arxiv.org/html/2606.17162#bib.bib10),43 (https://arxiv.org/html/2606.17162#bib.bib43)]。这些研究关注持久记忆、反思、结构化更新以及长/短期记忆管理 [61 (https://arxiv.org/html/2606.17162#bib.bib61),31 (https://arxiv.org/html/2606.17162#bib.bib31),32 (https://arxiv.org/html/2606.17162#bib.bib32),50 (https://arxiv.org/html/2606.17162#bib.bib50),4 (https://arxiv.org/html/2606.17162#bib.bib4),45 (https://arxiv.org/html/2606.17162#bib.bib45),12 (https://arxiv.org/html/2606.17162#bib.bib12),47 (https://arxiv.org/html/2606.17162#bib.bib47),54 (https://arxiv.org/html/2606.17162#bib.bib54)]。工具使用和反思智能体进一步建立了将推理与行动交织、使用 API 或模块化工具、协调执行以及从反馈中学习的模式 [53 (https://arxiv.org/html/2606.17162#bib.bib53),39 (https://arxiv.org/html/2606.17162#bib.bib39),38 (https://arxiv.org/html/2606.17162#bib.bib38),33 (https://arxiv.org/html/2606.17162#bib.bib33),36 (https://arxiv.org/html/2606.17162#bib.bib36),18 (https://arxiv.org/html/2606.17162#bib.bib18),13 (https://arxiv.org/html/2606.17162#bib.bib13),46 (https://arxiv.org/html/2606.17162#bib.bib46),42 (https://arxiv.org/html/2606.17162#bib.bib42),24 (https://arxiv.org/html/2606.17162#bib.bib24),28 (https://arxiv.org/html/2606.17162#bib.bib28),1 (https://arxiv.org/html/2606.17162#bib.bib1),44 (https://arxiv.org/html/2606.17162#bib.bib44),52 (https://arxiv.org/html/2606.17162#bib.bib52),8 (https://arxiv.org/html/2606.17162#bib.bib8)]。相比之下，MemSlides 针对个性化演示文稿创作，其记忆必须区分用户偏好和执行经验，并在多轮修改中保持预期的局部编辑范围。

##### 个性化生成与评估。  
个性化生成已从显式角色条件发展到画像和历史感知生成 [17 (https://arxiv.org/html/2606.17162#bib.bib17),48 (https://arxiv.org/html/2606.17162#bib.bib48),37 (https://arxiv.org/html/2606.17162#bib.bib37),27 (https://arxiv.org/html/2606.17162#bib.bib27),11 (https://arxiv.org/html/2606.17162#bib.bib11)]。最近的综述和对齐工作将个性化描述为一个智能体感知、检索感知和偏好敏感的问题 [57 (https://arxiv.org/html/2606.17162#bib.bib57),20 (https://arxiv.org/html/2606.17162#bib.bib20)]。在视觉领域，个性化可视化推荐和 DesignPref 表明，持久的表达或设计偏好可以从用户历史中学习 [35 (https://arxiv.org/html/2606.17162#bib.bib35),34 (https://arxiv.org/html/2606.17162#bib.bib34)]。在 PPT 生成中，Persona\-Aware\-D2S 和 SlideTailor 通过为当前任务提供的受众规格、示例或模板来个性化幻灯片，而我们研究的是跨任务累积并在多轮修改中保留的偏好。我们的评估遵循在受控记忆/无记忆设置下的基于评分标准和成对 LLM-as-judge 协议 [23 (https://arxiv.org/html/2606.17162#bib.bib23),60 (https://arxiv.org/html/2606.17162#bib.bib60),15 (https://arxiv.org/html/2606.17162#bib.bib15),62 (https://arxiv.org/html/2606.17162#bib.bib62),19 (https://arxiv.org/html/2606.17162#bib.bib19)]。

## 3 MemSlides

### 3.1 问题形式化

我们将个性化演示生成为一个有状态的多轮创作问题，而非一次性源到幻灯片转换任务 [40 (https://arxiv.org/html/2606.17162#bib.bib40),58 (https://arxiv.org/html/2606.17162#bib.bib58),55 (https://arxiv.org/html/2606.17162#bib.bib55),59 (https://arxiv.org/html/2606.17162#bib.bib59)]。给定源材料 x、用户画像记忆 P_u 和可选的作业时模板 τ，系统首先生成一个初始演示文稿：
S_0 = G_init(x, P_u, τ)。 (1)
我们将此初始生成阶段称为*第0轮*。在修改轮次 t 收到用户反馈 f_t 后，系统更新会话状态 z_t 并相应编辑当前演示文稿：
z_t = U(z_{t-1}, f_t; S_{t-1}), S_t = G_edit(S_{t-1}, x, P_u, τ, z_t), t ≥ 1。 (2)
这里，z_t 存储了由反馈派生的约束和编辑意图，这些是

MemSlides: 一种分层记忆驱动的智能体框架，用于个性化幻灯片生成与多轮局部修订

相似文章

先个性化再存储：面向长周期智能体的个性化记忆基准测试与学习

AdMem：面向任务求解智能体的高级记忆系统

从多模态经验中学会学习

MemForest：一种具有分层时间索引的高效智能体记忆系统

从回想到遗忘：为个性化智能体评估长期记忆

提交意见反馈