保持角色：基于书籍的角色扮演代理的视角边界记忆

arXiv cs.CL 2026/06/25 04:00 论文

role-playing memory-architecture character-agents llm knowledge-boundary narrative-generation benchmark

摘要

本文提出ReverieMem，一种用于基于书籍的LLM角色扮演代理的三层记忆架构，可防止事实越界和风格单调。同时引入了KBF-QA基准测试，并在知识边界保真度和叙事质量方面取得了显著改进。

arXiv:2606.25632v1 公告类型: 新摘要：近期的大语言模型角色扮演系统通过从小说中提取角色、场景和关系来构建角色代理。然而，长篇叙事角色扮演存在两个缺陷：事实越界（共享检索或参数化记忆使角色使用其视角之外的事实）和风格单调（角色描述将角色扁平化为固定的语调）。为解决这些缺陷，我们提出REVERIEMEM，一种用于基于书籍的角色代理的三层记忆架构。情节层存储第一人称场景记忆；语义层存储带有可见性标记的事实；个性层存储依赖于情境的言语和行为模式。为进行评估，我们构建了KBF-QA，一个涵盖八部小说、包含4386个问题的基准测试，用于测试知识边界。REVERIEMEM在知识边界保真度上比之前最强方法提升了34.6个百分点。在BOOKWORLD的五维度成对叙事协议上，REVERIEMEM实现了约79%的胜率，表明视角边界记忆既能提升边界保真度，也能改善基于角色的叙事生成。

查看原文

查看缓存全文

缓存时间: 2026/06/25 05:12

# 保持角色入戏：基于小说的角色扮演智能体的视角受限记忆

来源：https://arxiv.org/html/2606.25632
唐煦硕¹　张俊赫¹††footnotemark:　杨子涵³　唐逸夫⁴　李思超²　赖隆彬⁵　杨振毅²
¹新南威尔士大学悉尼分校　²悉尼大学　³长安大学　⁴RAIDS实验室　⁵阿里集团通义实验室
[email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected]

###### 摘要

近期的大语言模型角色扮演系统通过从小说中提取角色、场景和关系来构建角色智能体。然而，长篇叙事角色扮演存在两种失败模式：*事实越界*，即共享检索或参数化记忆导致角色使用其视角之外的实；以及*风格单调*，即角色简介描述将角色扁平化为一种固定的表达风格。为解决这些问题，我们提出ReverieMem，一种面向小说角色智能体的三层记忆架构。情节层存储第一人称场景记忆；语义层存储带有可见性标记的事实；个性层存储依赖情境的言语和行为模式。为进行评估，我们构建了KBF-QA，一个包含8部小说共4,386个问题的基准测试，用于测试知识边界。ReverieMem在知识边界忠实度上比先前最强方法提升了34.6个百分点。在BookWorld的五维度成对叙事评估协议中，ReverieMem实现了约79%的胜率，表明视角受限记忆能够同时提升边界忠实度与基于角色的叙事生成质量。

## 1 引言

> “这份神圣的天赋并非来自更高的力量，而是来自*我们自己的思想*。” —— 罗伯特·福特博士，《西部世界》

大语言模型角色扮演智能体已成为角色对话、叙事沙盒和交互式故事生成的实用界面（Shao et al., 2023 (https://arxiv.org/html/2606.25632#bib.bib16)；Wang et al., 2024a (https://arxiv.org/html/2606.25632#bib.bib23)；Tu et al., 2024 (https://arxiv.org/html/2606.25632#bib.bib21)；Chen et al., 2024a (https://arxiv.org/html/2606.25632#bib.bib2)）。近期工作通过从小说中提取角色、场景和关系作为叙事上下文来构建此类智能体（Zhao et al., 2024 (https://arxiv.org/html/2606.25632#bib.bib29)；Ran et al., 2025 (https://arxiv.org/html/2606.25632#bib.bib14)；Wang et al., 2025b (https://arxiv.org/html/2606.25632#bib.bib25)）；例如，BookWorld从书籍中构建交互式智能体社会，并通过角色简介和故事上下文来引导角色（Ran et al., 2025 (https://arxiv.org/html/2606.25632#bib.bib14)）。一个可信的角色智能体必须在其知识边界内进行推理，并动态调整其声音和行为以适应当前的叙事情境。在长篇小说中，这一约束常被两种“出戏”（OOC）失败所打破，如图1 (https://arxiv.org/html/2606.25632#S1.F1) 所示：*事实越界*和*风格单调*。

参考图注图1：长篇叙事角色扮演中的两种“出戏”失败：*事实越界*(a)，即角色声称其视角之外的事实；*风格单调*(b)，即角色的表达被扁平化为一个固定的简介。

第一种失败，*事实越界*，发生在智能体陈述了在正典中真实但对所扮演角色来说无法获知的事实时。这可能发生在长篇叙事RAG系统从共享的书籍级记忆中检索时，或当大语言模型的参数化记忆直接提供该事实时（Gutiérrez et al., 2024 (https://arxiv.org/html/2606.25632#bib.bib7)；Wang et al., 2026 (https://arxiv.org/html/2606.25632#bib.bib22)）。在图1 (https://arxiv.org/html/2606.25632#S1.F1)(a)中，雷斯垂德不应确认福尔摩斯关于贝克街门卫背景的推论：推论本身正确，但雷斯垂德当时并不在场。

第二种失败，*风格单调*，发生在简介将角色压缩为一种单一表达模式时。例如在图1 (https://arxiv.org/html/2606.25632#S1.F1)(b)中，福尔摩斯并非仅是一个冷静的分析推理者：在多伊尔的第一个章节中，他兴奋地以实验者姿态迎接华生（“我找到了！”），片刻后又成为推断出华生军旅生涯的沉着演绎者（“阿富汗，我这么说”）。一个静态的简介或许能生成一个可辨认的福尔摩斯，但会丢失这种情境转变。

解决这些失败需要既非共享书籍索引也非静态简介的记忆机制。事实访问必须限定在角色的叙事位置范围内，而表达必须基于跨场景的情境行为。有三个认知理论指导了设计：1）*互补学习系统*（McClelland et al., 1995 (https://arxiv.org/html/2606.25632#bib.bib12)）将人类记忆模型化为海马体对个体经验的快速编码与新皮层对结构化知识的缓慢巩固之间的协作；2）Conway的*自我记忆系统*（Conway and Pleydell-Pearce, 2000 (https://arxiv.org/html/2606.25632#bib.bib4)）将自传体回忆视为一种自上而下的重构，先定位事件上下文，再在此上下文中重建细节；3）*叙事认同*（Mcadams and McLean, 2013 (https://arxiv.org/html/2606.25632#bib.bib11)）认为认同由自我定义性情节构成，而非静态特质。

因此，我们提出ReverieMem，一种受认知心理学启发的、面向小说角色扮演的三层记忆架构。*情节层*从每个角色的视角存储第一人称场景摘要；*语义层*存储带有角色特定可见性标记的结构化事实；*个性层*存储从正典言语、行为和情感转换中提炼出的情境依赖模式。在推理时，ReverieMem锚定于角色自身的场景，仅检索可见性允许的事实，并根据适当的行为模式来调节回复。

我们在八部小说上通过两个互补任务评估ReverieMem。对于知识边界，我们构建了KBF-QA（知识边界忠实度问答），一个包含4,386个问题的多项选择题基准，其中角色必须回答其能够知道的事实，并拒绝其视角之外的事实。对于开放式叙事质量，我们遵循BookWorld的五维度成对比较协议。ReverieMem将知识边界忠实度（KBF）比先前最强方法提升了34.6个百分点，并在成对叙事比较中获得了约79%的胜率。

本工作有三项贡献：

- •据我们所知，我们首次形式化并解决了小说角色扮演大语言模型智能体中的两种“出戏”失败模式：*事实越界*和*风格单调*。
- •我们提出了ReverieMem，一种三层记忆架构，将场景经验、可见性门控的事实知识和情境依赖的表达分离，用于小说角色智能体。
- •我们构建了KBF-QA，一个大规模知识边界忠实度基准，并展示了ReverieMem在KBF-QA和成对叙事比较上均超越了先前最强的角色智能体系统。

## 2 相关工作

### 2.1 角色扮演智能体

角色扮演智能体测试大语言模型能否在对话和叙事任务中维持一致的角色。一类工作通过角色描述、对话历史、源文本依据、合成角色和角色扮演训练来提升角色一致性（Shao et al., 2023 (https://arxiv.org/html/2606.25632#bib.bib16); Wang et al., 2024a (https://arxiv.org/html/2606.25632#bib.bib23), 2025a (https://arxiv.org/html/2606.25632#bib.bib24)），文学设定进一步将智能体锚定于书籍场景和角色内心（Wang et al., 2025b (https://arxiv.org/html/2606.25632#bib.bib25)）。基准测试伴随这一方向，评估多轮对话、个性忠实度和情感忠实度（Tu et al., 2024 (https://arxiv.org/html/2606.25632#bib.bib21); Wang et al., 2024b (https://arxiv.org/html/2606.25632#bib.bib26); Feng et al., 2025 (https://arxiv.org/html/2606.25632#bib.bib6)），而近期一项综述将虚构角色扮演与个性化区分开来（Tseng et al., 2024 (https://arxiv.org/html/2606.25632#bib.bib20)）。这些工作主要测试回复是否与目标角色匹配，但较少提供关于角色是否应该知道所表达事实的证据。

第二类工作通过沙盒模拟、多智能体框架和小说到模拟系统，构建由交互式智能体填充的故事世界（Park et al., 2023 (https://arxiv.org/html/2606.25632#bib.bib13); Chen et al., 2024b (https://arxiv.org/html/2606.25632#bib.bib3); Ran et al., 2025 (https://arxiv.org/html/2606.25632#bib.bib14)），以及用于长篇故事写作、通过角色扮演式创作进行剧本写作和自主情节推进的多智能体叙事生成系统（Xia et al., 2025 (https://arxiv.org/html/2606.25632#bib.bib27); Chen et al., 2024a (https://arxiv.org/html/2606.25632#bib.bib2); Zhao et al., 2026 (https://arxiv.org/html/2606.25632#bib.bib28)）。这些系统中的角色通常通过结构化简介、关系状态或共享叙事上下文来表示，评估侧重于情节连贯性和交互质量，而非考察发言角色是否能够访问源叙事中的某个已知事实。角色是否应被允许访问某个已知事实仍未得到解决。

### 2.2 RAG与叙事推理的记忆

记忆决定了生成过程中哪些证据可用。检索增强生成将输出基于外部文档（Lewis et al., 2020 (https://arxiv.org/html/2606.25632#bib.bib8)），而自适应检索、分层摘要、长期记忆和叙事记忆系统改进了证据选择以及多跳或长故事推理（Asai et al., 2024 (https://arxiv.org/html/2606.25632#bib.bib1); Sarthi et al., 2024 (https://arxiv.org/html/2606.25632#bib.bib15); Wang et al., 2026 (https://arxiv.org/html/2606.25632#bib.bib22)）。然而，对于小说上的角色扮演，问题不仅在于检索到的事实是否相关，还在于角色是否能访问它。

另一条互补线索涉及智能体应承诺什么的边界。一般大语言模型的知识边界已在近期综述中记录（Li et al., 2025 (https://arxiv.org/html/2606.25632#bib.bib9)）；对于角色扮演智能体，边界感知训练（Tang et al., 2024 (https://arxiv.org/html/2606.25632#bib.bib18)）和表示层面的拒绝编辑（Liu et al., 2025 (https://arxiv.org/html/2606.25632#bib.bib10)）旨在抑制越界回答。这些工作通过模型已知的内容或角色约束禁止的内容来定义边界；我们的设定则通过角色在源叙事中可能见证的内容来定义边界，使得每个角色的可见性成为核心设计轴。

## 3 ReverieMem

参考图注图2：ReverieMem概览。给定关于角色c的查询，系统运行§3 (https://arxiv.org/html/2606.25632#S3)中描述的三个阶段：1）*源到记忆*通过大语言模型提取每个场景的文本、对话和情感数据，并为每个焦点角色构建视角受限的三层记忆；2）*CLS记忆协同推理*锚定于情节层场景记忆Sc，该记忆既为基础又指导*自我探测*以从可见性受限的语义层子集Fc中迭代扩展事实池M(t)，最后综合出推理结论；3）*融合注入*从个性层中选择一个模式m∗，并将其注入最终记忆融合中，该融合集成多个记忆组件以从c的视角生成回复。

在本节中，我们介绍ReverieMem，一种面向小说角色扮演智能体的视角受限三层记忆架构，旨在解决§1 (https://arxiv.org/html/2606.25632#S1)中指出的失败。ReverieMem因此服务于两个设计目标，每个对应一种失败：

- •认识目标。智能体仅检索角色在源文本中可能合理知道的事实，并在没有此类事实支持时拒绝声称。
- •表达目标。智能体的散文风格与角色在源文本中类似情境下表现出的风格相匹配，而非一个扁平的标签。

ReverieMem通过三个记忆层（§3.2 (https://arxiv.org/html/2606.25632#S3.SS2)）和视角受限的推理流水线（§3.4 (https://arxiv.org/html/2606.25632#S3.SS4)）来实例化这些目标。图2 (https://arxiv.org/html/2606.25632#S3.F2)勾画了架构。

### 3.1 概述

ReverieMem基于两个认知原则：情节-语义区分（McClelland et al., 1995 (https://arxiv.org/html/2606.25632#bib.bib12)）结构化了其记忆层（§3.2 (https://arxiv.org/html/2606.25632#S3.SS2)），而重建性和场景锚定的回忆（Conway and Pleydell-Pearce, 2000 (https://arxiv.org/html/2606.25632#bib.bib13)）结构化了其推理流水线（§3.4 (https://arxiv.org/html/2606.25632#S3.SS4)）。此外，我们在记忆构建过程中增加了每个角色的可见性约束：当以角色c的身份发言时，检索限定于可见性允许的子集Fc，当Fc中不包含答案时，智能体应拒绝而非更努力地搜索。整个系统运行在三个阶段：一个离线的构建阶段，*源到记忆*（§3.3 (https://arxiv.org/html/2606.25632#S3.SS3)），随后在推理时执行*CLS记忆协同推理*和*融合注入*（均在§3.4 (https://arxiv.org/html/2606.25632#S3.SS4)中）。

### 3.2 受限三层记忆

遵循情节-语义区分（图2 (https://arxiv.org/html/2606.25632#S3.F2)），ReverieMem将事实记忆分为*情节层*（场景记忆）和*语义层*（带有每个角色可见性的离散事实），并增加了一个*个性层*，包含从角色在源文本中的行为中推导出的离散行为模式，在推理时通过情感转换（Mcadams and McLean, 2013 (https://arxiv.org/html/2606.25632#bib.bib11)）来选择。

#### 情节层。

情节层在CLS中扮演类似海马体的角色，负责快速的场景级编码：它存储角色所经历的事情，作为一个视角框架来锚定后续检索。对于每个焦点角色c，该层维护一个第一人称场景摘要的语料库，每个场景c参与其中，并以c的口吻记录c做了什么、感受如何、感知到什么以及对他人的推断。该语料库可进行相似性检索，作为推理时*锚定*操作的基础。角色级的作用域确保每个下游检索都从c的生活经验开始。

#### 语义层。

语义层在CLS中扮演类似新皮层的角色，负责跨情节的缓慢整合：它将跨场景隐含的事实巩固成一个带有可见性标签的知识图谱。每个事实f∈F是一个五元组*SPOCV*元组f=(s,p,o,κ,V)：其中(s,p,o)是标准的主语-谓语-宾语三元组；κ记录当有明确原因时的叙事内因果，捕捉叙事推理不仅依赖于*事件是什么*，还依赖于*事件发生的原因*；V⊆C是每个角色的可见性集合，定义如下。

可见性通过四条路径授予——*亲身经历*、*观察*、*组织共享*和*常识*——分配细节延迟到§3.3 (https://arxiv.org/html/2606.25632#S3.SS3)中讨论。对于每个角色c，可见性允许的子集Fc={f∈F: c∈V(f

保持角色：基于书籍的角色扮演代理的视角边界记忆

相似文章

BOOKMARKS: 用于角色扮演的高效主动剧情记忆

CoreMem: 对话代理中长期记忆的黎曼检索与Fisher引导蒸馏

先个性化再存储：面向长周期智能体的个性化记忆基准测试与学习

记忆造就差异：评估不同记忆角色如何塑造对话代理

从回想到遗忘：为个性化智能体评估长期记忆

提交意见反馈