NARRA-Gym：用于评估交互式叙事智能体的基准

arXiv cs.CL 2026/05/12 04:00 论文

llm-evaluation interactive-narrative benchmark agentic-ai story-generation academic-research

摘要

本文介绍了 NARRA-Gym，这是一个基准和可执行评估环境，用于评估大型语言模型在多轮对话中维持交互式叙事、管理记忆以及适应用户的能力。

arXiv:2605.08503v1 公告类型：新论文摘要：交互式叙事任务要求大型语言模型（LLMs）在多轮交互中维持连贯且不断发展的故事情节，同时适应用户。然而，针对这一场景的合适基准非常有限：现有的评估往往集中在静态提示、孤立的故事情节生成或事后评分上，因此无法反映模型是否能够同时管理故事生成、长上下文状态与节奏控制、角色模拟、共情个性化以及基于故事的工件生成。我们引入了 NARRA-Gym，这是一个可执行的评估环境，能够将稀疏的情感种子转化为完整的交互式故事片段，并记录完整的人机交互轨迹，包括故事构建、记忆更新、规划、节奏干预以及可选的工件合成。我们使用基于 LLM 的受控评测方法，对八个基准人物角色进行了全面评估，并对九种前沿 LLM 进行了测试，同时开展了人类评估，参与者对定制化的模型输出进行评分。我们的结果表明，模型在不同基准人物角色和评估维度上存在显著差异：能够生成流畅故事的模型可能在鲁棒性、用户体验或对敏感信息的个性化适应能力方面表现不佳。这些发现表明，交互式叙事提供了一个有用的基准，用于评估超出孤立故事质量的长期、适应用户行为的 LLM 表现。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/12 06:51

# NARRA-Gym：用于评估交互式叙事智能体

来源：https://arxiv.org/html/2605.08503

**作者：**
Yuchen Ma†,‡ (LMU Munich, Munich Center for Machine Learning),
Jiayi Ye† (独立研究员),
Wenjie Wang (University of Notre Dame),
Zipeng Ling (University of Pennsylvania),
Xingjian Hu (Lehigh University),
Yuexing Hao (Massachusetts Institute of Technology),
Zichen Chen (Bake AI, UC Santa Barbara, Stanford University),
Zhangchen Xu (University of Washington),
Yunhong He (University of Notre Dame),
Zhengqing Yuan (University of Notre Dame),
Yujun Zhou (University of Notre Dame),
Kehan Guo (University of Notre Dame),
Chaoran Chen (University of Notre Dame),
Toby Jia-Jun Li (University of Notre Dame),
Stefan Feuerriegel (LMU Munich, Munich Center for Machine Learning),
Xiangliang Zhang\* (University of Notre Dame)

**NARRA-Gym 技术报告**

预印本。待审。
†这些作者对本工作贡献均等。
\*通讯作者：[email protected].
‡Yuchen Ma 得到德国学术交流中心（DAAD）“Konrad Zuse 人工智能卓越学校”项目的资助，该项目由德国联邦教育与研究部赞助。

**摘要**
交互式叙事任务要求大语言模型（LLM）在多次交互中维持连贯且不断演进的故事，同时适应用户的变化。然而，针对这一场景的合适基准尚显不足：现有的评估往往侧重于静态提示、孤立的生成故事或事后评分，因此无法判断模型是否具备同时管理故事生成、长上下文状态与节奏把控、角色模拟、共情个性化以及故事接地（story-grounded）工件生成的能力。我们引入了 **NARRA-Gym**，这是一个可执行评估环境，它将稀疏的情感种子转化为完整的交互式故事片段，并记录包含故事构建、记忆更新、规划、节奏干预以及可选工件合成在内的完整模型在线（model-in-the-loop）轨迹。我们通过受控的“LLM-as-judge”遍历评估了八种基准人物画像中的九款前沿 LLM，并进行了人类评估，让参与者对定制的模型输出进行评分。我们的结果显示模型之间、人物画像之间以及不同评估维度之间存在显著差异：能够生成流畅故事的模型可能在鲁棒性、用户体验或对抗拒敏感的个人化方面表现不佳。这些发现表明，交互式叙事为评估超出孤立故事质量的长期、适应用户的 LLM 行为提供了一个有用的基准。

## 1 引言

交互式叙事是指 LLM 必须通过多轮交互适应用户输入来维持连贯且不断演进的故事世界的场景（Urbanek et al., 2019; Akoury et al., 2020; Du and Chilton, 2023; Park et al., 2023）。此类能力正日益应用于创意领域，包括协作式讲故事、游戏和交互式媒体，其中模型充当实时叙事智能体。^1^ 例如，游戏公司已经在尝试使用生成式模型用于实时角色和叙事制作。例子包括育碧（Ubisoft）的 NEO 非玩家角色（NPC）原型、Xbox-Inworld 叙事工具以及用于自然语言 NPC 交互的 NVIDIA ACE（Ubisoft News, 2024; Microsoft Game Dev, 2023; NVIDIA, 2023）。

同时，交互式叙事也为语言模型提供了一个更具挑战性的测试平台，因为它要求在持续的多轮交互下结合多种能力（即生成、记忆、规划和个性化）。上述任务具有挑战性，因为它远远超出了传统的小说写作范畴。与静态文本生成（Fan et al., 2018; Yao et al., 2019; Guan et al., 2022）不同，这需要 LLM 在多次交互中管理故事进展、角色一致性、长上下文状态以及用户对齐；模拟一致的角色；并适应用户的情感轨迹。例如，LLM 必须在保留先前上下文的同时引入新事件，保持角色的心理连贯性，对变化的用户信号做出适当反应，并在某些情况下通过信件、地图或小界面等交互式工件将故事具象化。总而言之，这使得交互式叙事成为一个困难的基准测试场景，其中记忆、规划或对齐方面的失败可能会破坏整个交互，即使单个响应看起来非常流畅。

现有的交互式叙事评估基准存在关键缺陷。标准的 LLM 基准强调静态、单轮任务，如问答和封闭式推理（Hendrycks et al., 2021; BIG-bench Collaboration, 2022）。以故事为中心的资源及综述已将评估扩展至包括叙事生成和叙事理解（Guan et al., 2022; Yang and Jin, 2024; Wang et al., 2023c; Zhu et al., 2023），但许多协议仍然评估孤立的生成、离线语料库或事后评分。因此，基准通常只能捕捉 LLM 是否写出了一个合理的段落，但忽略了 LLM 是否能够通过保持故事、演员阵容、用户历史和情感契约在多轮交互中的连贯性来管理长交互式叙事。

因此，交互式叙事为 LLM 提供了一个充满挑战的动态测试平台；它需要那些通常被单独评估的能力协同运作：规划必须经受住即兴发挥的考验，记忆必须支持角色的一致性，共情必须塑造故事方向，生成的工件必须扎根于不断演变的虚构世界中。因此，任何一种能力的失败都可能导致整个交互的破裂，即使每个单独的响应听起来都很流畅。

在此，我们引入了 **NARRA-Gym**，一个用于在多轮交互中基准测试交互式叙事智能体的可执行评估环境。NARRA-Gym 的动机源于只有在持续交互中才能完全显现的 **五种耦合能力**：

- ❶ **创造性故事生成**：模型必须从稀疏的情感种子构建完整的故事弧线，这需要引人入胜的散文和高层故事引导（Fan et al., 2018; Yao et al., 2019; Wang et al., 2024b; Bae and Kim, 2024; Gómez-Rodríguez and Williams, 2023）。
- ❷ **长上下文状态与节奏管理**：模型必须将对话历史、未解决的紧张关系、揭示的线索、用户决策以及当前的叙事节奏作为可操作上下文保留，且不出现矛盾、漂移或停滞（Liu et al., 2024; Bai et al., 2024; Lyu et al., 2024; Wu et al., 2025）。
- ❸ **角色模拟**：角色必须在声音和动机上保持可区分，并随情节发展而变化（Park et al., 2023; Wang et al., 2024a; Han et al., 2024; Chen et al., 2024; Papoudakis et al., 2024）。
- ❹ **共情个性化**：故事必须符合用户的情感需求，而不会退化为通用的治疗性措辞（Rashkin et al., 2019; Harel-Canada et al., 2024; Yunusov et al., 2024）。
- ❺ **交互式工件生成**：模型必须生成功能性的、扎根于故事的 HTML、CSS 和 JavaScript 工件，保持新颖并与不断演进的故事保持一致（Urbanek et al., 2019; Akoury et al., 2020; Yang et al., 2024）。

遵循 OpenAI Gym（Brockman et al., 2016）的基于环境的评估框架，NARRA-Gym 将每个待测模型置于相同的可重复片段支架中，其中每个生成的响应都会更新下一个状态。该支架本身并非被评级的对象；相反，它是一个受控的交互环境，通过使会话可运行、可记录且可比对，使模型间的差异变得可见。一个片段从稀疏的 **情感种子** 开始，构建结构化的故事世界，然后运行多轮交互循环，记录记忆更新、节奏检查、规划轨迹以及可选的故事接地工件。这种设计将交互式讲故事从松散定义的演示场景转变为可重复的评估协议。

我们的 **贡献** 包括：

- ❶ **一个可执行的基准环境**：我们定义了一个交互式评估设置，在单一交互循环中联合测试创造性故事生成、长上下文状态与节奏管理、角色模拟、共情个性化以及故事接地工件生成。
- ❷ **模块化叙事智能体流水线**：我们实现了一个分阶段的故事构建流水线，包括多分辨率记忆、反思引导规划、防停滞控制、新颖性约束工件合成以及容错结构化生成，其中每个组件的记录均可供检查。
- ❸ **比较评估协议**：我们提供了一套包含组内秩聚合的人类评分协议，以及用于跨人物画像、评分维度和评委校准比较生成器模型的 LLM-judge 协议，从而暴露出在静态叙事数据集中难以观察到的失败模式。

## 2 评估环境构建

NARRA-Gym 通过完整的片段流水线编排模型，如图 1 所示。此处，“片段”指从初始用户输入到最终记录的对话为止的一次完整交互式故事会话。片段始于用户的 **情感种子**：通过图 A5（附录 O）所示的起始界面输入的当前情况或心境的自由文本描述。该种子可以通过 **配置回答**（关于偏好和舒适度边界的简短问卷调查回复）和 **选定关键词**（用户选择的应影响故事的描述符）进行丰富，如图 A6 所示。

随后，**叙事架构师（Narrative Architect）** 通过五个已记录的构建阶段将这种稀疏输入转换为可运行的故事世界：(1) 故事基础，(2) 环境构建，(3) 角色构建，(4) 幕结构，以及 (5) 开场场景生成。此初始化阶段的输出不仅是散文，而是一个 **结构化片段状态**：包含前提、环境、演员阵容、幕大纲、开场对话、隐藏元素和初始选择的机器可读字段。图 A7 展示了来自此构建阶段的代表性生成的概要和演员视图。

初始化后，片段进入 **轮级交互循环**，即在每次用户操作后运行的重复周期。用户可以选择显示的选项或输入 **自由形式消息**，这是一种不受显示选项限制的开式文本输入。对于每一轮，**记忆代理（Memory Agent）** 会汇编最近的对话、配置文件信息、**故事记忆**（持久字段，如当前目标、线索和紧张关系）以及 **用户旅程状态**（用户记录的决定和情感轨迹）；LLM 生成下一个故事节拍；**节奏代理（Pacing Agent）** 和结构守卫检查情节是否实际推进；**规划代理（Planning Agent）** 可选地为后续轮次生成规划指导；**工件代理（Artifact Agent）** 在叙事需要实物道具时可生成故事接地的交互式工件。响应、选择、记忆更新、节奏干预、工件元数据和 LLM 痕迹在下次用户操作前写回片段状态。

> **图 1：NARRA-Gym 片段的流水线视图。**
> (A) **叙事架构师** 通过五个构建阶段将用户的情感种子转化为结构化故事世界的基本元素：故事基础、环境构建、角色构建、幕结构和开场场景生成。
> (B) 初始化后的故事随后进入由其余四个代理协调的持续交互循环：用户选择或自由文本输入、**记忆代理** 的上下文汇编、LLM 故事推进、**节奏代理** 的节奏与结构检查、**规划代理** 的可选规划、**工件代理** 的可选工件生成，以及下一轮之前的状态/日志更新。

### 2.1 从用户输入到故事世界

在任何交互开始之前，系统必须将稀疏的情感输入转化为完全实现的故事世界。**叙事架构师** 将其分解为五个已记录的阶段，以便例如区分那些产生良好前提但角色扁平的模型与那些在幕级规划上失败的模型。评估片段始于用户提供情感背景（对其当前情况或心境的自由文本描述；图 A5）并回答简短的配置问卷以捕捉偏好和舒适度边界（图 A6）。随后，**叙事架构师** 通过五个顺序阶段构建故事，每个阶段生成一个结构化、可重放的工件。图 2 展示了片段中期的此循环示例：面板 ❷ 显示了驱动该轮的对话交换示例，而面板 ❸–❻ 显示了代理在每个周期读取和更新的潜在状态表面。

> **图 2：运行时评估片段的示例。**
> 界面暴露了交互式叙事智能体在会话第一幕期间可获得的所有可观察信号。
> ❶ **故事头**：由**叙事架构师**生成的 Stage-1 **标题**和 Stage-2 **氛围**。
> ❷ **对话循环**：斜体叙述、非玩家角色（NPC）的话语、用户的自由文本响应以及受限的分支选择，其中 `/messages` 和 `/choices` 均作为有效的交互通道。
> ❸ **场景**：由**记忆代理**跟踪的当前故事状态，包括 **位置**、**幕索引**、**当前\_目标**、**开放\_紧张关系** 以及电影观察帧。
> ❹ **演员表**：带有角色、浓缩特征、与主角关系以及屏幕内/外状态的 Stage-3 角色档案。
> ❺ **旅程**：由**节奏代理**监控的 Stage-4 幕蓝图和已访问位置轨迹。
> ❻ **情感**：由**规划代理**在反思传递后总结的演变的 **用户旅程** 弧线。
> 综上，面板 ❸–❻ 将潜在的叙事状态具象化，使每次会话既成为沉浸式的交互式故事，也成为可重复的评估轨迹。

NARRA-Gym：用于评估交互式叙事智能体的基准

相似文章

LongMemEval-V2：评估长期智能体记忆，迈向经验丰富的同事

EnvSimBench：用于评估和改善基于大语言模型的环境模拟的基准

BALAR：一种用于主动推理的贝叶斯智能体循环

OpenAI Gym Beta

Ecom-RLVE：面向电商对话代理的自适应可验证环境

提交意见反馈