IVIE:一种用于增量式且经过验证的互动小说世界生成的神经符号方法
摘要
IVIE是一种神经符号方法,结合用于创意生成的大语言模型与符号验证,以生成连贯且可玩的互动小说世界。人工评估表明其世界具有沉浸感和主题连贯性。
arXiv:2606.13348v1 公告类型:新
摘要:互动小说中的计算创造力面临一个根本矛盾:大语言模型可以产生创意叙事,但难以保持世界连贯性,而符号系统能确保一致性但缺乏创意灵活性。我们提出了IVIE(增量式与经过验证的互动体验),一种从头生成完整且可玩的互动小说世界的神经符号方法。基于PAYADOR的神经符号框架,IVIE实现了一个四阶段增量生成流水线,将创意决策(场景与角色创造、谜题设计)委托给大语言模型,同时通过符号验证对世界状态进行基础约束。该系统生成具有互联地点、功能物品、非玩家角色和连贯谜题的世界,所有内容围绕一个中心目标导向架构组织。人工评估表明,该方法生成了沉浸感强、主题连贯且玩家参与度高的世界。结果似乎表明,神经符号方法成功地在灵活性与叙事连贯性之间取得了平衡:符号验证在不消除生成自由的情况下,对大语言模型生成的内容进行了基础约束。然而,挑战依然存在:大语言模型的不一致性偶尔会绕过谜题约束,而客观验证的缺失使得某些在结构上不可能的目标得以存在。我们为未来的神经符号互动叙事系统确定了关键设计考量,特别是在大语言模型的能力及其局限性方面。
查看缓存全文
缓存时间: 2026/06/12 08:52
# IVIE:一种增量式与验证式交互式小说世界生成的神经符号方法
来源:https://arxiv.org/html/2606.13348
Micaela Vaucher† Santiago Silveira Santiago Góngora† Luis Chiruzzo
Instituto de Computación, Facultad de Ingeniería, Universidad de la República, Uruguay
†\{micaela.vaucher, sgongora\}@fing.edu.uy
###### 摘要
> 交互式小说中的计算创造力面临一个基本矛盾:大型语言模型(LLM)能够产生富有创意的叙事,但难以维持世界的连贯性;而符号系统能保证一致性,却缺乏创造性灵活性。我们提出 **IVIE**(增量式与验证式交互体验),一种从头生成完整且可玩的交互式小说世界的神经符号方法。基于 PAYADOR 的神经符号框架,IVIE 采用四阶段增量生成流水线,将创意决策(场景与角色创建、谜题设计)委托给 LLM,同时通过符号验证来锚定世界状态。该系统生成包含相互关联的地点、功能性物品、非玩家角色和连贯谜题的世界,所有元素均围绕一个中心目标导向架构构建。人工评估表明,该方法能生成沉浸感强、主题连贯且玩家参与度高的世界。结果似乎表明,神经符号方法成功地在灵活性与叙事连贯性之间取得了平衡:符号验证在不消除生成自由的前提下,对 LLM 生成进行了约束。然而,挑战依然存在:LLM 的不一致性偶尔会绕过谜题约束,而目标验证的空白会导致一些结构上不可能实现的目标。我们为未来的神经符号交互式叙事系统提出了关键设计考量,特别是针对 LLM 的能力及其局限性。
## 引言
大型语言模型可以按需生成流畅的叙事,但当要求它们在仅数轮玩家交互中维持连贯的游戏世界时,它们却频频失败。物体会无缘无故地消失又重新出现,NPC 会忘记之前的对话,空间关系变得矛盾,谜题解法也会在游戏中途发生改变 (?)。然而,创造性潜力依然诱人:如果我们能将 LLM 生成锚定在符号验证之上,就能显著推进一致交互式叙事的生成。
交互式小说 (IF) ——一种文本类游戏类型,用户通过自然语言命令探索虚构世界并影响叙事走向 (?)——正是这种创造性灵活性与结构连贯性之间矛盾的典型代表。经典系统如 *Zork* (?) 通过手工制作的物品、地点和确定性规则来维护世界状态,保证了连贯性,但每个世界都需要大量的人工创作。程序化内容生成 (PCG) 方法通过算法自动创建游戏内容来缓解创作瓶颈 (?),然而传统的叙事方法依赖符号规划系统,生成的故事情节刻板、基于模板,缺乏丰富的创造性 (?)。
LLM 承诺了一种计算即兴创作的形式,无需预定脚本即可实时生成流畅叙事。然而,即兴创作并非单纯的即兴发挥——它需要技巧、记忆和上下文锚定 (?;?),而这正是 LLM 在长期交互中所缺乏的。它们会幻觉出物品,忘记已设定的事实,并且会丢失游戏状态 (?;?)。在第 5 回合出现的一把金钥匙,可能在 25 回合后被遗忘;更糟糕的是,LLM 可能前后矛盾地否定了门曾被锁住的事实。对于寻求连贯体验而非超现实探索的玩家来说,这种不一致性从根本上破坏了沉浸感。
最近的神经符号方法 (?;?) 通过分离关注点来解决这个问题:LLM 负责创意生成,而符号结构维护世界状态。像 PAYADOR (?) 这样的系统表明,这种方法在处理*预定义世界中的游玩*时非常有效。将这些架构扩展到*自动生成*完整世界,将能够实现快速原型设计和程序化变体,同时保持手工创作所提供的结构连贯性。
在本文中,我们提出 **IVIE**(增量式与验证式交互体验),一种能自动生成完整、可玩的交互式小说世界的神经符号系统。虽然 PAYADOR 似乎表明神经符号架构能在游戏过程中维持连贯性,但它仅在手工预定义的世界中运行。IVIE 将此框架扩展到世界生成本身:不是手工雕琢每个世界,而是通过 IVIE 的四阶段增量生成流水线,将创意决策(场景与角色创建、谜题设计)委托给 LLM,同时符号层在每个阶段强制执行空间连通性、类型正确性和目标可解性。源代码可在 GitHub 上获取¹¹¹https://github.com/micaelavaucher/IVIE。
## 相关工作
交互式小说系统面临一个基本挑战:平衡创意叙事灵活性与结构世界连贯性。基于解析器的经典系统如 *Zork* (?) 通过手动创作解决了这个问题:每个物体、地点和交互都是硬编码的,保证了连贯性,但每个世界都需要大量的开发工作。现代方法试图通过不同策略避开这一创作瓶颈,但每种策略都有其关键局限性。
像 AI Dungeon (?) 这样的系统开创了 LLM 能够针对任意玩家动作生成上下文相关回应的理念。通过将玩家输入与对话历史拼接,并利用 LLM(例如 GPT-3)生成后续内容,这些系统实现了前所未有的叙事灵活性。然而,广泛的用户测试揭示了关键缺陷 (?):物品无缘无故消失后又重新出现,NPC 与之前的陈述矛盾,随着上下文窗口填满游戏规则变得不一致,以及模型出现“循环”行为。这些问题源于 LLM 的无状态本质——它们不维持持久的世界模型 (?),仅依赖概率模式,缺乏强制执行结构连贯性的机制。
最近的研究以不同方式桥接了符号和神经范式。一些方法检索或维护叙事上下文以提高连贯性 (?),或通过数据驱动生成来增强游戏内容 (?),但这些方法仍然缺乏保证结构有效性的符号锚定。另一些方法则将创意生成委托给 LLM,同时维护结构化的世界状态 (?),将规划与语言模型结合 (?;?),或动态构建空间表征 (?),但这些方法侧重于在已有世界中游玩或叙述,而非从头生成完整世界。
我们当前的工作 IVIE 直接建立在 PAYADOR 之上 (?;?),这是一个将符号世界管理与神经叙事生成相分离的神经符号框架。PAYADOR 实现了一个面向对象的世界模型(Location, Item, Character, Puzzle, Objective),并采用双 LLM 架构:一个推理模型解释玩家动作以生成结构化的状态转换,另一个叙事模型则生成场景描述 (?)。世界连贯性通过一个持续的锚定循环维护:当玩家输入一个动作时,系统将当前符号世界状态渲染为自然语言;推理 LLM 预测其效果,生成符号转换(例如移动物品、解锁通道)和叙事结果;这些预测在应用到世界状态更新之前会经过验证;最后,叙事 LLM 基于更新后的状态生成场景描述。这种分离似乎在防止 LLM 不一致性方面很有效:空间连通性通过显式的图结构进行验证,物体位置被确定性地跟踪,谜题状态只有在显式修改时才会改变。然而,这些系统在手工预定义的世界中运行,其中每个地点、物体、NPC 和谜题都在游戏开始前硬编码完成。
## IVIE 方法
IVIE 探索了前述局限性,提出了增量验证式生成:一个四阶段流水线,从抽象概念逐步构建到具体的可玩体验,每个阶段都通过符号验证确保空间连通性、类型正确性和目标可解性。鉴于 LLM 能生成叙事文本但难以维持结构连贯性,而符号系统能保证一致性却缺乏生成灵活性,核心问题变成了:*我们如何同时利用两者?*
为了实现这种关注点分离,我们以 PAYADOR 的神经符号框架 (?;?) 作为架构骨架。如前所述,PAYADOR 通过符号世界状态和双 LLM 架构,在游戏过程中维持世界连贯性。在此框架基础上,IVIE 探索了自动生成完整世界的能力,而不是在预定义世界中游玩。
IVIE 的符号组件充当结构化的执行和验证层,而非创造性推理引擎:它不生成叙事内容,但执行并强制 LLM 提出的状态转换在结构上的正确性。与其要求 LLM 同时进行创意生成和维护世界一致性——这是一个它们已被证明失败的任务 (?)——我们旨在让每个组件做自己最擅长的事:
- • LLM 生成叙事元素:地点描述、角色背景故事、谜题设计和目标框架。
- • 符号 Python 结构维护世界状态:遵循 PAYADOR 的面向对象世界模型;哪些地点相连,哪些物品在哪里,哪些谜题阻挡了哪些通道,以及在当前世界配置下目标是否可解。
因此,挑战在于生成的世界不仅要富有创意和主题连贯,还要在结构上有效,并且玩家能够完成目标。
### 目标导向架构
PAYADOR 的世界包含玩家必须完成的目标,例如寻找物品或到达地点。我们意识到这一概念可以作为 IVIE 生成流水线的组织原则:不是生成分散的元素并寄希望于它们能构成一个连贯的世界,而是由目标定义必须存在什么以及组件之间如何关联。每个地点、物品、NPC 和谜题的存在都是为了服务于玩家的目标,无论是寻找隐藏的圣物、解决谜团,还是逃离危险地点。这种架构通过提供必要的结构约束来避免无法游玩的内容 (?),同时在生成的元素之间维持连贯的总体结构 (?),从而解决了常见的 PCG 挑战。
每个生成的元素都是为了实现一个中心目的——完成目标。此目标定义了世界的需求:如果目标是“将古代卷轴交给图书管理员”,那么世界必须包含卷轴作为可拾取物品、一位位于某地的图书管理员角色、连接卷轴所在地到图书管理员所在地的路径,以及可能阻挡对任一元素访问的谜题。因此,生成流水线从该目标逆向工作,确定该目标需要哪些元素以及应将它们放置在何处。图 1 (https://arxiv.org/html/2606.13348#Sx3.F1) 展示了一个生成的世界开始画面,其中所有元素都围绕寻找失踪人员这一中心目标。
生成的游戏开场
破旧的砖楼排列在街道上。雾气在建筑间翻滚,远处的声音在空旷的小巷中回响。
你是一位调查城市中神秘失踪事件的侦探。
当前地点:废弃仓库区
可到达地点:警察局、旧码头
被阻挡的通道:证据室
目标:寻找失踪人员
物品:手电筒、侦探笔记本
NPC:Martinez 警官
图 1:在 Generate 模式下生成的示例世界开场,展示了目标导向结构,所有元素服务于中心目标。
### 增量生成流水线
参见图注
图 2:IVIE 的增量生成流水线。从可选的用户灵感开始,LLM 在四个强制性阶段(冒险核心 → 世界结构 → 世界物化 → 挑战)中逐步生成世界,每个阶段都设有验证门。
在初步实验中,我们发现试图通过一次 LLM 调用生成完整世界会导致不一致性,因为模型难以在数十个相互依赖的元素间维持连贯性。此外,LLM 会生成大小不可预测的世界,使得系统评估和比较变得困难。为解决这两个问题,我们设计了一个四阶段增量生成流水线(如图 2 (https://arxiv.org/html/2606.13348#Sx3.F2) 所示),并设有可配置的大小参数。IVIE 允许设计师在生成开始前指定地点数、物品数、角色数和谜题数,从而确保可控评估所需的一致世界规模,同时使验证系统能够适当地缩放。该流水线在四个强制性阶段中逐步构建世界,从抽象到具体,每个边界处进行符号验证。每个阶段使用专门设计的提示来引导 LLM 生成;这些提示可在源代码仓库中找到。
#### 阶段 1:冒险核心
第一阶段通过生成三个核心组件来建立叙事基础:世界主题、主角描述和目标类型。
IVIE 扩展了 PAYADOR 的目标系统 (?),增加了五种目标类型,每种类型对后续阶段施加不同的结构要求:
- • REACH\_LOCATION:玩家必须导航到特定地点(例如“逃离闹鬼的豪宅”)
- • GET\_ITEM:玩家必须获得特定物品(例如“取回古代圣物”)
- • DELIVER\_ITEM:玩家必须将物品带给一个角色或地点(例如“将卷轴交给图书管理员”)
- • FIND\_CHARACTER:玩家必须找到特定的 NPC(例如“找到失踪的探险家”)
- • SOLVE\_MYSTERY:玩家必须收集线索以解决谜团(例如“发现谁偷了王冠珠宝”)
这些组件可以以两种模式生成。在**灵感模式**中,LLM 接收用户提供的主题引导(例如“维多利亚时代豪宅中的谜案”),并生成与该主题一致的世界。在**生成模式**中,LLM 完全担当创造性责任 (?),自主发明主题、设定和叙事前提,不受用户约束。
输出:`WorldConcept` 对象,包含冒险标题 (`title`)、叙事背景故事 (`backstory`)、玩家概念 (`player_concept`,角色身份) 和主要目标 (`main_objective`,高级目标描述)。正式的目标类型在后续阶段确定。**验证**:此阶段不需要除模式正确性之外的验证,因为概念元素(标题、背景故事、玩家概念、目标描述)是字符串(纯叙事性的),不会施加可能导致世界无法游玩的结构约束。任何主题上连贯的概念都可以作为后续阶段的输入。
#### 阶段 2:世界结构
一旦建立了叙事核心,此阶段将识别完成目标所需的主要实体:关键地点、相关角色和所需物品。LLM 生成实体标识符(名称)以及每个实体如何与目标关联的简要说明,但不包括空间连接或描述。相似文章
神经符号交互式叙事中的世界状态转换
本文探讨如何利用大语言模型(LLM)在基于规则的交互式叙事系统中预测状态变化,旨在提升叙事连贯性与玩家表现力。使用 Llama 3 70B 和 Gemini 1.5 Flash 进行的实验表明,世界状态转换既能维持一致性,又能鼓励玩家进行创造性输入。
通过双层优化实现交互场景的交互式逆向强化学习
本文介绍了交互式逆向强化学习(IIRL),这是一个学习者通过与专家主动互动来推断奖励函数的框架,其形式化为随机双层优化问题。作者提出了 BISIRL 算法,为该交互式学习范式提供了收敛性保证和实验验证。
ActWorld:从可探索到可交互的世界模型——基于动作感知记忆
ActWorld提出了一种分块自回归世界模型,具有层次化动作感知记忆,支持物体交互与导航,解决了现有交互世界模型中的数据和记忆瓶颈问题。
用想象力思考:基于世界模拟器的主动式视觉空间推理
本文提出了Astra,一个主动式空间推理框架,将经过强化学习训练的VLM策略与一个世界模拟器结合起来,生成新视角的观察结果,以改进视觉语言模型中的空间推理能力。
WebRISE: MLLM生成网页工件的需求诱导状态评估
本文介绍了WebRISE,这是一个用于评估MLLM生成的网页工件的基准,它使用交互契约图(ICGs)来评估五种输入模态下的需求诱导状态和转换。实验表明,即使是最强的模型也只能达到有限的有效性和覆盖率,其中视频输入提供了最强的交互信号。