为强化学习内容生成器学习局部约束

arXiv cs.AI 论文

摘要

本文提出了一种混合方法,将波函数坍缩(WFC)与强化学习相结合,利用WFC约束引导强化学习智能体,生成既视觉满意又可玩的游戏关卡。

arXiv:2605.13570v1 Announce Type: new 摘要:基于约束的游戏内容生成器(如波函数坍缩(WFC))能从现有内容中学习局部约束,生成视觉上令人满意的游戏关卡,但在保证全局属性(如可玩性)方面面临挑战。另一方面,经过强化学习训练的内容生成器可以保证全局属性——因为此类属性可轻松纳入奖励函数——但结果可能视觉上不尽如人意。本文探索了结合这两种方法的方式。具体而言,我们用WFC学习的约束来限制PCGRL生成器的动作空间,从而有效使PCGRL生成器在强制遵守局部约束的同时实现全局属性。为更好分析这种混合内容生成方法的工作原理,我们改变了输入的数量和类型,并测试了是否随机坍缩初始状态以及排除稀有模式。尽管该方法对超参数调优敏感,但我们训练出的最佳生成器能够生成视觉满意且可玩的解谜平台游戏关卡(例如《淘金者》关卡),并具备所需的全局属性。
查看原文
查看缓存全文

缓存时间: 2026/05/14 06:16

# 学习局部约束以强化学习生成游戏内容

来源:https://arxiv.org/html/2605.13570

###### 摘要

基于约束的游戏内容生成器通过从现有内容中学习局部约束(如波函数坍缩WFC),能够生成视觉上令人满意的游戏关卡,但在保证整体属性(如可玩性)方面面临挑战。另一方面,强化学习训练的生成器可以保证整体属性——因为这类属性可以轻松纳入奖励函数——但结果可能在视觉上不令人满意。本文探索了结合这两种方法的方式。具体来说,我们使用WFC学得的约束来约束PCGRL生成器的动作空间,从而有效让PCGRL生成器在被迫遵守局部约束的同时实现整体属性。为了更好地分析这种混合内容生成方法的工作机制,我们改变了输入的数量和类型,并测试了是否随机坍缩起始状态以及是否排除稀有模式。尽管该方法对超参数调优敏感,但我们训练出的最佳生成器能够产生视觉上令人满意且可玩的解谜平台游戏关卡——例如《Lode Runner》关卡——并具备所需的整体属性。

## I 引言

是什么造就了一个好的游戏关卡?需要考虑的因素很多,但最突出的因素可以大致分为功能方面和视觉美学方面。功能方面涉及玩家在关卡中能做什么,例如,能否完成关卡、需要哪些技能、哪些物品可以到达。视觉美学本身是多方面的,但通常,游戏具有特定的视觉风格,不符合此风格的关卡看起来是破碎的。虽然视觉美学与关卡的全局和局部方面都相关,但功能方面通常是全局的。特别是,一个关卡能否完成或物品能否到达,只能在整体关卡的上下文中评估。

自监督学习方法在图像生成方面通常非常擅长捕捉视觉美学,如果数据足够,这种能力也可以扩展到关卡生成[40 (https://arxiv.org/html/2605.13570#bib.bib8),28 (https://arxiv.org/html/2605.13570#bib.bib5),35 (https://arxiv.org/html/2605.13570#bib.bib4)]。然而,它们本身并不捕捉游戏关卡的功能方面,也许因为这并非它们的学习信号的一部分。另一方面,如果奖励明确依赖于功能,强化学习方法可用于学习能够很好捕捉功能的关卡生成模型[15 (https://arxiv.org/html/2605.13570#bib.bib25),26 (https://arxiv.org/html/2605.13570#bib.bib29),7 (https://arxiv.org/html/2605.13570#bib.bib26)]。不幸的是,这通常以牺牲视觉美学为代价,因为通过强化学习生成的关卡可能非常丑陋(图13 (https://arxiv.org/html/2605.13570#S6.F13))。

问题自然出现了:我们能否结合自监督和强化学习方法,学习生成既功能完善又符合特定视觉风格的关卡生成器?这可能会以自监督学习局部模式、强化学习学习全局结构的形式出现。本文提出了一种具体方法来实现这一点,结合波函数坍缩(WFC)[9 (https://arxiv.org/html/2605.13570#bib.bib31)]算法学习局部模式,以及强化学习学习生成可玩关卡。这两种方法结合的具体方式是让WFC限制RL模型可以采取的动作。

对于游戏关卡生成,生成的关卡必须可玩。通常,使用机器学习进行程序化内容生成(PCGML)[36 (https://arxiv.org/html/2605.13570#bib.bib2)]生成的关卡看起来与训练用的人类制作关卡相似,但不保证功能。明显的原因是功能不依赖于或与视觉相似性或美学无关。例如,一个超级马里奥兄弟关卡,空中随机散落一些地板砖块,可能看起来很乱,但如果存在通往终点的路径,关卡在功能上仍然是完整的。反过来也成立;一个看起来像由人类设计的关卡,如果路径不存在,可能是非功能性的。我们正在探索如何使用强化学习(RL)方法生成具有与给定输入视觉相似性的可玩关卡。RL方法在内容生成方面已显示出巨大成功,但将视觉相似性度量纳入奖励函数并非直观。

本文在多个方面具有新颖性。首先,我们通过使用WFC导出的局部规则约束PCGRL的动作空间,将WFC与PCGRL结合起来。其次,我们研究了算法超参数对最终生成内容的影响。我们尝试改变WFC算法的输入数据大小(单输入 vs 多输入)。我们还改变所选输入的多样性,以研究它如何影响输出关卡的功能性和多样性。此外,我们探讨了排除输入中较不常见模式的结果。最后,我们测试了从坍缩少量单元格后开始与从完全未坍缩的关卡开始的对比效果。

## II 背景

本节涵盖程序化内容生成的相关工作,包括通过机器学习(见第II-A节 (https://arxiv.org/html/2605.13570#S2.SS1))、强化学习(见第II-B节 (https://arxiv.org/html/2605.13570#S2.SS2))和波函数坍缩(见第II-C节 (https://arxiv.org/html/2605.13570#S2.SS3))进行的工作。

### II-A PCGML

程序化内容生成(PCG)[25 (https://arxiv.org/html/2605.13570#bib.bib1)]研究集中于使用输入示例生成游戏内容(如地图、任务、关卡、音乐、叙事等)。在这种方法中,使用输入数据训练机器学习模型。模型试图学习训练数据的潜在分布;随后,使用训练好的模型生成新内容。已经探索了多种机器学习方法用于自动化内容生成,包括马尔可夫模型[28 (https://arxiv.org/html/2605.13570#bib.bib5)]、LSTM网络[35 (https://arxiv.org/html/2605.13570#bib.bib4)]、生成对抗网络(GAN)[40 (https://arxiv.org/html/2605.13570#bib.bib8),24 (https://arxiv.org/html/2605.13570#bib.bib6)]、自编码器[23 (https://arxiv.org/html/2605.13570#bib.bib13)],以及近期的大型语言模型(LLMs)[39 (https://arxiv.org/html/2605.13570#bib.bib11),19 (https://arxiv.org/html/2605.13570#bib.bib10)]。在另一种方法中,内容生成问题被视为一个迭代过程。这种不是一次性生成全部内容,而是逐步构建内容。例如,毁灭之路[27 (https://arxiv.org/html/2605.13570#bib.bib9)]、扩散模型[6 (https://arxiv.org/html/2605.13570#bib.bib20)]、神经细胞自动机[33 (https://arxiv.org/html/2605.13570#bib.bib12)]等。

### II-B 使用RL的PCG

基于强化学习(RL)的PCG方法[15 (https://arxiv.org/html/2605.13570#bib.bib25)]将关卡生成问题视为一个马尔可夫决策过程(MDP),其中智能体被训练以选择导致目标的动作;作为回报,它获得一个指示动作好坏的奖励。这构成了关卡生成问题的迭代方法,其中关卡是逐步生成的,而非一次性过程。与基于监督或自监督的方法相比,RL方法的一个优势是RL方法不需要训练数据。相反,使用奖励函数来指导生成过程,这可以帮助训练好的智能体学习更复杂的概念,如可玩性。

Khalifa等人[15 (https://arxiv.org/html/2605.13570#bib.bib25)]介绍了一个2D游戏关卡的RL框架,其中从随机关卡开始,RL智能体迭代地修改关卡以达到某个目标。Earle等人[7 (https://arxiv.org/html/2605.13570#bib.bib26)]提出了一种可控的RL生成器,他们使用控制参数来训练智能体。在推理时,用户可以使用控制参数从单个生成器生成多种内容。Jiang等人[11 (https://arxiv.org/html/2605.13570#bib.bib27)]将基于RL的可控生成器应用于更复杂的3D游戏环境。最近,Gisslen等人[8 (https://arxiv.org/html/2605.13570#bib.bib28)]将对抗性RL方法应用于PCG。他们使用基于RL的求解智能体对抗性地训练了一个PCGRL生成器,以生成新颖的游戏环境。在其他方向上,Shu等人[26 (https://arxiv.org/html/2605.13570#bib.bib29)]将PCGRL与经验驱动的PCG相结合,以生成个性化游戏内容。

参考图例 图1: WCRL框架的系统概览

### II-C 波函数坍缩

波函数坍缩(WFC)最初由Maxim Gumin[9 (https://arxiv.org/html/2605.13570#bib.bib31)]提出,用于生成与给定输入具有模式相似性的图像和瓦片地图。该算法采用基于像素或瓦片的示例输入,将输入划分为NxN模式,并提取这些模式之间的局部关系,这些关系定义了算法的约束。遵循这些约束,算法生成与给定输入具有模式相似性的输出。自提出以来,由于输出美观且需要少量输入数据,它在游戏设计师和游戏研究人员中变得流行。它已被应用和改编到各种游戏中,如《Bad North》[31 (https://arxiv.org/html/2605.13570#bib.bib33)]、《Townscaper》[38 (https://arxiv.org/html/2605.13570#bib.bib32)]、《Caves of Qud》[4 (https://arxiv.org/html/2605.13570#bib.bib34)]等。

一些学术研究以不同方式探索了WFC。Karth等人[12 (https://arxiv.org/html/2605.13570#bib.bib35)]研究了WFC作为一种约束求解PCG方法的用途。在后续工作[13 (https://arxiv.org/html/2605.13570#bib.bib37),14 (https://arxiv.org/html/2605.13570#bib.bib36)]中,他们探索了扩展算法并克服其局限性的不同方式,例如使用VQ-VAE作为瓦片表示,以及使用正负示例作为输入等。Sandhu等人[22 (https://arxiv.org/html/2605.13570#bib.bib38)]探索了将设计约束作为WFC约束的通用框架,并研究了它们的有效性。可以使用图结构代替网格结构来扩展该方法的功能并减少其局限性[5 (https://arxiv.org/html/2605.13570#bib.bib39),16 (https://arxiv.org/html/2605.13570#bib.bib40)]。在另一项研究[20 (https://arxiv.org/html/2605.13570#bib.bib41)]中,WFC被应用于不断增长的网格而非固定大小网格,以克服具有特定关卡大小的限制。Langendam和Bidarra[17 (https://arxiv.org/html/2605.13570#bib.bib42)]提出了一种使用WFC的混合主动PCG工具,允许艺术家和游戏关卡设计者更容易地进行交互。从使用简单瓦片集出发,Alaka和Bidarra[1 (https://arxiv.org/html/2605.13570#bib.bib43)]探索了基于语义的分层结构,使用元瓦片用于交互设计工具,因此人类无需担心细节,可以专注于大局。Babin和Katchabaw[2 (https://arxiv.org/html/2605.13570#bib.bib44)]将强化学习方法与WFC相结合,用于生成可玩的超级马里奥关卡。他们应用基于ES的优化方法来训练RL智能体,该智能体替换了WFC的最小熵启发式和动作选择。

参考图例 图2: 使用3x3窗口标记模式的邻接关系。选定的模式用绿色边框标记,四个基本方向上的3x3邻近模式显示在侧面。

### II-D Lode Runner

Lode Runner是一款平台解谜游戏,由Broderbund于1983年发布。游戏是关于收集金币而不被敌人杀死。玩家可以在平台上行走,穿过绳索,爬梯子到达关卡的更高区域,但不能跳跃。此外,穿越关卡时,玩家可以在砖块中挖洞以开辟新路径或使用洞来困住/杀死敌人。虽然Lode Runner不是游戏AI研究的热门选择,但其不同瓦片之间的空间关系和解谜性质使其成为我们实验的良好候选,因为很容易检测出不符合Lode Runner结构的关卡,并且它具有需要实现的硬连接性和功能约束。

Snodgrass和Ontanón[28 (https://arxiv.org/html/2605.13570#bib.bib5)]训练了一个多维马尔可夫模型来生成超级马里奥兄弟、Lode Runner和Kid Icarus的关卡。Steckel等人[32 (https://arxiv.org/html/2605.13570#bib.bib16)]使用GAN与MAP-Elites算法生成多样化的可玩Lode Runner关卡。Sorochan等人[30 (https://arxiv.org/html/2605.13570#bib.bib3)]在Lode Runner关卡的玩家路径上训练了LSTM,并将其用作关卡生成器。Snodgrass和Sarkar[29 (https://arxiv.org/html/2605.13570#bib.bib15)]将变分自编码器与示例驱动的二叉空间分割相结合,以混合和生成来自多个领域(包括Lode Runner)的关卡。Thakkar等人[37 (https://arxiv.org/html/2605.13570#bib.bib14)]对自编码器和变分自编码器的潜在空间进行演化,以生成Lode Runner关卡。

## III WCRL:通过强化学习进行波坍缩

在本文中,我们将波函数坍缩的约束求解能力与PCGRL框架相结合,为平台游戏Lode Runner生成视觉悦目且功能完善的关卡。受Babin等人工作[2 (https://arxiv.org/html/2605.13570#bib.bib44)]的启发,我们将RL与WFC相结合,用于生成可玩关卡,其中RL选择下一个瓦片的值。一个区别是Babin等人使用基于ES的优化方法来训练RL智能体,而我们使用的是基于PPO的RL智能体。另一个区别是领域本身;Babin等人专注于为超级马里奥兄弟生成线性关卡,而我们专注于解谜游戏Lode Runner。与马里奥相比,Lode Runner是一个更难解决的问题,因为马里奥的可玩性更容易实现[28 (https://arxiv.org/html/2605.13570#bib.bib5)]。在所提出的框架中,生成内容的质量和视觉美学可能受到不同因素的影响。我们通过研究其中一些因素来扩展研究,例如输入数据的大小、输入数据的多样性、较少常见模式的存在与排除,以及最后,从随机坍缩的起始状态训练与从空状态训练。

图1 (https://arxiv.org/html/2605.13570#S2.F1)显示了所提出框架的概览。WFC对瓦片进行操作,将其视为像素。该框架接受输入关卡,并提取输入关卡中存在的NxN瓦片模式(其中N是局部约束的大小,通常2或3效果最佳)。这些NxN唯一模式为RL智能体创建了动作空间。WFC找到模式之间的邻接关系。图2 (https://arxiv.org/html/2605.13570#S2.F2)显示了选定模式的3x3邻接关系。这些邻接关系告诉

相似文章

通过残差潜在动作学习基于视觉特征的世界模型

Hugging Face Daily Papers

本文介绍了 RLA-WM,一种基于视觉特征的世界模型,该模型利用残差潜在动作与流匹配技术高效预测未来视觉状态。该方法性能优于现有的视频扩散与特征基方法,同时支持从离线、无动作演示视频中探索新型机器人学习技术。

从动作引导中学习智能体策略

arXiv cs.CL

本文提出了 ActGuide-RL,这是一种利用人类动作数据作为指导来训练大语言模型(LLM)智能体策略的方法,旨在无需大量监督微调的情况下克服强化学习中的探索障碍。