基于强化学习与可验证奖励的LLM生成式楼层平面设计
摘要
本文介绍了一种基于文本的生成式楼层平面设计方法,该方法通过强化学习与可验证奖励对大语言模型进行微调,以提高对拓扑和数值约束的遵循程度,与现有方法相比取得了显著改进。
arXiv:2605.14117v1 公告类型: 新
摘要: 面向专业楼层平面设计的AI系统必须精确控制房间尺寸和面积,同时满足房间所需的连通性,并保持功能与美学质量。现有生成方法主要侧重于满足房间之间的连通性要求,但无法生成符合数值约束的楼层平面。我们提出了一种基于文本的楼层平面生成方法,该方法在真实平面图上对大语言模型(LLM)进行微调,然后应用强化学习与可验证奖励(RLVR)来增强对拓扑和数值约束的遵循,同时抑制无效或重叠输出。此外,我们设计了一组约束遵循度量指标,以系统性地衡量生成的楼层平面与用户定义约束的一致性。我们的模型生成的楼层平面满足用户定义的连通性和数值约束,并在真实性(Realism)、兼容性(Compatibility)和多样性(Diversity)指标上优于现有方法。在所有任务中,我们的方法与现有方法相比,在兼容性(Compatibility)上实现了至少94%的相对降低。我们的结果表明,大语言模型能够有效处理该场景中的约束,暗示了基于文本的生成建模更广泛的应用前景。
查看缓存全文
缓存时间: 2026/05/15 06:19
# 基于强化学习与可验证奖励的大语言模型生成式平面图设计 来源:https://arxiv.org/html/2605.14117 Luis Lara¹, Aristides Milios¹,², Zhi Hao Luo¹,³, Aditya Sharma¹,³, Ge Ya Luo¹,², Christopher Beckham¹, Florian Golemo¹, Christopher Pal¹,²,³,⁴ ¹Mila – Quebec AI Institute, ²Université de Montréal, ³Polytechnique Montréal, ⁴Canada CIFAR AI Chair 通讯邮箱:[email protected] (mailto:[email protected]) ###### 摘要 一个用于专业平面图设计的AI系统必须精确控制房间尺寸和面积,同时满足房间之间的连通性要求,并保持功能性和美学质量。现有生成式方法主要侧重于满足房间连通性要求,但不支持生成满足数值约束的平面图。我们提出一种基于文本的平面图生成方法:首先在真实平面图上微调大语言模型(LLM),然后应用强化学习与可验证奖励(RLVR)来改进对拓扑和数值约束的遵守,同时抑制无效或重叠输出。此外,我们设计了一套约束遵循度量指标,系统性地衡量生成平面图与用户定义约束的一致性。我们的模型生成的平面图能满足用户定义的连通性和数值约束,在真实性、兼容性和多样性指标上优于现有方法。在所有任务中,我们的方法相比现有方法在兼容性上至少降低了94%。¹¹¹项目代码见 https://github.com/ludolara/floor-plan-rlvr。我们的结果表明,LLM能有效处理此类设置中的约束,为基于文本的生成式建模提供了更广泛的应用前景。 基于强化学习与可验证奖励的大语言模型生成式平面图设计 Luis Lara¹, Aristides Milios¹,², Zhi Hao Luo¹,³, Aditya Sharma¹,³, Ge Ya Luo¹,², Christopher Beckham¹, Florian Golemo¹, Christopher Pal¹,²,³,⁴ ¹Mila – Quebec AI Institute, ²Université de Montréal, ³Polytechnique Montréal, ⁴Canada CIFAR AI Chair 通讯邮箱:[email protected] (mailto:[email protected]) ## 1 引言 参考图注 图1:推理过程概览。给定一个泡泡图(输入连通性图)和一个JSON格式的设计需求说明(例如期望的房间尺寸),我们的模型生成一个完整的JSON格式平面图。 生成式模型已成为加速不同领域设计的强大工具。然而,其广泛采用取决于在灵活性和精确控制之间取得平衡。这一挑战在平面图生成中尤为突出,因为用户通常需要指定严格的约束,包括精确的房间尺寸和连通性。为解决这个问题,我们提出一个能处理用户定义约束的模型,并引入了评估生成平面图满足这些约束程度的度量指标。 大多数现有的平面图生成技术依赖于自上而下的2D渲染,并使用输入图(称为泡泡图)来表示房间之间的空间连通性。然而,这些方法存在固有缺陷。例如,基于视觉的生成模型产生栅格化的图像输出,使得直接访问或修改变得困难。此外,许多模型只关注邻接约束,完全忽略房间几何形状,从而降低了用户对生成布局的控制程度。 为克服这些限制,我们采用JSON表示法进行生成式平面图建模,将房间布局编码为多边形结构。我们的方法建立在之前的矢量化平面图方法之上,如House-GAN、House-GAN++(Nauata et al., 2020, 2021)和HouseDiffusion(Shabani et al., 2023),并利用RPLAN数据集(Wu et al., 2019)。这种结构化格式便于对空间参数(包括房间大小和连通性)进行更精细的控制。为验证这一方法,我们微调一个大语言模型(LLM)以生成JSON编码的平面图,并在提示中指定空间约束。参见图1了解推理过程概览。 通过实验,我们验证了我们的方法在保持对指定约束高度遵从方面的有效性,这由我们提出的约束遵循度量指标所衡量。在最复杂的设置(八房间任务)中,我们的方法采用best-of-10采样,相比HouseDiffusion(表1)将兼容性降低了94%。兼容性是衡量生成平面图与期望房间连通性匹配程度的标准指标,数值越低越好。 我们的主要贡献如下: 1. 我们分两个阶段微调LLM:先通过监督学习,然后通过强化学习,将约束输入转化为有效的结构化平面图,展示了结构化数据到结构化数据生成范式的可行性和优势。 2. 我们提出了新的约束遵循度量指标,系统性地评估生成平面图与用户定义约束的一致性,填补了该领域关键评估空白。 ## 2 相关工作 **生成模型。** House-GAN和House-GAN++(Nauata et al., 2020, 2021)是一系列基于GAN的方法,利用卷积图网络学习生成平面图图像。House-GAN从连通性图中每个现有房间的噪声向量开始,并使用卷积消息传递网络(Conv-MPN)在保持空间关系的同时更新节点特征。然而,这些模型仅以泡泡图为条件,无法施加其他形式的约束。这些方法的输出也是尺度不变的(即没有度量单位),因此不能直接用于任何下游任务。 FloorplanGAN(Luo and Huang, 2022)提出一种基于自注意力的GAN,输入包括房间中心、期望面积(编码为相对比例)以及每个房间的房间类型。然而,GAN的输出并不总是遵循原始约束。虽然使用可微光栅化器在像素空间计算损失提供了可能性,但该方法似乎不支持部分约束指定或多边形输出。 HouseDiffusion(Shabani et al., 2023)是一种基于扩散的方法,为泡泡图中的每个房间创建一个一维多边形循环,并通过扩散过程迭代改进其形状和位置。虽然它也利用Transformer架构关注输入图,但平面图生成是通过扩散完成的。该方法也只允许输入泡泡图,不能额外支持数值约束条件,因此与House-GAN模型存在相同的缺陷。 **大语言模型。** ArchiText(Galanos et al., 2023)也利用LLM生成平面图,但其提示似乎仅限于自然语言描述,而非显式几何信息。与这些方法相比,我们的方法允许用户指定详细的房间约束(例如房间面积),并以度量单位输出房间多边形,可直接用于CAD绘图软件。同时提供这两者对方法的新颖性和建筑可用性至关重要。 在Tell2Design(Leng et al., 2023)中,可能是最相似的工作,作者基于自然语言描述创建了一个新的平面图生成数据集(基于RPLAN)。他们将空间(尺寸)和关系定位约束纳入自然语言提示,并在其数据集上训练T5序列到序列模型。与我们的工作不同,作者将平面图渲染为图像并使用基于图像的指标进行评估,这在功能上忽略了结构错误(如重叠)。此外,约束遵循的评估也有限,仅对100个测试样本沿4个不同轴(房间类型、房间位置、房间大小和房间关系)进行人工评估。在评估中,他们表明训练的T5模型在处理空间关系时尤其困难。在这项工作中,我们提出了一套完整的约束满足度量指标,不依赖光栅化,而是直接从序列输出中测量期望属性。 **3D场景生成。** 近期,全3D场景生成方法展现了令人印象深刻的结果。AnyHome(Wen et al., 2023)和Holodeck(Yang et al., 2024)可以从自然语言提示(例如“一个研究人员的带猫的一室一厅公寓”)生成平面图、窗户、门、家具以及有意义的3D布局。我们的方法只关注平面图方面,但允许指定房间尺寸和面积以及整个平面图的总面积,而这两种方法都不支持。 **约束满足与符号方法。** 早期工作将平面图生成表述为一个约束满足问题,其中房间几何由位置和大小等变量表示,布局通过强制预定义的空间和尺寸规则生成(Medjdoub and Yannou, 2000; Li et al., 2000; Upasani et al., 2020)。相关的工作(Lopes et al., 2010)提出一种程序化方法,利用相对面积目标而非显式尺寸约束,并通过层次化区域系统(如公共区域和私人区域)组织布局,限制了同一区域内房间之间的直接拓扑关系。这些方法依赖于手工制定的规则和手动定义的结构,而非从数据中学习的先验。相比之下,我们的方法直接从真实平面图中学习合理的布局,同时仍以显式结构化约束为条件。 **数据集。** 平面图生成中最常用的数据集之一是RPLAN(Wu et al., 2019)。我们在本工作中使用该数据集,并在第3.1节中描述。RPLAN在我们设定中的一个局限性是它存储平面图为图像而非矢量格式。因此,必须先将其转换为中间结构化表示。 ## 3 表示格式 我们的任务要求模型满足显式的数值和拓扑约束,并生成可自动验证且能被下游几何和CAD工具使用的产物。先前工作表明,在条件信号中施加结构可以提高可靠性:标准化标记模板提供了显式控制接口,改善了生成质量和指令遵循(D’souza et al., 2025)。补充地,语义解析和代码生成方面的工作表明,无约束的自由生成容易产生语法无效或不可执行的输出,而强制生成过程中的结构约束则提高了有效性和准确性(Yin and Neubig, 2018; Scholak et al., 2021; Raspanti et al., 2025)。总体而言,这些结果支持在条件端和输出端使用显式结构化表示。 因此,我们选择JSON而非其他输入输出格式(如自然语言描述)。JSON(1)能够无歧义地解析数值约束,减少测量和空间关系中的歧义;(2)在训练样本之间强制一致的结构,减少模型推断隐式字段的负担;(3)通过其层次化组织自然捕获平面图说明中的嵌套关系;(4)支持与已依赖结构化表示的CAD工具和建筑软件直接集成。输入和输出的模式参见附录A.1。 ### 3.1 数据集 RPLAN(Wu et al., 2019)包含80,788个来自亚洲的真实平面图,存储为256×256×4图像,编码边界和房间标签。我们使用House-GAN++数据读取器³³³https://github.com/sepidsh/Housegan-data-reader 和一个自定义转换器将每个平面图转换为JSON布局:重建房间多边形、分配语义标签、将坐标缩放为米、计算几何属性,并从内部门连通性推导出泡泡图邻接列表。我们过滤掉具有不连通图或无效多边形的样本。完整的预处理细节见附录A.2。 ## 4 我们的方法 为使模型能够根据显式设计规格生成有效的平面图,我们采用两阶段训练流程:第一阶段是监督微调,第二阶段是基于强化学习的微调(使用GRPO,奖励来自自动量化指标),并结合硬可行性条件(对无效或重叠输出分配零奖励)。所有实验中,我们使用Llama-3.3-70B-Instruct作为主干模型(Grattafiori et al., 2024)。推理时,我们采用best-of-10采样,对每个提示选择重叠面积最小的候选,若重叠面积相同则按兼容性指标择优。完整的技术训练和推理细节见附录A.3。 ### 4.1 监督微调 在第一阶段,我们进行监督指令微调,使模型学会将结构化提示转换为JSON编码的平面图。令 x = {(k_i, v_i)}_i=1^K 为条件输入(例如房间数量、总面积、泡泡图),y_1:T 为真实标记序列。我们通过最小化负对数似然来适配预训练LLM: LSFT(θ) = E_{(x,y)∼D} [ -∑_{t=1}^T log π_θ(y_t | y_{<t}, x) ] 其中提示包含系统指令,要求模型生成JSON格式的平面图,强调房间不重叠等优先条件。具体提示格式参见附录A.3.1。
相似文章
当LLM奖励设计失败:稀疏结构化强化学习的诊断驱动细化
本文将LLM生成的奖励塑形视为稀疏结构化强化学习中的调试问题,识别出奖励泛滥和语义误解等失败模式。作者提出诊断驱动的迭代细化,与一次性生成相比,取得了显著的成功率提升(例如,DoorKey-8×8从2.3%提升至97.6%)。
借助大语言模型发现强化学习接口
本文介绍了 LIMEN,这是一个由大语言模型引导的演化框架,能够通过联合优化原始模拟器状态的观测映射与奖励函数,自动发现强化学习接口。该方法有效降低了人工设计成本,并证明了观测与奖励的协同设计优于单独优化其中任意单一组件。
PlanningBench: 生成可扩展且可验证的规划数据,用于评估和训练大型语言模型
PlanningBench 是一个用于生成可扩展、多样且可验证的规划数据的框架,以评估和训练大型语言模型。该框架采用约束驱动的合成流程,具备自适应难度控制和质量过滤功能。实验表明,前沿大语言模型在处理耦合约束时仍存在困难,而基于 PlanningBench 数据的强化学习能够提升模型在未见过的规划任务上的表现。
将3D生成模型用于自回归布局生成
LaviGen是一个框架,它重用3D生成模型进行自回归3D布局生成,使用改进的3D扩散模型和dual-guidance self-rollout蒸馏机制,在LayoutVLM基准上实现了比最先进方法高19%的物理合理性和快65%的计算速度。
DeltaRubric:通过联合规划与验证实现生成式多模态奖励建模
DeltaRubric 是一篇研究论文,介绍了一种使用单一多模态大语言模型(MLLM)的两步多模态偏好评估方法,通过联合规划与验证来提高奖励建模的可靠性。