基于强化学习与可验证奖励的LLM生成式楼层平面设计

arXiv cs.CL 2026/05/15 04:00 论文

摘要

本文介绍了一种基于文本的生成式楼层平面设计方法，该方法通过强化学习与可验证奖励对大语言模型进行微调，以提高对拓扑和数值约束的遵循程度，与现有方法相比取得了显著改进。

arXiv:2605.14117v1 公告类型: 新摘要: 面向专业楼层平面设计的AI系统必须精确控制房间尺寸和面积，同时满足房间所需的连通性，并保持功能与美学质量。现有生成方法主要侧重于满足房间之间的连通性要求，但无法生成符合数值约束的楼层平面。我们提出了一种基于文本的楼层平面生成方法，该方法在真实平面图上对大语言模型(LLM)进行微调，然后应用强化学习与可验证奖励(RLVR)来增强对拓扑和数值约束的遵循，同时抑制无效或重叠输出。此外，我们设计了一组约束遵循度量指标，以系统性地衡量生成的楼层平面与用户定义约束的一致性。我们的模型生成的楼层平面满足用户定义的连通性和数值约束，并在真实性(Realism)、兼容性(Compatibility)和多样性(Diversity)指标上优于现有方法。在所有任务中，我们的方法与现有方法相比，在兼容性(Compatibility)上实现了至少94%的相对降低。我们的结果表明，大语言模型能够有效处理该场景中的约束，暗示了基于文本的生成建模更广泛的应用前景。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:19

# 基于强化学习与可验证奖励的大语言模型生成式平面图设计  
来源：https://arxiv.org/html/2605.14117  

Luis Lara¹, Aristides Milios¹,², Zhi Hao Luo¹,³, Aditya Sharma¹,³, Ge Ya Luo¹,², Christopher Beckham¹, Florian Golemo¹, Christopher Pal¹,²,³,⁴  
¹Mila – Quebec AI Institute, ²Université de Montréal, ³Polytechnique Montréal, ⁴Canada CIFAR AI Chair  
通讯邮箱：[email protected] (mailto:[email protected])  

###### 摘要  
一个用于专业平面图设计的AI系统必须精确控制房间尺寸和面积，同时满足房间之间的连通性要求，并保持功能性和美学质量。现有生成式方法主要侧重于满足房间连通性要求，但不支持生成满足数值约束的平面图。我们提出一种基于文本的平面图生成方法：首先在真实平面图上微调大语言模型（LLM），然后应用强化学习与可验证奖励（RLVR）来改进对拓扑和数值约束的遵守，同时抑制无效或重叠输出。此外，我们设计了一套约束遵循度量指标，系统性地衡量生成平面图与用户定义约束的一致性。我们的模型生成的平面图能满足用户定义的连通性和数值约束，在真实性、兼容性和多样性指标上优于现有方法。在所有任务中，我们的方法相比现有方法在兼容性上至少降低了94%。¹¹¹项目代码见 https://github.com/ludolara/floor-plan-rlvr。我们的结果表明，LLM能有效处理此类设置中的约束，为基于文本的生成式建模提供了更广泛的应用前景。  

基于强化学习与可验证奖励的大语言模型生成式平面图设计  
Luis Lara¹, Aristides Milios¹,², Zhi Hao Luo¹,³, Aditya Sharma¹,³, Ge Ya Luo¹,², Christopher Beckham¹, Florian Golemo¹, Christopher Pal¹,²,³,⁴  
¹Mila – Quebec AI Institute, ²Université de Montréal, ³Polytechnique Montréal, ⁴Canada CIFAR AI Chair  
通讯邮箱：[email protected] (mailto:[email protected])  

## 1 引言  
参考图注  
图1：推理过程概览。给定一个泡泡图（输入连通性图）和一个JSON格式的设计需求说明（例如期望的房间尺寸），我们的模型生成一个完整的JSON格式平面图。  

生成式模型已成为加速不同领域设计的强大工具。然而，其广泛采用取决于在灵活性和精确控制之间取得平衡。这一挑战在平面图生成中尤为突出，因为用户通常需要指定严格的约束，包括精确的房间尺寸和连通性。为解决这个问题，我们提出一个能处理用户定义约束的模型，并引入了评估生成平面图满足这些约束程度的度量指标。  

大多数现有的平面图生成技术依赖于自上而下的2D渲染，并使用输入图（称为泡泡图）来表示房间之间的空间连通性。然而，这些方法存在固有缺陷。例如，基于视觉的生成模型产生栅格化的图像输出，使得直接访问或修改变得困难。此外，许多模型只关注邻接约束，完全忽略房间几何形状，从而降低了用户对生成布局的控制程度。  

为克服这些限制，我们采用JSON表示法进行生成式平面图建模，将房间布局编码为多边形结构。我们的方法建立在之前的矢量化平面图方法之上，如House-GAN、House-GAN++（Nauata et al., 2020, 2021）和HouseDiffusion（Shabani et al., 2023），并利用RPLAN数据集（Wu et al., 2019）。这种结构化格式便于对空间参数（包括房间大小和连通性）进行更精细的控制。为验证这一方法，我们微调一个大语言模型（LLM）以生成JSON编码的平面图，并在提示中指定空间约束。参见图1了解推理过程概览。  

通过实验，我们验证了我们的方法在保持对指定约束高度遵从方面的有效性，这由我们提出的约束遵循度量指标所衡量。在最复杂的设置（八房间任务）中，我们的方法采用best-of-10采样，相比HouseDiffusion（表1）将兼容性降低了94%。兼容性是衡量生成平面图与期望房间连通性匹配程度的标准指标，数值越低越好。  

我们的主要贡献如下：  
1. 我们分两个阶段微调LLM：先通过监督学习，然后通过强化学习，将约束输入转化为有效的结构化平面图，展示了结构化数据到结构化数据生成范式的可行性和优势。  
2. 我们提出了新的约束遵循度量指标，系统性地评估生成平面图与用户定义约束的一致性，填补了该领域关键评估空白。  

## 2 相关工作  

**生成模型。** House-GAN和House-GAN++（Nauata et al., 2020, 2021）是一系列基于GAN的方法，利用卷积图网络学习生成平面图图像。House-GAN从连通性图中每个现有房间的噪声向量开始，并使用卷积消息传递网络（Conv-MPN）在保持空间关系的同时更新节点特征。然而，这些模型仅以泡泡图为条件，无法施加其他形式的约束。这些方法的输出也是尺度不变的（即没有度量单位），因此不能直接用于任何下游任务。  

FloorplanGAN（Luo and Huang, 2022）提出一种基于自注意力的GAN，输入包括房间中心、期望面积（编码为相对比例）以及每个房间的房间类型。然而，GAN的输出并不总是遵循原始约束。虽然使用可微光栅化器在像素空间计算损失提供了可能性，但该方法似乎不支持部分约束指定或多边形输出。  

HouseDiffusion（Shabani et al., 2023）是一种基于扩散的方法，为泡泡图中的每个房间创建一个一维多边形循环，并通过扩散过程迭代改进其形状和位置。虽然它也利用Transformer架构关注输入图，但平面图生成是通过扩散完成的。该方法也只允许输入泡泡图，不能额外支持数值约束条件，因此与House-GAN模型存在相同的缺陷。  

**大语言模型。** ArchiText（Galanos et al., 2023）也利用LLM生成平面图，但其提示似乎仅限于自然语言描述，而非显式几何信息。与这些方法相比，我们的方法允许用户指定详细的房间约束（例如房间面积），并以度量单位输出房间多边形，可直接用于CAD绘图软件。同时提供这两者对方法的新颖性和建筑可用性至关重要。  

在Tell2Design（Leng et al., 2023）中，可能是最相似的工作，作者基于自然语言描述创建了一个新的平面图生成数据集（基于RPLAN）。他们将空间（尺寸）和关系定位约束纳入自然语言提示，并在其数据集上训练T5序列到序列模型。与我们的工作不同，作者将平面图渲染为图像并使用基于图像的指标进行评估，这在功能上忽略了结构错误（如重叠）。此外，约束遵循的评估也有限，仅对100个测试样本沿4个不同轴（房间类型、房间位置、房间大小和房间关系）进行人工评估。在评估中，他们表明训练的T5模型在处理空间关系时尤其困难。在这项工作中，我们提出了一套完整的约束满足度量指标，不依赖光栅化，而是直接从序列输出中测量期望属性。  

**3D场景生成。** 近期，全3D场景生成方法展现了令人印象深刻的结果。AnyHome（Wen et al., 2023）和Holodeck（Yang et al., 2024）可以从自然语言提示（例如“一个研究人员的带猫的一室一厅公寓”）生成平面图、窗户、门、家具以及有意义的3D布局。我们的方法只关注平面图方面，但允许指定房间尺寸和面积以及整个平面图的总面积，而这两种方法都不支持。  

**约束满足与符号方法。** 早期工作将平面图生成表述为一个约束满足问题，其中房间几何由位置和大小等变量表示，布局通过强制预定义的空间和尺寸规则生成（Medjdoub and Yannou, 2000; Li et al., 2000; Upasani et al., 2020）。相关的工作（Lopes et al., 2010）提出一种程序化方法，利用相对面积目标而非显式尺寸约束，并通过层次化区域系统（如公共区域和私人区域）组织布局，限制了同一区域内房间之间的直接拓扑关系。这些方法依赖于手工制定的规则和手动定义的结构，而非从数据中学习的先验。相比之下，我们的方法直接从真实平面图中学习合理的布局，同时仍以显式结构化约束为条件。  

**数据集。** 平面图生成中最常用的数据集之一是RPLAN（Wu et al., 2019）。我们在本工作中使用该数据集，并在第3.1节中描述。RPLAN在我们设定中的一个局限性是它存储平面图为图像而非矢量格式。因此，必须先将其转换为中间结构化表示。  

## 3 表示格式  

我们的任务要求模型满足显式的数值和拓扑约束，并生成可自动验证且能被下游几何和CAD工具使用的产物。先前工作表明，在条件信号中施加结构可以提高可靠性：标准化标记模板提供了显式控制接口，改善了生成质量和指令遵循（D’souza et al., 2025）。补充地，语义解析和代码生成方面的工作表明，无约束的自由生成容易产生语法无效或不可执行的输出，而强制生成过程中的结构约束则提高了有效性和准确性（Yin and Neubig, 2018; Scholak et al., 2021; Raspanti et al., 2025）。总体而言，这些结果支持在条件端和输出端使用显式结构化表示。  

因此，我们选择JSON而非其他输入输出格式（如自然语言描述）。JSON（1）能够无歧义地解析数值约束，减少测量和空间关系中的歧义；（2）在训练样本之间强制一致的结构，减少模型推断隐式字段的负担；（3）通过其层次化组织自然捕获平面图说明中的嵌套关系；（4）支持与已依赖结构化表示的CAD工具和建筑软件直接集成。输入和输出的模式参见附录A.1。  

### 3.1 数据集  
RPLAN（Wu et al., 2019）包含80,788个来自亚洲的真实平面图，存储为256×256×4图像，编码边界和房间标签。我们使用House-GAN++数据读取器³³³https://github.com/sepidsh/Housegan-data-reader 和一个自定义转换器将每个平面图转换为JSON布局：重建房间多边形、分配语义标签、将坐标缩放为米、计算几何属性，并从内部门连通性推导出泡泡图邻接列表。我们过滤掉具有不连通图或无效多边形的样本。完整的预处理细节见附录A.2。  

## 4 我们的方法  

为使模型能够根据显式设计规格生成有效的平面图，我们采用两阶段训练流程：第一阶段是监督微调，第二阶段是基于强化学习的微调（使用GRPO，奖励来自自动量化指标），并结合硬可行性条件（对无效或重叠输出分配零奖励）。所有实验中，我们使用Llama-3.3-70B-Instruct作为主干模型（Grattafiori et al., 2024）。推理时，我们采用best-of-10采样，对每个提示选择重叠面积最小的候选，若重叠面积相同则按兼容性指标择优。完整的技术训练和推理细节见附录A.3。  

### 4.1 监督微调  
在第一阶段，我们进行监督指令微调，使模型学会将结构化提示转换为JSON编码的平面图。令 x = {(k_i, v_i)}_i=1^K 为条件输入（例如房间数量、总面积、泡泡图），y_1:T 为真实标记序列。我们通过最小化负对数似然来适配预训练LLM：  

LSFT(θ) = E_{(x,y)∼D} [ -∑_{t=1}^T log π_θ(y_t | y_{<t}, x) ]  

其中提示包含系统指令，要求模型生成JSON格式的平面图，强调房间不重叠等优先条件。具体提示格式参见附录A.3.1。

基于强化学习与可验证奖励的LLM生成式楼层平面设计

相似文章

当LLM奖励设计失败：稀疏结构化强化学习的诊断驱动细化

借助大语言模型发现强化学习接口

PlanningBench: 生成可扩展且可验证的规划数据，用于评估和训练大型语言模型

将3D生成模型用于自回归布局生成

DeltaRubric：通过联合规划与验证实现生成式多模态奖励建模

提交意见反馈