Architect-Ant：可编辑的建筑平面图自动家具布局

arXiv cs.AI 2026/06/10 04:00 论文

摘要

本文提出了Architect-Ant，一个可编辑的建筑平面图自动家具布局框架，以及一个包含270个带家具标注的平面图的精选数据集（AntPlan-270）。该方法使用微调的视觉语言模型和领域特定语言生成几何有效且功能合理的家具布局，并可光栅化为蓝图风格图像。

arXiv:2606.10953v1 公告类型：新摘要：带家具的平面图是房地产可视化、室内设计和建筑工作流程的基础。然而，由于缺乏带有对象级家具标注的真实专业设计平面图数据集，自动家具布置的进展一直受到限制。为了解决这一空白，我们引入了AntPlan-270，一个包含270个建筑平面图的精选数据集，每个房间都有跨越十种住宅房间类别的家具边界框标注。基于该数据集，我们提出了Architect-Ant，一个由微调视觉语言模型驱动的可编辑自动家具布局框架。家具布局使用紧凑的、基于坐标的领域特定语言（DSL）表示，该语言编码了对象类别和相对于房间几何形状的放置位置。为了改进空间推理，我们生成了程序化推理轨迹，这些轨迹捕捉了建筑约束，如墙面对齐、门窗净空、流通、固定装置兼容性和特定房间的家具清单，并用它们来监督模型的微调。然后，我们对候选对象放置应用偏好优化，以进一步提高布局质量。生成的DSL可以光栅化为语义掩码，并用于条件化基于Flux的LoRA渲染器，产生逼真的蓝图风格带家具平面图图像，同时保留可编辑的符号布局。布局家具的实验表明，Architect-Ant能够产生几何有效且功能合理的布局，并为扩充更大的仅结构平面图数据集提供了一条可扩展的路径。

查看原文

查看缓存全文

缓存时间: 2026/06/10 06:18

# Architect-Ant: 可编辑的建筑平面图自动家具布置 来源：https://arxiv.org/html/2606.10953

Aleksandar Cvejić 0009-0005-4414-4457 (https://orcid.org/0009-0005-4414-4457) 阿卜杜拉国王科技大学 (KAUST) 沙特阿拉伯  
Michael Birsak 0000-0001-6375-8124 (https://orcid.org/0000-0001-6375-8124) 阿卜杜拉国王科技大学 (KAUST) 沙特阿拉伯  
John Femiani 0000-0002-0924-6686 (https://orcid.org/0000-0002-0924-6686) 迈阿密大学 美国  
Peter Wonka 0000-0003-0627-9746 (https://orcid.org/0000-0003-0627-9746) 阿卜杜拉国王科技大学 (KAUST) 沙特阿拉伯 (2026)

###### 摘要。 带家具的平面图是房地产可视化、室内设计和建筑工作流程的基础。然而，由于缺乏带有物体级家具标注的真实专业设计平面图数据集，自动家具布置方面的进展一直受到限制。为解决这一空白，我们引入了 AntPlan-270，这是一个精心策划的数据集，包含 270 个建筑平面图，涵盖十个住宅房间类别，并带有每个房间的家具边界框标注。基于该数据集，我们提出了 Architect-Ant，一个可编辑的自动家具布置框架，由微调的视觉语言模型驱动。家具布局使用一种紧凑的、基于坐标的领域特定语言 (DSL) 表示，该语言编码物体类别及其相对于房间几何形状的位置。为了改进空间推理，我们生成了程序性推理轨迹，用于捕获建筑约束，例如墙面对齐、门窗间隙、流通路径、固定装置兼容性以及特定房间的家具清单，并使用它们来监督模型的微调。然后，我们根据候选物体放置进行偏好优化，以进一步细化布局质量。生成的 DSL 可以光栅化为语义掩码，并用于条件化基于 Flux 的 LoRA 渲染器，生成逼真的蓝图风格带家具平面图图像，同时保留可编辑的符号布局。关于布局布置的实验表明，Architect-Ant 能生成几何上有效且功能上合理的布局，并为进一步给仅含结构的大型平面图数据集添加家具提供了可扩展的路径。 大型语言模型空间推理，家具摆放，平面图生成  
††版权:cc  
††doi:XXXXXXX.XXXXXXX  
††isbn:XXXXXXX.XXXXXXX  
††copyright:none  
††ccs:计算方法 空间与物理推理  
††ccs:计算方法 知识表示与推理  
††ccs:计算方法 场景理解  

请参阅标题  
图 1. Architect-Ant 将空的结构化平面图（左）转化为多个合理的带家具蓝图风格渲染图（右，2×2 布局变体网格）。中间的符号 DSL 仍然是可编辑的真实来源。  
缩略图占位：目标最终图片为 2×2 网格的带家具平面图。  

## 1. 引言

带家具的平面图是房地产可视化、室内设计和建筑沟通的核心。家具使平面图具有可解释性：它传达出房间的尺度、可能的功能、流通路径，以及空间是否能支持预期的用途。手动生成此类布局既耗时，而自动布置只有在结果几何有效、功能合理，并且以物体级表示而非仅仅是像素形式提供时才有用。家具布置是一个受约束的布局问题。布局必须在房间边界内放置适当类型、尺寸和位置的物体，同时保持其可达性、可视性和可用性。这些要求部分来自几何，部分来自语义。一张床不仅仅是一个应避免碰撞的矩形；它是一个与墙壁、门、流通路径和其他家具有典型关系的物体。一把椅子只有在附近物体放置后仍可触及和可用时才有效。一个合理的布局必须满足那些在设计语言中易于表达，但从干净样本中难以学习的约束，尤其是在完整的带家具平面图样本稀缺的情况下。这个问题不同于建筑平面图生成，后者通常涉及房间、墙壁、邻接关系、边界和开口的组织。我们关注的是布置阶段：给定房间或平面图的几何形状，生成占据该房间的物体并确定它们应该放置的位置。这个阶段有不同的失败模式。一个布置好的房间可能因为家具重叠、遮挡门、没有可通行的路径或违反基本使用约束而失败。家具布局是一个物体级别的问题。设计师编辑的是墙壁、开口、家具实例、尺寸、位置和关系，而不是像素。因此，我们以结构化文本来表示该任务：输入描述房间边界和相关的建筑元素（如门、窗和开口），输出描述家具物体的类别、位置和轴对齐的尺寸。相同的表示方式暴露了定义布局有效性所需的变量。碰撞、包含、间隙、门遮挡、可达性、墙面亲和性以及成对物体关系可以直接根据结构化几何和标签进行评估。在像素空间中，这些检查依赖于首先恢复底层的物体和几何。这种表述所需的数据有限。公共数据集很少提供许多完整的、真实的、带家具的平面图作为离散的可编辑对象。建筑数据集可能提供图像或矢量几何，但它们通常描述墙壁、房间、门、窗和其他建筑元素，而非家具实例。存在带家具的场景数据集，包括带有物体级布局的合成 3D 数据集；它们可以转换为这种形式，但当目标是学习房间通常如何布置时，它们不能很好地替代真实的带家具平面图。在实践中，有用的布置信息更常见于图像、扫描或绘图中，其中结构必须由检测器或解析器提取。这些提取出的布局很有用但有噪声。它们可能包含错误的类别、缺失的家具、不准确的尺寸或精确度不足的位置。我们将它们用作轻量级自适应的伪标签：足以使模型朝向目标表示和近似房间统计数据移动，但不足以证明每个提取的物体都是正确的。我们将所得的各房间语料库（来自 270 个涵盖十个住宅房间类别的专业设计平面图）称为 AntPlan-270；本文中的实验集中在四个家具最多的类别（卧室、浴室、厨房和客厅）。我们分阶段训练一个结构化布局生成器。提示提供了关于家具类别和粗略空间关系的初始先验知识。在伪标签布局上进行轻量级微调，使模型适应目标格式和近似房间统计数据。基于规则的评估器根据几何和语义标准（如包含在房间内、物体重叠、门通道、可通行路径、墙面亲和性和物体间关系）对采样的布局进行评分。然后，我们应用偏好优化，其中偏好来自这个基于规则的评估器，训练模型为评分较高的布局分配更高的概率。标准按严重程度加权，对违反行为（如遮挡或超出房间）施加更大的惩罚，对较弱的设计偏好（如墙面亲和性或成对关系）施加较小的惩罚。训练使用了三种信号。预训练模型提供了关于物体共现和常见关系的语义先验知识。伪标签为模型提供了近似的房间规模统计数据和目标输出格式的示例。基于规则的评估器提供了明确的设计偏好，无需额外的干净演示。因此，规则充当了学习型生成器的监督信号。本文的贡献如下：  
- • 我们将带家具的房间布局合成公式化为结构化序列生成（基于可编辑的几何对象），而不是图像生成。  
- • 我们使用伪标签布局将预训练生成器适应于此表示，为后续偏好优化提供了一个任务特定的起点。  
- • 我们定义了一个基于规则的评估器，将几何和语义布局标准转化为偏好信号，并将这些信号与失败修复推理轨迹相结合，以训练生成器直接生成满足所需约束的布局。  

对于可视化，生成的 DSL 布局通过一个领域特定的扩散模型 (FLUX.2-dev (Black Forest Labs, 2025 (https://arxiv.org/html/2606.10953#bib.bib5)) LoRA) 渲染成蓝图风格的建筑图像，该模型以彩色房间类型掩码为条件。符号布局仍然是可编辑的真实来源，渲染图像仅作为下游视图，而非系统所操作的表示。图 1 (https://arxiv.org/html/2606.10953#S0.F1) 展示了整体的输入输出行为：空的结构化平面图被转换为多个带家具的蓝图风格渲染图，同时保留可编辑的 DSL 布局。虽然实验集中在家具放置，但该设置反映了一类更广泛的图形和设计问题，其中干净的演示有限，但弱观察和显式规则可用。核心结果是一种方法，它使用噪声示例和符号偏好来调整预训练的结构化生成器，从而使几何和功能标准影响学习到的分布，而不仅仅是作为生成后应用的检查。  

## 2. 相关工作  

请参阅标题  
训练和数据准备管道。输入平面图由 RT-DETR-X 检测器处理以识别结构元素和家具。检测到的平面图被分割成房间级别的示例，并转换为 Qwen3.5-9B 视觉语言模型的结构化输入。该模型通过监督式微调和直接偏好优化进行适配。  
图 2. 构建阶段管道（数据准备和训练）。原始平面图由 RT-DETR-X 处理成每个房间的结构基元以及家具伪标签，与程序性推理轨迹配对，并通过 SFT 和 DPO 用于微调 Qwen3.5-9B VLM。输出是一组训练好的每个房间的 LoRA 适配器，在推理时作为生成器使用（图 3 (https://arxiv.org/html/2606.10953#S3.F3)）。  

平面图结构与矢量化。  
建筑平面图工作针对的是建筑外壳：房间、墙壁、门、窗和拓扑结构。边界条件生成从平面轮廓预测房间和墙壁 (Wu et al., 2019 (https://arxiv.org/html/2606.10953#bib.bib47))，而图条件方法从布局图生成房间框或光栅化平面图 (Hu et al., 2020 (https://arxiv.org/html/2606.10953#bib.bib18); Nauata et al., 2020 (https://arxiv.org/html/2606.10953#bib.bib29))。矢量图住宅数据集（如 ResPlan）大规模扩展了这一路线 (Abouagour and Garyfallidis, 2025 (https://arxiv.org/html/2606.10953#bib.bib2))。一个互补的方向是将光栅平面图解析为结构：Deep Floor Plan Recognition 直接从图像预测房间、开口和类型 (Zeng et al., 2019 (https://arxiv.org/html/2606.10953#bib.bib52))，CubiCasa5K 提供了大规模矢量标注 (Kalervo et al., 2019 (https://arxiv.org/html/2606.10953#bib.bib19))，MSD 扩展到建筑群 (Van Engelenburg et al., 2024 (https://arxiv.org/html/2606.10953#bib.bib43))，FloorplanVLM 使用视觉语言模型将光栅平面图转换为拓扑表示 (Liu et al., 2026 (https://arxiv.org/html/2606.10953#bib.bib25))。HouseDiffusion 使用离散-连续扩散模型生成矢量平面图 (Shabani et al., 2022 (https://arxiv.org/html/2606.10953#bib.bib38))。这些方法提供的是结构而非布置：它们的输出描述建筑外壳，不将家具实例放置在房间内。  

室内场景数据集与 2D-3D 不匹配。  
富含家具的室内数据集中在 3D 场景语料库中。3D-FRONT (Fu et al., 2020a (https://arxiv.org/html/2606.10953#bib.bib14)) 及其家具资产伴侣 3D-FUTURE (Fu et al., 2020b (https://arxiv.org/html/2606.10953#bib.bib15)) 是物体级室内合成的主要监督来源；Structured3D (Zheng et al., 2020 (https://arxiv.org/html/2606.10953#bib.bib54)), Hypersim (Roberts et al., 2020 (https://arxiv.org/html/2606.10953#bib.bib36)), HSSD (Khanna et al., 2023 (https://arxiv.org/html/2606.10953#bib.bib20)) 和 Aria Digital Twin (Pan et al., 2023 (https://arxiv.org/html/2606.10953#bib.bib31)) 大规模提供合成或扫描场景。SceneScript 将场景表示为结构化语言用于重建任务 (Avetisyan et al., 2024 (https://arxiv.org/html/2606.10953#bib.bib4))，ScanNet 提供带有语义标注的真实 RGB-D 扫描 (Dai et al., 2017 (https://arxiv.org/html/2606.10953#bib.bib9))。程序化和 CAD 风格来源补充了这些：ProcTHOR 程序化构建具身 3D 房屋 (Deitke et al., 2022 (https://arxiv.org/html/2606.10953#bib.bib10)), FloorPlanCAD (Fan et al., 2021 (https://arxiv.org/html/2606.10953#bib.bib12)) 和 ArchCAD-400K (Luo et al., 2026 (https://arxiv.org/html/2606.10953#bib.bib26)) 提供全景 CAD 符号，ZInD 将平面图与 360 度全景配对 (da Cruz et al., 2021 (https://arxiv.org/html/2606.10953#bib.bib8))，FurniScene 贡献了密集布置的 3D 房间 (Wang et al., 2026 (https://arxiv.org/html/2606.10953#bib.bib45))。这些数据集均未同时满足我们设定所要求的三个属性：真实的 2D 建筑几何、每个实例的可编辑家具边界框、以及适合基于规则评分的符号表示。将 3D 场景投影到 2D 是可能的，但会沿着五个轴改变标注问题：坐标帧、绘图风格、家具分类、评估指标以及专业平面图风格监督的可用性。  

基于约束的布置与 LLM 代理。  
家具布局有着约束驱动的传统。经典系统编码设计指南或人体工学目标，并搜索满足可达性、可见性和类似标准的布置 (Merrell et al., 2011 (https://arxiv.org/html/2606.10953#bib.bib28); Yu et al., 2011 (https://arxiv.org/html/2606.10953#bib.bib51))。Para 等人将基于 Transformer 的布局提议与下游约束求解器分开 (Para et al., 2020 (https://arxiv.org/html/2606.10953#bib.bib32))。基于学习的场景合成将负担转移到自回归生成器 (ATISS (Paschalidou et al., 2021 (https://arxiv.org/html/2606.10953#bib.bib33))) 和去噪扩散 (DiffuScene (Tang et al., 2023 (https://arxiv.org/html/2606.10953#bib.bib41)), InstructScene (Lin and Mu, 2024 (https://arxiv.org/html/2606.10953#bib.bib24)))；LayoutEnhancer 则相反，将规则作为可微分的专家规则损失推入训练中 (Leimer et al., 2022 (https://arxiv.org/html/2606.10953#bib.bib22))。LLM 驱动的代理延续了这一路线：Holodeck 和 I-Design 通过约束求解器和场景图从文本生成 3D 场景 (Yang et al., 2023 (https://arxiv.org/html/2606.10953#bib.bib50); Çelen et al., 2024 (https://arxiv.org/html/2606.10953#bib.bib6))，Open-Universe 通过使用未筛选资产的 LLM 程序合成来合成场景 (Aguina-Kang et al., 2024 (https://arxiv.org/html/2606.10953#bib.bib4))。

Architect-Ant：可编辑的建筑平面图自动家具布局

相似文章

面向住宅建筑平面图合规检查的自动化AI框架

我做了一个能将2D平面图转为3D的AI系统，有点意外居然成功了

Launch HN：Drafted (YC P26) – 住宅建筑设计模型

Drafted

基于强化学习与可验证奖励的LLM生成式楼层平面设计

提交意见反馈