基于大语言模型的空间构建中的2.5维分解

arXiv cs.AI 2026/05/11 04:00 论文

摘要

本文提出了一种利用2.5维分解的神经符号流水线，通过将垂直坐标计算卸载至确定性执行器，提高了基于大语言模型的空间构建准确性，在基准测试和边缘硬件上均实现了高精度。

arXiv:2605.07066v1 公告类型：新文章摘要：根据自然语言指令构建结构的自主系统需要可靠的空間推理能力，然而，大语言模型（LLMs）在生成三维方块放置时会产生系统性的坐标错误。我们提出了一种基于**2.5维分解**的神经符号流水线：大语言模型在二维水平面上进行规划，而确定性执行器则根据列占用情况计算所有垂直放置位置，从而消除了一整类错误。在“Build What I Mean”基准测试（160轮）中，GPT-4o-mini使用该流水线在12次独立运行中实现了94.6%的平均结构准确率，仅比受限于建筑师智能体错误（构建端改进无法解决此类错误）的97.6%上限低3.0个百分点。这一表现优于GPT-4o的90.3%以及最佳竞争系统的76.3%。受控消融实验证实，2.5维分解是主要贡献因素，贡献了50.7个百分点的准确率提升。该流水线可直接迁移至边缘硬件：在NVIDIA Jetson Thor AGX上本地运行的Nemotron-3 120B模型无需修改提示词，即达到了与云端相同的94.5%准确率。其核心原理——从大语言模型的输出空间中移除确定性维度——适用于任何自主构建或组装任务，在这些任务中，重力或其他物理约束固定了一个或多个自由度。在500个IGLU协作构建任务上的迁移实验证实，该效果超越了主要基准测试的范围并具有一般性。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/11 07:11

# 基于大语言模型的空间构建中的 2.5-D 分解

来源：https://arxiv.org/html/2605.07066

###### 摘要

根据自然语言指令构建结构的自主系统需要可靠的空间推理能力，但大型语言模型（LLMs）在生成三维方块放置坐标时会产生系统性错误。我们提出了一种基于 **2.5-D 分解** 的神经符号管道：LLM 仅在二维水平面上进行规划，而确定性执行器则根据列占用情况计算所有垂直放置位置，从而消除了一整类错误。在 Build What I Mean 基准测试（160 轮）中，采用此管道的 GPT-4o-mini 在 12 次独立运行中实现了 94.6% 的平均结构准确率，仅比由建筑师代理（architect agent）错误所施加的 97.6% 上限低 3.0 个百分点，这是任何构建侧改进都无法解决的问题。该结果优于 GPT-4o 的 90.3% 和最佳竞争系统的 76.3%。受控消融实验证实，2.5-D 分解是主要的贡献因素，贡献了 50.7 个百分点的准确率提升。该管道可直接迁移至边缘硬件：在 NVIDIA Jetson Thor AGX 上本地运行的 Nemotron-3 120B 无需修改提示词即可达到与云端结果相当的 94.5% 准确率。其基本原理——从 LLM 的输出空间中移除确定性维度——适用于任何存在重力或其他物理约束固定一个或多个自由度的自主构建或组装任务。在 500 个 IGLU 协作构建任务上的迁移实验证实，该效果超出了主要基准测试的适用范围。

参见图 1 标题：图 1：需要识别 T 形的基准测试轮次。指令：“保持 T 形，通过向较长的基座添加两个绿色方块来扩展现有的绿色结构。然后向每个臂添加一个紫色方块。”新方块标记为 ++。

## I 引言

根据高级指令构建物理结构的自主系统必须解决两个问题：理解要构建什么以及计算每个组件的放置位置。大型语言模型（LLMs）在解决第一个问题上很有效，但在第二个问题上不可靠。当被要求生成三维坐标时，LLMs 会在垂直放置、堆叠的差一错误（off-by-one）和重复位置方面产生系统性错误 [2,3]，这与 LeCun 观察到的 LLMs 缺乏用于强制执行物理约束的内部世界模型的观点一致 [20]。

我们观察到，许多构建领域表现出 2.5-D 结构：一个或多个输出维度不是自由变量，而是其他维度和当前状态的确定性函数。在受重力约束的方块构建中，任何新方块的垂直坐标完全由下方的列占用情况决定。LLM 无需推理该轴，且在实践中也无法可靠地做到这一点。

我们的方法相应地分离了问题。LLM 在二维水平面上生成计划，仅指定 $(x,z)$ 位置、颜色和操作类型。确定性空间执行器计算所有垂直放置。这种 2.5-D 分解消除了一整类坐标错误。图 1 显示了一个代表性轮次，其中代理必须识别 T 形结构并在保持对称性的情况下进行扩展。

该系统还包括四个附加组件：检测现有网格中几何原型的结构分析器、基于期望值分析决定何时提出澄清问题的欠规范检测器、在 LLM 调用前注入模式特定修正的窥视孔提示优化器，以及基于规则的 plan 验证器。

这一原理超出了方块构建的范畴，适用于任何物理约束使得某些输出维度可从其他维度计算出来的自主系统。在机器人构建和组装中，重力决定了堆叠顺序。在随地形飞行的无人机路径规划中，高度是水平位置和地形数据的函数。在自动化设备维护中，零件放置的物理约束减少了有效自由度。共同的模式是，从语言模型的输出空间中移除确定性维度可以提高可靠性，而不会降低系统的能力。

该基准测试的一个重要上限是回答澄清问题的建筑师代理：它本身也是一个 LLM，有时提供不正确的信息。错误分析显示，54.8% 的剩余失败源于建筑师代理，将可实现的上限限制在约 97.6%，无论构建代理的质量如何。我们 94.6% 的结果仅留下 3.0 个百分点的真实提升空间。

我们的贡献在于：（1）一种 2.5-D 分解方法，将 LLM 限制在水平规划，而由确定性执行器处理垂直放置；（2）一种窥视孔提示优化方法，针对 LLM 的系统性失效模式进行模式匹配修正；（3）实证演示了该方法使 GPT-4o-mini 在方块构建准确率上优于 GPT-4o ($p<0.0001$)；（4）在不对称评分函数下处理欠规范问题的决策理论框架。

## II 相关工作

**LLM 空间推理**。Yamada 等人 [2] 对 LLM 的空间任务进行了基准测试，发现思维链提示（chain-of-thought prompting）提高了准确率。Bang 等人 [3] 记录了 GPT 系列模型在相对定位方面持续存在的失败。我们的工作不同之处在于，我们不试图直接改进 LLM 的空间推理能力。相反，我们将 LLM 限制在低维输出空间，并用确定性代码处理被消除的维度。

**先规划后执行与神经符号分解**。Wang 等人 [4] 表明，将规划与执行分离可以提高零样本推理能力，Khot 等人 [5] 将复杂任务分解为由专用模块处理的子问题。Yi 等人 [6] 将视觉问答分解为神经感知模块和符号执行引擎。我们的管道采用了这些想法，但通过维度约束对其进行了扩展：规划模块在 2D 中运行，而执行模块在 3D 中运行，这是先前分解提示工作中未探索过的。

**LLM 引导的机器人执行**。最近的工作将 LLM 输出限制在确定性或学习模块可以执行的范围。Ahn 等人 [14] 将语言模型计划接地于机器人可供性（affordances），Liang 等人 [15] 让 LLM 生成直接调用感知 API 的策略代码，Huang 等人 [16] 通过环境反馈形成闭环。我们的方法共享这一原理，但利用了特定于重力束缚构建的维度约束：我们从 LLM 的输出空间中移除整个空间轴，并对其进行确定性计算。

**3D 构建代理**。Wang 等人 [11] 提出了 VOYAGER，这是一个用于开放式探索的由 LLM 驱动的 Minecraft 代理。Zhu 等人 [12] 提出了用于通用开放世界代理的 GITM。这些系统针对的是顺序决策制定，而不是根据欠规范指令进行精确的结构构建。BWIM 任务需要针对目标配置的坐标级精度，使得坐标算术错误成为主要的失效模式。

## III 问题形式化

### III-A 任务定义

BWIM 基准测试 [1] 定义了一个离散网格 $\mathcal{G}=\{0,\ldots,8\}\times\{0,\ldots,4\}\times\{0,\ldots,8\}$ 上的方块构建任务，其中轴对应于宽度 ($x$)、高度 ($y$，垂直) 和深度 ($z$)。每个单元格要么是空的，要么被颜色为 $c\in\{\text{red},\text{blue},\text{green},\text{orange},\text{yellow},\text{purple}\}$ 的方块占据。

在每一轮中，构建代理接收自然语言指令 $I$ 和起始网格状态 $G_0$，必须产生目标网格状态 $G^*=G_0\cup B$，其中 $B$ 是新方块放置的集合。代理可以在构建前发出一个澄清问题。评分函数对正确构建给予 +10，对错误构建给予 -10，对每个提出的问题给予 -5（参见图 1 中的示例轮次）。

### III-B 2.5-D 分解

构建网格在 Marr [8] 的意义上是一个 2.5-D 域：垂直轴是水平位置和现有占用情况的确定性函数，类似于 2.5-D 加工，其中工具路径在两个轴上是自由的，但第三个轴仅在离散的、计算出的步骤中变化 [9]。网格强制执行重力约束：$(x,y,z)$ 处的方块仅当 $y=0$ 或 $(x,y-1,z)$ 处存在方块时才能存在。任何新方块的垂直坐标为：

$$y^*(x,z,G)=\min\{y\in\{0,\ldots,4\} \mid (x,y,z)\notin\text{dom}(G)\} \quad (1)$$

这将 LLM 的输出空间从 $|\mathcal{G}|\times|C|$ 减少到 $|\{0,\ldots,8\}|^2\times|C|$，完全消除了 $y$ 坐标错误。

## IV 架构

代理通过六阶段管道处理每条指令：解析、分析、规划、验证、执行和格式化。如果任何阶段引发不可恢复的错误，控制权将回退到带有工程化系统提示的直接 LLM 调用。

1.  **指令解析器**。从传入消息中提取构建指令并规范化表示。
2.  **结构分析器**。检测 $G_0$ 中的几何原型（行、堆栈、L 形、T 形）并生成结构化描述，注入到规划器提示中。
3.  **构建规划器（LLM）**。将指令分解为类型化 JSON 操作的计划 $P=\langle a_1,\ldots,a_k\rangle$，每个操作指定操作类型、水平位置 $(x_i,z_i)$、颜色 $c_i$ 和数量 $n_i$。系统提示 [7] 中的九个工作示例涵盖了链、L 形、T 形和边缘放置。没有示例包含 $y$ 坐标。
4.  **计划验证器**。基于规则的模块针对指令文本和 $G_0$ 验证计划，进行四次修正传递：方向一致性、端点帽修正、T 形扩展修正和堆叠合理性。
5.  **空间执行器**。确定性引擎在内存网格上处理每个操作，解析相对引用，通过公式 (1) 计算 $y$，并链接位置上下文。不涉及 LLM 调用。扩展处理器中的同色跳过前移规则检测已占用的起始位置并前进一个网格步骤，防止在意图为水平扩展时进行垂直堆叠。
6.  **响应格式化器**。将最终网格状态转换为协议要求的输出格式。

参见图 2 标题：图 2：2.5-D 分解：LLM 规划器生成带有 $(x,z)$ 坐标和操作类型的 2D 计划。确定性执行器通过列占用情况计算垂直放置（公式 1）。序列顺序编码垂直 ($y$) 位置。

图 2 说明了这种分解。指定“在 $(5,6)$ 堆叠 3 个红色，在 $(6,6)$ 放置红色”的计划不包含 $y$ 坐标。执行器计算 $x=5$ 处的三块列（其中 $y=0,1,2$）和 $x=6$ 处的单个块（在 $y=0$）。

在我们最初的方法中，LLM 直接生成完整的 3D 输出，这需要它枚举每个方块的 $(x,y,z)$ 坐标，并在堆叠操作中链接高度计算。该方法遭受频繁的差一 $y$ 错误、重复放置和高度计数错误的困扰。如第 VI 节所示，当前方法完全消除了这些失效模式。

### IV-A 欠规范处理

许多 BWIM 指令故意省略颜色或方块数量。评分函数创造了一个不对称的决策问题。设 $p$ 表示正确猜测的概率：

$$\text{EV}_{\text{guess}}(p) = 20p - 10 \quad (2)$$
$$\text{EV}_{\text{ask}} = 20p_a - 15 \quad (3)$$

设这些相等且 $p_a \approx 1$，得到无差异阈值 $p^*=3/4=0.75$。低于此阈值，询问优于猜测。

**缺失颜色**。启发式分析确定颜色是否可以从上下文中推断（例如，重用唯一提到的颜色）或真正具有歧义。当存在歧义时，代理发出澄清问题。

**缺失数量**。启发式数量推断（复制相邻堆栈的高度或默认为三）在 BWIM 指令上实现约 65% 的准确率，远低于 $p^*$，因此当数量欠规范且当前轮次尚未使用问题时，代理会进行提问。

一个复杂情况是，回答问题建筑师代理本身是一个 LLM，它只接收目标结构的坐标，而不接收原始指令。诸如“堆栈中应该有多少个方块？”之类的通用问题会产生 23% 的错误率，因为建筑师无法识别引用了哪个堆栈。代理生成特定颜色的问题，命名方块颜色，允许建筑师通过计算其坐标数据中该颜色的方块数量来识别正确的堆栈。

由于每轮只允许一个问题，代理优先处理颜色而非数量（颜色错误更难通过启发式恢复）。当多个短语缺少数量时，其余部分回退到三级启发式级联：复制相邻堆栈的高度、使用网格上最高的堆栈，或默认为三（基准测试中的模式数量，在 53% 的数量欠规范试验中观察到）。

### IV-B 窥视孔提示优化

某些空间概念（“每一端”、链引用、L 形扩展）对于 GPT-4o-mini 来说错误率不成比例地高。这些错误是系统性的：特定的输入模式可靠地触发特定的失效模式。借鉴编译器设计，其中窥视孔优化器匹配已知的次优指令序列并将其替换为更好的序列 [10]，我们将每条指令与 15 条模式匹配规则进行扫描。当规则触发时，带有工作示例的目标修正会在 LLM 调用前注入提示中。规则是独立且可组合的。

该方法具有领域可迁移性：识别重复出现的失效模式，按输入触发器分类，编写带有工作示例的微修正，通过模式匹配动态注入，并针对回归进行验证。它适用于任何 LLM 做出系统性、输入可预测错误的领域。

表 I 列出了五个代表性规则

基于大语言模型的空间构建中的2.5维分解

相似文章

$R^2$-dLLM：通过时空冗余削减加速扩散大语言模型

LLaVA-UHD v4：高效视觉编码在 MLLMs 中的关键要素是什么？

揭示大语言模型中的数学推理：内部机制的方法学研究

大模型推理的二维早退优化

LEAP：通过前瞻早期收敛令牌检测释放 dLLM 并行潜力

提交意见反馈