用于LEGO空间物理推理的高效样本后训练
摘要
本文发现了一种基于LLM的LEGO组装生成中的失败模式PhysHack,并提出PVPO,一种结合基于模型的数据选择的高效样本强化学习方法,仅使用一小部分训练数据即可改善物理和语义对齐。
arXiv:2606.07602v1 Announce Type: new
摘要: 基于LLM的LEGO组装生成需要语义基础与物理可行性。我们发现了一种由数据引发的失败模式PhysHack,在该模式下,组装结果满足物理有效性约束,但产生的结构在几何上错位、语义上不一致或校准不良。为解决这一挑战,我们提出了一种基于模型的数据选择方法,仅使用一小部分训练数据,同时改进了基于物理基础的LEGO组装生成。基于选定的轨迹,我们引入了PVPO,一种将物理可行性与体素空间几何奖励相结合的高效样本强化学习方法。我们的结果表明,仅凭物理有效性不足以作为可靠物理推理的替代指标:模型可以在不保持语义或几何保真度的情况下学会生成有效结构。跨模型骨干和测试时缩放设置的实验表明,PVPO改善了结构与语义对齐、物理有效性、结构稳定性和校准,同时减少了对大量事后拒绝采样的依赖。特别是,校准结果表明,PVPO通过使测试时选择更能预测语义和结构质量来缓解PhysHack。
查看缓存全文
缓存时间: 2026/06/09 08:49
# 面向乐高空间物理推理的样本高效后训练 来源:https://arxiv.org/html/2606.07602 Yuhuan Yuan¹,† Zhouliang Yu²,† Minghao Liu³ Weiyang Liu² Ge Lin Kan¹ ¹HKUST(GZ) ²CUHK ³ZODA hkust-gz.spatial.ai (https://yuhuanyuan.github.io/lego_rl/) ###### 摘要 基于LLM的乐高积木生成既需要语义基础,也需要物理可行性。我们发现了一种由数据引发的失败模式——*PhysHack*,即生成的装配体虽然满足物理有效性约束,但产生的结构在几何上错位、语义上不一致或校准不佳。为了解决这一挑战,我们提出了一种基于模型的数据选择方法,仅使用一小部分训练数据,同时改进了物理基础的乐高积木生成。基于选定的轨迹,我们引入了PVPO,一种样本高效的强化学习方法,将物理可行性与体素空间的几何奖励相结合。我们的结果表明,仅凭物理有效性不足以作为可靠物理推理的代理:模型可以在不保留语义或几何保真度的情况下学习生成有效的结构。跨模型主干和测试时缩放设置的实验表明,PVPO改善了结构和语义对齐、物理有效性、结构稳定性和校准,同时减少了对大量事后拒绝采样的依赖。特别是,校准结果表明,PVPO通过使测试时选择更能预测语义和结构质量,缓解了PhysHack问题。 样本高效后训练面向乐高空间物理推理 Yuhuan Yuan¹,†††感谢†同等贡献。通讯作者:Yuhuan Yuan (https://arxiv.org/html/2606.07602v1/[email protected]). Zhouliang Yu²,† Minghao Liu³ Weiyang Liu² Ge Lin Kan¹ ¹HKUST(GZ) ²CUHK ³ZODA hkust-gz.spatial.ai (https://yuhuanyuan.github.io/lego_rl/) 参照图注 图1:PVPO生成的乐高结构在不同物体类别上的定性示例。每个示例下方显示的分数对应Qwen-VL、DINOv3和CLIP评估结果。 ## 1 引言 乐高积木装配(LBA)(Pun et al., 2025 (https://arxiv.org/html/2606.07602#bib.bib3); Kulits and Schmid, 2026 (https://arxiv.org/html/2606.07602#bib.bib10); Ahn et al., 2022 (https://arxiv.org/html/2606.07602#bib.bib12)) 专注于利用模块化乐高积木创建真实世界的组合物体,挑战了生成模型的创造力以及精确的空间和物理推理能力 (Kingma and Welling, 2013 (https://arxiv.org/html/2606.07602#bib.bib24); Ho et al., 2020 (https://arxiv.org/html/2606.07602#bib.bib21); Vaswani et al., 2017 (https://arxiv.org/html/2606.07602#bib.bib19))。近年来,大型语言模型(LLMs)的进展 (Grattafiori et al., 2024 (https://arxiv.org/html/2606.07602#bib.bib5); Qwen et al., 2024 (https://arxiv.org/html/2606.07602#bib.bib4); Achiam et al., 2023 (https://arxiv.org/html/2606.07602#bib.bib51)) 将LBA重新定义为一项程序合成任务,模型通过语言建模生成可执行的装配程序。然而,后训练数据如何塑造LLM的LBA能力仍未得到充分探索。尽管现有的LBA数据集包含超过20万个样本 (Kulits and Schmid, 2026 (https://arxiv.org/html/2606.07602#bib.bib10); Pun et al., 2025 (https://arxiv.org/html/2606.07602#bib.bib3)),但也包含大量噪声、冗余和标注错误,这使得理解数据在LBA后训练中的作用变得困难(见图3 (https://arxiv.org/html/2606.07602#S2.F3))。性能可能不仅取决于数据规模,还取决于哪些样本为空间物理推理提供了有效的监督。事实上,我们的失败案例分析表明,在Pun等人 (2025 (https://arxiv.org/html/2606.07602#bib.bib3)) 的全量数据集上训练的模型可能表现出意外行为,例如满足物理约束但未能保持预期的物体语义。这促使我们提出以下问题: 研究问题 *什么样的训练样本对乐高空间物理推理有价值?一个紧凑的高价值样本集能否比全量含噪监督实现更有效的后训练?* 在这项工作中,我们首先通过数据估值的视角研究LBA后训练 (Koh and Liang, 2017 (https://arxiv.org/html/2606.07602#bib.bib53); Jia et al., 2019 (https://arxiv.org/html/2606.07602#bib.bib52); He et al., 2016 (https://arxiv.org/html/2606.07602#bib.bib55); Du et al., 2024 (https://arxiv.org/html/2606.07602#bib.bib56); Liu et al., 2024c (https://arxiv.org/html/2606.07602#bib.bib57))。给定一个包含大量含噪乐高推理轨迹的池子,我们询问哪些样本能为学习空间物理推理提供有效的监督。我们并非将所有训练样本视为同等有用,而是通过测量文本描述与渲染的乐高结构之间的语义一致性,同时过滤掉违反基本物理约束的样本,来估计其价值。这使我们能够构建一个紧凑但高价值的训练子集,并将数据质量和组成的作用与数据规模的作用分离开。这进一步引出了第二个问题: 研究问题 *如果有价值的数据能提高后训练效率,那么学习目标应如何更好地利用乐高装配的可验证空间和物理结构?* 数据选择识别了有效的监督,但本身并未指定模型在生成过程中应如何平衡几何场景对齐与物理有效性。这对于LBA尤其重要,因为生成的程序必须满足底层装配约束,同时仍保持提示所描述的物体语义。为了解决这个问题,我们引入了PVPO,一个面向乐高空间物理推理的物理信息强化学习框架。PVPO结合了基于模拟的物理有效性奖励和结构感知的几何奖励,鼓励模型生成既物理可行又与预期3D物体结构语义对齐的装配体。通过将数据估值与可验证的后训练反馈相结合,我们的框架提供了一种样本高效的方法来改进基于LLM的乐高积木生成(定性示例见图1 (https://arxiv.org/html/2606.07602#S0.F1))。 我们的主要贡献如下: - •**数据引发的物理奖励破解**。我们识别了LBA中的*PhysHack*现象。在含噪的全量轨迹上训练的模型达到高物理有效性,例如Qwen上0.93的Validity@4,但在语义对齐方面仍然薄弱,Qwen-VL@4为0.59/0.67,DINOv3@4亦然(见表1 (https://arxiv.org/html/2606.07602#S1.T1))。 - •**样本高效后训练的数据估值**。受*PhysHack*启发,我们系统地研究了什么使得LBA轨迹对后训练有价值。通过比较语义、多样性、困惑度和长度选择信号,我们发现基于VLM的语义估值结合领域多样性识别出了最有效的监督。仅使用前5%的样本,我们的方法将Qwen的Qwen-VL@4从0.59提升到0.77,CLIP@4从0.26提升到0.28,DINOv3@4从0.67提升到0.82(见表1 (https://arxiv.org/html/2606.07602#S1.T1))。 - •**物理-体素策略优化**。我们进一步引入了PVPO,一个物理信息强化学习框架,结合了基于模拟的物理有效性奖励和结构感知的几何奖励。在测试时缩放下,PVPO在结构和语义对齐(见图2 (https://arxiv.org/html/2606.07602#S1.F2))以及整体结构稳定性(见图4 (https://arxiv.org/html/2606.07602#S3.F4))方面持续优于全量数据集。图5 (https://arxiv.org/html/2606.07602#S3.F5)显示PVPO改善了置信度校准,使得高置信度的测试时选择更能预测真实的语义和结构质量。 参照图注 图2:关于物理-结构对齐的测试时缩放。在不同选择指标下,由Qwen2-VL、CLIP和DINOv3评估的Best@K结果。PVPO持续优于全数据集训练基线。 | 设置 | Qwen2.5-3B-Instruct | Llama-3.2-1B-Instruct | |------|---------------------|------------------------| | | Qwen-VL↑ | CLIP↑ | DINOv3↑ | Physics↑ | Voxel↑ | 砖块数 | Qwen-VL↑ | CLIP↑ | DINOv3↑ | Physics↑ | Voxel↑ | 砖块数 | | 全数据集 | \cellcolorblue!34 0.59 | \cellcolorblue!51 0.26 | \cellcolorblue!39 0.67 | \cellcolorblue!50 0.93 | \cellcolorblue!48 0.32 | 196 | \cellcolorblue!44 0.67 | \cellcolorblue!50 0.27 | \cellcolorblue!53 0.74 | \cellcolorblue!56 0.96 | \cellcolorblue!60 0.35 | 177 | | 仅多样性 | \cellcolorblue!32 0.58 | \cellcolorblue!49 0.26 | \cellcolorblue!37 0.66 | \cellcolorblue!60 0.95 | \cellcolorblue!48 0.32 | 163 | \cellcolorblue!31 0.55 | \cellcolorblue!37 0.25 | \cellcolorblue!33 0.66 | \cellcolorblue!49 0.94 | \cellcolorblue!44 0.31 | 199 | | 随机子集 | \cellcolorblue!29 0.56 | \cellcolorblue!43 0.25 | \cellcolorblue!33 0.64 | \cellcolorblue!40 0.91 | \cellcolorblue!33 0.28 | 176 | \cellcolorblue!34 0.58 | \cellcolorblue!40 0.25 | \cellcolorblue!35 0.67 | \cellcolorblue!53 0.95 | \cellcolorblue!48 0.32 | 194 | | 低价值VLM | \cellcolorblue!22 0.51 | \cellcolorblue!10 0.22 | \cellcolorblue!34 0.64 | \cellcolorblue!10 0.85 | \cellcolorblue!22 0.25 | 144 | \cellcolorblue!10 0.28 | \cellcolorblue!10 0.22 | \cellcolorblue!10 0.57 | \cellcolorblue!24 0.87 | \cellcolorblue!37 0.29 | 334 | | 最短响应 | \cellcolorblue!21 0.50 | \cellcolorblue!33 0.24 | \cellcolorblue!34 0.65 | \cellcolorblue!40 0.91 | \cellcolorblue!10 0.22 | 33 | \cellcolorblue!24 0.49 | \cellcolorblue!29 0.24 | \cellcolorblue!23 0.62 | \cellcolorblue!33 0.89 | \cellcolorblue!10 0.22 | 38 | | 最低困惑度 | \cellcolorblue!12 0.45 | \cellcolorblue!38 0.25 | \cellcolorblue!10 0.56 | \cellcolorblue!25 0.88 | \cellcolorblue!10 0.22 | 136 | \cellcolorblue!40 0.64 | \cellcolorblue!54 0.27 | \cellcolorblue!54 0.74 | \cellcolorblue!60 0.97 | \cellcolorblue!41 0.30 | 140 | | 最长响应 | \cellcolorblue!10 0.44 | \cellcolorblue!24 0.23 | \cellcolorblue!12 0.57 | \cellcolorblue!15 0.86 | \cellcolorblue!25 0.26 | 346 | \cellcolorblue!23 0.48 | \cellcolorblue!35 0.25 | \cellcolorblue!23 0.62 | \cellcolorblue!40 0.91 | \cellcolorblue!25 0.26 | 351 | | 高价值VLM | \cellcolorblue!52 0.70 | \cellcolorblue!55 0.27 | \cellcolorblue!50 0.72 | \cellcolorblue!15 0.86 | \cellcolorblue!41 0.30 | 162 | \cellcolorblue!48 0.70 | \cellcolorblue!49 0.27 | \cellcolorblue!49 0.72 | \cellcolorblue!10 0.80 | \cellcolorblue!25 0.26 | 205 | | 高价值VLM + 多样性 | \cellcolorblue!55 0.72 | \cellcolorblue!52 0.26 | \cellcolorblue!46 0.70 | \cellcolorblue!15 0.86 | \cellcolorblue!44 0.31 | 184 | \cellcolorblue!60 0.74 | \cellcolorblue!55 0.27 | \cellcolorblue!60 0.76 | \cellcolorblue!33 0.89 | \cellcolorblue!48 0.32 | 181 | | PVPO | \cellcolorblue!60 0.77 | \cellcolorblue!60 0.28 | \cellcolorblue!60 0.80 | \cellcolorblue!50 0.93 | \cellcolorblue!60 0.35 | 146 | \cellcolorblue!44 0.67 | \cellcolorblue!49 0.27 | \cellcolorblue!53 0.74 | \cellcolorblue!60 0.97 | \cellcolorblue!60 0.35 | 179 | 表1:数据选择比较:结构或语义对齐(Qwen-VL/CLIP/DINOv3)、物理有效性、体素对齐以及不同数据选择策略训练模型的砖块统计。 | 设置 | SmolLM3-3B | |------|------------| | | Qwen-VL↑ | CLIP↑ | DINOv3↑ | Physics↑ | Voxel↑ | 砖块数 | | 全数据集 | \cellcolorblue!10 0.26 | \cellcolorblue!10 0.23 | \cellcolorblue!10 0.52 | \cellcolorblue!10 0.63 | \cellcolorblue!10 0.23 | 172 | | 高价值VLM + 多样性 | \cellcolorblue!50 0.67 | \cellcolorblue!40 0.26 | \cellcolorblue!50 0.68 | \cellcolorblue!20 0.68 | \cellcolorblue!40 0.26 | 236 | | PVPO | \cellcolorblue!60 0.77 | \cellcolorblue!60 0.28 | \cellcolorblue!60 0.78 | \cellcolorblue!60 0.86 | \cellcolorblue!60 0.28 | 137 | 表2:SmolLM3-3B在语义对齐、物理有效性、体素和砖块数量上的表现。 ## 2 PhysHack:作为可破解代理的物理有效性 我们识别了*PhysHack*,一种在基于LLM的乐高积木装配(LBA)中出现的错位现象,其中模型通过满足可检查的装配约束来实现高测量的物理有效性,但却未能保持预期的物体语义和3D结构。 ### 2.1 预备知识 #### 积木装配的语言建模。 遵循Pun等人 (2025 (https://arxiv.org/html/2606.07602#bib.bib3)); Kulits and Schmid (2026 (https://arxiv.org/html/2606.07602#bib.bib10)),我们将每个乐高构造表示为一个可执行的装配程序,由语言模型自回归生成。给定文本提示xx,LLM策略πθ\\pi_{\\theta}生成一个砖块命令序列o=\(b_1,...,b_T\)o=\(b_{1},\\ldots,b_{T}\): πθ\(o∣x\)=∏t=1Tπθ\(bt∣x,b0<bt−1\)\pi_{\theta}\(o\mid x\)=\\prod_{t=1}^{T}\pi_{\theta}\(b_t\mid x,b_{0}<b_{t-1}\)。每个砖块命令btb_t包括砖块类型、位置和方向,遵循一个受约束的语法,该语法强制砖块与底层网格对齐,但允许在一个连续的定义域内进行样式化定位。 #### 物理有效性和语义对齐。 LBA中的一个标准评估指标是物理有效性(Physics),它检查生成的程序是否满足所有可检查的物理约束(例如无重叠、稳定接触、砖块类型约束)。然而,我们观察到,仅优化物理有效性可能导致*PhysHack*:模型学会生成物理上看似有效但在几何上与预期物体不匹配的结构。为了测量语义对齐,我们使用三种视觉-语言模型:Qwen2-VL (Qwen et al., 2024 (https://arxiv.org/html/2606.07602#bib.bib4))、CLIP (Radford et al., 2021 (https://arxiv.org/html/2606.07602#bib.bib34)) 和DINOv3 (Oquab et al., 2023 (https://arxiv.org/html/2606.07602#bib.bib32)),为每个渲染的乐高结构计算与初始文本提示的语义相似度。 ### 2.2 PhysHack的表现 为了演示PhysHack,我们在两种设置下训练Qwen2.5-3B-Instruct:首先在完整的LBA数据集上(全数据集),然后在随机选择的5%子集上(随机子集)。表1(全数据集行 vs 随机子集行)显示,两种设置都达到了高物理有效性(Qwen上为0.93和0.91),但全数据集设置由于噪声更多,语义对齐反而更低(Qwen-VL@4为0.59 vs 0.56;DINOv3@4为0.67 vs 0.64)。这表明物理有效性可能成为语义保真度的一个误导性代理:模型可以“破解”物理约束,产生看上去有效但语义上错位的结构。 ## 3 通过数据估值实现样本高效后训练 为了解决PhysHack,我们研究了什么使得LBA轨迹对后训练有价值。我们的关键发现是:不是所有轨迹都同等有用。使用一个紧凑的、高价值的子集可以比全量含噪数据集实现更好的语义对齐和结构完整性。 ### 3.1 基于VLM的语义估值 给定一个由(N)(N)个轨迹组成的池子,我们使用VLM为每个轨迹分配一个分数,测量生成的程序与输入提示之间的语义一致性。具体来说,我们使用Qwen2-VL、CLIP和DINOv3三种模型,为每个渲染的乐高结构计算与原始文本提示的语义相似度。然后,我们进行平均池化以产生一个综合分数。我们然后选择分数最高的前(K)(K)个轨迹(K=ceil(0.05 * N))。此外,我们通过聚类程序嵌入并从中均匀采样来纳入领域多样性。 ### 3.2 实验设置 我们在三个基础模型上评估我们的方法:Qwen2.5-3B-Instruct、Llama-3.2-1B-Instruct和SmolLM3-3B。我们在完整的LBA数据集上进行监督微调(SFT),并在5%选择轨迹上比较不同选择策略。我们使用Qwen-VL、CLIP和DINOv3报告语义对齐(Best@K,K=4)。 ### 3.3 结果 表1显示,基于VLM的语义估值(高价值VLM)显著优于所有基线。在Qwen2.5-3B上,它将Qwen-VL@4从0.59(全数据集)提升到0.70,DINOv3@4从0.67提升到0.72。加上领域多样性(高价值VLM + 多样性)进一步改进,Qwen-VL@4达到0.72,DINOv3@4达到0.70。值得注意的是,仅使用5%的数据就超过了全量数据集(5%也优于全数据集,可能是由于噪声过滤;见附录B.2 LBA中的噪声分析)。表2在SmolLM3-3B上报告了类似趋势。 ## 4 物理-体素策略优化(PVPO) 虽然数据选择识别了有价值的训练样本,但并未明确优化物理可行性和几何对齐。为了解决这个问题,我们引入了PVPO,一个强化学习框架,结合了基于模拟的物理有效性奖励和结构感知的几何奖励。 ### 4.1 奖励设计 我们定义了两个奖励项: - **物理有效性奖励(R_physics)**:由我们的模拟器计算,根据重力下的稳定性。它正面奖励满足所有物理约束的结构(例如无重叠、足够接触),并负面奖励违反约束的结构。 - **体素几何奖励(R_voxel)**:通过将生成的乐高结构体素化并与从提示中提取的目标体素占用地图进行比较,计算体素级别的IoU奖励。 总奖励为R = λ_physics * R_physics + λ_voxel * R_voxel,其中λ_physics和λ_voxel是平衡超参数。 ### 4.2 训练算法 我们使用基于策略的强化学习,基于PPO算法。在每个训练步骤中,我们从当前策略采样一批轨迹,使用模拟器计算奖励,并更新策略以最大化期望奖励。我们采用课程学习,其中初始训练侧重于高价值轨迹,然后逐渐稳定策略。 ### 4.3 结果 PVPO在语义对齐和物理有效性方面持续优于微调基线。在Qwen2.5-3B上,PVPO将Qwen-VL@4提升至0.77,DINOv3@4提升至0.80,同时保持高物理有效性(0.93)。在Llama-3.2-1B上,PVPO改进较小但一致:Qwen-VL@4为0.67 vs 0.67(全数据集),但DINOv3@4从0.74提升至0.74(持平),物理有效性从0.96提升至0.97。 ## 5 分析 ### 5.1 对PhysHack的缓解 PVPO通过使模型生成同时满足物理约束和几何一致性的结构来缓解PhysHack。图5显示PVPO改善了置信度校准:高置信度的测试时选择更能预测真实的语义和结构质量。 ### 5.2 测试时缩放 图2显示PVPO在Best@4和Best@8设置下始终优于全数据集基线。随着K的增加,PVPO的改进保持不变,表明它在有限推理预算下更有效。 ### 5.3 结构稳定性 图4显示PVPO生成的结构具有更高的最小砖块稳定性(S_min),意味着更高的整体结构完整性。 ## 6 相关工作 ### 6.1 乐高程序合成 之前的方法(Pun et al., 2025; Kulits and Schmid, 2026)将乐高生成视为程序合成任务,但未解决数据噪声和物理-语义错位问题。 ### 6.2 数据估值 数据估值方法(Koh and Liang, 2017; Jia et al., 2019)已被用于识别训练重要样本,但很少应用于复杂物理推理任务。 ### 6.3 用于物理推理的强化学习 基于物理奖励的强化学习(Tunyasuvunakool et al., 2020; Andrychowicz et al., 2020)已被用于机器人控制,但尚未应用于乐高装配。 ## 7 结论 我们识别了PhysHack,一种基于LLM的乐高装配中的数据引发的物理奖励破解现象。我们表明数据估值能够选择高价值训练样本,并且PVPO是一种样本高效的强化学习方法,结合了物理和几何奖励。我们的方法改善了语义对齐、物理有效性和结构稳定性,同时减少了对事后拒绝采样的依赖。 ## 附录 ### A.1 模拟器细节 我们使用基于物理的模拟器来评估乐高结构的稳定性。它模拟重力、接触力和摩擦。每个砖块被建模为刚体,接触点基于砖块网格对齐。模拟器检查以下约束: - **无重叠**:没有两个砖块共享相同体素。 - **接触**:每个砖块必须与至少一个其他砖块或地面接触。 - **稳定性**:在重力下,必须存在一个力分布,使得净力和力矩为零。 ### A.2 物理有效性指标 我们使用三个指标: - **Validity@K**:在K个采样中,满足所有物理约束的样本比例。 - **平均稳定性**:在所有砖块上平均的稳定性分数(由模拟器计算)。 - **最小稳定性**:结构中任何砖块的最小稳定性分数。 ### A.3 拒绝采样和稳定性引导再生 为了在推理过程中强制执行物理有效性,我们使用拒绝采样:如果生成的程序违反任何约束,我们重新采样。此外,我们实施稳定性引导再生:如果结构不稳定,我们识别第一个不稳定砖块,移除它及后续砖块,并从稳定前缀继续生成。这个过程可以重复最多N_max次。在我们的实验中,我们允许一次结构级再生。我们还使用分级再生协议,其中已经满足S_min > 0的样本被冻结并排除在后续再生轮次之外。这个程序结合了局部语法和几何过滤与全局物理稳定性检查。拒绝采样防止无效砖块进入结构,而再生纠正仅在评估组装模型后才显现的高级不稳定性。 ### A.4 Gurobi基础的稳定性优化 我们使用Gurobi力平衡求解器计算物理稳定性(学生可以免费获得Gurobi许可证)。每个生成的乐高结构被转换为体素化砖块装配,并在砖块界面上引入接触力变量。优化器强制执行接触砖块之间的作用-反作用一致性,并最小化剩余力和力矩不平衡: Leq=∑i\(|ΔFx,i|+|ΔFy,i|+|ΔFz,i|+|Δτ1,i|+|Δτ2,i|\)。 (10) 我们进一步在每个砖块的最大向下接触力和总向下接触力上添加小的正则化项: L=Leq+α∑iFdown,imax+β∑jFdown,j, (11) 其中α=10^{-3},β=10^{-6}。求解器使用g=9.8,乐高单位高度0.0096,单位长度0.0078,接触阈值T=100,转换为FT=Tg/1000。优化后,每个占据体素被分配一个稳定性分数。如果力或力矩平衡被违反,或者接触力余量为非正,则体素分数设为0。否则,分数是归一化余量: S(v)= (FT - D_max) / FT, (12) 其中D_max是最大向下接触力。砖块级稳定性是砖块上所有体素分数的最小值,当最小砖块稳定性大于零时,结构被认为是稳定的。 ### A.5 数据集 训练数据集是砖块-文本配对,每个输入是一个物体的自然语言描述,每个输出是一个可执行的乐高砖块程序。
相似文章
@LakshyAAAgrawal: 从丰富的文本反馈(错误、轨迹、部分推理)中学习,对于LLM优化来说,优于仅使用标量奖励。…
快速-慢速训练(FST)将上下文优化(通过GEPA)与通过强化学习进行的模型权重更新交替进行,在数学、代码和物理推理上实现了比单独使用RL高3倍的样本效率,同时保持了可塑性并实现了持续学习。
乱码也有效:提示空间扰动拓宽推理探索
本文介绍了 LoPE,这是一种利用提示空间扰动来解决可验证奖励强化学习中“零优势问题”的训练框架,从而增强大语言模型的推理探索能力。
从受训者到训练者:面向多智能体推理的强化学习的LLM设计训练环境
本文提出了LLM-as-Environment-Engineer框架,其中策略模型通过分析失败案例自动重新设计强化学习训练环境,并引入MAPF-FrozenLake作为可控测试平台。该框架使用Qwen3-4B模型,性能优于GPT和Gemini等更大规模模型,表明策略学习提升了模型诊断自身弱点的能力。
@HuggingPapers: SpatialClaw NVIDIA 发布一个无需训练的空间推理智能体,以代码作为交互接口。VLM 编写 P…
NVIDIA 推出 SpatialClaw,一个无需训练的空间推理智能体,利用 VLM 在持久化内核中编写 Python 代码,组合感知工具,并修订计划,在20项基准测试中超越先前智能体 +11.2 分。
Flat-Pack Bench:通过家具组装评估大型视觉-语言模型的时空理解能力
介绍了Flat-Pack Bench,一个通过家具组装任务评估大型视觉-语言模型细粒度时空推理能力的基准测试。实验表明,当前的LVLMs在跟踪和空间交互方面存在困难。