编码代理作为世界模拟器表现良好

arXiv cs.AI 2026/05/15 04:00 论文

摘要

本文提出了一种基于代理的框架，利用编码代理从自然语言提示生成物理上可信的世界模拟，在物理准确性和指令保真度方面优于基于视频的模型。

arXiv:2605.14398v1 公告类型：新摘要：世界模型已成为构建交互式仿真环境的强大范式，最近的基于视频的方法在生成视觉上可信的动态方面取得了令人瞩目的进展。然而，由于这些模型通常从视频中推断动态并以潜在状态表示，它们没有明确施加物理约束。因此，生成的视频滚动在物理上不可信，表现出不稳定的接触、扭曲的形状或运动不一致。在本文中，我们提出了一种基于代理的框架，通过可执行仿真代码构建基于物理的世界模型。该框架协调规划、代码生成、视觉审查和物理分析代理。规划代理将自然语言提示转换为结构化的场景规划，代码代理将其实现为可执行的仿真代码，视觉审查代理提供视觉反馈，同时物理分析代理检查物理一致性。代码根据反馈迭代修改，直到仿真满足提示要求和物理约束。实验结果表明，我们的框架在物理准确性、指令保真度和视觉质量方面优于先进的基于视频的模型，可应用于包括驾驶仿真和具身机器人任务在内的多种场景。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:24

# 编程智能体同样适用于世界模拟器  
来源：https://arxiv.org/html/2605.14398  
洪宇 Wang  机械工程系  威斯康星大学麦迪逊分校  麦迪逊, WI 53706 hwang2487@wisc\.edu  
& 王靖泉  机械工程系  威斯康星大学麦迪逊分校  麦迪逊, WI 53706 jwang2373@wisc\.edu  
邹博成  计算机、数据与信息科学学院  威斯康星大学麦迪逊分校  麦迪逊, WI 53706 bzou24@wisc\.edu  
Radu Serban  机械与航空航天工程系  威斯康星大学麦迪逊分校  麦迪逊, WI 53706 serban@wisc\.edu  
& Dan Negrut  机械与航空航天工程系  威斯康星大学麦迪逊分校  麦迪逊, WI 53706 negrut@wisc\.edu  

###### 摘要

世界模型已成为构建交互式仿真环境的强大范式，近期基于视频的方法在生成视觉上合理的动态方面取得了显著进展。然而，由于这些模型通常从视频中推断动态并以潜在状态表示，它们并未明确施加物理约束。因此，生成的视频 rollout 在物理上并不合理，会出现不稳定接触、形状畸变或运动不一致等问题。本文提出一种基于智能体的框架，通过可执行的仿真代码构建基于物理的世界模型。该框架协调了规划、代码生成、视觉审查和物理分析智能体。规划智能体将自然语言提示转换为结构化的场景方案，代码智能体将其实现为可执行的仿真代码，视觉审查智能体提供视觉反馈，而物理分析智能体则检查物理一致性。代码会根据反馈进行迭代修正，直至仿真满足提示要求和物理约束。实验结果表明，我们的框架在物理准确性、指令保真度和视觉质量方面均优于先进的基于视频的模型，并可应用于包括驾驶仿真和具身机器人任务在内的多种场景。

## 1 引言

世界模型已证明，学习到的动力学能够支持从紧凑潜在状态进行规划与控制[9, 11, 10]。最近，生成式视频模型将这一理念推向交互式且视觉丰富世界仿真，包括可控环境、自动驾驶场景以及基于视频的世界模拟器[6, 14, 5]。这些模型能够生成看似合理的未来观测，但其动态通常以隐式表示，而非显式物体、关节、接触、材料或求解器状态。这种区别在长时程交互中至关重要：世界模型不仅要渲染下一个合理的帧，还必须保存决定后续可能发生的物理状态。近期关于物理人工智能和视觉世界仿真的工作凸显了这一问题的重要性，但仍未解决如何构建其力学机制可被检查、执行和修复的世界的问题。

##### 相关工作

先前的工作对世界状态采取了三种不同视角：学习到的潜在状态、生成的视觉状态或显式的仿真器状态。潜在世界模型通过学习得到的 rollout 支持规划与控制[25, 12]。基于视频的方法将世界建模延伸至视频预测、动作条件 rollout，以及评估生成视频是否像世界模型的基准测试[3, 46]。这两条线索都很重要，但均未直接暴露仿真器级别的状态——即描述接触、铰接机构、可变形物体、传感器或数值验证所需的状态。机器人学习和可变形物体研究揭示了这一问题，因为成功取决于物理行为而非仅仅是外观合理[20, 41, 8]。物理仿真器从显式状态而非学习或生成的状态出发。诸如 MuJoCo、Project Chrono 和 Isaac Gym 等引擎和具身仿真环境将物体、关节、接触、地形、传感器和数值积分作为世界状态的显式组件暴露出来[29, 24, 19]。它们提供了仅通过视频的世界模拟器通常缺乏的物理有意义的诊断信息[38, 28, 15]。它们的瓶颈不在于物理保真度，而在于世界构建：用户必须选择资源，实例化物体，编写仿真代码，调整数值参数，并检查失败。场景生成方法通过生成具身环境、室内布局和语言引导的 3D 场景，减轻了部分负担[7, 23, 47]。物理可交互场景合成和物理增强的 LLM 智能体则更接近物理基础的世界构建[42, 40, 35]。然而，生成一个场景与构建一个可工作的仿真不同：系统还必须编写仿真器感知的代码、执行它、检查结果并修复失败。

这一差距为世界建模提出了一条不同的路径。系统无需学习潜在视频转移模型，而是能够从用户输入构建一个可执行的物理世界。这将问题从帧预测转向仿真器感知的世界构建，系统必须在可执行代码中指定几何、物体、关节、接触、材料、传感器和数值设置。

本框架将世界构建转化为一个基于智能体的代码生成问题。LLM 智能体生成方案、调用工具、编写代码，并通过反馈修改代码直至满足提示要求[43, 26, 18]。先前的工作表明，生成的代码可以作为模型推理与外部系统之间的可执行接口，使智能体行为更具可检查性、可编辑性和可测试性[34, 39, 45]。具体到仿真领域，近期工作采用 LLM 来创建、评估、自我验证和专门化基于物理的仿真代码[32, 33]。

然而，复杂的物理世界需要的不仅仅是一次代码生成步骤。多智能体协调提供了一种将仿真构建分解为规划、编码、审查和验证角色的范式[17, 37, 13]。针对物理仿真的自我纠正多智能体系统进一步说明了为什么执行反馈对于修复代码很重要，尤其是当系统未经过大量仿真器代码训练时[30, 22]。近期如[21]的工作展示了多智能体系统如何为多体动力学仿真生成代码，但尚未集成丰富的资产。这些发展指向一个从提示到仿真的循环，其中规划、代码生成、执行、视觉审查和物理验证协同工作以构建和修复可执行世界。

这些见解引出了本文的核心思想：编码智能体可以作为世界模拟器。与之直接对未来帧建模不同，所提出的范式构建可执行的仿真器程序，这些程序定义了物理世界本身。在此视角下，生成的代码作为世界表示：它在物理引擎中指定物体、关节、接触、地形、传感器、视觉资产、材料和数值设置。程序执行随之产生物理轨迹和渲染观测，而运行时诊断、物理检查和视觉反馈则为迭代修复提供有依据的信号。我们分别在室内环境中的机器人交互、户外车辆仿真以及高保真流固耦合中测试了这一范式。

本文贡献总结如下：

- • 我们提出了一种用于世界仿真的多智能体框架，其中智能体通过仿真器感知的规划、基于技能的代码生成、执行反馈、视觉审查和迭代修复来构建可执行的物理世界。
- • 我们将物理仿真融入世界构建过程，将物体、关节、接触、地形、传感器、材料和数值设置表示为可执行的仿真器程序。这种设计能够实现显式物理状态、可检查的动力学以及超越帧级视觉预测的物理基础交互。
- • 我们在多种仿真任务中展示了所提框架的有效性和通用性，包括室内环境中的机器人交互、户外车辆动力学以及高保真流固耦合。通过定性和定量评估，我们表明编码智能体能够构建复杂的世界仿真。

## 2 方法

### 2.1 资产库与碰撞表示

系统从两个互补的数字资产来源构建仿真场景：从公共平台收集的外部 3D 资产[27]以及随 Project Chrono 分发的仿真器原生资产。外部资产为日常物体和室内场景提供了语义和视觉多样性，而 Chrono 资产提供了已经与物理仿真紧密相关的组件，包括车辆、机器人、地形和几何形状。两个来源都组织成一个统一的资产库，将高级对象描述映射到仿真器就绪的几何体，同时支持语义场景完成和可执行的物理仿真。

##### 用于碰撞的分解凸包

由于使用原始 3D 网格进行碰撞的计算成本较高，系统将视觉几何与碰撞几何分开。高分辨率网格保留用于可视化，而物理交互则使用简化的碰撞形状进行计算。对于精细的 3D 资产，这些碰撞形状是通过近似凸分解（CoACD）算法[36]生成的分解凸包。CoACD 将一个 3D 网格分解为凸组件，同时最小化考虑碰撞的凹陷程度，为接触仿真生成紧凑的碰撞表示。

### 2.2 多智能体框架

如图 1 所示，所提出的框架将物理世界构建分解为一个闭环智能体工作流。给定用户提示或可选的参考图像，系统首先生成一个结构化的仿真方案，生成可执行的 PyChrono 代码，在 Chrono 引擎中运行该程序，并通过物理诊断和视觉证据检查仿真。在此设计中，仿真器程序作为世界模型：生成的代码指定了几何、质量属性、约束、接触、控制器、传感器、渲染和数值参数，而物理引擎则推动模拟世界随时间演进。

参见图注

图 1：多智能体流水线。该框架在迭代中修复同一个程序，而不是每次失败后从头生成新脚本。它首先将用户请求转化为包含一个或多个实现阶段的结构化方案。在代码生成之前，用户可以批准方案或指定缺失的细节，因为自然语言请求通常会使具体的仿真器选择（包括对象尺寸、驱动方式、持续时间、时间步长、相机位置和输出模态）未完全指定。一旦方案确认，代码智能体使用技能库中的仿真器知识和资产库中的资产生成初始程序。

在每个实现阶段，生成的程序在 Chrono 中执行，生成轨迹数据、仿真视频和执行日志。视觉审查智能体从场景布局、动态、对象交互以及可能的视觉不一致性角度描述视频。然后验证阶段结合仿真器日志、物理状态和视觉证据，判断仿真是否与已确认的方案匹配。如果匹配，系统进入下一阶段；否则，验证器返回一个结构化的错误报告，代码智能体则修补当前程序。循环持续进行，直到最终程序满足方案中的所有步骤。

### 2.3 规划智能体

规划智能体在代码生成之前，将一个未完全指定的用户请求转换为面向仿真器的方案，包括对象、构建来源、拓扑关系、物理角色、实现步骤和相机配置。这一中间表示至关重要，因为仿真器代码需要自然语言提示中常常忽略的具体选择。

#### 2.3.1 可选图像输入

规划智能体默认接受文本提示作为输入，还可以额外根据参考图像进行条件化。该图像作为规划时的辅助证据，而非直接的仿真器状态。从图像中，智能体提取与任务相关的线索，如可见对象、大致比例、支撑关系、相对布局、场景类型、动作意图和视觉约束。这些线索随后被转换为面向仿真器的方案字段，包括对象构建选择、拓扑关系、物理角色、相机设置和验证目标。如果没有提供图像，则仅从文本提示完成相同的方案模式。

#### 2.3.2 资产提取

规划智能体首先识别请求所需的物理实体，包括刚体、铰接机构、车辆、机器人、地形、流体、传感器和背景场景元素。对于每个实体，方案记录其语义角色、预期比例、大致姿态，以及它应该从资产库实例化、由几何代理构造还是作为外部资产候选请求。此步骤保留了场景的物理需求，即使没有精确的资产可用，也允许代码智能体生成兼容仿真器的近似表示。

#### 2.3.3 场景推断

自然语言请求通常通过关系而非精确的仿真器姿态来描述场景。例如，“桌子上面向椅子有一台笔记本电脑”这样的提示指定了支撑和朝向，但并未指定杯子。

编码代理作为世界模拟器表现良好

相似文章

代码智能体是否需要可执行世界模型、简化和验证来解决ARC-AGI-3？

编程代理的胜负不在于提示词，而在于运行时基础设施

SimWorld Studio：利用进化型代码代理为具身智能体学习自动生成环境

编码智能体提前思考

SceneCode：用于可编辑室内场景（含铰接物体）的可执行世界程序

提交意见反馈