LychSim:面向视觉研究的可控交互式仿真框架
摘要
本文介绍了 LychSim,这是一个基于 Unreal Engine 5 构建的可控仿真框架,旨在促进视觉研究、合成数据生成,并通过集成 MCP 实现智能体 LLM 的评估。
查看缓存全文
缓存时间: 2026/05/13 04:12
论文页面 - LychSim:用于视觉研究的可控交互仿真框架
来源: https://huggingface.co/papers/2605.12449
摘要
本文介绍了一个名为 LychSim 的仿真框架,该框架具备 Python API、程序化数据流水线以及 MCP 集成功能,旨在为视觉系统的开发与评估提供可控且交互式的仿真环境。
尽管自监督预训练降低了视觉系统对合成数据的依赖,仿真仍然是闭环优化和严格的分布外(OOD)评估不可或缺的工具。然而,现代仿真平台往往存在较高的技术门槛,需要大量的计算机图形学和游戏开发专业知识。在这项工作中,我们提出了 LychSim,这是一个建立在 Unreal Engine 5 (https://huggingface.co/papers?q=Unreal%20Engine%205) 之上的高度可控且交互式的仿真框架 (https://huggingface.co/papers?q=simulation%20framework),旨在填补这一空白。LychSim 围绕三个关键设计构建:(1) 简化的 Python API (https://huggingface.co/papers?q=Python%20API),用于抽象底层引擎的复杂性;(2) 程序化数据流水线 (https://huggingface.co/papers?q=procedural%20data%20pipeline),能够生成具有不同分布外 (OOD) 视觉挑战的多样化、高保真环境,并附带丰富的 2D 和 3D 真值数据;(3) 原生集成模型上下文协议 (Model Context Protocol) (https://huggingface.co/papers?q=Model%20Context%20Protocol) (MCP),将模拟器转变为动态的、闭环的游乐场,供具备推理能力的智能体大语言模型(LLMs)使用。我们进一步注释了场景级程序规则和对象级位姿对齐,以实现语义对齐的 3D 真值数据和自动化场景修改。我们在多个下游应用中展示了 LychSim 的能力,包括作为合成数据引擎 (https://huggingface.co/papers?q=synthetic%20data%20engine)、支持基于强化学习 (https://huggingface.co/papers?q=reinforcement%20learning) 的对抗性检查器,以及促进交互式、语言驱动的场景布局生成 (https://huggingface.co/papers?q=language-driven%20scene%20layout%20generation)。为了惠及更广泛的视觉社区,LychSim 将公开提供,包括完整的源代码和各种数据注释。
查看 arXiv 页面 (https://arxiv.org/abs/2605.12449)查看 PDF (https://arxiv.org/pdf/2605.12449)项目页面 (https://lychsim.github.io/)GitHub1 (https://github.com/wufeim/LychSim)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.12449)
在您的智能体中获取此论文:
hf papers read 2605\.12449
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有链接此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.12449 以从此页面建立链接。
引用此论文的数据集0
没有链接此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.12449 以从此页面建立链接。
引用此论文的 Spaces0
没有链接此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.12449 以从此页面建立链接。
包含此论文的收藏集0
没有包含此论文的收藏集
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面建立链接。
相似文章
EnvSimBench:用于评估和改善基于大语言模型的环境模拟的基准
本文介绍了 EnvSimBench,这是一个用于评估大语言模型在智能体训练中模拟环境能力的基准。它指出了当前大语言模型中存在的“状态变化悬崖”问题,并提出了一种约束驱动的流水线以减少幻觉和降低成本。
SkillLens:面向成本高效型大模型智能体的自适应多粒度技能复用
本文提出了 SkillLens,这是一种用于大模型智能体自适应多粒度技能复用的分层框架,在基准任务中展示了更高的准确性和成本效益。
SkillMaster:迈向大语言模型智能体的自主技能掌握
本文介绍了 SkillMaster,一种训练框架,使大语言模型智能体能够通过轨迹知情审查和反事实效用评估,自主地创建、优化和选择技能。
借助大语言模型发现强化学习接口
本文介绍了 LIMEN,这是一个由大语言模型引导的演化框架,能够通过联合优化原始模拟器状态的观测映射与奖励函数,自动发现强化学习接口。该方法有效降低了人工设计成本,并证明了观测与奖励的协同设计优于单独优化其中任意单一组件。
SalesSim:基准测试并对齐多模态语言模型作为零售用户模拟器
本文介绍了 SalesSim,这是一个用于评估多模态大型语言模型(MLLM)作为零售用户模拟器的框架和基准,旨在揭示角色对齐方面的不足,并提出了一种名为 UserGRPO 的新型强化学习方法。