RoboEvolve:在有限数据下实现机器人操作的计划器与模拟器协同进化
摘要
RoboEvolve是一个框架,它协同进化VLM规划器和VGM模拟器用于机器人操作,仅用500张无标签种子图像就实现了数据效率以及鲁棒的持续学习。
查看缓存全文
缓存时间: 2026/05/14 04:16
论文页面 - RoboEvolve:基于有限数据的机器人操作规划器与模拟器协同进化
来源:https://huggingface.co/papers/2605.13775
摘要
RoboEvolve 将视觉-语言模型与视频生成模型结合在一个协同进化框架中,以实现可扩展的机器人操作,同时提升数据效率并具备持续学习能力。
机器人操作的可扩展性从根本上受限于与任务对齐的物理交互数据的稀缺性。虽然视觉-语言模型 (VLMs) 和视频生成模型 (VGMs) 在自主数据合成方面具有潜力,但它们分别存在语义-空间错位和物理幻觉的问题。为弥补这一差距,我们提出了 RoboEvolve,这是一个新颖的框架,它将 VLM 规划器与 VGM 模拟器耦合在一个相互强化的协同进化循环中。完全基于无标注的种子图像运行,RoboEvolve 利用了一种受认知启发的双阶段机制:(i) 日间探索阶段,通过语义控制的多粒度奖励实现基于物理的行为发现;(ii) 夜间巩固阶段,挖掘“近似失败”样本以稳定策略优化。在自主渐进式课程的引导下,系统自然地从小规模原子动作扩展到复杂任务。大量实验表明,RoboEvolve (I) 实现了卓越的有效性,将基础规划器的性能提升了 30 个绝对百分点,并使模拟器的成功率平均提升 48%;(II) 展现出极高的数据效率,仅凭 500 个无标注种子图像就超越了完全监督的基线——实现了 50 倍的数据缩减;(III) 在无灾难性遗忘的情况下展示了鲁棒的持续学习能力。
查看 arXiv 页面 (https://arxiv.org/abs/2605.13775)查看 PDF (https://arxiv.org/pdf/2605.13775)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13775)
在你的 Agent 中获取此论文:
hf papers read 2605.13775
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型链接到本论文
请在你的模型 README.md 中引用 arxiv.org/abs/2605.13775,以将其链接到此页面。
引用该论文的数据集 0
暂无数据集链接到本论文
请在你的数据集 README.md 中引用 arxiv.org/abs/2605.13775,以将其链接到此页面。
引用该论文的 Spaces 0
暂无 Space 链接到本论文
请在你的 Space README.md 中引用 arxiv.org/abs/2605.13775,以将其链接到此页面。
包含该论文的集合 0
暂无包含该论文的集合
请将此论文添加到一个集合 (https://huggingface.co/new-collection) 中,以将其链接到此页面。
相似文章
MLEvolve:自动化机器学习算法发现的自我进化框架
MLEvolve是一个基于LLM的自我进化多智能体框架,用于自动化机器学习算法发现。它将树搜索扩展为Progressive MCGS,并引入基于图的跨分支信息流和Retrospective Memory。该框架在MLE-Bench上取得了最先进的性能,并在数学算法优化任务上优于AlphaEvolve。
EvoTrainer:面向自主智能体强化学习的LLM策略与训练框架协同进化
EvoTrainer提出了一种自主训练框架,通过经验反馈协同进化LLM策略与训练框架,在数学推理、代码生成以及长期软件工程任务上超越了人工设计的强化学习基线。
CoEvolve:通过智能体-数据互进化训练LLM智能体
CoEvolve提出了一个智能体-数据互进化框架,通过闭环、交互驱动的学习来训练LLM智能体,同时适配智能体和其训练数据分布。该方法从轨迹回滚中提取反馈信号以指导基于LLM的任务合成,在AppWorld和BFCL基准上的多个Qwen模型中展示了显著的改进(绝对收益15-19%)。
EvoMap/evolver
Evolver 是一个由 GEP 驱动的 AI 代理自演化引擎,可自动化提示词优化并创建可审计、可复用的演化资产。该项目正从完全开源过渡到源代码可用,同时保持与现有 MIT 和 GPL-3.0 版本的向后兼容性。
规划复杂视觉任务的更优方法
MIT研究人员开发了VLMFP,这是一种结合视觉语言模型与形式化规划软件的两阶段生成式AI方法,在机器人导航等复杂视觉规划任务中达到了70%的成功率,比现有基线方法高出近2.3倍。该方法能自动将视觉场景转化为传统求解器可处理的规划文件,从而在新环境中实现高效的长期规划。