RoboMemArena:一个全面且具挑战性的机器人记忆基准测试
摘要
RoboMemArena 推出了一项大规模基准测试,旨在通过现实世界验证评估涵盖 26 个复杂任务的机器人记忆能力,并提出了 PrediMem,这是一种利用预测编码优化记忆管理的双系统视觉 - 语言 - 动作模型。
查看缓存全文
缓存时间: 2026/05/12 10:53
论文页面 - RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark
来源:https://huggingface.co/papers/2605.10921 作者:
,
,
,
,
,
,
,
,
,
,
,
摘要
RoboMemArena 提出了一个包含多样化任务和真实世界评估的大规模机器人记忆基准,而 PrediMem 则通过采用预测编码的双系统视觉-语言架构,展示了改进的记忆管理能力。
记忆是机器人智能的关键组成部分,因为机器人必须依赖过去的观察和行动,才能在部分可观测的环境中完成长程任务。然而,现有的机器人记忆基准仍然缺乏用于记忆形成的多模态标注,任务覆盖范围和结构复杂性有限,且仍局限于仿真环境,缺乏真实世界评估 (https://huggingface.co/papers?q=real-world%20evaluation)。为弥补这一空白,我们推出了 RoboMemArena,这是一个包含 26 项任务的大规模基准,每项任务的平均轨迹长度超过 1,000 步,其中 68.9% 的子任务依赖于记忆。该生成流水线利用视觉-语言模型 (https://huggingface.co/papers?q=vision-language%20model)(VLM)来设计和组合子任务,通过原子函数 (https://huggingface.co/papers?q=atomic%20functions) 生成完整轨迹,并提供与记忆相关的标注 (https://huggingface.co/papers?q=memory-related%20annotations)(包括子任务指令和原生关键帧标注),同时配套的真实世界记忆任务支持物理评估。我们进一步设计了 PrediMem,这是一种双系统 VLA (https://huggingface.co/papers?q=dual-system%20VLA),其中高层 VLM 规划器管理着一个包含近期缓冲区和关键帧缓冲区 (https://huggingface.co/papers?q=keyframe%20buffers) 的记忆库 (https://huggingface.co/papers?q=memory%20bank),并使用预测编码头 (https://huggingface.co/papers?q=predictive%20coding%20head) 来提高对任务动态的敏感度。在 RoboMemArena 上进行的大量实验表明,PrediMem 的性能优于所有基线模型,并为复杂记忆系统的记忆管理、模型架构和缩放定律提供了深入见解。
查看 arXiv 页面 (https://arxiv.org/abs/2605.10921)查看 PDF (https://arxiv.org/pdf/2605.10921)项目页面 (https://robomemarena.github.io/)GitHub1 (https://github.com/OpenHelix-Team/RoboMemArena)添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2605.10921)
在你的 agent 中获取此论文:
hf papers read 2605\.10921
还没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
暂无模型链接此论文
在模型的 README.md 中引用 arxiv.org/abs/2605.10921 即可在此页面显示链接。
引用此论文的数据集0
暂无数据集链接此论文
在数据集的 README.md 中引用 arxiv.org/abs/2605.10921 即可在此页面显示链接。
引用此论文的 Spaces0
暂无 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.10921 即可在此页面显示链接。
包含此论文的合集0
暂无合集包含此论文
将此论文添加到合集 (https://huggingface.co/new-collection) 即可在此页面显示链接。
相似文章
WorldMemArena:通过动作-世界交互评估多模态智能体记忆
WorldMemArena 是一个新的基准测试,包含400个多会话多模态任务,用于评估多模态智能体记忆,比较了长上下文、RAG和基于框架的记忆方法,揭示了更好的记忆写入并不保证更好的性能,并且系统在处理视觉证据方面存在困难。
AdMem:面向任务求解智能体的高级记忆系统
本文介绍AdMem,一种面向基于LLM的智能体的统一记忆框架,整合语义记忆、情景记忆和程序性记忆,并采用双层短期与长期存储结构,通过多智能体架构实现自动记忆生成与自适应检索。实验表明,该方法在长程多轮任务中提升了鲁棒性和成功率。
MEME:多实体与动态记忆评估
MEME 基准测试在多实体和动态变化的条件下评估 AI 记忆系统,揭示了即便采用先进的检索技术,在依赖关系推理方面依然存在显著挑战。
我为编码智能体的“记忆”构建了一个基准测试,期待他人来挑战它
开发者创建了一个名为 continuity-benchmarks 的新基准测试,用于测试 AI 编码智能体在活跃开发过程中保持与项目规则一致性的能力,解决了现有记忆基准测试的空白——这些测试侧重于语义回忆而非实时架构一致性和多会话行为。
EvoArena:追踪记忆演化以实现动态环境中鲁棒的LLM智能体
EvoArena引入了一个基准测试,用于评估LLM智能体在动态环境中的表现,该环境在终端、软件和社交领域具有渐进式更新;同时EvoMem提出了一种基于补丁的记忆范式,记录结构化的演化;实验表明,当前智能体在EvoArena上仅达到39.6%的准确率,而EvoMem在该基准测试上平均提升1.5%,并在GAIA和LoCoMo上也有所改进。