RoboMemArena：一个全面且具挑战性的机器人记忆基准测试

Hugging Face Daily Papers 2026/05/11 00:00 论文

摘要

RoboMemArena 推出了一项大规模基准测试，旨在通过现实世界验证评估涵盖 26 个复杂任务的机器人记忆能力，并提出了 PrediMem，这是一种利用预测编码优化记忆管理的双系统视觉 - 语言 - 动作模型。

记忆是机器人智能的关键组成部分，因为机器人必须依靠过去的观察和操作，才能在部分可观测的环境中完成长时程任务。然而，现有的机器人记忆基准仍存在不足：缺乏针对记忆形成的多模态标注，任务覆盖范围有限且结构复杂度低，且仅局限于仿真环境而缺乏现实世界的评估。我们推出了 RoboMemArena 以填补这一空白，这是一个包含 26 个任务的大规模基准测试，每个任务的平均轨迹长度超过 1,000 步，其中 68.9% 的子任务均依赖记忆。该生成管道利用视觉 - 语言模型（VLM）设计并组合子任务，通过原子函数生成完整轨迹，并提供与记忆相关的标注，包括子任务指令和原生关键帧标注；同时，配对的现实世界记忆任务支持实机评估。此外，我们还设计了 PrediMem，这是一款双系统 VLA（视觉 - 语言 - 动作模型），其高层 VLM 规划器管理包含近期信息和关键帧缓冲区的记忆库，并利用预测编码头提高对任务动态变化的敏感度。在 RoboMemArena 上的大量实验表明，PrediMem 的表现优于所有基线模型，并为复杂记忆系统的记忆管理、模型架构及缩放规律提供了深刻见解。

查看原文

查看缓存全文

缓存时间: 2026/05/12 10:53

论文页面 - RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark

来源：https://huggingface.co/papers/2605.10921 作者：

摘要

RoboMemArena 提出了一个包含多样化任务和真实世界评估的大规模机器人记忆基准，而 PrediMem 则通过采用预测编码的双系统视觉-语言架构，展示了改进的记忆管理能力。

记忆是机器人智能的关键组成部分，因为机器人必须依赖过去的观察和行动，才能在部分可观测的环境中完成长程任务。然而，现有的机器人记忆基准仍然缺乏用于记忆形成的多模态标注，任务覆盖范围和结构复杂性有限，且仍局限于仿真环境，缺乏真实世界评估 (https://huggingface.co/papers?q=real-world%20evaluation)。为弥补这一空白，我们推出了 RoboMemArena，这是一个包含 26 项任务的大规模基准，每项任务的平均轨迹长度超过 1,000 步，其中 68.9% 的子任务依赖于记忆。该生成流水线利用视觉-语言模型 (https://huggingface.co/papers?q=vision-language%20model)（VLM）来设计和组合子任务，通过原子函数 (https://huggingface.co/papers?q=atomic%20functions) 生成完整轨迹，并提供与记忆相关的标注 (https://huggingface.co/papers?q=memory-related%20annotations)（包括子任务指令和原生关键帧标注），同时配套的真实世界记忆任务支持物理评估。我们进一步设计了 PrediMem，这是一种双系统 VLA (https://huggingface.co/papers?q=dual-system%20VLA)，其中高层 VLM 规划器管理着一个包含近期缓冲区和关键帧缓冲区 (https://huggingface.co/papers?q=keyframe%20buffers) 的记忆库 (https://huggingface.co/papers?q=memory%20bank)，并使用预测编码头 (https://huggingface.co/papers?q=predictive%20coding%20head) 来提高对任务动态的敏感度。在 RoboMemArena 上进行的大量实验表明，PrediMem 的性能优于所有基线模型，并为复杂记忆系统的记忆管理、模型架构和缩放定律提供了深入见解。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10921)查看 PDF (https://arxiv.org/pdf/2605.10921)项目页面 (https://robomemarena.github.io/)GitHub1 (https://github.com/OpenHelix-Team/RoboMemArena)添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2605.10921)

在你的 agent 中获取此论文：

hf papers read 2605\.10921

还没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

暂无模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.10921 即可在此页面显示链接。

引用此论文的数据集0

暂无数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.10921 即可在此页面显示链接。

引用此论文的 Spaces0

暂无 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.10921 即可在此页面显示链接。

包含此论文的合集0

暂无合集包含此论文

将此论文添加到合集 (https://huggingface.co/new-collection) 即可在此页面显示链接。

RoboMemArena：一个全面且具挑战性的机器人记忆基准测试

论文页面 - RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的合集0

相似文章

WorldMemArena：通过动作-世界交互评估多模态智能体记忆

AdMem：面向任务求解智能体的高级记忆系统

MEME：多实体与动态记忆评估

我为编码智能体的“记忆”构建了一个基准测试，期待他人来挑战它

EvoArena：追踪记忆演化以实现动态环境中鲁棒的LLM智能体

提交意见反馈