EBench：通用移动操作策略的基础诊断

Hugging Face Daily Papers 2026/06/20 00:00 论文

robotics mobile-manipulation benchmark foundation-models diagnosis evaluation generalization

摘要

EBench 是一个用于通用移动操作策略的诊断基准，提供跨越26个任务和4个泛化维度的多维度概况，揭示超出总体成功率的架构性优缺点。

我们提出 EBench，一个超越单一成功率标量来诊断通用移动操作策略的仿真基准。EBench 包含26个多样且具有挑战性的操作任务，这些任务沿5个能力维度和4个泛化维度进行标注。我们评估了最先进的通用操作模型，包括 π_0、π_{0.5}、XVLA 和 InternVLA-A1，并发现成功率相近的模型表现出截然不同的能力概况：π_{0.5} 实现了最高的测试成功率和最佳的训练-测试保持率，而 InternVLA-A1 在移动操作上占优但在灵巧任务上失效，XVLA 则在一组与其他策略不重叠的原子技能上表现出优势。除了能力概况分析外，EBench 还从4个代表性视角分析了泛化能力，识别了不同分布偏移因素的影响。结果揭示了模型在总体得分背后的优缺点。我们希望这个基准能够提供广泛的诊断信号，以指导通用操作模型的迭代。

查看原文

查看缓存全文

缓存时间: 2026/06/25 05:17

论文页面 - EBench：通用移动操作策略的要素诊断

来源：https://huggingface.co/papers/2606.18239
EBench 是为机器人基础模型量身定制的精准诊断工具。它提供的不是排行榜，而是你策略的 CAT 扫描。

以下解释了为什么该领域需要它，以及它实际上揭示了 π0、π0.5、Qwen-RobotManip 等模型的真相：

1/ “成功率”时代已经终结。

每一个机器人基准测试都会给你一个数字。而 EBench 给你的是一个画像。

26 个任务，5 个维度：操作模式、任务跨度、精度、原子技能、场景。外加 4 个泛化轴：物体、背景、指令、组合。

同一个模型可能在一个切面上看起来像天才，在另一个切面上却像蹒跚学步的孩子。聚合分数掩盖了一切。

image (https://cdn-uploads.huggingface.co/production/uploads/65d9f09bbcd15bc5cb255fed/At0-gfwSim9sudRQCkk_Y.png)

2/ “过拟合游戏”真实存在，EBench 将其揭露。

他们在 物体级别 严格执行训练-测试隔离：验证集-训练集 vs 验证集-未见集 vs 测试集。

画出验证到测试的性能迁移曲线，你立刻就能看出谁在真正泛化，谁只是在记忆训练分布。

π0.5 的验证-测试差距最小。这就是社区感觉它“擅长微调”的原因。数字终于解释了这种直觉。

image (https://cdn-uploads.huggingface.co/production/uploads/65d9f09bbcd15bc5cb255fed/-eMv2JoMOmumBQkownQ1Z.png)

3/ Qwen-RobotManip 刚刚拿下 #1，但故事在于结构性，而非单纯数字。

测试集成功率 45.6%，测试得分 60.8%。但查看五维分解：

移动操作：43.8%
灵巧操作：50.0%
短任务跨度：50.2%
长任务跨度：33.1%
低精度：50.6%
高精度：18.8% ← 仍然是瓶颈

这不是一个孤立的峰值，而是一个形状。这个形状明确告诉你下一步该优化哪里。

链接：

📄 论文：https://arxiv.org/pdf/2606.18239
💻 代码：https://github.com/InternRobotics/EBench
🏆 评估平台：https://internrobotics.shlab.org.cn/eval

EBench：通用移动操作策略的基础诊断

论文页面 - EBench：通用移动操作策略的要素诊断

相似文章

ESI-Bench：迈向闭环感知-行动的具身空间智能

AJ-Bench：面向环境感知评估的 Agent-as-a-Judge 评测基准

SkillEvolBench：从情景经验到程序技能的进化基准测试

EnterpriseClawBench：基于真实工作会话的智能体基准测试

MedBench v5：面向临床多模态模型的动态、过程导向且具有幻觉感知能力的基准测试

提交意见反馈