EBench:通用移动操作策略的基础诊断
摘要
EBench 是一个用于通用移动操作策略的诊断基准,提供跨越26个任务和4个泛化维度的多维度概况,揭示超出总体成功率的架构性优缺点。
查看缓存全文
缓存时间: 2026/06/25 05:17
论文页面 - EBench:通用移动操作策略的要素诊断
来源:https://huggingface.co/papers/2606.18239
EBench 是为机器人基础模型量身定制的精准诊断工具。它提供的不是排行榜,而是你策略的 CAT 扫描。
以下解释了为什么该领域需要它,以及它实际上揭示了 π0、π0.5、Qwen-RobotManip 等模型的真相:
1/ “成功率”时代已经终结。
每一个机器人基准测试都会给你一个数字。而 EBench 给你的是一个 画像。
26 个任务,5 个维度:操作模式、任务跨度、精度、原子技能、场景。外加 4 个泛化轴:物体、背景、指令、组合。
同一个模型可能在一个切面上看起来像天才,在另一个切面上却像蹒跚学步的孩子。聚合分数掩盖了一切。
image (https://cdn-uploads.huggingface.co/production/uploads/65d9f09bbcd15bc5cb255fed/At0-gfwSim9sudRQCkk_Y.png)
2/ “过拟合游戏”真实存在,EBench 将其揭露。
他们在 物体级别 严格执行训练-测试隔离:验证集-训练集 vs 验证集-未见集 vs 测试集。
画出验证到测试的性能迁移曲线,你立刻就能看出谁在真正泛化,谁只是在记忆训练分布。
π0.5 的验证-测试差距最小。这就是社区感觉它“擅长微调”的原因。数字终于解释了这种直觉。
image (https://cdn-uploads.huggingface.co/production/uploads/65d9f09bbcd15bc5cb255fed/-eMv2JoMOmumBQkownQ1Z.png)
3/ Qwen-RobotManip 刚刚拿下 #1,但故事在于结构性,而非单纯数字。
测试集成功率 45.6%,测试得分 60.8%。但查看五维分解:
- 移动操作:43.8%
- 灵巧操作:50.0%
- 短任务跨度:50.2%
- 长任务跨度:33.1%
- 低精度:50.6%
- 高精度:18.8% ← 仍然是瓶颈
这不是一个孤立的峰值,而是一个 形状。这个形状明确告诉你下一步该优化哪里。
链接:
- 📄 论文:https://arxiv.org/pdf/2606.18239
- 💻 代码:https://github.com/InternRobotics/EBench
- 🏆 评估平台:https://internrobotics.shlab.org.cn/eval
相似文章
ESI-Bench:迈向闭环感知-行动的具身空间智能
介绍了 ESI-BENCH,这是一个基于 OmniGibson 构建的全面具身空间智能基准,涵盖 10 个任务类别和 29 个子类别。实验表明,主动探索显著优于被动方法,失败主要源于行动盲视而非感知,揭示了模型与人类相比的元认知差距。
AJ-Bench:面向环境感知评估的 Agent-as-a-Judge 评测基准
AJ-Bench 提出一套评测基准,用于衡量 Agent-as-a-Judge 系统通过与环境交互来验证智能体行为的能力,覆盖搜索、数据系统与 GUI 领域的 155 项任务。
SkillEvolBench:从情景经验到程序技能的进化基准测试
SkillEvolBench 是一个诊断性基准,用于评估大语言模型代理是否能够将情景经验提炼为可重用的程序技能。它包含六个环境中的180个任务,并发现当前代理通常难以形成稳健的可重用技能,原始轨迹重用往往优于提炼后的技能。
EnterpriseClawBench:基于真实工作会话的智能体基准测试
EnterpriseClawBench 提出了一个基于真实工作场景的企业智能体基准,包含 852 个可复现任务以及超越单一性能分数的综合评估指标。
MedBench v5:面向临床多模态模型的动态、过程导向且具有幻觉感知能力的基准测试
MedBench v5 是一个面向临床多模态模型的动态、过程导向的基准测试,集成了幻觉检测和压力测试,超越静态问答,评估在信息流压力下的推理和稳定性。