标签
RLDX-1 是一种用于灵巧操作的多功能机器人策略,采用多流动作 Transformer(Multi-Stream Action Transformer)架构来整合异构模态,在现实世界任务中超越了现有的 VLA 模型。
SkillLearnBench 推出首个评估 LLM 代理持续技能学习的基准,覆盖 20 项真实任务,结果显示尚无方法全面领先,单纯扩大模型规模也无法保证技能提升。
GTA-2 引入了一个分层基准,用于评估通用工具Agent在原子工具使用和开放式工作流中的表现,揭示了显著的能力鸿沟:前沿模型在复杂任务上仅取得14.39%的成功率,尽管在原子任务上表现尚可。
OpenAI 推出 GDPval,这是一个新的评估框架,用于衡量 AI 模型在涵盖美国 GDP 贡献最高的 9 个行业中 44 个职业的经济价值任务上的表现。该基准包括 1,320 个基于实际专业工作产物的专业化任务,代表了从学术基准向更现实的职业评估的进步。
OpenAI 推出 SWE-Lancer,这是一个包含超过 1,400 个来自 Upwork 的真实自由职业软件工程任务的基准测试,这些任务价值 100 万美元,旨在评估 AI 模型在实际工程工作中的性能,并将模型能力映射到经济价值。