real-world-tasks

#real-world-tasks

RLDX-1 技术报告

Hugging Face Daily Papers ↗ · 5天前缓存

RLDX-1 是一种用于灵巧操作的多功能机器人策略，采用多流动作 Transformer（Multi-Stream Action Transformer）架构来整合异构模态，在现实世界任务中超越了现有的 VLA 模型。

0 人收藏 0 人点赞

#real-world-tasks

Hugging Face Daily Papers ↗ · 2026-04-22 缓存

SkillLearnBench 推出首个评估 LLM 代理持续技能学习的基准，覆盖 20 项真实任务，结果显示尚无方法全面领先，单纯扩大模型规模也无法保证技能提升。

0 人收藏 0 人点赞

#real-world-tasks

Hugging Face Daily Papers ↗ · 2026-04-17 缓存

GTA-2 引入了一个分层基准，用于评估通用工具Agent在原子工具使用和开放式工作流中的表现，揭示了显著的能力鸿沟：前沿模型在复杂任务上仅取得14.39%的成功率，尽管在原子任务上表现尚可。

0 人收藏 0 人点赞

#real-world-tasks

OpenAI Blog ↗ · 2025-09-25 缓存

OpenAI 推出 GDPval，这是一个新的评估框架，用于衡量 AI 模型在涵盖美国 GDP 贡献最高的 9 个行业中 44 个职业的经济价值任务上的表现。该基准包括 1,320 个基于实际专业工作产物的专业化任务，代表了从学术基准向更现实的职业评估的进步。

0 人收藏 0 人点赞

#real-world-tasks

OpenAI Blog ↗ · 2025-02-18 缓存

OpenAI 推出 SWE-Lancer，这是一个包含超过 1,400 个来自 Upwork 的真实自由职业软件工程任务的基准测试，这些任务价值 100 万美元，旨在评估 AI 模型在实际工程工作中的性能，并将模型能力映射到经济价值。

0 人收藏 0 人点赞