real-world-tasks

标签

Cards List
#real-world-tasks

RLDX-1 技术报告

Hugging Face Daily Papers · 5天前 缓存

RLDX-1 是一种用于灵巧操作的多功能机器人策略,采用多流动作 Transformer(Multi-Stream Action Transformer)架构来整合异构模态,在现实世界任务中超越了现有的 VLA 模型。

0 人收藏 0 人点赞
#real-world-tasks

SkillLearnBench:面向真实任务代理技能生成的持续学习方法基准

Hugging Face Daily Papers · 2026-04-22 缓存

SkillLearnBench 推出首个评估 LLM 代理持续技能学习的基准,覆盖 20 项真实任务,结果显示尚无方法全面领先,单纯扩大模型规模也无法保证技能提升。

0 人收藏 0 人点赞
#real-world-tasks

GTA-2:从原子工具使用到开放式工作流的通用工具Agent基准测试

Hugging Face Daily Papers · 2026-04-17 缓存

GTA-2 引入了一个分层基准,用于评估通用工具Agent在原子工具使用和开放式工作流中的表现,揭示了显著的能力鸿沟:前沿模型在复杂任务上仅取得14.39%的成功率,尽管在原子任务上表现尚可。

0 人收藏 0 人点赞
#real-world-tasks

衡量我们的模型在实际任务中的性能

OpenAI Blog · 2025-09-25 缓存

OpenAI 推出 GDPval,这是一个新的评估框架,用于衡量 AI 模型在涵盖美国 GDP 贡献最高的 9 个行业中 44 个职业的经济价值任务上的表现。该基准包括 1,320 个基于实际专业工作产物的专业化任务,代表了从学术基准向更现实的职业评估的进步。

0 人收藏 0 人点赞
#real-world-tasks

推介 SWE-Lancer 基准测试

OpenAI Blog · 2025-02-18 缓存

OpenAI 推出 SWE-Lancer,这是一个包含超过 1,400 个来自 Upwork 的真实自由职业软件工程任务的基准测试,这些任务价值 100 万美元,旨在评估 AI 模型在实际工程工作中的性能,并将模型能力映射到经济价值。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈