workflow-completion

标签

Cards List
#workflow-completion

GTA-2:从原子工具使用到开放式工作流的通用工具Agent基准测试

Hugging Face Daily Papers · 2026-04-17 缓存

GTA-2 引入了一个分层基准,用于评估通用工具Agent在原子工具使用和开放式工作流中的表现,揭示了显著的能力鸿沟:前沿模型在复杂任务上仅取得14.39%的成功率,尽管在原子任务上表现尚可。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈