BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
workflow-completion
标签
Cards
List
#workflow-completion
GTA-2:从原子工具使用到开放式工作流的通用工具Agent基准测试
Hugging Face Daily Papers
↗
· 2026-04-17
缓存
GTA-2 引入了一个分层基准,用于评估通用工具Agent在原子工具使用和开放式工作流中的表现,揭示了显著的能力鸿沟:前沿模型在复杂任务上仅取得14.39%的成功率,尽管在原子任务上表现尚可。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交