open-ended

标签

Cards List
#open-ended

DailyReport:一个用于评估日常搜索任务中搜索代理的开放式基准

arXiv cs.AI · 17小时前 缓存

DailyReport 是一个开放式基准,用于评估搜索代理在日常生活搜索任务中的表现,包含150个任务和3,546条评分标准,可实现可解释的、以用户为中心的评估。

0 人收藏 0 人点赞
#open-ended

StatefulDiscovery: 开放端科学发现中基于证据校准的主张形成

arXiv cs.AI · 昨天 缓存

介绍StatefulDiscovery,一个用于开放端科学发现的框架,它利用外部化的调查状态来校准证据和主张,在生成得到充分支持的高价值主张方面优于基线方法。

0 人收藏 0 人点赞
#open-ended

@zheyuanzhang99:发布 AgentOdyssey——一款面向测试时持续学习智能体的开放式长程文本游戏生成引擎

X AI KOLs Timeline · 2026-04-20 缓存

AgentOdyssey 是一款开放式文本游戏生成引擎,专为持续学习智能体设计,打破训练与测试的界限。

0 人收藏 0 人点赞
#open-ended

GTA-2:从原子工具使用到开放式工作流的通用工具Agent基准测试

Hugging Face Daily Papers · 2026-04-17 缓存

GTA-2 引入了一个分层基准,用于评估通用工具Agent在原子工具使用和开放式工作流中的表现,揭示了显著的能力鸿沟:前沿模型在复杂任务上仅取得14.39%的成功率,尽管在原子任务上表现尚可。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈