open-ended

#open-ended

DailyReport：一个用于评估日常搜索任务中搜索代理的开放式基准

arXiv cs.AI ↗ · 17小时前缓存

DailyReport 是一个开放式基准，用于评估搜索代理在日常生活搜索任务中的表现，包含150个任务和3,546条评分标准，可实现可解释的、以用户为中心的评估。

0 人收藏 0 人点赞

#open-ended

arXiv cs.AI ↗ · 昨天缓存

介绍StatefulDiscovery，一个用于开放端科学发现的框架，它利用外部化的调查状态来校准证据和主张，在生成得到充分支持的高价值主张方面优于基线方法。

0 人收藏 0 人点赞

#open-ended

X AI KOLs Timeline ↗ · 2026-04-20 缓存

AgentOdyssey 是一款开放式文本游戏生成引擎，专为持续学习智能体设计，打破训练与测试的界限。

0 人收藏 0 人点赞

#open-ended

Hugging Face Daily Papers ↗ · 2026-04-17 缓存

GTA-2 引入了一个分层基准，用于评估通用工具Agent在原子工具使用和开放式工作流中的表现，揭示了显著的能力鸿沟：前沿模型在复杂任务上仅取得14.39%的成功率，尽管在原子任务上表现尚可。

0 人收藏 0 人点赞