标签
DailyReport 是一个开放式基准,用于评估搜索代理在日常生活搜索任务中的表现,包含150个任务和3,546条评分标准,可实现可解释的、以用户为中心的评估。
介绍StatefulDiscovery,一个用于开放端科学发现的框架,它利用外部化的调查状态来校准证据和主张,在生成得到充分支持的高价值主张方面优于基线方法。
AgentOdyssey 是一款开放式文本游戏生成引擎,专为持续学习智能体设计,打破训练与测试的界限。
GTA-2 引入了一个分层基准,用于评估通用工具Agent在原子工具使用和开放式工作流中的表现,揭示了显著的能力鸿沟:前沿模型在复杂任务上仅取得14.39%的成功率,尽管在原子任务上表现尚可。