DailyReport:一个用于评估日常搜索任务中搜索代理的开放式基准

arXiv cs.AI 论文

摘要

DailyReport 是一个开放式基准,用于评估搜索代理在日常生活搜索任务中的表现,包含150个任务和3,546条评分标准,可实现可解释的、以用户为中心的评估。

arXiv:2606.12871v1 Announce Type: new Abstract: 搜索代理(SA)通常利用大型语言模型(LLM),通过自主探索网络来源并将信息综合成全面响应,来支持复杂的信息检索任务。对于搜索代理的评估,先前的基准主要关注不太可能出现在真实用户场景中的专业任务。此外,它们依赖粗略的任务级评分标准,往往限制了评估的可解释性。为了弥补这一差距,我们提出了 DailyReport,一个用于评估搜索代理在日常搜索任务中能力的开放式基准。它包含150个开放式任务和3,546条相关评分标准,捕捉了真实用户广泛讨论和及时的信息需求。每个任务被分解为子任务,并通过级联评分标准在解耦的维度上进行评估。通过级联性能归因和以用户为中心的聚合,我们得出了每个维度的高度可解释的分数,以及一个用户偏好分数。我们在17个代理系统上的结果表明,当前系统仍未能达到用户的期望。为了促进未来研究,我们的数据集和代码已公开在 https://github.com/AGI-Eval-Official/DailyReport。
查看原文
查看缓存全文

缓存时间: 2026/06/12 08:54

# DailyReport: 一个用于评估搜索助手在日常搜索任务中表现的开源基准测试

来源:https://arxiv.org/html/2606.12871

韩靖轩1,∗,‡,刘威2,∗,朱明阳2,∗,王友鹏1,‡,王子文2,邱林2,†,曹学智2,蔡训亮2,傅哲忍1,张立成1,毛振东1,§  
1中国科学技术大学 2美团  
\{hjx999222, wyp220517\}@mail.ustc.edu.cn \{liuwei304, zhumingyang09\}@meituan.com  
∗同等贡献。†项目负责人。§通讯作者。‡工作于实习期间完成。

###### 摘要

搜索助手(Search Agents, SAs)通常利用大型语言模型(LLMs)通过自主探索网络资源并将信息综合成全面响应,来支持复杂的信息寻求任务。在SA评估方面,先前的基准测试主要集中在不太可能出现在真实用户场景中的专业任务上。此外,它们依赖于粗略的任务级评分标准,往往限制了评估的可解释性。为弥补这一差距,我们引入了DailyReport,一个用于评估SA在日常搜索任务上能力的开放式基准测试。它包含150个开放式任务及3546条相关评分标准,捕捉真实用户广泛讨论且时效性强的信息需求。每个任务被分解为子任务,并在解耦维度上采用级联评分标准进行评估。通过级联性能归因和以用户为中心的聚合,我们为每个维度推导出高可解释性的分数,以及一个用户偏好分数。我们在17个智能系统上的结果表明,当前系统仍未达到用户的期望。为促进未来研究,我们的数据集和代码已公开发布在 https://github.com/AGI-Eval-Official/DailyReport。

## 1 引言

随着开放域网络代理的兴起,信息搜索正从传统的关键词检索转向智能化的研究。搜索助手(SAs)因此应运而生,通过广泛的网络探索和长程推理来解决用户的信息需求(Huang等人, 2025)。这些代理可以探索数百个网络来源,并将异构信息综合成全面的响应(Wang等人, 2025)。随着这些智能系统能力日益增强,评估它们进行大规模信息收集和推理的能力变得至关重要。

最近,已经推出了几个用于评估SAs的基准测试(Fan等人, 2025)。在任务构建方面,大多数工作(Wei等人, 2025; Du等人, 2025; Abaskohi等人, 2025; Sharma等人, 2025)依赖领域专家来构建专业的研究任务。这些任务主要评估代理在特定领域内经过过度处理或专业性的问题,这些问题不太可能出现在现实场景中。此外,它们的静态设计无法捕捉不断变化的现实世界信息需求,并引发了对潜在数据污染的担忧。在评估方面,现有研究(Xu等人, 2025; Li等人, 2026)通常定义粗粒度维度上的任务级评分标准,并线性聚合分数。这往往损害了评估的可解释性,也无法从用户角度量化性能。

![图1: DailyReport结构。我们构建日常搜索任务和级联评分标准来评估搜索助手。](https://arxiv.org/html/2606.12871#S1.F1)

**图1:DailyReport结构。我们构建日常搜索任务和级联评分标准来评估搜索助手。**

在这项工作中,我们提出了DailyReport,一个用于评估SAs在日常搜索任务上表现的开源基准测试。与以往专注于专业领域问题的基准测试不同,DailyReport主要评估代理是否能够可靠地满足普通用户及时且实用的信息需求。它从热门平台(如微博、Facebook)的热门话题和用户评论中提取任务,捕捉来自真实日常用户环境中广泛讨论的信息需求。DailyReport包含150个任务(分为两种类型)和3546条相关评分标准。这些任务涵盖10个高层领域和35个细粒度类别,通过多层分类反映广泛的用户兴趣。基于时效性强的热门话题,DailyReport还支持持续更新以反映现实场景中不断变化的用户需求。

我们为SAs在这些任务上开发了一个以用户为中心的级联评估流程。考虑一个真实的用户查询:“列出2026年QS世界大学排名前100中的中国大学,并分析它们各自的优缺点。”如果代理未能正确识别出这些大学,那么任何后续分析对用户来说都变得毫无意义。这表明评分标准不应跨维度独立处理,并且不同的任务组件从用户角度看具有层次优先级。在我们的流程中,我们将每个任务分解为子任务,并沿三个解耦维度设计级联评分标准。我们首先评估子任务在指令遵循维度上的表现,然后据此评估事实性和合理性。最后,我们应用级联性能归因来推导可解释的维度分数,并进一步将子任务重要性纳入以用户为中心的性能聚合中,以显式量化用户偏好。

我们使用DailyReport评估了来自三个组的17个智能系统。结果表明,现有代理在指令遵循方面表现良好,但在事实性和合理性方面仍有困难。值得注意的是,它们的用户偏好分数仍然非常有限,揭示了当前SA输出与用户感知期望之间的明显差距。我们进行了详细的求解轨迹分析,以帮助诊断潜在的失败模式,并为未来SA的进步提供有价值的指导。DailyReport的结构如图1所示。

总之,我们的贡献如下:

-   •我们提出了DailyReport,一个用于评估SAs在日常搜索任务上表现的基准测试。这些任务基于真实场景,反映真实的用户需求。DailyReport包含150个任务和3546条评分标准,由超过500小时的人工标注支持。
-   •我们引入了一个以用户为中心的级联评估流程。它使用沿解耦维度的级联评分标准计算子任务性能,然后据此实现可解释的维度评估和显式的用户偏好量化。
-   •我们对来自三个组的17个前沿智能系统进行了彻底的实证评估。结果揭示了当前搜索助手的关键优势和局限性。

## 2 相关工作

### 2.1 搜索助手基准测试

随着SA的发展,已经出现了几个评估其能力的基准测试。第一组(Chen等人, 2025; Li等人, 2025; Song等人, 2025; Wu等人, 2026)针对固定答案任务,评估信息检索和多步推理。BrowseComp(Wei等人, 2025)作为评估网络浏览能力的基础性工作。WideSearch(Wong等人, 2025)专注于需要收集大量原子事实的宽上下文信息聚合。第二组(Bigeard等人, 2025; Lyu等人, 2025; Huang等人, 2026)通过综合报告生成来评估代理。DeepResearch Bench(Du等人, 2025)提出了两个互补框架,分别评估报告质量和检索能力。DeepResearch Bench II(Li等人, 2026)从信誉良好的开放获取场所收集专家撰写的调查报告,并遵循类似的领域分布构建研究型任务。LiveResearchBench(Wang等人, 2025)试图使任务与日常用户需求保持一致,但主要仍以美国为中心,区域覆盖有限。如表1所示,与先前工作相比,我们的基准测试采用了与真实世界用户需求一致的最新日常搜索任务。它采用沿解耦维度的级联评分标准,实现了SA评估中可解释的性能归因和用户偏好量化。

| 方法 | 开放式任务格式 | 日常用户需求 | 最新且动态演变 | 解耦评估维度 | 级联评估评分标准 | 量化用户偏好 |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| BrowseComp | × | × | × | ✓ | × | × |
| WideSearch | × | × | × | ✓ | × | × |
| DeepResearch Bench | ✓ | × | × | × | × | × |
| DeepResearch Bench II | ✓ | × | × | × | × | × |
| LiveResearchBench | ✓ | ✓ | ✓ | × | × | × |
| ResearchRubrics | ✓ | × | × | × | × | × |
| DailyReport (我们的) | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |

**表1:代表性基准测试在任务导向维度(前三列)和评估导向维度(后三列)上的比较。**

### 2.2 搜索助手

LLMs的显著进步加速了SA的发展(Zhou等人, 2025; Xi等人, 2025),特别是用于具有挑战性的报告生成任务的深度研究代理(Deep Research Agents, DRAs)。LangChain的Deep Researcher(LearningCircuit, 2025)执行多步网络搜索并在本地综合信息以生成响应。DeepResearcher(Zheng等人, 2025)通过真实的网络搜索交互进行强化学习以训练代理。通义深度研究(通义团队, 2025)结合了智能的中期训练和后期训练,实现了跨复杂任务的可扩展推理和信息搜索。同时,最近的生产级代理,包括Gemini(Google, 2025)、Grok(xAI, 2025)和Qwen深度研究(团队, 2025),已经展示了执行多步网络探索和综合研究报告的能力。基于这些工作,DailyReport系统地分析了当前SAs的能力和局限性,以进一步推动该领域的发展。

## 3 DailyReport基准测试

![图2:DailyReport中日常搜索任务的详细特征。该基准测试包含150个专家策划的任务,带有3546条详细的评分标准,涵盖10个高层领域和35个细粒度类别。它在日常用户场景中评估搜索助手,与主导的真实世界用户需求紧密对齐。](https://arxiv.org/html/2606.12871#S3.F2)

**图2:DailyReport中日常搜索任务的详细特征。该基准测试包含150个专家策划的任务,带有3546条详细的评分标准,涵盖10个高层领域和35个细粒度类别。它在日常用户场景中评估搜索助手,与主导的真实世界用户需求紧密对齐。**

### 3.1 任务特征

图2提供了DailyReport的详细任务特征。与现有研究相比,它具有以下独特特征:

- 任务植根于现实场景,能更好地捕捉用户的日常搜索需求。例如,图2中关于QS排名的搜索任务源自招生季的真实热门话题。它直接反映了用户在大学选择和学业规划方面的实际兴趣。此外,这些任务被构造成涵盖多个相关子问题的广泛查询,用于报告生成,这更符合典型用户在现实中搜索其需求的方式。
- 任务基于最新的热门话题,并持续演变。如图2所示,这些任务始终基于近期的真实世界事件,并定期更新。这要求代理在用户相关的热门话题上进行迭代搜索,而不是仅仅依赖LLM的内部知识。

### 3.2 任务构建

任务构建过程主要由招募的人类专家分三个阶段进行:(1) 热门话题选择;(2) 专家策划任务制定;(3) 混合话题标注。

##### 热门话题收集

为了将任务植根于现实场景,我们主要从西方主流平台(如Facebook、Reddit、Twitter)和中文平台(如微博、小红书、知乎)选择热门话题。收集的话题信息包括热门事件帖子和相应的用户评论,确保对真实用户信息需求具有多样性和区域代表性的覆盖。

##### 专家策划任务制定

我们招募人类专家从每个话题报告及其用户评论中制定日常搜索任务。这一过程产生了150个开放式任务,用于评估代理是否能够可靠地满足真实用户及时且实用的信息需求。我们为任务制定设定了以下要求:

-   •原则:(1) 真实性:任务必须逼真,反映特定用户群体的真实信息需求。(2) 清晰性:任务描述严格避免模糊措辞,确保指令精确。(3) 安全性:任务应无害,以避免被安全机制拒绝。
-   •类型:(1) 100个检索型任务,侧重于检索和整合关于指定实体的客观信息,仅需轻量分析。(2) 50个分析型任务,侧重于更广泛的主观话题,要求SA自主识别相关信息进行深入分析。

##### 混合任务标注

考虑到日常领域的多样性,标注者进行混合任务标注。他们首先将每个任务分类为35个细粒度类别,然后将这些类别合并为10个高层领域。细粒度类别代表特定的用户兴趣(如教育),而高层领域代表更广泛的领域(如社会民生)。

### 3.3 评分标准生成

我们将每个任务分解为子任务,并为每个子任务在解耦维度上生成级联评分标准。该过程结合了基于LLM的生成和广泛的人类精炼,同时也支持完全的基于LLM的自动化。

相似文章

DR^{3}-Eval: 迈向真实且可复现的深度研究评估

Hugging Face Daily Papers

DR³-Eval 是一个基准测试,用于评估深度研究代理在多模态、多文件报告生成中的表现,它通过真实的网络环境模拟和全面的评估框架,衡量信息召回、事实准确性、引用覆盖率、指令遵循和深度质量。

DuMate-DeepResearch:一个可审计的多智能体系统,具备递归搜索与基于评分标准的推理

arXiv cs.AI

本技术报告介绍了DuMate-DeepResearch,一个用于深度研究任务的多智能体框架。该框架将智能体核心与工具生态系统解耦,并集成了基于图的动态规划、递归双层执行以及基于评分标准的测试时优化。该系统在两个深度研究基准测试中取得了最先进的结果,展示了可审计智能体基础设施的价值。

ResearchClawBench:面向端到端自主科学研究的基准测试

Hugging Face Daily Papers

ResearchClawBench 是一个用于评估端到端自主科学研究的基准测试,涵盖来自10个领域的40个任务,结果显示当前AI智能体和LLM的重新发现准确率较低,其中Claude Code平均得分为21.5,Claude-Opus-4.7平均得分为20.7(在可能的总分中)。