DR^{3}-Eval: 迈向真实且可复现的深度研究评估

Hugging Face Daily Papers 论文

摘要

DR³-Eval 是一个基准测试,用于评估深度研究代理在多模态、多文件报告生成中的表现,它通过真实的网络环境模拟和全面的评估框架,衡量信息召回、事实准确性、引用覆盖率、指令遵循和深度质量。

深度研究代理(Deep Research Agents, DRAs)旨在解决涉及规划、检索、多模态理解和报告生成的复杂、长期研究任务,但由于动态网络环境和模糊的任务定义,其评估仍然具有挑战性。我们提出了 DR^{3}-Eval,这是一个用于评估深度研究代理在多模态、多文件报告生成中的真实且可复现的基准。DR^{3}-Eval 基于真实的用户提供材料构建,并配有一个每个任务的静态研究沙盒语料库,该语料库模拟开放网络的复杂性,同时保持完全可验证,包含支持性文档、干扰项和噪声。此外,我们引入了一个多维度评估框架,测量信息召回、事实准确性、引用覆盖率、指令遵循和深度质量,并验证其与人类判断的一致性。基于多个最先进语言模型开发的多代理系统 DR^{3}-Agent 的实验表明,DR^{3}-Eval 极具挑战性,并揭示了检索鲁棒性和幻觉控制中的关键失败模式。我们的代码和数据已公开提供。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:29

论文页面 - DR³-Eval:迈向真实且可复现的深度研究评估

来源:https://huggingface.co/papers/2604.14683 发布于 4 月 16 日

#2 今日论文 (https://huggingface.co/papers/date/2026-04-17) 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

DR^\{3\}-Eval 是一个用于评估深度研究智能体在多模态、多文件报告生成任务上的基准测试,它具备逼真的网络环境模拟和全面的评估框架。

深度研究智能体 (Deep Research Agents) (https://huggingface.co/papers?q=Deep%20Research%20Agents) 旨在解决涉及规划、检索、多模态理解 (https://huggingface.co/papers?q=multimodal%20understanding) 和报告生成 (https://huggingface.co/papers?q=report%20generation) 的复杂、长周期研究任务,然而,由于网络环境的动态性和任务定义的模糊性,对其评估仍然充满挑战。我们提出了 DR^{3}-Eval,这是一个用于评估深度研究智能体 (https://huggingface.co/papers?q=deep%20research%20agents) 在多模态、多文件报告生成 (https://huggingface.co/papers?q=report%20generation) 任务上性能的真实且可复现的基准测试。DR^{3}-Eval 基于真实的用户提供材料构建,并为每项任务配套了一个静态研究沙盒语料库 (https://huggingface.co/papers?q=research%20sandbox%20corpus),该语料库在模拟开放网络复杂性的同时保持完全可验证,其中包含支持性文档、干扰项和噪声。此外,我们引入了一个多维度评估框架 (https://huggingface.co/papers?q=multi-dimensional%20evaluation%20framework),用于衡量信息召回 (Information Recall) (https://huggingface.co/papers?q=Information%20Recall)、事实准确性 (Factual Accuracy) (https://huggingface.co/papers?q=Factual%20Accuracy)、引用覆盖率 (Citation Coverage) (https://huggingface.co/papers?q=Citation%20Coverage)、指令遵循 (Instruction Following) (https://huggingface.co/papers?q=Instruction%20Following) 和深度质量 (Depth Quality) (https://huggingface.co/papers?q=Depth%20Quality),并验证了其与人工判断的一致性。我们基于多个最先进语言模型 (state-of-the-art language models) (https://huggingface.co/papers?q=state-of-the-art%20language%20models) 开发了多智能体系统 (multi-agent system) (https://huggingface.co/papers?q=multi-agent%20system) DR^{3}-Agent,实验表明 DR^{3}-Eval 极具挑战性,并揭示了在检索鲁棒性和幻觉控制 (hallucination control) (https://huggingface.co/papers?q=hallucination%20control) 方面的关键失败模式。我们的代码和数据已公开提供。

查看 arXiv 页面 (https://arxiv.org/abs/2604.14683) 查看 PDF (https://arxiv.org/pdf/2604.14683) GitHub28 (https://github.com/NJU-LINK/DR3-Eval) 添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.14683)

在你的智能体中获取此论文:

hf papers read 2604\.14683

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2604.14683 以从此页面链接。

引用本文的数据集1

NJU-LINK/DR3-Eval 查看器 • 3 天前更新 • 100 • 1.98k • 1 (https://huggingface.co/datasets/NJU-LINK/DR3-Eval)

引用本文的 Space0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2604.14683 以从此页面链接。

包含本文的收藏集2

相似文章

Mind DeepResearch 技术报告

Hugging Face Daily Papers

# 论文页面 - Mind DeepResearch 技术报告 来源:[https://huggingface.co/papers/2604.14518](https://huggingface.co/papers/2604.14518) ## 摘要 MindDR 是一个高效的多智能体深度研究框架,通过协作式三智能体架构与专门设计的四阶段训练流程,在多个基准测试中取得优异成绩。我们提出 Mind DeepResearch(MindDR),一个高效的[多智能体深度研究框架](https://hug

DuMate-DeepResearch:一个可审计的多智能体系统,具备递归搜索与基于评分标准的推理

arXiv cs.AI

本技术报告介绍了DuMate-DeepResearch,一个用于深度研究任务的多智能体框架。该框架将智能体核心与工具生态系统解耦,并集成了基于图的动态规划、递归双层执行以及基于评分标准的测试时优化。该系统在两个深度研究基准测试中取得了最先进的结果,展示了可审计智能体基础设施的价值。

通过联合生成与评估实现自进化深度研究

arXiv cs.CL

来自香港科技大学、字节跳动和UCL的研究人员提出了SCORE——一种协同进化训练框架,将LLM同时训练为深度研究报告生成器和评估器,并通过元约束机制动态调整评估难度,防止奖励饱和。实验表明,该方法在开放式研究报告质量上取得了持续提升。

Evaluation Cards: 一种AI评估报告的解释层

Hugging Face Daily Papers

本文介绍了EvalCards,这是一种操作框架,通过将基准元数据、评估运行数据和模型元数据组合成一个统一记录,并包含可重现性、完整性、来源、风险和分数可比性的解释性信号,从而标准化AI评估报告。作者在数千个模型和基准测试中部署了一个监控工具,揭示了当前报告实践中的系统性差距。