DR^{3}-Eval: 迈向真实且可复现的深度研究评估
摘要
DR³-Eval 是一个基准测试,用于评估深度研究代理在多模态、多文件报告生成中的表现,它通过真实的网络环境模拟和全面的评估框架,衡量信息召回、事实准确性、引用覆盖率、指令遵循和深度质量。
查看缓存全文
缓存时间: 2026/04/20 08:29
论文页面 - DR³-Eval:迈向真实且可复现的深度研究评估
来源:https://huggingface.co/papers/2604.14683 发布于 4 月 16 日
#2 今日论文 (https://huggingface.co/papers/date/2026-04-17) 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
DR^\{3\}-Eval 是一个用于评估深度研究智能体在多模态、多文件报告生成任务上的基准测试,它具备逼真的网络环境模拟和全面的评估框架。
深度研究智能体 (Deep Research Agents) (https://huggingface.co/papers?q=Deep%20Research%20Agents) 旨在解决涉及规划、检索、多模态理解 (https://huggingface.co/papers?q=multimodal%20understanding) 和报告生成 (https://huggingface.co/papers?q=report%20generation) 的复杂、长周期研究任务,然而,由于网络环境的动态性和任务定义的模糊性,对其评估仍然充满挑战。我们提出了 DR^{3}-Eval,这是一个用于评估深度研究智能体 (https://huggingface.co/papers?q=deep%20research%20agents) 在多模态、多文件报告生成 (https://huggingface.co/papers?q=report%20generation) 任务上性能的真实且可复现的基准测试。DR^{3}-Eval 基于真实的用户提供材料构建,并为每项任务配套了一个静态研究沙盒语料库 (https://huggingface.co/papers?q=research%20sandbox%20corpus),该语料库在模拟开放网络复杂性的同时保持完全可验证,其中包含支持性文档、干扰项和噪声。此外,我们引入了一个多维度评估框架 (https://huggingface.co/papers?q=multi-dimensional%20evaluation%20framework),用于衡量信息召回 (Information Recall) (https://huggingface.co/papers?q=Information%20Recall)、事实准确性 (Factual Accuracy) (https://huggingface.co/papers?q=Factual%20Accuracy)、引用覆盖率 (Citation Coverage) (https://huggingface.co/papers?q=Citation%20Coverage)、指令遵循 (Instruction Following) (https://huggingface.co/papers?q=Instruction%20Following) 和深度质量 (Depth Quality) (https://huggingface.co/papers?q=Depth%20Quality),并验证了其与人工判断的一致性。我们基于多个最先进语言模型 (state-of-the-art language models) (https://huggingface.co/papers?q=state-of-the-art%20language%20models) 开发了多智能体系统 (multi-agent system) (https://huggingface.co/papers?q=multi-agent%20system) DR^{3}-Agent,实验表明 DR^{3}-Eval 极具挑战性,并揭示了在检索鲁棒性和幻觉控制 (hallucination control) (https://huggingface.co/papers?q=hallucination%20control) 方面的关键失败模式。我们的代码和数据已公开提供。
查看 arXiv 页面 (https://arxiv.org/abs/2604.14683) 查看 PDF (https://arxiv.org/pdf/2604.14683) GitHub28 (https://github.com/NJU-LINK/DR3-Eval) 添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.14683)
在你的智能体中获取此论文:
hf papers read 2604\.14683
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2604.14683 以从此页面链接。
引用本文的数据集1
NJU-LINK/DR3-Eval 查看器 • 3 天前更新 • 100 • 1.98k • 1 (https://huggingface.co/datasets/NJU-LINK/DR3-Eval)
引用本文的 Space0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2604.14683 以从此页面链接。
包含本文的收藏集2
相似文章
Mind DeepResearch 技术报告
# 论文页面 - Mind DeepResearch 技术报告 来源:[https://huggingface.co/papers/2604.14518](https://huggingface.co/papers/2604.14518) ## 摘要 MindDR 是一个高效的多智能体深度研究框架,通过协作式三智能体架构与专门设计的四阶段训练流程,在多个基准测试中取得优异成绩。我们提出 Mind DeepResearch(MindDR),一个高效的[多智能体深度研究框架](https://hug
DuMate-DeepResearch:一个可审计的多智能体系统,具备递归搜索与基于评分标准的推理
本技术报告介绍了DuMate-DeepResearch,一个用于深度研究任务的多智能体框架。该框架将智能体核心与工具生态系统解耦,并集成了基于图的动态规划、递归双层执行以及基于评分标准的测试时优化。该系统在两个深度研究基准测试中取得了最先进的结果,展示了可审计智能体基础设施的价值。
通过联合生成与评估实现自进化深度研究
来自香港科技大学、字节跳动和UCL的研究人员提出了SCORE——一种协同进化训练框架,将LLM同时训练为深度研究报告生成器和评估器,并通过元约束机制动态调整评估难度,防止奖励饱和。实验表明,该方法在开放式研究报告质量上取得了持续提升。
Evaluation Cards: 一种AI评估报告的解释层
本文介绍了EvalCards,这是一种操作框架,通过将基准元数据、评估运行数据和模型元数据组合成一个统一记录,并包含可重现性、完整性、来源、风险和分数可比性的解释性信号,从而标准化AI评估报告。作者在数千个模型和基准测试中部署了一个监控工具,揭示了当前报告实践中的系统性差距。
迈向可验证的多模态深度研究:一种用于交错报告生成的多智能体框架
本文提出 Ptah,一种多智能体框架,通过专门智能体和验证机制交错文本与视觉证据,生成可验证的多模态深度研究报告,并引入 PtahEval 进行评估。