DR^{3}-Eval: 迈向真实且可复现的深度研究评估

Hugging Face Daily Papers 2026/04/16 00:00 论文

摘要

DR³-Eval 是一个基准测试，用于评估深度研究代理在多模态、多文件报告生成中的表现，它通过真实的网络环境模拟和全面的评估框架，衡量信息召回、事实准确性、引用覆盖率、指令遵循和深度质量。

深度研究代理（Deep Research Agents, DRAs）旨在解决涉及规划、检索、多模态理解和报告生成的复杂、长期研究任务，但由于动态网络环境和模糊的任务定义，其评估仍然具有挑战性。我们提出了 DR^{3}-Eval，这是一个用于评估深度研究代理在多模态、多文件报告生成中的真实且可复现的基准。DR^{3}-Eval 基于真实的用户提供材料构建，并配有一个每个任务的静态研究沙盒语料库，该语料库模拟开放网络的复杂性，同时保持完全可验证，包含支持性文档、干扰项和噪声。此外，我们引入了一个多维度评估框架，测量信息召回、事实准确性、引用覆盖率、指令遵循和深度质量，并验证其与人类判断的一致性。基于多个最先进语言模型开发的多代理系统 DR^{3}-Agent 的实验表明，DR^{3}-Eval 极具挑战性，并揭示了检索鲁棒性和幻觉控制中的关键失败模式。我们的代码和数据已公开提供。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:29

论文页面 - DR³-Eval：迈向真实且可复现的深度研究评估

来源：https://huggingface.co/papers/2604.14683 发布于 4 月 16 日

#2 今日论文 (https://huggingface.co/papers/date/2026-04-17) 作者：

摘要

DR $^\{3\}$ -Eval 是一个用于评估深度研究智能体在多模态、多文件报告生成任务上的基准测试，它具备逼真的网络环境模拟和全面的评估框架。

深度研究智能体 (Deep Research Agents) (https://huggingface.co/papers?q=Deep%20Research%20Agents) 旨在解决涉及规划、检索、多模态理解 (https://huggingface.co/papers?q=multimodal%20understanding) 和报告生成 (https://huggingface.co/papers?q=report%20generation) 的复杂、长周期研究任务，然而，由于网络环境的动态性和任务定义的模糊性，对其评估仍然充满挑战。我们提出了 DR^{3}-Eval，这是一个用于评估深度研究智能体 (https://huggingface.co/papers?q=deep%20research%20agents) 在多模态、多文件报告生成 (https://huggingface.co/papers?q=report%20generation) 任务上性能的真实且可复现的基准测试。DR^{3}-Eval 基于真实的用户提供材料构建，并为每项任务配套了一个静态研究沙盒语料库 (https://huggingface.co/papers?q=research%20sandbox%20corpus)，该语料库在模拟开放网络复杂性的同时保持完全可验证，其中包含支持性文档、干扰项和噪声。此外，我们引入了一个多维度评估框架 (https://huggingface.co/papers?q=multi-dimensional%20evaluation%20framework)，用于衡量信息召回 (Information Recall) (https://huggingface.co/papers?q=Information%20Recall)、事实准确性 (Factual Accuracy) (https://huggingface.co/papers?q=Factual%20Accuracy)、引用覆盖率 (Citation Coverage) (https://huggingface.co/papers?q=Citation%20Coverage)、指令遵循 (Instruction Following) (https://huggingface.co/papers?q=Instruction%20Following) 和深度质量 (Depth Quality) (https://huggingface.co/papers?q=Depth%20Quality)，并验证了其与人工判断的一致性。我们基于多个最先进语言模型 (state-of-the-art language models) (https://huggingface.co/papers?q=state-of-the-art%20language%20models) 开发了多智能体系统 (multi-agent system) (https://huggingface.co/papers?q=multi-agent%20system) DR^{3}-Agent，实验表明 DR^{3}-Eval 极具挑战性，并揭示了在检索鲁棒性和幻觉控制 (hallucination control) (https://huggingface.co/papers?q=hallucination%20control) 方面的关键失败模式。我们的代码和数据已公开提供。

查看 arXiv 页面 (https://arxiv.org/abs/2604.14683) 查看 PDF (https://arxiv.org/pdf/2604.14683) GitHub28 (https://github.com/NJU-LINK/DR3-Eval) 添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.14683)

在你的智能体中获取此论文：

hf papers read 2604\.14683

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2604.14683 以从此页面链接。

引用本文的数据集1

NJU-LINK/DR3-Eval 查看器 • 3 天前更新 • 100 • 1.98k • 1 (https://huggingface.co/datasets/NJU-LINK/DR3-Eval)

引用本文的 Space0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2604.14683 以从此页面链接。

DR^{3}-Eval: 迈向真实且可复现的深度研究评估

论文页面 - DR³-Eval：迈向真实且可复现的深度研究评估

摘要

引用本文的模型0

引用本文的数据集1

NJU-LINK/DR3-Eval 查看器 • 3 天前更新 • 100 • 1.98k • 1 (https://huggingface.co/datasets/NJU-LINK/DR3-Eval)

引用本文的 Space0

包含本文的收藏集2

相似文章

Mind DeepResearch 技术报告

DuMate-DeepResearch：一个可审计的多智能体系统，具备递归搜索与基于评分标准的推理

通过联合生成与评估实现自进化深度研究

Evaluation Cards: 一种AI评估报告的解释层

迈向可验证的多模态深度研究：一种用于交错报告生成的多智能体框架

提交意见反馈