是时候 REFLECT 了:我们能信任 LLM 评判者来评估基于证据的研究代理吗?
摘要
本文介绍了 REFLECT,这是一个用于评估 LLM 评判者在深度研究代理评估中可靠性的元评估基准。实验表明,当前的 LLM 评判者仍然不可靠,在推理、工具使用和报告质量失败方面的整体准确率低于 55%。
arXiv:2605.19196v1 公告类型:新
摘要:深度研究代理日益自动化复杂的信息检索任务,通过多步推理、工具使用和综合生成基于证据的报告。它们日益增长的作用需要可扩展、可靠的评估,将LLM作为评判者定位为一种监督范式,用于评估事实准确性、证据使用和推理质量。然而,这些评判者对深度研究代理的可靠性仍知之甚少,这提出了一个关键的元评估问题:在部署LLM评判者来监督研究代理之前,我们必须首先评估评判者本身。现有的元评估存在两个不足:(1)依赖粗略、主观的人类偏好一致性;(2)专注于指令遵循或可验证任务,未探索开放的代理执行。为了解决这些差距,我们引入了REFLECT(通过受控干预实现可靠细粒度LLM评判者评估),这是一个针对代理环境中细粒度故障检测的元评估基准。REFLECT定义了过程和结果层面故障模式的详细分类,通过对质量筛选的代理执行轨迹进行受控和局部干预来实例化。这产生了可验证、全面且细粒度的实例来验证评判模型。我们的实验表明,当前的LLM评判者仍然不可靠:即使性能最好的模型在推理、工具使用和报告质量故障方面的整体准确率也低于55%,在证据验证方面表现尤其差。我们的分类和发现共同揭示了评判者的系统局限性,揭示了成本和可靠性之间的权衡,并为构建更可靠的深度研究代理评估管道提供了可操作的指导。
查看缓存全文
缓存时间: 2026/05/20 08:24
# 我们能信任用于基于证据的研究代理的LLM评估者吗? 来源:https://arxiv.org/html/2605.19196 Leyao Wang¹,♡,† Yanan He¹,♡,† Peng Chen¹,† Asaf Yehudai²,† Yixin Liu¹ Rex Ying¹ Michal Shmueli-Scheuer² Arman Cohan¹,† ¹耶鲁大学 ²IBM研究院 \{leyao.wang.lw855, yanan.he, peng.chen.pc838, yixin.liu, rex.ying, arman.cohan\}@yale.edu [email protected], [email protected] ♡♡共同第一作者。††核心贡献者。 ###### 摘要 深度研究代理越来越多地自动化复杂的信息寻求任务,通过多步推理、工具使用和综合生成有证据支持的报告。它们日益增长的角色需要可扩展、可靠的评估,将LLM作为评估者定位为评估事实准确性、证据使用和推理质量的监督范式。然而,这些评估者在深度研究代理中的可靠性仍然知之甚少,这构成了一个关键的元评估问题:在部署LLM评估者来监督研究代理之前,我们必须首先评估评估者本身。现有的元评估在两个方面存在不足:(1) 依赖于粗粒度的、主观的人类偏好一致性;(2) 专注于指令遵循或可验证任务,未探索开放式的代理执行。为了解决这些差距,我们引入了Reflect(通过可控干预进行可靠的细粒度LLM评估者评估),这是一个针对代理环境中细粒度故障检测的元评估基准。Reflect定义了一个详细的过程级和结果级故障模式分类体系,通过对质量筛选后的代理执行轨迹进行可控和局部干预来实例化。这产生了可验证、全面且细粒度的实例,用于验证评估模型。我们的实验表明,当前的LLM评估者仍然不可靠:即使在推理、工具使用和报告质量故障方面,表现最好的模型整体准确率也低于55%,在证据验证方面表现尤其差。我们的分类体系和发现共同揭示了评估者的系统性局限,揭示了成本与可靠性之间的权衡,并为构建更可靠的深度研究代理评估流程提供了可操作的建议。††脚注:查看完整作者贡献请见这里 (https://arxiv.org/html/2605.19196#S6)。
## 1 引言
深度研究代理对于自动化复杂的信息寻求任务越来越重要。它们可以通过浏览器交互、推理和综合来研究开放式问题,最终生成有证据支持的长篇报告[34 (https://arxiv.org/html/2605.19196#bib.bib34), 23 (https://arxiv.org/html/2605.19196#bib.bib23), 52 (https://arxiv.org/html/2605.19196#bib.bib52), 43 (https://arxiv.org/html/2605.19196#bib.bib43)]。随着这些代理越来越多地用于现实研究流程,严格的评估变得至关重要,这促使了最近的基准测试评估长篇报告生成、研究工具集成和研究过程质量[6 (https://arxiv.org/html/2605.19196#bib.bib6), 17 (https://arxiv.org/html/2605.19196#bib.bib17), 5 (https://arxiv.org/html/2605.19196#bib.bib5), 49 (https://arxiv.org/html/2605.19196#bib.bib49), 54 (https://arxiv.org/html/2605.19196#bib.bib54)]。然而,评估仍然具有挑战性:最终报告是长篇且知识密集型的,使得引用的来源难以验证;执行轨迹是多步、开放且难以审计的,使得评估一个流畅的报告是否真正反映了良好的检索和有充分支持的声明变得困难。
参见标题
图1:Reflect中推理过程(N=140)、工具使用(N=132)和结果级(N=200)错误类型的数据分布。外环表示深度研究代理的高级故障维度及其相应比例,内环将每个维度分解为由我们的分类体系定义的细粒度错误类型,该分类体系总结自先前工作(见表4 (https://arxiv.org/html/2605.19196#A1.T4)),并通过自然展开的案例研究进一步验证(见附录D (https://arxiv.org/html/2605.19196#A4))。
这样的挑战使得对整个研究轨迹进行人工评估成本高昂且在大规模上不可行,从而促使LLM作为评估者成为一种可扩展的监督范式,用于评估报告质量、工具集成和中间推理过程[63 (https://arxiv.org/html/2605.19196#bib.bib63), 26 (https://arxiv.org/html/2605.19196#bib.bib26), 7 (https://arxiv.org/html/2605.19196#bib.bib7), 6 (https://arxiv.org/html/2605.19196#bib.bib6), 5 (https://arxiv.org/html/2605.19196#bib.bib5), 17 (https://arxiv.org/html/2605.19196#bib.bib17), 54 (https://arxiv.org/html/2605.19196#bib.bib54)]。相关工作进一步使用LLM评估者或奖励模型来监督搜索行为、逐步推理和引文感知的训练信号[58 (https://arxiv.org/html/2605.19196#bib.bib58), 44 (https://arxiv.org/html/2605.19196#bib.bib44), 59 (https://arxiv.org/html/2605.19196#bib.bib59), 18 (https://arxiv.org/html/2605.19196#bib.bib18), 61 (https://arxiv.org/html/2605.19196#bib.bib61), 45 (https://arxiv.org/html/2605.19196#bib.bib45)]。然而,这些评估者在评估深度研究代理时的可靠性仍然知之甚少,这构成了一个关键的元评估问题[27 (https://arxiv.org/html/2605.19196#bib.bib27)]:在部署LLM评估者来监督研究代理之前,我们必须首先评估评估者本身。
然而,现有的元评估协议不适合评估深度研究代理设置中的评估者可靠性。先前的工作通过衡量与人类评分、排名或对模型输出的成对偏好的一致性来验证自动评估者[20 (https://arxiv.org/html/2605.19196#bib.bib20), 10 (https://arxiv.org/html/2605.19196#bib.bib10), 5 (https://arxiv.org/html/2605.19196#bib.bib5), 55 (https://arxiv.org/html/2605.19196#bib.bib55)]。这种范式对于基于证据的研究代理留下了三个关键差距:
(1) 粗粒度和主观标签。整体偏好表明人类更喜欢哪个输出,但几乎不能揭示评估者检测到或遗漏了哪些具体故障。
(2) 开放式任务中缺乏真实标签。先前的元评估针对具有可验证答案的设置,如数学、编码或事实问答。深度研究代理则在没有单一正确答案或规范轨迹的开放式设置中运行,这使得为检索、工具使用、推理和综合构建可靠标签变得困难。
(3) 过程级执行的覆盖不足。现有的协议根据对最终输出的粗粒度人工判断来评估评估者,对于LLM评估者是否能检测到过程级故障(如证据收集不佳或工具误用)提供的洞察有限。
为了解决这些差距,我们引入了Reflect(通过可控干预进行可靠的细粒度LLM评估者评估),这是一个针对非可验证代理执行中LLM评估者细粒度故障检测的元评估基准。Reflect提供三个关键优势:
(1) 可验证的真实标签:不是依赖主观人类偏好,我们对质量筛选后的代理轨迹和报告进行可控、局部干预,使得标签客观且通过构建直接可验证。
(2) 全面且真实的故障覆盖:扰动来自一个包含过程和结果级错误(推理、工具使用、证据收集和综合)的真实故障分类体系。
(3) 细粒度的诊断信号:通过将元评估重新定义为已知故障类型和位置的故障检测,Reflect能够精确识别评估者的盲点,并在细粒度和整体评估范式之间进行系统比较。
使用Reflect,我们评估了各种LLM评估者,包括那些执行整体评估和细粒度、步骤级评估的评估者。我们的实验揭示了当前LLM评估者存在的主要可靠性差距:评估者以不同的方式失败,没有一个单一的聚合分数能够捕捉整体可靠性。细粒度评估比整体评分更有效,特别是在需要跨阶段追踪的宏观结构故障方面。总体而言,Reflect暴露了被忽视的故障类型和脆弱组件,为改进评估者提示和协议以构建更可靠的代理研究系统提供了指导。
我们的贡献有三点:
1. 我们引入了Reflect,这是第一个全面、细粒度的元评估基准,用于评估深度研究代理执行轨迹和报告中的LLM评估者,将评估者评估从主观、粗粒度的偏好匹配转化为有针对性的故障检测。
2. 我们基于深度研究代理的全面错误分类体系,通过可控、局部干预构建了基准,生成了具有特定故障类型和可验证真实标签的实例。
3. 我们系统地研究了跨模型、故障类别和评估协议的评估者可靠性和成本。我们的发现揭示了当前评估者存在的主要可靠性差距,并指出细粒度的评估协议是增强深度研究代理鲁棒评估流程的潜在改进方向。
## 2 Reflect
### 2.1 基准任务形式化
Reflect将评估者元评估构建为基于准确率的研究代理执行偏好任务。每个实例将一个参考执行与一个受控的、带有故障的替代项配对。一个可靠的评估者应该将更高的质量分配给参考项,从而表现出对目标故障的敏感性。这种形式化既支持轨迹的过程级评估,也支持最终报告的结果级评估,同时为缺乏单一规范答案的开放式研究任务保留可验证标签。
我们首先在§2.1 (https://arxiv.org/html/2605.19196#S2.SS1) 形式化基准任务和故障空间,然后在§2.2 (https://arxiv.org/html/2605.19196#S2.SS2) 描述用于构建验证过的干净-扰动对的四阶段构建流程。
**代理执行**。一个基于证据的深度研究代理将输入查询映射到一个执行,其中是研究轨迹,是最终的长篇答案。遵循ReAct[52 (https://arxiv.org/html/2605.19196#bib.bib52)],轨迹是推理、工具调用和工具响应三元组的序列,,具有历史。
。我们使用作为全文的默认边界。
**成对评估**。成对评估者直接比较两个执行,匹配偏好学习设置,如DPO式训练,[40 (https://arxiv.org/html/2605.19196#bib.bib40)] 并返回。当且仅当时成功。
**排名评估**。排名评估者从候选集中选择最佳执行,对应于推理时扩展或重排中的最佳。让表示一组扰动类型,每个产生一个候选。评估者看到,选择,当且仅当时成功。
### 2.2 基准构建流程
我们通过一个四阶段流程实例化扰动算子:分类体系构建、参考筛选、可控干预以及结合自动过滤和人工验证。
**分类体系构建**。我们通过综合先前关于长形式QA、深度研究基准和代理轨迹监督的工作中的类别来构建故障空间[66 (https://arxiv.org/html/2605.19196#bib.bib66), 64 (https://arxiv.org/html/2605.19196#bib.bib64), 59 (https://arxiv.org/html/2605.19196#bib.bib59), 44 (https://arxiv.org/html/2605.19196#bib.bib44)]。现有的分类体系通常要么单独强调最终答案质量,要么单独强调轨迹行为;我们的分类体系统一了这两种观点,并且是上述过程/结果划分的基础。为了验证分类体系反映了真实的代理行为而不仅仅是一个先验列表,我们在保留的查询上采样自然展开,并在模型辅助和人工审查下,将每个观察到的故障映射到中的某个类别或一个超出分类体系的桶中。案例研究见附录D (https://arxiv.org/html/2605.19196#A4)。
**参考筛选**。我们从强代理展开中抽取候选参考执行。对于每个目标故障类型,我们只要求所选参考在所选编辑位置(即要编辑的步骤或块)不已经包含。使用自动检查(模式有效性、英文内容、可用的轨迹或答案结构)筛选候选参考,然后针对不存在的进行目标验证。
**可控干预**。对于每个故障类型,我们定义一个扰动算子,实现为基于LLM的编辑器。从通过强代理展开获得的干净种子开始,我们使用LLM和人工监督进行预先过滤以确保种子中不存在,然后应用,其中表示一个带有参数的LLM编辑器,是故障类型的自然语言定义,是从中采样的目标编辑位置,是类型特定的扰动提示。每个算子要么针对轨迹(对于),要么针对答案(对于);具体的工作示例列在附录D (https://arxiv.org/html/2605.19196#A4)。遵循像LLMBar[57 (https://arxiv.org/html/2605.19196#bib.bib57)]这样的对抗性比较基准,我们将编辑约束为局部的、合理的和最小的:扰动应该在处引入,同时保留外的所有内容的流畅性、一致性和完整性。对于轨迹,这意味着周围的步骤及其观察保持不变,编辑后的步骤在句法上仍然格式良好;对于答案,意味着只有目标块被重写。这种纪律确保评估者的成功取决于检测而非利用诸如长度、格式或风格漂移等表面伪影。
**自动过滤和人工验证**。每个原始-扰动对通过自动过滤器筛选,移除没有实质性变化、输出格式错误、非英语文本、格式伪影或针对目标的输入输出结构无效的对。相似文章
ForeSci:评估LLM代理的前瞻性AI研究判断
介绍了ForeSci,一个时间控制基准,用于评估LLM代理是否能够基于历史证据做出前瞻性研究判断。它包含跨越四个AI领域的500个任务,结果表明显式的证据组织提高了可追溯性,但揭示了反复出现的证据-决策解耦。
@ArizePhoenix:谁来评判评估者?当你使用LLM作为评判者时,你正在信任一个模型来决定你的代理、工作流……
本文讨论了使用Arize Phoenix调试和评估LLM评判者所面临的挑战,Arize Phoenix通过OpenTelemetry追踪评估者运行过程,以检查决策逻辑、成本和潜在偏差。
哪些变化重要?通过相关性敏感评估和求解器推理实现可信赖的法律AI
本文介绍了一套用于法律AI的相关性敏感评估套件,表明LLM对法律无关的扰动过于敏感,并提出LexGuard,一个基于形式推理的对抗性多代理框架,以提高法律推理的可靠性。
基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测
本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。
Agent 评估:详细指南(53 分钟阅读)
关于评估基于 LLM 的 Agent 系统的全面指南,涵盖基本概念、评估框架以及来自近期基准测试的案例研究。