Counsel:面向智能体任务的元评估数据集

Hugging Face Daily Papers 论文

摘要

Counsel 是首个公开的人类对 LLM 评价进行元评估的数据集,专为智能体任务设计,旨在提升自动化评估方法的校准性与可靠性。

随着智能体系统处理日益复杂的多步骤任务,评估其轨迹成为一大瓶颈——在流行的智能体基准测试中,单条轨迹的人工标注可能需要数小时,使得规模化评估性能或整理训练数据变得困难。这导致业界广泛依赖诸如 LLM-as-a-judge(LLMJ)等自动化方法,在流程与结果层面大规模评估智能体,然而 LLMJ 评估的可靠性却往往未受检验。为此,我们推出 Counsel,这是首个面向智能体任务的元评估公开数据集。Counsel 包含来自开放权重 LLMJ 在两个智能体基准测试(tau-bench(客服智能体)和 DA-Code(编码智能体))上的流程级评估,以及对这些评估的人类元评估。人工标注员将每个被标记错误的评估标注为“准确命中”、“位置正确但推理不佳”或“不应标记”,实现了可靠的标注者间一致性(Krippendorff's alpha 为 0.78)。由此生成的数据集根据人类对齐程度,对 LLMJ 评估按轨迹内错误位置和推理质量进行分层,为校准、改进或训练面向智能体的 LLMJ 提供了有价值的数据。比较开放权重评估模型后,我们发现更强的评估模型与更多的推理努力均能提升与人类的一致性,其中最强模型在位置一致性上达到约88%,推理一致性上达到约65%。Counsel 采用开放权重模型生成,并采用宽松许可供社区广泛使用,我们希望这将推动对基于 LLM 的智能体系统评估器的严谨研究与更佳对齐。
查看原文
查看缓存全文

缓存时间: 2026/06/23 09:41

论文页面 - Counsel:面向智能体任务的元评估数据集

来源:https://huggingface.co/papers/2606.21627

摘要

本文引入了一个大规模的人类元评估数据集,用于评估LLM对智能体任务的评判,旨在提升自动评估方法的校准性与可靠性。

随着智能体系统(https://huggingface.co/papers?q=agentic%20systems)处理日益复杂的多步骤任务,对其轨迹进行评估成为主要瓶颈——在流行的智能体基准上,人工标注单条轨迹可能需要数小时,这使得规模化评估性能或整理训练数据变得困难。这导致广泛依赖自动化方法,如LLM-as-a-judge(https://huggingface.co/papers?q=LLM-as-a-judge)(LLMJ)来大规模评判智能体的过程与结果,然而,LLMJ评判的合理性往往未经度量。本文推出Counsel——首个面向智能体任务的元评估(https://huggingface.co/papers?q=meta-evaluation)公共数据集。Counsel包含来自开放权重LLMJ对两个智能体基准(https://huggingface.co/papers?q=agent%20benchmarks):tau-bench(https://huggingface.co/papers?q=tau-bench)(客户支持智能体)和DA-Code(https://huggingface.co/papers?q=DA-Code)(编程智能体)的过程级评判,以及对这些评判的人类元评估(https://huggingface.co/papers?q=meta-evaluation)。人类标注者对每个标记的错误进行“准确命中““位置正确但推理不佳“或“不应标记“的标注,实现了可靠的标注者间一致性(https://huggingface.co/papers?q=inter-annotator%20agreement)(Krippendorff’s alpha(https://huggingface.co/papers?q=Krippendorff%27s%20alpha)达0.78)。所得数据集按人类对齐(https://huggingface.co/papers?q=human%20alignment)对LLMJ的评判进行分层,涵盖轨迹内错误位置与推理质量,为校准、改进或训练用于智能体的LLMJ提供了宝贵数据。对比开放权重评判者,我们发现更强的评判模型与更多推理努力均有助于提升与人类的一致性,其中最强评判者在位置一致性上达约88%,在推理一致性上达约65%。Counsel使用开放权重模型(https://huggingface.co/papers?q=open-weight%20models)生成,并采用宽松许可供社区广泛使用,期望能促进对基于LLM的智能体系统(https://huggingface.co/papers?q=agentic%20systems)评估器的严谨研究与对齐提升。

查看arXiv页面(https://arxiv.org/abs/2606.21627)查看PDF(https://arxiv.org/pdf/2606.21627)项目页面(https://huggingface.co/spaces/AtlaAI/counsel-tech-report)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.21627)

在您的智能体中获取此论文:

hf papers read 2606.21627

没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有链接此论文的模型

在模型的README.md中引用arxiv.org/abs/2606.21627即可从本页链接。

引用此论文的数据集1

AtlaAI/counsel 查看器• 更新于约2小时前 • 1.36k • 32(https://huggingface.co/datasets/AtlaAI/counsel)

引用此论文的Space1

包含此论文的收藏集1

相似文章

元认知监测电池:LLM自我监测的跨域基准

arXiv cs.CL

一个包含524个项目的新型跨域基准(元认知监测电池)使用人类心理测量方法评估LLM在六个认知领域的自我监测能力。应用于20个前沿LLM后,揭示了三种不同的元认知配置,并表明准确率排名与元认知敏感性排名基本相反。

AICompanionBench:评测 LLM 作为裁判在 AI 伴侣安全领域的表现

arXiv cs.AI

AICompanionBench 推出了首个公开可用的基准数据集,包含 2,123 条真实 AI 伴侣对话,并按九个安全风险类别进行标注,用于评估 20 个 LLM 作为安全裁判的表现。结果显示,强模型能较好地处理显性有害内容,但在操控等细微风险的识别以及对无害对话的误判问题上仍存在明显不足。