Counsel:面向智能体任务的元评估数据集
摘要
Counsel 是首个公开的人类对 LLM 评价进行元评估的数据集,专为智能体任务设计,旨在提升自动化评估方法的校准性与可靠性。
查看缓存全文
缓存时间: 2026/06/23 09:41
论文页面 - Counsel:面向智能体任务的元评估数据集
来源:https://huggingface.co/papers/2606.21627
摘要
本文引入了一个大规模的人类元评估数据集,用于评估LLM对智能体任务的评判,旨在提升自动评估方法的校准性与可靠性。
随着智能体系统(https://huggingface.co/papers?q=agentic%20systems)处理日益复杂的多步骤任务,对其轨迹进行评估成为主要瓶颈——在流行的智能体基准上,人工标注单条轨迹可能需要数小时,这使得规模化评估性能或整理训练数据变得困难。这导致广泛依赖自动化方法,如LLM-as-a-judge(https://huggingface.co/papers?q=LLM-as-a-judge)(LLMJ)来大规模评判智能体的过程与结果,然而,LLMJ评判的合理性往往未经度量。本文推出Counsel——首个面向智能体任务的元评估(https://huggingface.co/papers?q=meta-evaluation)公共数据集。Counsel包含来自开放权重LLMJ对两个智能体基准(https://huggingface.co/papers?q=agent%20benchmarks):tau-bench(https://huggingface.co/papers?q=tau-bench)(客户支持智能体)和DA-Code(https://huggingface.co/papers?q=DA-Code)(编程智能体)的过程级评判,以及对这些评判的人类元评估(https://huggingface.co/papers?q=meta-evaluation)。人类标注者对每个标记的错误进行“准确命中““位置正确但推理不佳“或“不应标记“的标注,实现了可靠的标注者间一致性(https://huggingface.co/papers?q=inter-annotator%20agreement)(Krippendorff’s alpha(https://huggingface.co/papers?q=Krippendorff%27s%20alpha)达0.78)。所得数据集按人类对齐(https://huggingface.co/papers?q=human%20alignment)对LLMJ的评判进行分层,涵盖轨迹内错误位置与推理质量,为校准、改进或训练用于智能体的LLMJ提供了宝贵数据。对比开放权重评判者,我们发现更强的评判模型与更多推理努力均有助于提升与人类的一致性,其中最强评判者在位置一致性上达约88%,在推理一致性上达约65%。Counsel使用开放权重模型(https://huggingface.co/papers?q=open-weight%20models)生成,并采用宽松许可供社区广泛使用,期望能促进对基于LLM的智能体系统(https://huggingface.co/papers?q=agentic%20systems)评估器的严谨研究与对齐提升。
查看arXiv页面(https://arxiv.org/abs/2606.21627)查看PDF(https://arxiv.org/pdf/2606.21627)项目页面(https://huggingface.co/spaces/AtlaAI/counsel-tech-report)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.21627)
在您的智能体中获取此论文:
hf papers read 2606.21627
没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有链接此论文的模型
在模型的README.md中引用arxiv.org/abs/2606.21627即可从本页链接。
引用此论文的数据集1
AtlaAI/counsel 查看器• 更新于约2小时前 • 1.36k • 32(https://huggingface.co/datasets/AtlaAI/counsel)
引用此论文的Space1
包含此论文的收藏集1
相似文章
元认知监测电池:LLM自我监测的跨域基准
一个包含524个项目的新型跨域基准(元认知监测电池)使用人类心理测量方法评估LLM在六个认知领域的自我监测能力。应用于20个前沿LLM后,揭示了三种不同的元认知配置,并表明准确率排名与元认知敏感性排名基本相反。
SoCRATES: 迈向跨领域与社会认知变化的主动式LLM调解的可靠自动评估
SoCRATES提出了一个真实的多领域基准,用于评估主动式LLM调解器,显示顶尖模型在冲突解决中仅能弥合约三分之一的共识差距。
LP-Eval: 用于衡量法律命题生成质量的评分标准与数据集
本文介绍了LP-Eval,这是一个由法律专家标注的、用于评估大语言模型生成法律命题质量的评分标准与数据集。结果表明,基于评分标准的LLM评估比直接打分更接近专家评估。
AICompanionBench:评测 LLM 作为裁判在 AI 伴侣安全领域的表现
AICompanionBench 推出了首个公开可用的基准数据集,包含 2,123 条真实 AI 伴侣对话,并按九个安全风险类别进行标注,用于评估 20 个 LLM 作为安全裁判的表现。结果显示,强模型能较好地处理显性有害内容,但在操控等细微风险的识别以及对无害对话的误判问题上仍存在明显不足。
前沿大语言模型中的领域级元认知监控:一份33个模型图谱
本研究提出了一份涵盖33个模型的图谱,利用MMLU基准分析了前沿大语言模型中的领域级元认知监控,揭示了聚合指标所掩盖的不同知识领域中置信度校准的显著差异。