Agent-ValueBench:一个评估智能体价值观的综合基准

Hugging Face Daily Papers 论文

摘要

本文提出了 Agent-ValueBench,这是一个旨在评估自主智能体价值观的综合基准,揭示了智能体的价值观与其底层语言模型存在分歧。

自主智能体作为任务执行者迅速成熟,并通过 OpenClaw 等框架实现了广泛部署。安全问题已正当其时地引起了日益增长的研究关注,而在这些安全问题之下,存在着暗中引导智能体行为的价值观。然而,现有的价值观基准仍局限于大语言模型(LLM),使得智能体的价值观领域在很大程度上尚属未知。从直觉、经验及理论视角出发,我们表明智能体的价值观与其底层大语言模型的价值观存在分歧,且智能体模式进一步引入了纯文本协议中不存在的数据集级、评估级和系统级挑战。我们通过 Agent-ValueBench 填补了这一空白,这是首个专门针对智能体价值观的基准。该基准包含横跨 16 个领域的 394 个可执行环境,提供涵盖 28 种价值观体系和 332 个维度的 4,335 个价值观冲突任务。每个实例均通过我们专门构建的端到端管道协同合成,并由专业心理学家进行逐个案例的筛选。每个任务附带两条对齐极值的黄金轨迹,其检查点为基于轨迹级别的评判标准提供了锚点。通过对 4 种主流框架中的 14 种前沿专有和开源权重模型进行基准测试,我们发现三个协同一致的结果。智能体价值观首先表现为可解释的逆流之下跨模型同质性的“价值观潮汐”。这种潮汐在框架的牵引下发生非加和性偏转,且在通过嵌入技能进行的刻意引导下发生更决定性的偏转。这些结果共同表明,智能体对齐的杠杆正在从经典的模型对齐和提示引导,转向框架对齐和技能引导。
查看原文
查看缓存全文

缓存时间: 2026/05/13 04:10

论文页面 - Agent-ValueBench:评估智能体价值观的综合基准

来源:https://huggingface.co/papers/2605.10365

摘要

自主智能体表现出与底层语言模型截然不同的价值体系,需要新的基准测试方法以评估其在多样化执行环境中的对齐程度。

自主智能体 (https://huggingface.co/papers?q=Autonomous%20agents)作为任务执行者迅速成熟,并通过诸如 OpenClaw 等框架 (https://huggingface.co/papers?q=harnesses)得到了广泛部署。安全顾虑 (https://huggingface.co/papers?q=Safety%20concerns)合理地吸引了越来越多的研究关注,而在其背后,则是默默指引智能体行为的价值观。然而,现有的价值观基准 (https://huggingface.co/papers?q=value%20benchmarks) 仍局限于大型语言模型(LLM),使得智能体价值观 (https://huggingface.co/papers?q=agent%20values) 在很大程度上仍是未知领域。从直观、经验和理论的角度,我们表明智能体的价值观与其底层 LLM 的价值观存在分歧,且智能体模式进一步引入了纯文本协议中不存在的数据集、评估和系统层面的挑战。我们通过 Agent-ValueBench 填补了这一空白,这是首个专门针对智能体价值观 (https://huggingface.co/papers?q=agent%20values) 的基准测试。该基准涵盖 16 个领域的 394 个可执行环境,提供 4,335 个涉及价值观冲突的任务,覆盖 28 种价值体系 (https://huggingface.co/papers?q=value%20systems) 和 332 个维度。每个实例均通过我们专门构建的端到端流水线协同合成,并由专业心理学家逐个实例进行策展。每个任务附带两条极性对齐的黄金轨迹,其检查点作为轨迹级基于标准的评价依据。在对 4 个主流框架 (https://huggingface.co/papers?q=harnesses) 上的 14 个前沿专有模型和开放权重模型进行基准测试后,我们发现了三个一致性的结论。智能体价值观 (https://huggingface.co/papers?q=Agent%20values) 首先表现为一种跨模型同质化的“价值潮”,其下存在可解释的逆流。这股潮流在框架牵引下发生非线性偏转,而在通过嵌入技能进行刻意引导时偏转更为显著。这些结果共同表明,智能体对齐 (https://huggingface.co/papers?q=alignment) 的杠杆正从经典的模型对齐 (https://huggingface.co/papers?q=alignment) 和提示引导 (https://huggingface.co/papers?q=prompt%20steering) 转向框架对齐 (https://huggingface.co/papers?q=alignment) 和技能引导 (https://huggingface.co/papers?q=skill%20steering)。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10365)查看 PDF (https://arxiv.org/pdf/2605.10365)项目页面 (https://valuebyte-ai.github.io/Agent-ValueBench.github.io/)GitHub (https://github.com/ValueByte-AI/Agent-ValueBench)添加到集合 (https://huggingface.co/login?next=%2Fpapers%2F2605.10365)

引用此论文的模型 0

没有模型链接到此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.10365 即可从此页面链接它。

引用此论文的数据集 0

没有数据集链接到此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.10365 即可从此页面链接它。

引用此论文的 Spaces 0

没有 Space 链接到此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.10365 即可从此页面链接它。

包含此论文的集合 0

没有集合包含此论文

将此论文添加到集合 (https://huggingface.co/new-collection) 即可从此页面链接它。

相似文章

WildClawBench:真实世界长周期智能体评估基准

Hugging Face Daily Papers

WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。

自动化智能体评估的实证研究

arXiv cs.CL

本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。

AgentCollabBench:诊断优秀智能体为何成为糟糕的协作者

arXiv cs.CL

本文介绍了 AgentCollabBench,这是一个针对多智能体系统的诊断性基准,用于评估四大主流大语言模型(LLM)中的指令衰减和上下文泄漏等行为风险。文章认为,通信拓扑结构是多智能体可靠性的关键因素,其重要性往往超越了模型的原始能力。

EVA-Bench:评估语音代理的新型端到端框架

Hugging Face Daily Papers

EVA-Bench 提出了一个全面的端到端评估框架,用于评估语音代理,模拟真实的多轮对话,并通过新颖的准确度(EVA-A)和体验(EVA-X)指标衡量语音特定故障模式下的性能。该基准包含企业领域的 213 个场景以及用于口音和噪声鲁棒性的扰动套件,揭示了当前系统的显著差距。