Agent-ValueBench:一个评估智能体价值观的综合基准
摘要
本文提出了 Agent-ValueBench,这是一个旨在评估自主智能体价值观的综合基准,揭示了智能体的价值观与其底层语言模型存在分歧。
查看缓存全文
缓存时间: 2026/05/13 04:10
论文页面 - Agent-ValueBench:评估智能体价值观的综合基准
来源:https://huggingface.co/papers/2605.10365
摘要
自主智能体表现出与底层语言模型截然不同的价值体系,需要新的基准测试方法以评估其在多样化执行环境中的对齐程度。
自主智能体 (https://huggingface.co/papers?q=Autonomous%20agents)作为任务执行者迅速成熟,并通过诸如 OpenClaw 等框架 (https://huggingface.co/papers?q=harnesses)得到了广泛部署。安全顾虑 (https://huggingface.co/papers?q=Safety%20concerns)合理地吸引了越来越多的研究关注,而在其背后,则是默默指引智能体行为的价值观。然而,现有的价值观基准 (https://huggingface.co/papers?q=value%20benchmarks) 仍局限于大型语言模型(LLM),使得智能体价值观 (https://huggingface.co/papers?q=agent%20values) 在很大程度上仍是未知领域。从直观、经验和理论的角度,我们表明智能体的价值观与其底层 LLM 的价值观存在分歧,且智能体模式进一步引入了纯文本协议中不存在的数据集、评估和系统层面的挑战。我们通过 Agent-ValueBench 填补了这一空白,这是首个专门针对智能体价值观 (https://huggingface.co/papers?q=agent%20values) 的基准测试。该基准涵盖 16 个领域的 394 个可执行环境,提供 4,335 个涉及价值观冲突的任务,覆盖 28 种价值体系 (https://huggingface.co/papers?q=value%20systems) 和 332 个维度。每个实例均通过我们专门构建的端到端流水线协同合成,并由专业心理学家逐个实例进行策展。每个任务附带两条极性对齐的黄金轨迹,其检查点作为轨迹级基于标准的评价依据。在对 4 个主流框架 (https://huggingface.co/papers?q=harnesses) 上的 14 个前沿专有模型和开放权重模型进行基准测试后,我们发现了三个一致性的结论。智能体价值观 (https://huggingface.co/papers?q=Agent%20values) 首先表现为一种跨模型同质化的“价值潮”,其下存在可解释的逆流。这股潮流在框架牵引下发生非线性偏转,而在通过嵌入技能进行刻意引导时偏转更为显著。这些结果共同表明,智能体对齐 (https://huggingface.co/papers?q=alignment) 的杠杆正从经典的模型对齐 (https://huggingface.co/papers?q=alignment) 和提示引导 (https://huggingface.co/papers?q=prompt%20steering) 转向框架对齐 (https://huggingface.co/papers?q=alignment) 和技能引导 (https://huggingface.co/papers?q=skill%20steering)。
查看 arXiv 页面 (https://arxiv.org/abs/2605.10365)查看 PDF (https://arxiv.org/pdf/2605.10365)项目页面 (https://valuebyte-ai.github.io/Agent-ValueBench.github.io/)GitHub (https://github.com/ValueByte-AI/Agent-ValueBench)添加到集合 (https://huggingface.co/login?next=%2Fpapers%2F2605.10365)
引用此论文的模型 0
没有模型链接到此论文
在模型的 README.md 中引用 arxiv.org/abs/2605.10365 即可从此页面链接它。
引用此论文的数据集 0
没有数据集链接到此论文
在数据集的 README.md 中引用 arxiv.org/abs/2605.10365 即可从此页面链接它。
引用此论文的 Spaces 0
没有 Space 链接到此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.10365 即可从此页面链接它。
包含此论文的集合 0
没有集合包含此论文
将此论文添加到集合 (https://huggingface.co/new-collection) 即可从此页面链接它。
相似文章
AJ-Bench:面向环境感知评估的 Agent-as-a-Judge 评测基准
AJ-Bench 提出一套评测基准,用于衡量 Agent-as-a-Judge 系统通过与环境交互来验证智能体行为的能力,覆盖搜索、数据系统与 GUI 领域的 155 项任务。
WildClawBench:真实世界长周期智能体评估基准
WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。
自动化智能体评估的实证研究
本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。
AgentCollabBench:诊断优秀智能体为何成为糟糕的协作者
本文介绍了 AgentCollabBench,这是一个针对多智能体系统的诊断性基准,用于评估四大主流大语言模型(LLM)中的指令衰减和上下文泄漏等行为风险。文章认为,通信拓扑结构是多智能体可靠性的关键因素,其重要性往往超越了模型的原始能力。
EVA-Bench:评估语音代理的新型端到端框架
EVA-Bench 提出了一个全面的端到端评估框架,用于评估语音代理,模拟真实的多轮对话,并通过新颖的准确度(EVA-A)和体验(EVA-X)指标衡量语音特定故障模式下的性能。该基准包含企业领域的 213 个场景以及用于口音和噪声鲁棒性的扰动套件,揭示了当前系统的显著差距。