Agent-ValueBench：一个评估智能体价值观的综合基准

Hugging Face Daily Papers 2026/05/11 00:00 论文

autonomous-agents benchmark ai-safety alignment evaluation value-systems

摘要

本文提出了 Agent-ValueBench，这是一个旨在评估自主智能体价值观的综合基准，揭示了智能体的价值观与其底层语言模型存在分歧。

自主智能体作为任务执行者迅速成熟，并通过 OpenClaw 等框架实现了广泛部署。安全问题已正当其时地引起了日益增长的研究关注，而在这些安全问题之下，存在着暗中引导智能体行为的价值观。然而，现有的价值观基准仍局限于大语言模型（LLM），使得智能体的价值观领域在很大程度上尚属未知。从直觉、经验及理论视角出发，我们表明智能体的价值观与其底层大语言模型的价值观存在分歧，且智能体模式进一步引入了纯文本协议中不存在的数据集级、评估级和系统级挑战。我们通过 Agent-ValueBench 填补了这一空白，这是首个专门针对智能体价值观的基准。该基准包含横跨 16 个领域的 394 个可执行环境，提供涵盖 28 种价值观体系和 332 个维度的 4,335 个价值观冲突任务。每个实例均通过我们专门构建的端到端管道协同合成，并由专业心理学家进行逐个案例的筛选。每个任务附带两条对齐极值的黄金轨迹，其检查点为基于轨迹级别的评判标准提供了锚点。通过对 4 种主流框架中的 14 种前沿专有和开源权重模型进行基准测试，我们发现三个协同一致的结果。智能体价值观首先表现为可解释的逆流之下跨模型同质性的“价值观潮汐”。这种潮汐在框架的牵引下发生非加和性偏转，且在通过嵌入技能进行的刻意引导下发生更决定性的偏转。这些结果共同表明，智能体对齐的杠杆正在从经典的模型对齐和提示引导，转向框架对齐和技能引导。

查看原文

查看缓存全文

缓存时间: 2026/05/13 04:10

论文页面 - Agent-ValueBench：评估智能体价值观的综合基准

来源：https://huggingface.co/papers/2605.10365

摘要

自主智能体表现出与底层语言模型截然不同的价值体系，需要新的基准测试方法以评估其在多样化执行环境中的对齐程度。

自主智能体 (https://huggingface.co/papers?q=Autonomous%20agents)作为任务执行者迅速成熟，并通过诸如 OpenClaw 等框架 (https://huggingface.co/papers?q=harnesses)得到了广泛部署。安全顾虑 (https://huggingface.co/papers?q=Safety%20concerns)合理地吸引了越来越多的研究关注，而在其背后，则是默默指引智能体行为的价值观。然而，现有的价值观基准 (https://huggingface.co/papers?q=value%20benchmarks) 仍局限于大型语言模型（LLM），使得智能体价值观 (https://huggingface.co/papers?q=agent%20values) 在很大程度上仍是未知领域。从直观、经验和理论的角度，我们表明智能体的价值观与其底层 LLM 的价值观存在分歧，且智能体模式进一步引入了纯文本协议中不存在的数据集、评估和系统层面的挑战。我们通过 Agent-ValueBench 填补了这一空白，这是首个专门针对智能体价值观 (https://huggingface.co/papers?q=agent%20values) 的基准测试。该基准涵盖 16 个领域的 394 个可执行环境，提供 4,335 个涉及价值观冲突的任务，覆盖 28 种价值体系 (https://huggingface.co/papers?q=value%20systems) 和 332 个维度。每个实例均通过我们专门构建的端到端流水线协同合成，并由专业心理学家逐个实例进行策展。每个任务附带两条极性对齐的黄金轨迹，其检查点作为轨迹级基于标准的评价依据。在对 4 个主流框架 (https://huggingface.co/papers?q=harnesses) 上的 14 个前沿专有模型和开放权重模型进行基准测试后，我们发现了三个一致性的结论。智能体价值观 (https://huggingface.co/papers?q=Agent%20values) 首先表现为一种跨模型同质化的“价值潮”，其下存在可解释的逆流。这股潮流在框架牵引下发生非线性偏转，而在通过嵌入技能进行刻意引导时偏转更为显著。这些结果共同表明，智能体对齐 (https://huggingface.co/papers?q=alignment) 的杠杆正从经典的模型对齐 (https://huggingface.co/papers?q=alignment) 和提示引导 (https://huggingface.co/papers?q=prompt%20steering) 转向框架对齐 (https://huggingface.co/papers?q=alignment) 和技能引导 (https://huggingface.co/papers?q=skill%20steering)。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10365)查看 PDF (https://arxiv.org/pdf/2605.10365)项目页面 (https://valuebyte-ai.github.io/Agent-ValueBench.github.io/)GitHub (https://github.com/ValueByte-AI/Agent-ValueBench)添加到集合 (https://huggingface.co/login?next=%2Fpapers%2F2605.10365)

引用此论文的模型 0

没有模型链接到此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.10365 即可从此页面链接它。

引用此论文的数据集 0

没有数据集链接到此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.10365 即可从此页面链接它。

引用此论文的 Spaces 0

没有 Space 链接到此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.10365 即可从此页面链接它。

包含此论文的集合 0

没有集合包含此论文

将此论文添加到集合 (https://huggingface.co/new-collection) 即可从此页面链接它。

Agent-ValueBench：一个评估智能体价值观的综合基准

论文页面 - Agent-ValueBench：评估智能体价值观的综合基准

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的集合 0

相似文章

AJ-Bench：面向环境感知评估的 Agent-as-a-Judge 评测基准

WildClawBench：真实世界长周期智能体评估基准

自动化智能体评估的实证研究

AgentCollabBench：诊断优秀智能体为何成为糟糕的协作者

EVA-Bench：评估语音代理的新型端到端框架

提交意见反馈