Agent-ValueBench:一个评估智能体价值观的综合基准

Hugging Face Daily Papers 论文

摘要

本文提出了 Agent-ValueBench,这是一个旨在评估自主智能体价值观的综合基准,揭示了智能体的价值观与其底层语言模型存在分歧。

自主智能体作为任务执行者迅速成熟,并通过 OpenClaw 等框架实现了广泛部署。安全问题已正当其时地引起了日益增长的研究关注,而在这些安全问题之下,存在着暗中引导智能体行为的价值观。然而,现有的价值观基准仍局限于大语言模型(LLM),使得智能体的价值观领域在很大程度上尚属未知。从直觉、经验及理论视角出发,我们表明智能体的价值观与其底层大语言模型的价值观存在分歧,且智能体模式进一步引入了纯文本协议中不存在的数据集级、评估级和系统级挑战。我们通过 Agent-ValueBench 填补了这一空白,这是首个专门针对智能体价值观的基准。该基准包含横跨 16 个领域的 394 个可执行环境,提供涵盖 28 种价值观体系和 332 个维度的 4,335 个价值观冲突任务。每个实例均通过我们专门构建的端到端管道协同合成,并由专业心理学家进行逐个案例的筛选。每个任务附带两条对齐极值的黄金轨迹,其检查点为基于轨迹级别的评判标准提供了锚点。通过对 4 种主流框架中的 14 种前沿专有和开源权重模型进行基准测试,我们发现三个协同一致的结果。智能体价值观首先表现为可解释的逆流之下跨模型同质性的“价值观潮汐”。这种潮汐在框架的牵引下发生非加和性偏转,且在通过嵌入技能进行的刻意引导下发生更决定性的偏转。这些结果共同表明,智能体对齐的杠杆正在从经典的模型对齐和提示引导,转向框架对齐和技能引导。
查看原文
查看缓存全文

缓存时间: 2026/05/13 04:10

论文页面 - Agent-ValueBench:评估智能体价值观的综合基准

来源:https://huggingface.co/papers/2605.10365

摘要

自主智能体表现出与底层语言模型截然不同的价值体系,需要新的基准测试方法以评估其在多样化执行环境中的对齐程度。

自主智能体 (https://huggingface.co/papers?q=Autonomous%20agents)作为任务执行者迅速成熟,并通过诸如 OpenClaw 等框架 (https://huggingface.co/papers?q=harnesses)得到了广泛部署。安全顾虑 (https://huggingface.co/papers?q=Safety%20concerns)合理地吸引了越来越多的研究关注,而在其背后,则是默默指引智能体行为的价值观。然而,现有的价值观基准 (https://huggingface.co/papers?q=value%20benchmarks) 仍局限于大型语言模型(LLM),使得智能体价值观 (https://huggingface.co/papers?q=agent%20values) 在很大程度上仍是未知领域。从直观、经验和理论的角度,我们表明智能体的价值观与其底层 LLM 的价值观存在分歧,且智能体模式进一步引入了纯文本协议中不存在的数据集、评估和系统层面的挑战。我们通过 Agent-ValueBench 填补了这一空白,这是首个专门针对智能体价值观 (https://huggingface.co/papers?q=agent%20values) 的基准测试。该基准涵盖 16 个领域的 394 个可执行环境,提供 4,335 个涉及价值观冲突的任务,覆盖 28 种价值体系 (https://huggingface.co/papers?q=value%20systems) 和 332 个维度。每个实例均通过我们专门构建的端到端流水线协同合成,并由专业心理学家逐个实例进行策展。每个任务附带两条极性对齐的黄金轨迹,其检查点作为轨迹级基于标准的评价依据。在对 4 个主流框架 (https://huggingface.co/papers?q=harnesses) 上的 14 个前沿专有模型和开放权重模型进行基准测试后,我们发现了三个一致性的结论。智能体价值观 (https://huggingface.co/papers?q=Agent%20values) 首先表现为一种跨模型同质化的“价值潮”,其下存在可解释的逆流。这股潮流在框架牵引下发生非线性偏转,而在通过嵌入技能进行刻意引导时偏转更为显著。这些结果共同表明,智能体对齐 (https://huggingface.co/papers?q=alignment) 的杠杆正从经典的模型对齐 (https://huggingface.co/papers?q=alignment) 和提示引导 (https://huggingface.co/papers?q=prompt%20steering) 转向框架对齐 (https://huggingface.co/papers?q=alignment) 和技能引导 (https://huggingface.co/papers?q=skill%20steering)。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10365)查看 PDF (https://arxiv.org/pdf/2605.10365)项目页面 (https://valuebyte-ai.github.io/Agent-ValueBench.github.io/)GitHub (https://github.com/ValueByte-AI/Agent-ValueBench)添加到集合 (https://huggingface.co/login?next=%2Fpapers%2F2605.10365)

引用此论文的模型 0

没有模型链接到此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.10365 即可从此页面链接它。

引用此论文的数据集 0

没有数据集链接到此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.10365 即可从此页面链接它。

引用此论文的 Spaces 0

没有 Space 链接到此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.10365 即可从此页面链接它。

包含此论文的集合 0

没有集合包含此论文

将此论文添加到集合 (https://huggingface.co/new-collection) 即可从此页面链接它。

相似文章

AgenticDataBench:面向数据代理的综合性基准测试

Hugging Face Daily Papers

介绍了AgenticDataBench,这是一个综合性基准测试,用于评估基于大语言模型的数据代理在不同领域中的表现,提供细粒度、基于技能的指标,包括实际B2B用例和合成任务。

基准测试未衡量的:论自主智能体弃权能力的评估

arXiv cs.AI

本文认为,目前的自主智能体基准测试未能评估智能体是否应该继续执行任务,从而引入了'合规偏见'。作者提出了一个需要弃权的场景分类法,以及新的评估协议(Safety Rate, Usability Rate, Informed Refusal Rate),初步结果显示,不同模型家族的安全性与可用性之间存在可调节的权衡。