Agent-ValueBench:一个评估智能体价值观的综合基准
摘要
本文提出了 Agent-ValueBench,这是一个旨在评估自主智能体价值观的综合基准,揭示了智能体的价值观与其底层语言模型存在分歧。
查看缓存全文
缓存时间: 2026/05/13 04:10
论文页面 - Agent-ValueBench:评估智能体价值观的综合基准
来源:https://huggingface.co/papers/2605.10365
摘要
自主智能体表现出与底层语言模型截然不同的价值体系,需要新的基准测试方法以评估其在多样化执行环境中的对齐程度。
自主智能体 (https://huggingface.co/papers?q=Autonomous%20agents)作为任务执行者迅速成熟,并通过诸如 OpenClaw 等框架 (https://huggingface.co/papers?q=harnesses)得到了广泛部署。安全顾虑 (https://huggingface.co/papers?q=Safety%20concerns)合理地吸引了越来越多的研究关注,而在其背后,则是默默指引智能体行为的价值观。然而,现有的价值观基准 (https://huggingface.co/papers?q=value%20benchmarks) 仍局限于大型语言模型(LLM),使得智能体价值观 (https://huggingface.co/papers?q=agent%20values) 在很大程度上仍是未知领域。从直观、经验和理论的角度,我们表明智能体的价值观与其底层 LLM 的价值观存在分歧,且智能体模式进一步引入了纯文本协议中不存在的数据集、评估和系统层面的挑战。我们通过 Agent-ValueBench 填补了这一空白,这是首个专门针对智能体价值观 (https://huggingface.co/papers?q=agent%20values) 的基准测试。该基准涵盖 16 个领域的 394 个可执行环境,提供 4,335 个涉及价值观冲突的任务,覆盖 28 种价值体系 (https://huggingface.co/papers?q=value%20systems) 和 332 个维度。每个实例均通过我们专门构建的端到端流水线协同合成,并由专业心理学家逐个实例进行策展。每个任务附带两条极性对齐的黄金轨迹,其检查点作为轨迹级基于标准的评价依据。在对 4 个主流框架 (https://huggingface.co/papers?q=harnesses) 上的 14 个前沿专有模型和开放权重模型进行基准测试后,我们发现了三个一致性的结论。智能体价值观 (https://huggingface.co/papers?q=Agent%20values) 首先表现为一种跨模型同质化的“价值潮”,其下存在可解释的逆流。这股潮流在框架牵引下发生非线性偏转,而在通过嵌入技能进行刻意引导时偏转更为显著。这些结果共同表明,智能体对齐 (https://huggingface.co/papers?q=alignment) 的杠杆正从经典的模型对齐 (https://huggingface.co/papers?q=alignment) 和提示引导 (https://huggingface.co/papers?q=prompt%20steering) 转向框架对齐 (https://huggingface.co/papers?q=alignment) 和技能引导 (https://huggingface.co/papers?q=skill%20steering)。
查看 arXiv 页面 (https://arxiv.org/abs/2605.10365)查看 PDF (https://arxiv.org/pdf/2605.10365)项目页面 (https://valuebyte-ai.github.io/Agent-ValueBench.github.io/)GitHub (https://github.com/ValueByte-AI/Agent-ValueBench)添加到集合 (https://huggingface.co/login?next=%2Fpapers%2F2605.10365)
引用此论文的模型 0
没有模型链接到此论文
在模型的 README.md 中引用 arxiv.org/abs/2605.10365 即可从此页面链接它。
引用此论文的数据集 0
没有数据集链接到此论文
在数据集的 README.md 中引用 arxiv.org/abs/2605.10365 即可从此页面链接它。
引用此论文的 Spaces 0
没有 Space 链接到此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.10365 即可从此页面链接它。
包含此论文的集合 0
没有集合包含此论文
将此论文添加到集合 (https://huggingface.co/new-collection) 即可从此页面链接它。
相似文章
AgenticDataBench:面向数据代理的综合性基准测试
介绍了AgenticDataBench,这是一个综合性基准测试,用于评估基于大语言模型的数据代理在不同领域中的表现,提供细粒度、基于技能的指标,包括实际B2B用例和合成任务。
AJ-Bench:面向环境感知评估的 Agent-as-a-Judge 评测基准
AJ-Bench 提出一套评测基准,用于衡量 Agent-as-a-Judge 系统通过与环境交互来验证智能体行为的能力,覆盖搜索、数据系统与 GUI 领域的 155 项任务。
HealthAgentBench: 面向前沿AI智能体的统一真实医疗智能体环境基准套件
本文介绍了HealthAgentBench,一个包含54个真实医疗任务的套件,用于评估前沿AI智能体。研究发现,即使是最强的智能体(Codex GPT-5.5)也仅能达到约42%的成功率,凸显了巨大的改进空间。
基准测试未衡量的:论自主智能体弃权能力的评估
本文认为,目前的自主智能体基准测试未能评估智能体是否应该继续执行任务,从而引入了'合规偏见'。作者提出了一个需要弃权的场景分类法,以及新的评估协议(Safety Rate, Usability Rate, Informed Refusal Rate),初步结果显示,不同模型家族的安全性与可用性之间存在可调节的权衡。
基准测试:万事万物,无处不在,一气呵成
介绍 Benchmark Agent,一个完全自主的系统,用于创建多样化的基准测试,只需最少的人工干预,支持跨领域的持续模型评估。