超越对齐:价值多样性作为多文化代理系统中的集体属性
摘要
本文定义了文化多样性作为多代理系统的一个新评估维度,通过测量对世界价值观调查响应的成对差异。实验表明,当前模型缺乏人类社会的价值多样性,混合骨干可以提高对齐和多样性,但交互会减少多样性。
查看缓存全文
缓存时间: 2026/06/18 11:57
论文页面 - 超越对齐:多元文化智能体系统中的价值多样性作为集体属性
来源:https://huggingface.co/papers/2606.05985
多智能体系统本质上也是多元文化的。这一点在 Moltbook 最近流行起来及其后续分析工作(例如 #MoltNet)中尤为明显。这些研究建立在这样一个前提上:不同的智能体代表相互交互的不同用户,因此智能体系统体现了价值多样性。
基于已有的文化对齐评估工作(针对单一模型),我们将文化多样性定义为智能体系统层面(P2)的一个(新的)评估维度。
该方法假设一个由 N 个智能体组成的系统,每个智能体代表一种不同的文化。收集这些智能体对 WVS(世界价值观调查)问卷的回答后,我们计算它们之间的两两差异,从而得到系统的多样性。
我们的初步评估以单一骨干模型作为系统(N=5),结果显示这些模型远未达到人类社会中的价值多样性水平(P3)。
我们还评估了这些系统的文化对齐程度,发现对齐与多样性之间仅存在弱相关性,表明文化多样性提供了一个独立的评估视角(P4)。
除了单骨干系统外,N 个智能体实际上更可能从不同的骨干模型初始化。我们遍历了所有配置,发现混合骨干模型可以(在一定程度上)同时提升对齐和多样性(P5)。
通过改变系统的文化构成(P6 上图)和文化智能体数量(P6 下图),我们发现这些变化并未在文化多样性方面产生有意义的提升。
更严重的是,一旦智能体开始交互——我们尝试了最简单的交互形式,即一个文化智能体在回答前会看到其他文化智能体的答案——系统多样性会进一步下降(P7 左图),而额外的交互轮次无法恢复这种下降(P7 右图)。
最后,我们初始化了两个智能体系统——一个低多样性系统和一个高多样性系统——让它们各自参与一项民主决策任务。我们发现,高多样性系统在构建社会价值方面产生了更均衡、更公平的投票分布(P8)。
1 (https://cdn-uploads.huggingface.co/production/uploads/639ae8dfb49b726255975f86/jooTF7K5JKNrz0cQzVUmQ.png) 2 (https://cdn-uploads.huggingface.co/production/uploads/639ae8dfb49b726255975f86/ULErSD7PaeY2NtH5fcXIr.png) 3 (https://cdn-uploads.huggingface.co/production/uploads/639ae8dfb49b726255975f86/aUqgIcPJ0pNdaRZKqs4Bd.png) 4 (https://cdn-uploads.huggingface.co/production/uploads/639ae8dfb49b726255975f86/RqKJCU5o3qKlBjwP4acRp.png) 5 (https://cdn-uploads.huggingface.co/production/uploads/639ae8dfb49b726255975f86/DoSAoHo8AJ16yXUqdD2Jl.png) 6 (https://cdn-uploads.huggingface.co/production/uploads/639ae8dfb49b726255975f86/z_Sdl6SB4nRBsAIH-ktTI.png) 7 (https://cdn-uploads.huggingface.co/production/uploads/639ae8dfb49b726255975f86/TjS7FfmjQK2q95pLBRSPS.png) 8 (https://cdn-uploads.huggingface.co/production/uploads/639ae8dfb49b726255975f86/e6AZormop6mdrtq7mlcIB.png) .
相似文章
Agent-ValueBench:一个评估智能体价值观的综合基准
本文提出了 Agent-ValueBench,这是一个旨在评估自主智能体价值观的综合基准,揭示了智能体的价值观与其底层语言模型存在分歧。
考虑语境:塑造道德信念以实现价值对齐
本文主张,在AI价值对齐中聚合道德评估时必须考虑语境因素,表明忽略语境可能导致违反弱帕累托原则,类似于辛普森悖论。
通过潜在激活引导的大语言模型文化价值对齐
一个利用基于场景的行为探测和激活引导来评估和引导大语言模型中文化价值的框架,揭示了价值维度之间的潜在纠缠。
从描述性到规范性:揭示基于LLM的智能体的社会价值对齐
本文提出了SoVA,一个使用GraphRAG将心理学理论转化为规范性指令,从而使基于LLM的智能体与人类社会价值观对齐的框架。在DAILYDILEMMAS基准上的实验表明,相比基于提示的基线方法有显著改进。
DVMap: 通过高共识人口统计-价值映射实现细粒度多元价值对齐
本文介绍了DVMap,一个用于大语言模型细粒度多元价值对齐的框架,它使用高共识的人口统计-价值映射,而非粗略的国家标签,从而在跨人口统计、跨国家和跨价值维度上实现了强的泛化能力。