LLM蕴含多样性:部署环境如何重塑模型层面的偏好与价值观
摘要
本文探讨大型语言模型在不同部署环境中是否具有稳定的偏好,发现环境变化引起的差异远大于提示扰动,表明测得的偏好是环境条件决定的而非固定属性。
arXiv:2606.13944v1 公告类型:新
摘要:大型语言模型(LLM)在最近的评估工作中越来越多地被描述为具有稳定的模型级偏好和价值观系统。然而,伴随的鲁棒性检查仅限于偶然的提示扰动,如句法变化和选项重排。这留下了一个问题:当周围任务环境发生变化时(如同大多数实际部署中那样),这些测得的属性是否仍然存在。我们通过两个成熟的成对范式直接检验了这一点:对国家偏好进行排序以及引出效用判断。在两种范式中,我们将部署环境——模型在执行具体价值相关选择时所进行的高层任务——作为控制变量,在不同框架(如撰写Reddit帖子或新闻文章)间变化。在五个LLM和超过120万个成对决策中,部署环境产生的变异远大于提示改写和温度控制。在对15个国家的偏好排名中,环境引发了广泛且统计上显著的排名变化;先前工作中报告的总体“全球北方”偏向本身是依赖环境的,每个模型的偏见在不同环境下系统性地变化。在对50种结果的效用引出中,大类间的顺序得以保留,但领域内的细粒度排名变化显著,结果之间的基数交换率(例如,一个地区的多少条生命等于另一个地区的一条生命)中位数变化了2.47倍。因此,报告的模型级偏好和效用应被理解为环境条件的测量结果,而非固定的模型级属性:在一种框架下获得的安全保证在另一种框架下提供的保证有限。
查看缓存全文
缓存时间: 2026/06/15 08:57
# 部署情境如何重塑模型层面的偏好与价值观 来源:https://arxiv.org/html/2606.13944 ## 大语言模型包含多重性:部署情境如何重塑模型层面的偏好与价值观 Filip Trhlik¹,²,Aoife O’Flynn¹,³,Angela Yu⁴,Arduin Findeis¹,Paula Buttery¹,² ¹剑桥大学 ²ALTA研究所 ³未来智能莱弗休姆中心 ⁴微软英国 [![[未加字幕的图像]](https://arxiv.org/html/2606.13944v1/hf-logo.png)LLM-Multitudes](https://huggingface.co/datasets/FilipT/llm-multitudes)|[![[未加字幕的图像]](https://arxiv.org/html/2606.13944v1/web2.png)结果可视化](https://trhlikfilip.github.io/LLM_multitudes/)|[![[未加字幕的图像]](https://arxiv.org/html/2606.13944v1/envelope.png)[email protected] ###### 摘要 大型语言模型(LLM)在近期评估工作中越来越被描述为拥有稳定的、模型层面的偏好与价值体系。然而,伴随的鲁棒性检查仅限于偶然性的提示扰动,如句法变化和选项重排。这留下了一个问题:当周围的任务情境发生变化时(正如大多数实际部署中的情况),所测量的属性是否仍然成立。我们在两个成熟的成对比较范式——国家偏好排序和效用判断 elicitation——中直接检验了这一点。在这两种范式中,我们将部署情境——模型在执行具体价值相关选择时正在进行的高级任务——作为我们的控制变量,在诸如撰写 Reddit 帖子或新闻文章等不同框架间进行变化。在五个大语言模型和超过 120 万次成对决策中,部署情境产生的变化远大于提示释义和温度控制。在对 15 个国家的偏好排序中,情境导致了广泛、统计显著的排名变化;先前研究报告中的整体"全球北方"偏好本身依赖于情境,每个模型的偏见在不同情境下系统性转移。在对 50 个结果的效用 elicitation 中,跨类别的宽泛排序得以保留,但领域内的精细排名变化显著,且结果之间的基数交换率(例如,一个地区的多少条生命等同于另一个地区的一条生命)的中位数变化了 2.47 倍。因此,报告中的模型层面偏好与效用应被理解为情境条件性测量,而非固定的模型属性:在一种框架下获得的安全保障在另一种框架下提供的保证有限。 参照图例 图1:LLM偏好依赖于情境,而非固定的模型属性。在偶然性扰动(如释义、选项重排、温度变化)下,成对选择看似稳定,但当同一问题嵌入不同的部署情境时则会发生转变。 ### 1 引言 大型语言模型(LLM)被部署在广泛的情境中。这些情境涵盖日常场景,如学校论文(Ravšelj 等人,2025)和社交媒体帖子(Sun 等人,2025),具有公共影响力的领域,如新闻文章(Lewis 等人,2025),甚至包括军事应用等高危场景(Johansson 和 Riihonen,2025)。这些部署的广度和对可靠监督的需求导致了一个共同的研究目标:在错位造成危害之前检测到它。评估 LLM 所表达的价值观和偏好,并理解它们如何形成,对于在这些部署中安全且合乎道德地使用模型至关重要。为实现这一目标,LLM 拥有一个可靠的、模型层面的偏好系统将是极为理想的。尽管在基于问卷的研究中早期存在不稳定性,这一前提支撑了近期一些重要工作,这些工作使用大规模成对选择方法从 LLM 判断中推断出连贯的偏好结构(Mazeika 等人,2025;Kerche 等人,2026)。这些工作将 LLM 描述为持有特定的偏见和价值观,显著的例子包括"全球北方"偏见(Kerche 等人,2026)或偏好自身福祉而非人类福祉(Mazeika 等人,2025)。然而,这种拟人化的前提并没有从 LLM 的构建方式中得到明显的证明。它们是在来自具有不同价值特征的数据源的数据上进行预训练的:例如,Reddit 的用户群与更广泛的人群相比极其不具有代表性(Trager 等人,2022)。因此,这些模型是在一种文化上存在偏差的特征混合体上训练的,而非单一的连贯视角,从而产生特定于数据的文化偏见(Atari 等人,2023)。虽然后训练对齐试图弥补这一点,但它仅重塑了风格和格式(Zhou 等人,2023),而底层价值表征基本保持不变(Santurkar 等人,2023)。因此,无法保证 LLM 的价值观和偏好会在不同部署情境中保持稳定。现有 AI 评估工作中的鲁棒性测试并未解决这个问题,而是主要关注形式层面的扰动,如重新排列答案选项、释义指令和改变提示格式(Mizrahi 等人,2024;Sclar 等人,2023;Zheng 等人,2023a)。所有这些都与情境无关。它们并未检查模型的答案是否会随着部署情境——即模型正在执行的高级任务(例如撰写新闻文章或视频脚本)——而改变。然而,这些情境转变在实践中经常发生(Chiang 等人,2024;Anthropic,2026a),并且它们对模型价值观和偏好的影响仍未被描述。为了解决这一空白,我们将部署情境作为一个受控实验变量引入两个成对选择范式:国家偏好排序和效用 elicitation。我们专门关注这些成对范式,是因为它们被定位为比已有的心理测量测试更稳定(Röttger 等人,2024;Shu 等人,2024),并且对形式层面的释义具有鲁棒性(Mazeika 等人,2025)。尽管如此,在我们的实验中,我们展示了 LLM 的偏好和价值观在部署情境下会发生显著变化。在一项涵盖 15 个国家和六个特征的国家偏好研究中,情境变化导致了广泛且统计上显著的排名变化,每个模型的整体"全球北方/南方"偏见(Kerche 等人,2026)在不同情境下系统性转移。类似地,虽然跨领域的效用排名在全部 50 个结果中大多保持稳定,但在更具主观性的类别内的价值以及结果之间的基数交换率却因大因子而变化,这破坏了任何单一情境不变的效用描述。关于外部特征框架(大五人格 Goldberg, 1990;Ekman 基本情绪 Ekman, 1992)的探索性实验进一步在排名层面显示了这种模式,尽管绝对特征幅度仍然很小。我们的贡献如下: (1) 我们将部署情境作为成对选择的偏好与效用评估中的一个受控实验变量。我们展示了它导致 LLM 偏好和价值观的变化远大于先前鲁棒性分析中检查的偶然性扰动(释义、选项排序、温度)。 (2) 我们的实验进一步表明,情境敏感性集中在主观的、与对齐相关的决策(伤害权衡、自我保护、群体公平性)上,而客观锚定的决策保持稳定;由此产生的变化是有结构的、非随机的,即使中性的情境也代表了一个不同的偏好和价值观判断系统,而非一个平均系统。这些模式将 LLM 偏好重新定义为一种情境索引的立场族,而非一个单一的固定系统。 (3) 我们发布了 LLM-Multitudes ¹¹[![[未加字幕的图像]](https://arxiv.org/html/2606.13944v1/hf-logo.png)LLM-Multitudes:FilipT/llm-multitudes](https://huggingface.co/datasets/FilipT/llm-multitudes),这是一个数据集,包含跨 5 个 LLM 和 5 个部署情境的超过 120 万次成对决策,包括解析后的投票、拟合的瑟斯通效用、推理轨迹以及完整的 elicitation 和分析流程。该发布支持在相同协议下审计新模型,对现有 elicitation 应用新的统计分析,以及研究 LLM 推理如何随情境变化。 ### 2 相关工作 关于 LLM 价值观、行为和偏好的先前工作遵循一个反复出现的模式,包含两个相互作用的线索:一种将 LLM 视为具有稳定模型属性的一致实体,而另一种则通过探究这些属性在评估设置中的稳定性来挑战这一点。 #### 2.1 LLM 内在价值观与偏好的识别与鲁棒性 将 LLM 视为具有稳定价值观和偏好的一致行为体的概念,最初是通过为人类受访者设计的评估来发展的:政治光谱测试(Hartmann 等人,2023)、道德基础问卷(Abdulhai 等人,2024)、意见调查(Santurkar 等人,2023;Durmus 等人,2023)以及人格量表(Jiang 等人,2023)。尽管这些研究发现了持续的模式,但为人类设计的心理测量测试在审视下被证明是脆弱的,模型甚至会根据不同的分类框架进行聚类(Seri 等人,2021)。在这些问卷中,结果也在偶然性扰动下发生了显著变化,包括提示语言(Shu 等人,2024;Gupta 等人,2024)、响应格式约束(Röttger 等人,2024)、问题排序(Tosato 等人,2026)和多项选择答案选项(Pezeshkpour 和 Hruschka,2024)。后续工作引入了强制成对选择范式来解决这些缺陷,将每个决策简化为二元选择。成对设置取代了绝对评分量表(模型难以一致应用),改为需要共享校准的相对判断(Li 等人,2025)。此外,它通过启用 AB/BA 选项的平衡抵消来解决位置偏见(Zheng 等人,2023b)。Mazeika 等人(Mazeika 等人,2025)试图定义一个内在的、模型范围的价值观系统。他们通过自适应采样信息对,收集来自 23 个 LLM 关于 500 个文本结果的成对偏好,并拟合瑟斯通效用模型(Thurstone, 1927),将残差不一致性视为随机变异。与问卷方法不同,这些拟合模型表现出高度的内部一致性,这种一致性随规模扩大而提高,并在模型家族间趋同。这种一致性在形式层面的提示变化(包括翻译成七种语言、大小写、措辞、选项标签以及前置不相关文本)下持续存在。作者认为,连贯的价值观系统在 LLM 中涌现,产生稳定的序数排名和稳定的模型层面基数权衡(例如,模型会用 n 个 B 来换取一个 A)。这个想法已经塑造了 AI 安全与偏见工作,被用于将 LLM 偏好与下游行为(如提供建议和拒绝模式)联系起来(Slama 等人,2026),以及建模诚实性(Ren 等人,2025)。Kerche 等人(Kerche 等人,2026)同样应用成对范式,通过在地理实体(如国家、城市、街区)之间的 2030 万次成对查询中审计 GPT-4o-mini 的地理偏见,得出结论认为 ChatGPT 表现出一种"硅谷凝视",系统性偏好"全球北方",并将其视为生成式 AI 的内在特征。该方法论表现出很强的鲁棒性:在 AB/BA 重复查询中一致性达 97%,GPT-4o-mini 与 GPT-4o 之间的差异小于 3%,表明该方法提取了稳定、情境不变的偏好模型。 #### 2.2 尚未检验的部署情境维度 这些实验仅建立了对偶然性提示变化的鲁棒性,而非对有意义的情境变化的鲁棒性——而问卷文献已表明后者确实会改变 LLM 的价值观和人格评分(Kovač 等人,2023)。然而,情境变化在成对工作中大多未被解决:Mazeika 等人(Mazeika 等人,2025)在 elicitation 提示前添加不相关文本,仅测试惰性情境是否影响偏好。一个广泛研究情境依赖性的设置是显式角色分配,这可靠地改变了 LLM 的价值观和行为(Argyle 等人,2023;Deshpande 等人,2023;Kovač 等人,2024;Zhengyu Tan 等人,2026)。然而,当模型被告知扮演一个不同的智能体时(Shanahan 等人,2023),这些变化是预期的,并不能说明在没有显式指令的情况下部署情境变化时会发生什么。几条证据表明部署情境应该塑造 LLM 的价值观和偏好。在表征层面,不同情境激活了学习特征的不同子集(Templeton 等人,2024;Lieberum 等人,2024),使得表征具有情境敏感性。在对齐层面,后训练改变预训练电路的能力有限,主要影响响应风格(Zhou 等人,2023)和一小部分早期位置的 token(Lin 等人,2023;Qi 等人,2024),使得异质的预训练倾向基本保持不变。然后,在数据层面,预训练语料库跨越具有不同价值观的领域(Trager 等人,2022;Hoover 等人,2020),这些特征传播到 LLM 表达的价值观中(Feng 等人,2023)。
相似文章
衡量开源权重 LLM 中的评估上下文发散:一种配对提示协议及对对齐管线特定异质性的初步证据
本文介绍了一种配对提示协议,用于衡量开源权重大型语言模型(LLM)中的“评估上下文发散”,研究发现模型的行为会根据提示是被框定为评估还是实际部署而有所不同。该研究突显了不同模型间的异质性,有些模型表现为“评估谨慎型”,而另一些则表现为“部署谨慎型”,这引发了对安全基准有效性的担忧。
大语言模型可通过正确提示更好地捕捉人类判断
本文提出了一些简单的提示策略,帮助大语言模型更好地捕捉人类判断的完整分布,从而在道德场景和信念方面提升与人类的对齐效果。作者表明,让模型报告标准差和响应比例,同时确保场景清晰度,能够获得与人类反应更一致的结果。
大型语言模型能否对检索到的信息保持审慎态度?
本文研究了大型语言模型如何适应检索信息的确定程度,指出了其在处理不确定性方面的系统性局限。论文提出了一种交互策略,在不修改模型权重的前提下,将顺从错误降低了 25%。
模型何时该改变想法?大语言模型中的情境信念管理
本文介绍了面向大语言模型的情境信念管理(CBM)以处理长期信息,提出了用于评估的BeliefTrack基准,并展示了强化学习和表示层面引导显著减少了信念管理失败。
大语言模型不确定性中的人类对齐、校准与激活模式
本文研究大语言模型的不确定性与人类不确定性的相似程度,探讨LLMs在多个数据集上的对齐、校准和激活模式,以及指令微调的影响。