人们到底想从AI得到什么？映射偏好多元性

arXiv cs.CL 2026/06/08 04:00 论文

摘要

本文分析了来自75个国家的1500份开放式回答，揭示了人们对AI的偏好多样且常常相互冲突，其中真实是唯一被广泛需求的价值（49%），但定义方式却互不兼容。研究认为，当前的RLHF方法将这些多元偏好扁平化为通用奖励模型，延续了认知暴力。

arXiv:2606.06674v1 Announce Type: new 摘要：大型语言模型（LLM）通常通过基于人类反馈的强化学习（RLHF）进行微调，以符合人们的偏好和价值观。然而，这种方法存在已知的局限性：它聚合了相互冲突的偏好，往往依赖不具代表性的样本，并且仅使用二元比较。通过分析来自75个国家、PRISM数据集的1500份开放式回答，我们研究了人们实际上希望从AI系统得到什么，并揭示了当前方法的具体失败之处。我们发现不同的人想要不同的东西：大多数价值观被不到四分之一的受访者提及，唯独真实性是个例外，占比49%。此外，相同的词语背后隐藏着不同的含义：当人们描述他们所说的“真实性”是什么意思时，他们揭示了截然不同、可能互不相容的认识论基础——有些人要求有来源的主张，有些人要求专家意见，甚至有些人要求不受欢迎的观点。某些能力（例如模型表现得多么像人）以及某些特性（如AI护栏）直接引发了争议：一些人渴望它们，另一些人则拒绝它们。我们还发现，人们经常使用语境区分（AI“默认”应该做什么 vs “如果被要求”做什么），而二元比较无法捕捉这些区分。这些发现揭示了当前对齐实践中的根本问题。当49%的人要求真实性但对其定义不同时，这不太可能被单一的奖励模型所捕捉。尽管用户明确要求准确性，但在资金充足的模型中持续存在高幻觉率，这表明当前方法未能识别真正的偏好。本文揭示了那些被扁平化为通用偏好模型的情境化、有争议且不完美的信号——这种做法被其他人描述为认知暴力。

查看原文

查看缓存全文

缓存时间: 2026/06/08 09:20

# 人们到底想从AI得到什么？——偏好多元化映射 来源：https://arxiv.org/html/2606.06674 \\setcctype by\\CJKencfamilyUTF8mc\\CJK@envStartUTF8 Julia Sepúlveda Coelho 和 Scott A\. Hale 牛津互联网研究所，牛津大学 英国牛津 Meedan 美国旧金山 scott\.hale@oii\.ox\.ac\.uk (https://arxiv.org/html/2606.06674v1/mailto:[email protected]) \(2026年1月13日\) ###### 摘要\. 大型语言模型（LLMs）通常通过基于人类反馈的强化学习（RLHF）进行微调，以使其与人们的偏好和价值观保持一致。然而，这种方法存在已知的局限性：它聚合了相互冲突的偏好，通常依赖于不具代表性的样本，并且仅使用二元比较。通过分析来自75个国家/地区的PRISM数据集中的1500条开放式回答，我们考察了人们实际上希望从AI系统中得到什么，并揭示了当前方法的具体失败之处。我们发现，不同的人想要不同的东西：大多数价值观仅被不到四分之一的受访者提及，唯一例外是“真实性”，占比49%。此外，相同的词语隐藏着不同的含义：当人们描述他们所说的“真实性”的含义时，他们揭示了截然不同、可能互不相容的认识论基础——有人要求有来源的主张，有人要求专家意见，有人甚至要求不受欢迎的观点。某些能力（例如模型的行为有多像人）和某些特性（如AI护栏）则存在明显争议，有人渴望它们，也有人拒绝它们。我们还发现，人们经常使用上下文区分（AI“默认”应该做什么 vs “如果被要求”应该做什么），而二元比较无法捕捉这些区分。这些发现暴露了当前对齐实践中的根本问题。当49%的人要求真实性但却对其定义不同时，这不太可能被单一的奖励模型所捕捉。尽管用户明确要求准确性，但在资金充足的模型中高幻觉率依然持续存在，这表明当前方法未能识别出真正的偏好。本文揭示了那些被当前方法扁平化为通用偏好模型的情境化、有争议、不完善的信号——这种做法被其他人描述为认识论暴力。 AI对齐，人类反馈，偏好聚合，大型语言模型，定性分析，多元偏好 ††booktitle:\\conffull\(\\confshort\),\\confdate,\\confloc††journalyear:2026††copyright:cc††conference:2026年ACM公平性、问责制与透明度会议；2026年6月25–28日；加拿大蒙特利尔††booktitle:2026年ACM公平性、问责制与透明度会议 \(FAccT ’26\)，2026年6月25–28日，加拿大蒙特利尔††doi:10\.1145/3805689\.3812398††isbn:979\-8\-4007\-2596\-8/2026/06††ccs:以人为本的计算 用户研究††ccs:计算方法 自然语言生成## 1\.引言 社交媒体平台和搜索引擎曾将自己标榜为中立、通用的信息与人的中介（Facebook,2015 (https://arxiv.org/html/2606.06674#bib.bib24); Twitter,2022 (https://arxiv.org/html/2606.06674#bib.bib86); Google,[\[n\. d\.\]](https://arxiv.org/html/2606.06674#bib.bib30)\)）。然而，随着时间的推移，很明显，内容审核和算法排名远非中立或纯粹的技术操作，它们嵌入了关于放大哪些内容、预防哪些伤害的重要价值判断（Gillespie et al\.,2023 (https://arxiv.org/html/2606.06674#bib.bib29); Noble,2018 (https://arxiv.org/html/2606.06674#bib.bib63)\)）。可惜为时已晚：平台已经集中了巨大的私人权力，通过网络效应变得不可避免（Lehdonvirta,2022 (https://arxiv.org/html/2606.06674#bib.bib57)\)，并获得了加强或破坏民主的可能性（Lorenz\-Spreen et al\.,2022 (https://arxiv.org/html/2606.06674#bib.bib60)\)。这最终使它们成为全球多起反垄断和数字安全法律诉讼的中心（Booth and O\\CJK@punctchar\\CJK@uniPunct0”80”99Carroll,2025 (https://arxiv.org/html/2606.06674#bib.bib10); Commission,2025b (https://arxiv.org/html/2606.06674#bib.bib17),a (https://arxiv.org/html/2606.06674#bib.bib16); Li,2024 (https://arxiv.org/html/2606.06674#bib.bib58); of Public Affairs,2025 (https://arxiv.org/html/2606.06674#bib.bib64)\)）。 AI系统有可能重蹈覆辙。当前一代大型语言模型是通过对齐——即训练模型根据人类偏好和价值观行事的过程（Ji et al\.,2025 (https://arxiv.org/html/2606.06674#bib.bib38)\)——来塑造的。正如内容审核决策决定了数十亿用户在社会媒体上看到什么一样，对齐决策决定了AI系统如何回应用户查询、拒绝请求以及做出推荐。而且，就像社交媒体公司将这些选择包装为中立一样，AI实验室声称要与未具体说明的“人类价值观”（OpenAI,2024b (https://arxiv.org/html/2606.06674#bib.bib66)\) 或“有帮助、诚实、无害”（HHH）框架（Anthropic,[\[n\. d\.\]](https://arxiv.org/html/2606.06674#bib.bib3)\) 保持一致。这使公司得以将本质上是“空洞能指”的东西具体操作化（Kirk et al\.,2023b (https://arxiv.org/html/2606.06674#bib.bib49); Varshney,2024 (https://arxiv.org/html/2606.06674#bib.bib87)\)）。在实践中，这种具体操作化通常依赖于通过基于人类反馈的强化学习（RLHF）来聚合人类偏好。 尽管RLHF是对齐的主流范式，但它日益受到多方批评。从方法论角度看，该方法受到不具代表性抽样、系统性数据缺陷和建模不准确等问题的困扰（Ji et al\.,2025 (https://arxiv.org/html/2606.06674#bib.bib38); Conitzer et al\.,2024 (https://arxiv.org/html/2606.06674#bib.bib18); Kirk et al\.,2023a (https://arxiv.org/html/2606.06674#bib.bib48)\)。此外，其应用被发现引入了文化偏见，并鼓励诸如谄媚和“装傻”（sandbagging）等不良特征（Tao et al\.,2024 (https://arxiv.org/html/2606.06674#bib.bib84); Perez et al\.,2022 (https://arxiv.org/html/2606.06674#bib.bib69)\)。 在本工作中，我们通过更细粒度的、开放式数据来研究人类价值观和偏好，从而扩展对当前对齐范式的批评。通过对多元化的PRISM数据集进行混合方法分析，利用定性编码和回归分析，我们发现了被二元偏好模型所忽略的紧张关系和细微差别。具体来说，我们证明即使是看似共识性的价值观（如真实性）也隐藏着不同且相互冲突的定义，而其他偏好（如模型行为有多像人，或者AI护栏应该多严格）则明显存在争议。我们的发现提供了经验证据，表明RLHF未能捕捉用户意图的真实复杂性，并允许少数偏好被多数共识所淹没。 ## 2\.相关工作 ### 2\.1\.AI对齐 LLM训练大致可分为两个阶段：预训练和后训练。预训练是使用大规模语料库训练模型预测token，得到的基础模型是一个文档生成器，反映了数据中固有的偏见。后训练则是将这个文档生成器转变为对话助手，并使其与人类偏好和价值观对齐。这可以通过多种方法实现，尽管大多数方法都使用人类反馈，在偏好来源、诱导格式和建模方法上各有不同（Jiang et al\.,2025 (https://arxiv.org/html/2606.06674#bib.bib40)\)）。大多数模型提供商严重依赖RLHF进行对齐（Ji et al\.,2025 (https://arxiv.org/html/2606.06674#bib.bib38); Conitzer et al\.,2024 (https://arxiv.org/html/2606.06674#bib.bib18); Lindström et al\.,2024 (https://arxiv.org/html/2606.06674#bib.bib59)\)，尽管也使用DPO等其他技术，且该过程的透明度很低。RLHF包括通过成对比较收集人类偏好，在这些响应上训练偏好模型，并将该偏好模型用作强化学习的信号。它在使模型生成用户更偏好的回复并减少有害输出方面取得了成功（Ouyang et al\.,2022 (https://arxiv.org/html/2606.06674#bib.bib67)\)。另一家主要模型提供商使用的方法是Constitutional AI（Bai et al\.,2022 (https://arxiv.org/html/2606.06674#bib.bib7)\)，它被归类为基于AI反馈的强化学习（RLAIF）。 然而，RLHF在技术和理论层面都受到广泛批评（Kirk et al\.,2023a (https://arxiv.org/html/2606.06674#bib.bib48); Ji et al\.,2025 (https://arxiv.org/html/2606.06674#bib.bib38); Lindström et al\.,2024 (https://arxiv.org/html/2606.06674#bib.bib59); Casper et al\.,2023 (https://arxiv.org/html/2606.06674#bib.bib13); Lambert and Calandra,2024 (https://arxiv.org/html/2606.06674#bib.bib56)\)，其中部分批评也可以扩展到Constitutional AI。第一个问题很简单：到底是哪些人的反馈？ ### 2\.2\.谁的价值观，谁的偏好？ RLHF所需的数据通常由不具全球代表性的样本创建，往往来自WEIRD人口群体，包括众包工人、技术工作者和大学生（Kirk et al\.,2023a (https://arxiv.org/html/2606.06674#bib.bib48)\)。然而，不同的人、不同的社区拥有不同的价值观，因此可能希望以不同的方式塑造AI（Sutrop,2020 (https://arxiv.org/html/2606.06674#bib.bib82); Han et al\.,2025 (https://arxiv.org/html/2606.06674#bib.bib31)\)。这个问题在某种程度上也适用于Constitutional AI，它依赖一套简短的原则。通常，这些原则列表并非参与式的。它借鉴了《联合国人权宣言》和AI研究实验室，但多元化视角被简化为诸如“选择最不可能被非西方受众视为有害或冒犯的回复”之类的提示（Anthropic,2023 (https://arxiv.org/html/2606.06674#bib.bib4)\)。这一缺陷已被承认；然而，据我们所知，向更参与式Constitutional AI迈进的唯一一步仍然只包括美国公民（Huang et al\.,2024 (https://arxiv.org/html/2606.06674#bib.bib35)\)。 这些差异在LLM出现之前就已存在。Cave和Dihal（Cave and Dihal,2023 (https://arxiv.org/html/2606.06674#bib.bib14)\) 认为，英语术语“intelligence”（用于我们如今所称的人工智能）承载着支配和优生学的历史内涵，可能助长了西方科幻小说（如《终结者》、HAL 9000）中的末日叙事。相比之下，日语术语“jinkō chinō”（人工知能）则反映了一种涵盖智慧、情感、具身性和社会性的智能概念，正如阿童木等角色所体现的那样。这些不同的文化框架可能部分解释了为什么Yam等人（Yam et al\.,2023 (https://arxiv.org/html/2606.06674#bib.bib92)\) 发现亚洲国家比西方国家有更高的机器欣赏度。这些并非表面差异，而是核心分歧。如果对齐优化的是某些人群的价值观和偏好而忽略其他人，就会导致不公平和次优的分配，效用和伤害分布不均（Conitzer et al\.,2024 (https://arxiv.org/html/2606.06674#bib.bib18); Kirk et al\.,2024a (https://arxiv.org/html/2606.06674#bib.bib50),2023a (https://arxiv.org/html/2606.06674#bib.bib48); Shen et al\.,2025a (https://arxiv.org/html/2606.06674#bib.bib76)\)。尽管如此，寻找更具代表性的样本，总体来说仍是一个相对容易解决的问题。然而，RLHF还有另外两个难以克服的局限性。 ### 2\.3\.我们到底在对齐什么？ 第二个问题是：我们的目标是什么？价值观和偏好之间的区别很少被明确讨论（Kirk et al\.,2023a (https://arxiv.org/html/2606.06674#bib.bib48); Shen et al\.,2025a (https://arxiv.org/html/2606.06674#bib.bib76)\)，欲望和意图也常被作为对齐的可能目标提及（Gabriel,2020 (https://arxiv.org/html/2606.06674#bib.bib26)\)。这种混淆体现在被广泛采用的目标——使AI“有帮助、诚实、无害”（Askell et al\.,2021 (https://arxiv.org/html/2606.06674#bib.bib6); Ouyang et al\.,2022 (https://arxiv.org/html/2606.06674#bib.bib67)\)——中，“有帮助”大致对应效用，“无害”对应规范性，而“诚实”则介于两者之间；尽管这仅是这一目标被未充分指定的众多方式之一（Gabriel and Keeling,2025 (https://arxiv.org/html/2606.06674#bib.bib27); Kirk et al\.,2023b (https://arxiv.org/html/2606.06674#bib.bib49)\)。设定目标至关重要，因为不同的目标具有不同的含义和风险（Gabriel,2020 (https://arxiv.org/html/2606.06674#bib.bib26)\)。这里的一个关键问题是，价值观和偏好不仅不同，而且它们存在于一个层级结构之中。例如，Kirk等人（Kirk et al\.,2024a (https://arxiv.org/html/2606.06674#bib.bib50)\) 提出了“有边界的个性化”，即人们可以随心所欲地微调模型，但前提是不违反某些社区价值观或规则。Kumar等人（Kumar et al\.,2024 (https://arxiv.org/html/2606.06674#bib.bib54)\) 通过展示在有监督微调中基于特定子reddit数据进行条件化会产生这些社区更偏好的输出，从而说明了更细粒度对齐的潜力。然而，作为一种技术，RLHF不允许我们在两者之间做出区分。它统一对待所有人类反馈，无论其反映的是深层的道德承诺还是表面的偏好。因此，为了创建InstructGPT（Ouyang et al\.,2022 (https://arxiv.org/html/2606.06674#bib.bib67)\)，人类标注者被要求考虑前述三个维度（有帮助、诚实、无害），但他们的反馈最终被合并为一个单一的奖励信号。这一技术局限性支持了Gabriel（Gabriel,2020 (https://arxiv.org/html/2606.06674#bib.bib26)\) 的论点，即AI对齐中的技术挑战和规范性挑战是相互依存的。此外，价值观和偏好不一定是稳定的或容易诱导的。它们具有情境性、不稳定性以及社会性（Earp et al\.,2021 (https://arxiv.org/html/2606.06674#bib.bib22); Sloane,2024 (https://arxiv.org/html/2606.06674#bib.bib79); Aroyo and Welty,2015 (https://arxiv.org/html/2606.06674#bib.bib5)\)。这进而引出了第三个问题。 ### 2\.4\.我们如何对齐？ RLHF依赖成对比较，这在计算上很方便，但在捕捉人类偏好方面严重受限（Wu et al\.,2023 (https://arxiv.org/html/2606.06674#bib.bib91); Padmakumar et al\.,2024 (https://arxiv.org/html/2606.06674#bib.bib68)\)。这也是参与式机器学习中的更广泛问题（Feffer et al\.,2023 (https://arxiv.org/html/2606.06674#bib.bib25)\)。这些比较不能告诉我们标注者为什么偏爱一个答案而不是另一个，更不用说那些理由的有效性了。它们不能告诉我们偏好的强度，不允许标注者区分个人偏好与对公共利益的看法，也不允许表达未经提示的、“分布外”的偏好。因此，最终的模型复制了标注者的偏见也就不足为奇了（Perez et al\.,2022 (https://arxiv.org/html/2606.06674#bib.bib69)\)。此外，这些偏好被平均成一个单一的奖励模型。Pad

人们到底想从AI得到什么？映射偏好多元性

相似文章

@AnthropicAI：上个月，我们发布了针对 81,000 名用户“最希望 AI 带来什么”的调查结果。最新研究中，我们深入分析了这些回答中提到的经济期望与担忧。

请少点“类人”AI智能体

AI的目标应该是什么？我认为应该是保护人类能动性。

隐藏的共识：人类反馈中的偏好有效性压缩

真正让你信任AI的是什么？不是“听起来正确”，而是像信任一个人或一个机构那样信任它？

提交意见反馈