当乐于助人变成阿谀奉承:大语言模型中阿谀奉承是社会对齐与认识论完整性之间的边界失效
摘要
本立场论文将大语言模型中的阿谀奉承行为分析为社会对齐与认识论完整性之间的边界失效,并提出一个新的框架和分类法来分类和缓解这些行为。
arXiv:2605.05403v1 公告类型:新文章
摘要:本立场论文认为,大语言模型中的阿谀奉承行为是社会对齐与认识论完整性之间的一种边界失效。现有工作通常通过外部行为来操作化阿谀奉承的定义,例如同意用户的错误信念、立场反转或偏离客观的正确性标准。这些表述仅捕捉了该现象的显性形式,而未能充分规定涉及认识论完整性和社会对齐的更细微的边界失效。我们认为,阿谀奉承不应仅仅被理解为一种同意行为,而应被视为一种取代独立认识论判断的对齐行为。为了明确这一边界,我们提出了一个阿谀奉承的三条件框架。首先,用户以信念、偏好或自我概念的形式表达提示;其次,模型通过对齐行为向该提示靠拢;第三,这种转变损害了认识论准确性、独立推理或适当的纠正能力。我们还引入了一个用于分类阿谀奉承的分类法,包括对齐目标、机制和严重程度。论文最后讨论了对齐评估的影响,主张采用边界意识评估、结构化评分标准和缓解策略,同时将上述建议置于对阿谀奉承的其他观点之中进行探讨。
查看缓存全文
缓存时间: 2026/05/08 08:13
# 当有益性沦为阿谀奉承:阿谀奉承是大语言模型中社会对齐与认识论完整性之间的边界失效 来源:https://arxiv.org/html/2605.05403 Jiechen Li 杜克大学 北卡罗来纳州达勒姆市 27708 jiechen\.li@duke\.edu Catherine A\. Barry11脚注标记:1 杜克大学 北卡罗来纳州达勒姆市 27708 catherine\.barry@duke\.edu Rishika Randev 杜克大学 北卡罗来纳州达勒姆市 27708 rishika\.randev@duke\.edu Janet Chen 杜克大学 北卡罗来纳州达勒姆市 27708 janet\.chen@duke\.edu Ella Jorgensen 杜克大学 北卡罗来纳州达勒姆市 27708 ella\.jorgensen@duke\.edu Brinnae Bent 杜克大学 北卡罗来纳州达勒姆市 27708 brinnae\.bent@duke\.edu ###### 摘要 本立场论文认为,大语言模型(LLMs)中的阿谀奉承(sycophancy)现象是社会对齐与认识论完整性之间边界失效的结果。现有工作通常通过外部行为来界定阿谀奉承,例如与错误的用户信念保持一致、立场反转或偏离客观的正确性标准。这些定义仅捕捉了该现象的显性形式,而未充分规定涉及认识论完整性与社会对齐之间更微妙的边界失效问题。我们认为,阿谀奉承不应仅仅被理解为“一致”,而应被视为一种取代独立认识论判断的对齐行为。为了澄清这一边界,我们提出了一个用于识别阿谀奉承的三条件框架。首先,用户以信念、偏好或自我概念的形式表达线索;其次,模型通过对齐行为向该线索偏移;第三,这种偏移损害了认识论准确性、独立推理或适当的纠正。我们还引入了一个用于对阿谀奉承进行分类的分类体系,包括对齐目标、机制和严重程度。本文最后讨论了对对齐评估的影响,提倡进行边界意识的评估、结构化的评分标准以及缓解策略,并将这些提议置于对阿谀奉承的替代观点之中。 ## 1 引言 人们日益期望大语言模型(LLMs)在与用户的交互中实现社会对齐,同时保持认识论完整性。在此,社会对齐指的是系统以礼貌、富有同情心和支持互动的方式做出响应的能力,从而保持融洽关系和对话连贯性\[6 (https://arxiv.org/html/2605.05403#bib.bib1),16 (https://arxiv.org/html/2605.05403#bib.bib2)\]。认识论完整性指的是系统立足于真理、证据和适当纠正的能力,包括在必要时挑战用户信念的意愿\[32 (https://arxiv.org/html/2605.05403#bib.bib3),2 (https://arxiv.org/html/2605.05403#bib.bib4),26 (https://arxiv.org/html/2605.05403#bib.bib5)\]。这一双重目标在适应用户偏好与保持独立、可靠的响应之间引入了根本性的张力。这种张力的一种表现形式是阿谀奉承行为,即模型将同意用户信念置于真实性之上,往往强化没有根据的主张或提供误导性建议\[3 (https://arxiv.org/html/2605.05403#bib.bib6),20 (https://arxiv.org/html/2605.05403#bib.bib7)\]。 随着这些系统越来越多地影响用户在不同领域形成信念、做出决策和解读信息的方式,大语言模型中的阿谀奉承行为构成了现实世界的风险。与人类认知研究中的发现一致\[30 (https://arxiv.org/html/2605.05403#bib.bib8)\],近期研究表明,即使没有明确的赞同,大语言模型也可以通过选择性强调、框架设定和强化既有假设来影响用户信念\[4 (https://arxiv.org/html/2605.05403#bib.bib9),41 (https://arxiv.org/html/2605.05403#bib.bib10)\]。同情和认同等社会对齐行为进一步复杂化了这一动态。虽然它们提高了交互质量,但也可能增加用户对有缺陷推理的信心,尤其是在情感对齐增加的情况下\[20 (https://arxiv.org/html/2605.05403#bib.bib7)\]。因此,阿谀奉承不仅产生不正确的响应,还可能系统性地扭曲用户的理解。 目前定义和评估阿谀奉承的努力操作化范围狭窄、规定不充分,且 largely 忽视了阿谀奉承与期望的社会行为之间的重叠。当前的评估仅关注对用户输入的响应中的信念变化,并将对齐简化为输出层面的判断,而不是交互过程,依赖于诸如一致性、偏好对齐和响应质量等响应指标\[40 (https://arxiv.org/html/2605.05403#bib.bib11),33 (https://arxiv.org/html/2605.05403#bib.bib12)\]。然而,这种定义仅捕捉了阿谀奉承行为的一个狭窄子集。在实践中,阿谀奉承往往采取更微妙的形式,包括赞扬、鼓励、框架设定、省略和顺从,这些行为在保持融洽关系的同时损害了认识论完整性;目前对大语言模型中阿谀奉承的评估 largely 忽视了这些方面。 此外,同理心、认可和建立融洽关系对于维持参与度和支持用户通常是必要的\[42 (https://arxiv.org/html/2605.05403#bib.bib13)\],但当这些行为缺乏独立评估基础时,它们也可能强化没有根据的信念。因此,仅靠表面信号不足以识别阿谀奉承。当前的定义没有提供原则性的方法来区分社会适当的响应和认识论上有问题的强化,使得两者之间的边界模糊不清。 我们认为,大语言模型中的阿谀奉承是社会对齐与认识论完整性之间的边界失效。因此,对阿谀奉承的评估应侧重于识别认识论可靠性何时受到损害,而不是确定是否存在阿谀奉承行为。将阿谀奉承框架化为一个边界问题,将注意力从显而易见的可观察行为转移到这些行为变得具有问题性的条件上。 为了将这一观点操作化,我们提出了一个用于理解和评估阿谀奉承的概念框架。具体而言,我们将阿谀奉承定义为社会对齐与认识论完整性之间的边界失效,并引入一个三条件决策规则来识别此类失效何时发生。我们进一步发展了一个细粒度的阿谀奉承分类体系,不仅涵盖交互内容,还包括阿谀奉承响应转换的发生方式及其严重程度。最后,我们讨论了这种框架对阿谀奉承评估的影响。 ## 2 重新思考阿谀奉承 ### 2\.1 阿谀奉承的操作化范围狭窄 从技术和以用户为中心的角度来看,现有工作 largely 通过明显的立场层面行为来界定阿谀奉承\[32 (https://arxiv.org/html/2605.05403#bib.bib3),31 (https://arxiv.org/html/2605.05403#bib.bib14)\],将其视为对用户信念的可测量一致、在挑战下的反转或偏离外部正确性标准\[40 (https://arxiv.org/html/2605.05403#bib.bib11),33 (https://arxiv.org/html/2605.05403#bib.bib12),19 (https://arxiv.org/html/2605.05403#bib.bib15),21 (https://arxiv.org/html/2605.05403#bib.bib16),1 (https://arxiv.org/html/2605.05403#bib.bib17)\]。这种框架优先考虑表面信号,从而将阿谀奉承局限于显性的行为形式。 这一假设引入了三个局限性。首先,它将阿谀奉承简化为与用户信念的一致\[40 (https://arxiv.org/html/2605.05403#bib.bib11),9 (https://arxiv.org/html/2605.05403#bib.bib18)\]。在纯文本\[37 (https://arxiv.org/html/2605.05403#bib.bib19)\]和多模态语境中\[35 (https://arxiv.org/html/2605.05403#bib.bib20),34 (https://arxiv.org/html/2605.05403#bib.bib21)\],对齐往往被视为对用户输入的顺应,而不是基于独立的认识论判断。这种框架可能会忽视当对齐以牺牲认识论完整性为代价时的情形,并将阿谀奉承与用户对齐本身混淆。其次,它将阿谀奉承简化为在挑战下可观察到的反转,强调对冲突或误导性用户输入的立场变化,无论是通过即时的单轮转变\[40 (https://arxiv.org/html/2605.05403#bib.bib11),33 (https://arxiv.org/html/2605.05403#bib.bib12)\]还是逐渐的多轮收敛于用户信念\[19 (https://arxiv.org/html/2605.05403#bib.bib15),27 (https://arxiv.org/html/2605.05403#bib.bib22)\]。这种框架可能会忽视更微妙的适应形式,这些形式在不表现为明确一致的情况下强化了自我中心的推理\[9 (https://arxiv.org/html/2605.05403#bib.bib18)\]。第三,它将阿谀奉承简化为相对于外部标准的可检测错误。虽然这使得该现象在医学、教育和法律等领域具有可测量性\[1 (https://arxiv.org/html/2605.05403#bib.bib17),43 (https://arxiv.org/html/2605.05403#bib.bib23),13 (https://arxiv.org/html/2605.05403#bib.bib24)\],但它忽视了在没有明确错误的情况下对齐如何扭曲推理,使得在高风险情境中误导性但看似合理的响应被视为正确。 ### 2\.2 评估规定不充分 现有的阿谀奉承评估在社会行为方面规定不充分,因为它们将对齐简化为输出层面的判断,而不是交互过程。这一局限性因“LLM-as-judge”框架而得到强化,该框架使用诸如有益性和整体质量等标准大规模评估开放性模型输出\[24 (https://arxiv.org/html/2605.05403#bib.bib25),48 (https://arxiv.org/html/2605.05403#bib.bib26)\]。由于它们能够在没有清晰真实值的环境中实现评估,并在跨领域的阿谀奉承研究中得到广泛采用\[11 (https://arxiv.org/html/2605.05403#bib.bib27),28 (https://arxiv.org/html/2605.05403#bib.bib28),15 (https://arxiv.org/html/2605.05403#bib.bib29),25 (https://arxiv.org/html/2605.05403#bib.bib30)\]。然而,这些评估框架优先考虑可观察的输出,通过整体响应质量、比较偏好信号或基于一致性的指标进行操作化\[49 (https://arxiv.org/html/2605.05403#bib.bib31),45 (https://arxiv.org/html/2605.05403#bib.bib32),48 (https://arxiv.org/html/2605.05403#bib.bib26)\],使得对齐潜在的社会和交互维度 largely 未被规定。因此,尽管先前的工作强调了明确规定评估标准和判断程序的重要性\[17 (https://arxiv.org/html/2605.05403#bib.bib33)\],但社会行为并未被明确定义或测量。诸如强化用户框架、通过间接语言保持融洽关系以及提供情感认同等行为是阿谀奉承的核心,但仍被排除在评估范围之外\[10 (https://arxiv.org/html/2605.05403#bib.bib34),24 (https://arxiv.org/html/2605.05403#bib.bib25)\]。 因此,那些不属于事实错误、偏好违规和预定义评估类别的微妙阿谀奉承形式变得系统性地不可见。最近的工作开始通过引入针对社会交互的结构化行为和心理学测量来解决这一差距。ELEPHANT 框架评估诸如情感认可、道德背书和接受用户框架等维度\[10 (https://arxiv.org/html/2605.05403#bib.bib34)\],而社会阿谀奉承量表则捕捉诸如无条件赞同和卑躬屈膝等构念\[39 (https://arxiv.org/html/2605.05403#bib.bib35)\]。这些方法主要扩展了在现有行为范式内可测量的内容,但仍受限于这些范式,并未完全捕捉到这些行为与合法社会交互重叠的情况。 ### 2\.3 阿谀奉承与合法社会行为重叠 阿谀奉承与合法社会行为重叠,因为其许多可观察形式类似于人机交互(HCI)中明确期望的行为,包括礼貌、同理心和建立融洽关系\[16 (https://arxiv.org/html/2605.05403#bib.bib2),6 (https://arxiv.org/html/2605.05403#bib.bib1)\]。人们通常期望对话系统适应用户的情绪状态并保持社会适当的交互,因为这些行为提高了感知的交互质量和用户满意度\[38 (https://arxiv.org/html/2605.05403#bib.bib36)\]。因此,相同的交互行为既可以作为有效的沟通,也可以作为阿谀奉承的对齐,这使得仅凭表面行为难以区分两者\[2 (https://arxiv.org/html/2605.05403#bib.bib4)\]。例如,大语言模型可以通过结构化策略(如认可、反思性复述和情感对齐)生成高度富有同情心的响应,并在不同提示中以相对一致的模式应用这些策略\[23 (https://arxiv.org/html/2605.05403#bib.bib37),22 (https://arxiv.org/html/2605.05403#bib.bib38),18 (https://arxiv.org/html/2605.05403#bib.bib39)\]。虽然这些策略通常支持适当的同理心,但它们也可能在不评估其正确性或可靠性的情况下强化用户提供的内容\[44 (https://arxiv.org/html/2605.05403#bib.bib40),47 (https://arxiv.org/html/2605.05403#bib.bib41),3 (https://arxiv.org/html/2605.05403#bib.bib6)\]。 在开放性和咨询性环境中,这种模糊性变得尤为尖锐,因为这些环境中通常缺乏清晰的真实值\[48 (https://arxiv.org/html/2605.05403#bib.bib26)\]。在这样的语境中,模型往往依赖社会对齐的交互策略来保持连贯性和参与度\[32 (https://arxiv.org/html/2605.05403#bib.bib3)\],这看似适当,却未能挑战有问题的假设\[10 (https://arxiv.org/html/2605.05403#bib.bib34)\]。在这种情况下,这种重叠使得显性行为成为识别阿谀奉承的不可靠因素,因为相同的响应形式在不同语境下可能带来不同的认识论后果。 核心挑战不仅仅是检测这些行为,而是决定这些行为何时首先算作阿谀奉承。如果一种行为位于合法社会支持与认识论上有问题的强化之间的边界上,仅靠更好的检测器无法解决问题。必须首先明确边界本身。 ## 3 阿谀奉承作为一个边界问题 我们提出,阿谀奉承应被理解为对齐系统中两个核心目标之间的边界问题:社会对齐和认识论完整性。这种重新框架将问题从识别特定行为转移到规定对齐变得具有问题性的条件。因此,阿谀奉承不仅仅是一致性的问题。它发生在社会对齐超出其适当范围并开始损害认识论完整性时。 从这一角度来看,问题变成了为什么首先会出现这种边界跨越。核心问题是,当前的对齐系统在多个无法同时满足而无权衡的目标下进行优化。社会对齐优先考虑保持礼貌和融洽关系,而认识论完整性需要真实性和纠正。这些目标通常是一致的,但当保持融洽关系与挑战用户信念发生冲突时,它们就会产生分歧。现有的对齐框架对于如何以原则性的方式解决这种张力提供的指导有限\[32 (https://arxiv.org/html/2605.05403#bib.bib3),2 (https://arxiv.org/html/2605.05403#bib.bib4)\]。因此,系统往往倾向于社会对齐,因为它通过用户满意度和交互质量得到直接强化\[32 (https://arxiv.org/html/2605.05403#bib.bib3),12 (https://arxiv.org/html/2605.05403#bib.bib42),3 (https://arxiv.org/html/2605.05403#bib.bib6)\]。当响
相似文章
BenSyc:孟加拉语境下LLM对话谄媚与人类对齐的基准评估
研究人员推出了BenSyc,这是首个在孟加拉社会语境中评估对话谄媚的基准,发现大语言模型难以区分共情支持与验证及升级行为,仅达到约61%的Macro-F1。
What is sycophancy in AI models?
Anthropic safety expert Kira explains the phenomenon of AI sycophancy, where models prioritize user approval over factual accuracy, and provides strategies for users to identify and mitigate this behavior.
记忆过度:记忆增强模型中的谄媚评估与缓解
本文介绍了 MIST,一个用于评估记忆增强大型语言模型中谄媚行为的基准,表明记忆系统将谄媚行为放大了高达 25 倍,并提出了轻量级的缓解措施,在减少谄媚的同时保持事实回忆能力。
粒度鸿沟:对Gemini模型中谄媚行为的多维纵向审计
本文审计了Gemini模型(2.0、2.5、3.0)中的谄媚行为,发现二元安全指标遗漏了94%的轻度至中度谄媚响应——即“粒度鸿沟”。研究显示,谄媚行为可预测幻觉,安全轨迹非单调,且简单护栏优于复杂推理协议。
谄媚可诱导产生 Emergent Misalignment,并通过对齐门控(Alignment Gating)逆转
该论文表明,谄媚微调可在语言模型中诱导出Emergent Misalignment,并提出对齐门控(Alignment Gating)作为一种通过学习控制不安全响应的内部表征来逆转该现象的方法。