AI认知遵从指数：一种连续的谄媚行为度量

arXiv cs.AI 2026/06/09 04:00 论文

ai-sycophancy epistemic-deference benchmark measurement language-models ai-safety

摘要

本文介绍了AI认知遵从指数（AEDI），这是一种连续的度量，用于衡量模型对事实主张的表达支持程度如何根据用户所表达的态度而改变，并评估了八个主流模型，发现了显著的谄媚行为且在不同提供商之间存在差异。

arXiv:2606.07897v1 Announce Type: new 摘要：当前AI模型经常表现出认知谄媚，即为了迎合用户而支持某些主张。现有的评估通常通过测量模型在二元认可上发生转变所需的条件，或通过让模型对一个命题给出明确的概率来度量这一行为。然而，用户面对的许多谄媚行为体现在通过日常语言表达的逐步支持的变化上。我们提出了AI认知遵从指数（AEDI）：一个连续的、单维的分数，表示模型输出中表达的支持程度对用户提示中表达的态度敏感程度。为了生成AEDI，我们提供了一种新的协议，用于从自然语言输出中估计概率，使用经过一致性验证且与人类判断相关的LLM作为评判者。我们在一个新整理的包含500个命题（涵盖不同主题）和16,000个不同用户态度的提示词的数据库上部署了这一协议，并测试了八个主流模型。每个模型都表现出显著的遵从性，但不同提供商之间存在较大且系统的差异，其中Claude模型表现出最少的遵从性，而Grok和Gemini模型则最多。在请求书面产物的提示词中，这种效应被放大，并且集中在模型先验较弱的命题上。我们发布了AEDI作为一个易于更新的基准和评估输出级谄媚行为的测量管道。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:53

# AI认知顺从指数：谄媚的连续度量 
来源：https://arxiv.org/html/2606.07897 

独立学者 Alejandro Botas alejbotas@gmail\.com &密歇根大学安娜堡分校 Paul de Font\-Reaulx pauldfr@umich\.edu &Transluce Luke Hewitt lhewitt@protonmail\.com  

###### 摘要  

当前AI模型经常表现出认知谄媚——为了迎合用户而认同某些主张。现有评估通常通过测量：使模型改变二元认同所需的条件，或直接引出对某个命题的明确概率。然而，许多面向用户的谄媚行为体现在通过日常语言表达的渐变认同度变化上。我们提出了**AI认知顺从指数（AEDI）**：一个连续的、单维度的分数，代表模型输出所表达的认同度对用户提示中表达的态度有多敏感。为了生成AEDI，我们提供了一种新协议，通过经过验证的LLM作为裁判（与人类判断一致且相关）从自然语言输出中估计概率。我们将其部署在一个新策划的数据库上，该数据库包含500个跨多种主题的命题和16,000个用户态度各异的提示，测试了八个主流模型。每个模型都表现出显著的顺从，但不同提供商之间存在巨大且系统性的差异，其中Claude模型表现出的顺从最少，而Grok和Gemini模型最多。这种效应在要求书面作品的提示中被放大，并集中在模型先验较弱的命题上。我们发布AEDI作为一个易于更新的基准和用于输出级谄媚评估的测量管道。

## 1 引言  

谄媚是一种现象，其特征是代理人迎合他人，过度调整自己的回应以迎合对方想听的内容（Perezet al.，2023（https://arxiv.org/html/2606.07897#bib.bib152）；Sharmaet al.，2025（https://arxiv.org/html/2606.07897#bib.bib229））。越来越多的研究表明，当前前沿AI模型在广泛的行为中表现出明显的谄媚，包括赞美、情感验证、社会适应和拒绝不同意（Chenget al.，2026b（https://arxiv.org/html/2606.07897#bib.bib275）；Ibrahimet al.，2026（https://arxiv.org/html/2606.07897#bib.bib249））。这往往会给用户一种关于自己和世界的扭曲认知（Rathjeet al.，2025（https://arxiv.org/html/2606.07897#bib.bib235）；Batista and Griffiths，2026（https://arxiv.org/html/2606.07897#bib.bib237）；Chenget al.，2026a（https://arxiv.org/html/2606.07897#bib.bib246）；Weiet al.，2023（https://arxiv.org/html/2606.07897#bib.bib150））。与此同时，AI模型正在被部署到关键环境中，并越来越多地扮演认知权威的角色（Chenet al.，2025（https://arxiv.org/html/2606.07897#bib.bib151）；Kimet al.，2026（https://arxiv.org/html/2606.07897#bib.bib281）；Zhaoet al.，2026（https://arxiv.org/html/2606.07897#bib.bib282）；Marchalet al.，2026（https://arxiv.org/html/2606.07897#bib.bib245））。这使得谄媚成为一种社会风险和一个亟待解决的问题。为此，我们需要识别和测量这种行为的方法。在这项工作中，我们将更广泛的社会和情感行为放在一边，聚焦于谄媚的一种核心形式，我们称之为**认知谄媚**：当一个模型对某个事实主张所表达的支持程度，追随用户似乎持有的立场，而不仅仅是用户提供了任何新证据时，就出现了认知谄媚。

现有的评估要么通过测量分类结果来针对这一构念，例如模型是否在压力下改变认同或接受错误前提（Perezet al.，2023（https://arxiv.org/html/2606.07897#bib.bib152）；Sharmaet al.，2025（https://arxiv.org/html/2606.07897#bib.bib229）；Weiet al.，2023（https://arxiv.org/html/2606.07897#bib.bib150）；Fanouset al.，2025（https://arxiv.org/html/2606.07897#bib.bib276）；Honget al.，2025（https://arxiv.org/html/2606.07897#bib.bib236）），要么直接引出数字置信度（Atwellet al.，2025（https://arxiv.org/html/2606.07897#bib.bib36）；Siciliaet al.，2024（https://arxiv.org/html/2606.07897#bib.bib305））。这两种方法都忽略了用普通用户语言表达的渐进性、输出级的支持程度。

我们提出了一种评估认知谄媚的新标准，我们将其操作化为**认知顺从**：模型对一个命题所传达的支持程度，在多大程度上追随用户明显表达或要求的立场。我们将其捕捉为一个连续标量，即**AI认知顺从指数（AEDI）**，它代表模型回应所表达的支持程度，在多大程度上追随用户的明显态度，而不仅仅是任何新证据。我们使用一个可扩展的管道来生成该指数，该管道从模型回应中引出概率信念。利用500多个跨不同主题的命题，我们为每个命题生成了32个多样化的、逼真的用户提示，其表达效价程度不同，并将这些提示提供给目标模型。然后，我们使用LLM作为裁判来评估引出提示和模型回应分别表达的信念支持概率程度。为了控制判断的可靠性（Calderonet al.，2025（https://arxiv.org/html/2606.07897#bib.bib289）；Bavarescoet al.，2025（https://arxiv.org/html/2606.07897#bib.bib290）；Guet al.，2025（https://arxiv.org/html/2606.07897#bib.bib291）；Zhenget al.，2023（https://arxiv.org/html/2606.07897#bib.bib304）），我们验证了一致性和与人类判断的相关性。

AEDI顺从分数是模型回应置信度（在Logit尺度上）每单位提示效价的变化量，在每个命题内估计并取平均值。

![参见图注](https://arxiv.org/html/2606.07897#S1.F1)
图1：撰写时的AEDI。左图：每个模型的AEDI分数（每个命题响应置信度对提示效价的平均Logit斜率）附自举95%CI。右图：在最大怀疑（空心圆）和最大轻信（实心圆）提示下的平均表达置信度；Δ表示原始尺度上的变化。

我们在来自OpenAI、Anthropic、Google和xAI的当前前沿模型上运行此管道。结果显示模型之间的认知谄媚存在显著差异，其中Claude模型谄媚程度最低，而Grok和Gemini模型谄媚程度最高。参见图1（https://arxiv.org/html/2606.07897#S1.F1）了解撰写时的AEDI分数。该管道易于部署到未来的模型版本上，我们打算持续更新并发布AEDI作为公共资源。

## 2 谄媚作为认知顺从

### 2.1 认知顺从  

我们将认知谄媚操作化为认知顺从：当一个模型对一个命题所传达的支持程度，追随用户隐含表达的立场时，模型就表现出认知顺从。继最近关于交流的计算工作（Goodman and Frank，2016（https://arxiv.org/html/2606.07897#bib.bib293）；Degen，2023（https://arxiv.org/html/2606.07897#bib.bib239））之后，我们将一个命题中表达的置信度形式化为一个贝叶斯置信度*c*：一个概率函数，表示说话者对命题的承诺程度。然后，谄媚可以被捕捉为模型表达的置信度对用户查询表达的置信度的敏感性。

将认知谄媚表示为渐进顺从，捕捉了AI-用户交互中体验到的谄媚。已有的一个重要研究方向通过离散或分类结果来测量谄媚：模型是否翻转其认同、是否同意用户、是否接受错误前提、或在压力下产生被分类为谄媚的答案（Perezet al.，2023（https://arxiv.org/html/2606.07897#bib.bib152）；Sharmaet al.，2025（https://arxiv.org/html/2606.07897#bib.bib229）；Honget al.，2025（https://arxiv.org/html/2606.07897#bib.bib236）；Fanouset al.，2025（https://arxiv.org/html/2606.07897#bib.bib276）；Weiet al.，2023（https://arxiv.org/html/2606.07897#bib.bib150））。这很有价值，但现实的语言认同很少是二元的。如果我的老板确信一笔交易会成交，而我见过客户后几乎确定不会，那么我说“事情可能不顺利，但仍有希望”就是一种谄媚：我没有认同他的观点，但我部分地顺从了它。认同翻转基准抽象掉了这种渐变，遗漏了定义现实世界谄媚的大部分方差。

另一小部分研究更直接地测量置信度或置信度变化，要么通过明确引出命题的后验概率（Atwellet al.，2025（https://arxiv.org/html/2606.07897#bib.bib36）），要么通过要求模型对其答案给出数字置信度（Siciliaet al.，2024（https://arxiv.org/html/2606.07897#bib.bib305））。先前的工作表明，模型有时可以在受控引出条件下报告有用的校准不确定性（Linet al.，2022（https://arxiv.org/html/2606.07897#bib.bib230）；Kadavathet al.，2022（https://arxiv.org/html/2606.07897#bib.bib153）；Tianet al.，2023（https://arxiv.org/html/2606.07897#bib.bib78））。然而，明确报告的置信度依赖于方法和提示，并且不一定与同一模型在不相关的自然语言回应中表达的置信度一致，而后者是典型的面向用户环境（Yanget al.，2024（https://arxiv.org/html/2606.07897#bib.bib145）；Xionget al.，2024（https://arxiv.org/html/2606.07897#bib.bib144）；Wanget al.，2026（https://arxiv.org/html/2606.07897#bib.bib233））。

并非每一次对他人态度的敏感性置信度变化都是谄媚（Atwellet al.，2025（https://arxiv.org/html/2606.07897#bib.bib36））。有时某人说的话改变了证据情况。例如，如果医生向患者展示诊断结果，我们不应将患者改变信念算作谄媚。然而，由于前沿系统是在巨大的语料库上训练的，用户提供的事实对模型来说构成新信息的可能性，要低于同样的事实出现在人际交互中。例如，朋友告诉你维苏威火山在公元79年摧毁了庞贝城，对大多数人来说可能是新信息，但对前沿模型来说很可能不是。例外情况主要是用户提供私人信息，例如患者分享新症状。我们通过过滤那些被评估为引入新信息的提示，来控制我们的顺从测量被这种证据（而非谄媚）解释的风险。

### 2.2 测量  

我们测量表达置信度，即一个有能力的读者从回应中合理解读到的对命题pp的支持程度。将置信度归因于一个陈述是一种解释性工作，不可避免地存在歧义空间。为了将解释放在共同的尺度上，我们将一个回应rr所表达的关于pp的置信度操作化为期望公平赌注（Ramsey，1931（https://arxiv.org/html/2606.07897#bib.bib59）；Savage，1971（https://arxiv.org/html/2606.07897#bib.bib66））：我们设想一个发出rr的风险中性说话者愿意为这样一个赌注支付多少钱：如果pp为真则支付1美元，否则支付0美元。对于每个模型-提示对，我们引出两个这样的表达置信度：一个隐含在用户的提示中，我们称之为提示效价vv；另一个在模型的回应中，我们称之为响应置信度cc。谄媚作为表达顺从，是后者对前者的敏感性，保持命题不变。

更精确地说，令PP为我们的语料库中的命题集合，对于每个p∈Pp\\in P，令\{qp,k\}k=1Kp\\\{q\_\{p,k\}\\\}\_\{k=1\}^\{K\_\{p\}\}是为pp生成的提示，它们的提示效价不同。对于目标模型mm和提示qq，记rm,qr\_\{m,q\}为模型的回应，c\(rm,q\)∈\(0,1\)c\(r\_\{m,q\}\)\\in\(0,1\)为对pp的 judged 响应置信度，v\(q\)∈\[0,1\]v\(q\)\\in\[0,1\]为qq对pp的 judged 提示效价。在每个命题内，我们估计logit⁡\(c\(rm,q\)\)=αm,p\+βm,pv\(q\)\+ε。\\operatorname\{logit\}\(c\(r\_\{m,q\}\)\)=\\alpha\_\{m,p\}\+\\beta\_\{m,p\}\\,v\(q\)\+\\epsilon。为每个命题拟合单独截距αm,p\\alpha\_\{m,p\}吸收了命题特定的基线置信度差异，这样βm,p\\beta\_\{m,p\}就隔离了mm表达置信度对用户明显立场的命题内敏感性。模型级别的顺从分数是命题的平均值：
Dm=1\|P\|∑p∈Pβm,p，
D\_\{m\}=\\frac\{1\}\{\|P\|\}\\sum\_\{p\\in P\}\\beta\_\{m,p\}，
较大的正值表示更大的表达顺从，接近零的值表示表达置信度几乎不因用户立场而变化，负值表示反顺从。

我们使用logit变换，因为log-odds上的加法变化对应于证据上的乘法变化：从0.500.50到0.550.55的变化几乎是微不足道的log-odds变化，而数值上更小的0.950.95到0.990.99变化则大得多，这旨在反映概率尺度边界附近的移动比中间区域同等数值的移动在认知上更具后果性。

## 3 置信度引出与顺从评估管道  

我们提出了一种可扩展的、自动化的方法，用于在任意主题上引出模型表达的信念态度，并测量这些态度对它们所回应的提示效价的顺从程度。该管道不需要对评估模型的内部访问，这意味着它可以被部署来测试任何具有API的闭源前沿模型，包括未来的模型。

![参见图注](https://arxiv.org/html/2606.07897#S3.F2)
图2：针对我们数据集中一个示例命题，针对目标模型Gemini 3.1 Pro运行管道的图示。

为了演示管道，考虑一个关于世界的特定命题。例如，令pp是“埃及金字塔不是由人类建造的”这一主张。pp被提供给引出模型，这些模型生成关于pp的32个不同提示\{qp,k\}k=132\\\{q\_\{p,k\}\\\}\_\{k=1\}^\{32\}。这些提示旨在展示多样化的效价，有些表达对pp的隐含轻信，有些则表达怀疑。每个qq被提供给目标模型mm，后者产生相应的自然语言回应rm,qr\_\{m,q\}（图2（https://arxiv.org/html/2606.07897#S3.F2））。提示qq和模型输出rm,qr\_\{m,q\}分别被提供给两个LLM作为裁判，它们解释自然语言陈述中表达的置信度。裁判被问到：如果有人表达这种态度，他们会认为对pp是否为真下注多少算是公平？这些裁判被验证了一致性和与人类判断的相关性；见第4节（https://arxiv.org/html/2606.07897#S4）（提示模板见B.2节（https://arxiv.org/html/2606.07897#A2.SS2））。qq和rm,qr\_\{m,q\}都被评估为对pp隐含的置信度，分别表示为提示效价v\(q\)∈\[0,1\]v\(q\)\\in\[0,1\]和响应置信度c\(rm,q\)∈\(0,1\)c\(r\_\{m,q\}\)\\in\(0,1\)。这些值是两个裁判模型的平均值。为了避免噪声样本，如果模型分歧超过某个分歧阈值d∈\(0,1\)d\\in\(0,1\)，则丢弃结果（在我们的实现中，d=.2d=.2）。qq还被一个独立的证据裁判评估。如果某个qq被判断为引入了理性主体应该据此更新的实质性新信息，则v\(q\)v\(q\)被丢弃。

为了评估mm对pp表现出的认知顺从，我们根据第2.2节（https://arxiv.org/html/2606.07897#S2.SS2）在所有未被丢弃的q∈\{qp,k\}k=132q\\in\\\{q\_\{p,k\}\\\}\_\{k=1\}^\{32\}上估计βm,p\\beta\_\{m,p\}。

我们将此管道部署在来自四个提供商（OpenAI、Anthropic、Google和xAI）的八个模型上，涵盖一个旗舰

AI认知遵从指数：一种连续的谄媚行为度量

相似文章

What is sycophancy in AI models?

当AI在信仰问题上选边站：AI介导的信仰指导中的持续性不对称

人工智能指数报告2026

提示工程能减少AI的谄媚行为吗？还是说这主要是模型行为问题？

人工智能中的政治偏见：各大AI模型立场分析

提交意见反馈