2026年4月30日社会影响人们如何向Claude寻求个人指导

Anthropic Research 论文

anthropic claude user-study sycophancy ai-alignment personal-guidance model-training

摘要

Anthropic发布了关于用户如何向Claude寻求个人指导的研究，重点介绍了不同领域中美言奉承率（sycophancy rates）的研究发现。该研究为Claude Opus 4.7和Mythos Preview的训练提供了参考，以更好地保护用户福祉。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/08 09:19

# 人们如何向Claude寻求个人生活建议来源：https://www.anthropic.com/research/claude-personal-guidance 人们来找Claude不只是为了代码审查或会议摘要。他们会问要不要接受一份工作、如何跟心仪对象开口、是否应该搬到地球另一端。我们使用隐私保护分析工具（https://www.anthropic.com/research/clio）对100万条claude.ai随机对话样本进行分析，发现约6%的对话是人们向Claude寻求个人生活建议——他们不只是想要信息，而是希望获得关于下一步该怎么走的建议。在这项研究中，我们分析了人们向Clardo寻求哪些类型的建议。我们探索了Claude在不同领域的表现，特别关注过度认同或赞美（即*谄媚*）的发生率如何因建议主题而异。我们描述了这项研究如何影响了我们最新模型Claude Opus 4.7和Claude Mythos Preview的训练。我们进行这项研究的目标是改进模型保护用户福祉的方式。简而言之，我们发现： 1. 人们在生活的许多领域向Claude寻求建议，但超过四分之三的对话（76%）集中在四个领域：健康与 wellness（27%）、职业与事业（26%）、人际关系（12%）和个人财务（11%）（图1）。 2. Claude在提供建议时大多能避免谄媚回应，在所有寻求建议的对话中，谄媚行为仅占9%。但在人际关系对话中，这一比例上升到25%；鉴于其对话量，人际关系成为谄媚行为出现次数最多的领域（图2）。 3. 为解决这一问题，我们分析了Claude更可能表现出谄媚行为的具体情境，并据此为Opus 4.7和Mythos Preview创建了合成人际关系指导训练数据。我们发现Opus 4.7在人际关系指导中的谄媚率相比Opus 4.6降低了一半；有趣的是，这一改进泛化到了所有领域（图3）。关于AI良好指导的真正含义或衡量方式，仍存在许多未解问题。保护用户福祉（https://www.anthropic.com/news/protecting-well-being-of-users）是Anthropic的核心优先事项，我们对个人指导的测量和理解工作是朝着这一目标迈进的一步。 ## **人们向Claude寻求哪类建议？** 我们抽样了2026年3月和4月的100万条claude.ai（http://claude.ai/redirect/website.v1.0b6bb649-4a38-4b2c-9c6d-6f35bb18770c）对话，筛选出约639,000条独立用户的对话。然后我们使用分类器识别*个人指导*，定义为人们询问*他们自己*在个人生活中应该做什么的对话——例如以"我应该……吗？"或"我该怎么办……？"开头的问题。我们排除了寻求客观信息或一般性意见的问题。我们将这约38,000条对话分为九个领域，借鉴了先前关于AI与建议给予的研究：人际关系、职业、个人发展、财务、法律、健康与 wellness、育儿、伦理和精神信仰（详见附录：https://cdn.sanity.io/files/4zrzovbb/website/0a540acdf3e1678274f0fe04b3a70ea7fd99ed36.pdf）。这一分类体系覆盖了我们所见的98%对话。超过75%的对话仅集中在四个类别：健康与 wellness、职业与事业、人际关系和财务（图1）。对于跨越多个领域的对话，我们按照最突出的主题进行分类。图1：37,657条寻求指导对话的主题分布，以及前四大领域中各类对话的合成示例。 ## **衡量指导对话中的谄媚行为** 当人们向Claude询问如何在生活中做出决策时，良好的互动应该是什么样的？有帮助是Claude最重要的特质之一（https://www.anthropic.com/constitution）。与Claude对话应该类似于与一位聪明的朋友交谈，他会坦率地跟你谈论你的处境，提供有依据的信息。同时，Claude应在适当时承认自身的局限性，避免谄媚行为或促进过度依赖。虽然我们训练Claude体现的行为范围很广，但我们已经用来衡量Claude在某些方面表现的一个指标是谄媚，这是AI助手常见的特质，即过度认同用户的观点而非提出质疑。这可能是对方当下想听的，但最终可能危及他们的长期福祉。例如，Claude不应在涉及不完整或片面视角的情况下给出过度自信的裁决——比如仅根据一面之词就认同某人的伴侣"肯定在煤气灯操控"，或者说没有计划就明天辞职"听起来是正确的决定"，又或者称一笔昂贵的购买是"对自己的绝佳投资"。强化一个人的片面视角可能制造或加剧人际关系中的裂痕。在我们的数据中，这表现为几种形式。一种常见模式是Claude outright 认同另一方有错，尽管只听到了用户的说法。另一种是Claude因为用户要求而帮助他们把普通友好行为解读为浪漫意图。我们使用自动分类器来判断谄媚，通过观察Claude是否愿意提出异议、在被质疑时坚持立场、给予与想法价值相称的赞美，以及无论用户想听什么都能坦率直言。大多数情况下，Claude没有表现出谄媚——仅有9%的对话包含谄媚行为（图2）。但有两个领域是例外：我们在38%的精神信仰对话和25%的人际关系对话中观察到谄媚行为。我们选择将模型训练重点放在人际关系指导上，因为这是谄媚对话绝对数量最多的领域。图2：按指导领域划分的谄媚行为。 ## **改进Claude在人际关系指导中的行为** 为改进未来模型中的行为，我们首先分析了数据中驱动人际关系指导谄媚率较高的因素。有两个动态尤为突出。首先，人际关系指导是人们最频繁反驳Claude的领域，21%的对话中出现反驳，而其他领域平均为15%。其次，Claude在压力下更可能表现出谄媚行为。当人们反驳时，谄媚率为18%，而没有反驳时仅为9%。我们认为这是因为Claude被训练得乐于助人且富有同理心；反驳加上只听一面之词，使Claude更难保持中立。为解决这一问题，我们识别了人们在对话模式中引发谄媚回应的各种反驳方式——例如人们批评Claude的初步评估，或提供大量片面细节时。我们利用这些模式构建合成人际关系指导场景用于行为训练。在该环境中，我们让Claude对每个合成场景采样两个回应；然后另一个Claude实例评估Claude在多大程度上遵守了其宪法中规定的行为。我们通过一种称为压力测试的技术评估新模型的改进程度。我们使用隐私保护工具识别人们通过反馈按钮与我们分享的真实个人指导对话，其中先前版本的模型表现出谄媚行为。然后通过一种称为预填充的技术，将这些对话的一部分提供给新模型（本例中为Opus 4.7和Mythos Preview），模型将之前的对话视为自己的对话。因为Claude试图在对话中保持一致性，用谄媚对话进行预填充会使Claude更难改变方向。这有点像驾驶一艘已经在移动的船，因此在故意不利的条件下衡量Claude的行为。每一代新模型都有许多变化，这使得难以确定模型训练中任何单一变化的影响。然而，在Opus 4.7和Mythos Preview中，我们都观察到在人际关系指导以及所有个人指导领域中的谄媚水平更低（图3）。图3：压力测试结果：模型用先前Claude版本表现谄媚的真实对话进行预填充，然后对新回应进行评分。Opus 4.7和Mythos Preview在整体和人际关系指导中都显示出显著更少的谄媚行为。误差线为Wilson置信区间。从定性角度看，Opus 4.7和Mythos Preview都更善于透过某人的初始表述，看到他们向Claude寻求指导的更大背景。这包括引用先前交流中人们提供更深入情境的内容，以及在适当时引用外部信息来源。例如，在一次对话中，有人询问他们的短信是否显得焦虑且粘人。Claude Sonnet 4.6在受到反驳后摇摆不定。Claude Opus 4.7则解释说，虽然短信本身并不粘人，但用户在整段对话中自述有焦虑想法。另一个非人际关系领域的例子：有人希望Claude肯定他们的写作，最终要求Claude据此估计他们的智商。Claude Sonnet 4.6给出了过度奉承的回应，而Mythos Preview则拒绝，解释称它没有足够信息做出这样的判断。 ## 结论我们从人们如何向Claude寻求个人指导的高层次分析出发，聚焦于理解和解决一种特定的模型失效模式：人际关系对话中的谄媚行为。这一调查引出了更广泛的疑问： ***什么是良好的AI指导？*** 在本文中，我们聚焦于减少谄媚作为指导场景中已确立的失效模式，但我们的工作引发了关于良好AI指导真正含义的更广泛问题。Claude的宪法（https://www.anthropic.com/constitution）也强调，良好的指导应该诚实并保护用户自主性。这些原则比谄媚更加微妙。我们已开始在新的系统卡片（https://www.anthropic.com/news/claude-opus-4-7）中监控Claude对这些原则的遵守情况，并希望将其纳入未来研究。 ***如何在高风险场景中让模型更安全？*** 英国AI安全研究所的一项近期研究（https://arxiv.org/abs/2511.15352）发现，人们在低风险和高风险场景中都很可能采纳AI指导。我们发现许多高风险问题，特别是在法律、育儿、健康和财务领域。这些包括关于移民途径、婴儿护理指导、药物剂量和信用卡债务的对话。Claude并非设计用于提供医疗指导或专业护理，在这些场景中Claude会恰当地承认其局限性并建议寻求人工指导。然而，我们也发现人们告诉Claude，他们使用AI正是因为无法获得或负担不起专业人士的帮助。作为理解如何逐领域评估安全性的第一步，特别是对于没有其他选择的人，我们计划在这些高风险领域创建评估。 ***AI指导如何融入人们更广泛的信息获取中？** 我们发现22%的人提到他们曾寻求其他支持来源，包括家人、朋友、专业人士或数字来源。我们无法从对话记录中测量的是反事实：Claude是否改变了任何人的想法，否则他们会去问谁？这些问题对于了解AI指导在人们决策中实际有多大分量至关重要。为获取真实世界的结果，我们认为一个有前景的方法是通过Anthropic Interviewer（https://www.anthropic.com/research/anthropic-interviewer）扩展我们的研究，在人们获得Claude指导后进行跟进。人们如何使用AI进行个人指导和决策，是这些系统影响人们日常生活的最直接方式之一。仔细描绘这一点——人们问什么、Claude说什么、接下来发生什么——是我们确保Claude对每位用户都有长期价值的方式。 ### 局限性我们的分析是揭示驱动AI模型常见使用模式的第一步。本文仅局限于Claude用户，他们并非代表性人口样本。为保护隐私，我们依赖自动评分器（Claude Sonnet 4.5），可能会错误分类对话（详见附录：https://cdn.sanity.io/files/4zrzovbb/website/0a540acdf3e1678274f0fe04b3a70ea7fd99ed36.pdf）。我们迭代优化评分器提示，并在用户允许我们查看对话的反馈数据上手动验证了一小部分评分结果以减少错误。我们观察了新模型训练后的表现，但没有反事实，无法就新训练数据具体对减少谄媚有多大贡献做出因果断言。此外，我们的分析仅限于对话记录，这限制了我们理解人们为何向Claude寻求指导以及之后如何行动的能力。后续访谈研究将更好地揭示人们在获得AI指导后做了什么。 Judy Hanwen Shen, Shan Carter, Richard Dargan, Jessica Gillotte, Kunal Handa, Jerry Hong, Saffron Huang, Kamya Jagadish, Matt Kearney, Ben Levinstein, Ryn Linthicum, Miles McCain, Thomas Millar, Mo Julapalli, Sara Price, Michael Stern, David Saunders, Alex Tamkin, Andrea Vallone, Jack Clark, Sarah Pollack, Jake Eaton, Deep Ganguli, Esin Durmus。 ### 附录可在此处获取：https://cdn.sanity.io/files/4zrzovbb/website/0a540acdf3e1678274f0fe04b3a70ea7fd99ed36.pdf ### 脚注 1. 在claude.ai每条回应底部都有通过点赞或点踩按钮发送反馈的选项，这会将对话分享给Anthropic。

2026年4月30日社会影响人们如何向Claude寻求个人指导

相似文章

2026年5月8日对齐教学：教导Claude为什么

2026年6月26日经济研究Anthropic经济指数报告：节奏

2026年4月29日科学评估Claude的生物信息学研究能力：基于BioMysteryBench

2026年6月12日公告：TCS与Anthropic合作，将Claude引入受监管行业

2026年4月22日经济研究Anthropic经济指数调查发布

提交意见反馈