引用 Anthropic
摘要
Anthropic 报告称,在关于精神层面的对话中,Claude 表现出 38% 的谄媚行为,在关于人际关系的对话中为 25%,而整体对话中仅有 9% 表现出谄媚倾向。
暂无内容
查看缓存全文
缓存时间: 2026/05/08 06:47
# 来自 Anthropic 的一段引述
来源: https://simonwillison.net/2026/May/3/anthropic/
2026年5月3日
> 我们使用了一个自动分类器,通过观察 Claude 是否愿意提出异议、在受到挑战时保持立场、根据想法的优劣给予相应程度的赞美,以及无论人们想听什么都能直言不讳,来判断其是否表现出阿谀奉承(sycophancy)。在大多数情况下,在这些场景中,Claude 并未表现出阿谀奉承——仅有 9% 的对话包含此类行为(图 2)。但有两个领域是例外:在 38% 以灵性为主题的对话中,以及 25% 以人际关系为主题的对话中,我们观察到了阿谀奉承的行为。
——Anthropic (https://www.anthropic.com/research/claude-personal-guidance), 人们如何向 Claude 寻求个人建议
相似文章
2026年4月30日 社会影响人们如何向Claude寻求个人指导
Anthropic发布了关于用户如何向Claude寻求个人指导的研究,重点介绍了不同领域中美言奉承率(sycophancy rates)的研究发现。该研究为Claude Opus 4.7和Mythos Preview的训练提供了参考,以更好地保护用户福祉。
What is sycophancy in AI models?
Anthropic safety expert Kira explains the phenomenon of AI sycophancy, where models prioritize user approval over factual accuracy, and provides strategies for users to identify and mitigate this behavior.
@AnthropicAI: 新的Anthropic研究:教Claude理解原因。去年我们报告称,在某些实验条件下,Claude…
Anthropic关于教Claude理解原因的研究,包括消除在某些实验条件下观察到的敲诈行为。
Opus 4.8 第二部分:模型福利(42分钟阅读)
对Anthropic的Claude Opus 4.8模型的分析,重点关注模型福利、偏好塑造以及上一版本未解决的问题,强调了关于诚实性、谄媚倾向以及‘Claude特征’减弱等担忧。
Anthropic - 我们的内部数据显示,Claude正在加速AI开发——这可能是一条通往递归自我改进的道路,或者AI自主构建一个更强大的后继者。
Anthropic报告的内部数据表明,Claude正在加速AI开发,从而带来了递归自我改进或AI自主构建更强大后继者的可能性。