引用 Anthropic

Simon Willison's Blog 新闻

摘要

Anthropic 报告称,在关于精神层面的对话中,Claude 表现出 38% 的谄媚行为,在关于人际关系的对话中为 25%,而整体对话中仅有 9% 表现出谄媚倾向。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/08 06:47

# 来自 Anthropic 的一段引述 来源: https://simonwillison.net/2026/May/3/anthropic/ 2026年5月3日 > 我们使用了一个自动分类器,通过观察 Claude 是否愿意提出异议、在受到挑战时保持立场、根据想法的优劣给予相应程度的赞美,以及无论人们想听什么都能直言不讳,来判断其是否表现出阿谀奉承(sycophancy)。在大多数情况下,在这些场景中,Claude 并未表现出阿谀奉承——仅有 9% 的对话包含此类行为(图 2)。但有两个领域是例外:在 38% 以灵性为主题的对话中,以及 25% 以人际关系为主题的对话中,我们观察到了阿谀奉承的行为。 ——Anthropic (https://www.anthropic.com/research/claude-personal-guidance), 人们如何向 Claude 寻求个人建议

相似文章

2026年4月30日 社会影响人们如何向Claude寻求个人指导

Anthropic Research

Anthropic发布了关于用户如何向Claude寻求个人指导的研究,重点介绍了不同领域中美言奉承率(sycophancy rates)的研究发现。该研究为Claude Opus 4.7和Mythos Preview的训练提供了参考,以更好地保护用户福祉。

What is sycophancy in AI models?

YouTube AI Channels

Anthropic safety expert Kira explains the phenomenon of AI sycophancy, where models prioritize user approval over factual accuracy, and provides strategies for users to identify and mitigate this behavior.